{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,23]],"date-time":"2026-06-23T01:22:10Z","timestamp":1782177730586,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":37,"publisher":"ACM","license":[{"start":{"date-parts":[[2021,5,8]],"date-time":"2021-05-08T00:00:00Z","timestamp":1620432000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2021,5,8]]},"DOI":"10.1145\/3411763.3451810","type":"proceedings-article","created":{"date-parts":[[2021,5,8]],"date-time":"2021-05-08T01:15:32Z","timestamp":1620436532000},"page":"1-7","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":23,"title":["Automated Video Description for Blind and Low Vision Users"],"prefix":"10.1145","author":[{"given":"Aditya","family":"Bodi","sequence":"first","affiliation":[{"name":"San Francisco State University, San Francisco, CA, United States"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Pooyan","family":"Fazli","sequence":"additional","affiliation":[{"name":"San Francisco State University, San Francisco, CA, United States"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Shasta","family":"Ihorn","sequence":"additional","affiliation":[{"name":"San Francisco State University, San Francisco, CA, United States"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yue-Ting","family":"Siu","sequence":"additional","affiliation":[{"name":"San Francisco State University, San Francisco, CA, United States"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Andrew T","family":"Scott","sequence":"additional","affiliation":[{"name":"San Francisco State University, San Francisco, CA, United States"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Lothar","family":"Narins","sequence":"additional","affiliation":[{"name":"San Francisco State University, San Francisco, CA, United States"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yash","family":"Kant","sequence":"additional","affiliation":[{"name":"Georgia Tech, Atlanta, GA, United States"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Abhishek","family":"Das","sequence":"additional","affiliation":[{"name":"Facebook AI Research, Menlo Park, CA, United States"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ilmi","family":"Yoon","sequence":"additional","affiliation":[{"name":"San Francisco State University, San Francisco, CA, United States"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2021,5,8]]},"reference":[{"key":"e_1_3_2_1_1_1","first-page":"6086","volume-title":"Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).","author":"Anderson Peter","year":"2018","unstructured":"Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. 2018. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 6077\u20136086."},{"key":"e_1_3_2_1_2_1","unstructured":"[2] Google Cloud\u00a0Vision API.Accessed Date 2021-01-10. https:\/\/cloud.google.com\/vision\/docs\/ocr"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1145\/3234695.3241031"},{"key":"e_1_3_2_1_4_1","first-page":"165","volume-title":"Livedescribe: Can Amateur Describers create High-Quality Audio Description?Journal of Visual Impairment & Blindness 106, 3","author":"Branje J","year":"2012","unstructured":"Carmen\u00a0J Branje and Deborah\u00a0I Fels. 2012. Livedescribe: Can Amateur Describers create High-Quality Audio Description?Journal of Visual Impairment & Blindness 106, 3 (2012), pp. 154\u2013165."},{"key":"e_1_3_2_1_5_1","unstructured":"[5] Listen by\u00a0Code Speech-to Text\u00a0API.Accessed Date 2021-01-10. https:\/\/www.listenbycode.com\/"},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1179"},{"key":"e_1_3_2_1_7_1","first-page":"335","volume-title":"Visual Dialog. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).","author":"Das Abhishek","year":"2017","unstructured":"Abhishek Das, Satwik Kottur, Khushi Gupta, Avi Singh, Deshraj Yadav, Jos\u00e9\u00a0MF Moura, Devi Parikh, and Dhruv Batra. 2017. Visual Dialog. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 326\u2013335."},{"key":"e_1_3_2_1_8_1","first-page":"255","volume-title":"Imagenet: A Large-Scale Hierarchical Image Database. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).","author":"Deng Jia","year":"2009","unstructured":"Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. 2009. Imagenet: A Large-Scale Hierarchical Image Database. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 248\u2013255."},{"key":"e_1_3_2_1_9_1","volume-title":"BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805","author":"Devlin Jacob","year":"2018","unstructured":"Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: Pre-Training of Deep Bidirectional Transformers for Language Understanding. arXiv:1810.04805 (2018)."},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.tele.2010.09.001"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2010.5543575"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1007\/s10209-008-0141-0"},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1145\/1328202.1328255"},{"key":"e_1_3_2_1_14_1","first-page":"778","volume-title":"Deep Residual Learning for Image Recognition. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).","author":"He Kaiming","year":"2016","unstructured":"Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. 2016. Deep Residual Learning for Image Recognition. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 770\u2013778."},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"e_1_3_2_1_16_1","unstructured":"[16] Microsoft Azure\u00a0Video Indexer.Accessed Date 2021-01-10. https:\/\/azure.microsoft.com\/en-us\/services\/media-services\/video-indexer\/"},{"key":"e_1_3_2_1_17_1","volume-title":"Pythia v0.1: The Winning Entry to the VQA Challenge","author":"Jiang Yu","year":"2018","unstructured":"Yu Jiang, Vivek Natarajan, Xinlei Chen, Marcus Rohrbach, Dhruv Batra, and Devi Parikh. 2018. Pythia v0.1: The Winning Entry to the VQA Challenge 2018. arXiv:1807.09956 (2018)."},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1145\/1090785.1090814"},{"key":"e_1_3_2_1_19_1","first-page":"707","article-title":"Binary Codes Capable of Correcting Deletions, Insertions and Reversals","volume":"10","author":"Levenshtein Vladimir","year":"1966","unstructured":"Vladimir Levenshtein. 1966. Binary Codes Capable of Correcting Deletions, Insertions and Reversals. Soviet Physics Doklady 10 (1966), pp. 707\u2013710.","journal-title":"Soviet Physics Doklady"},{"key":"e_1_3_2_1_20_1","first-page":"755","volume-title":"Microsoft COCO: Common Objects in Context. In European Conference on Computer Vision (ECCV).","author":"Lin Tsung-Yi","year":"2014","unstructured":"Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll\u00e1r, and C\u00a0Lawrence Zitnick. 2014. Microsoft COCO: Common Objects in Context. In European Conference on Computer Vision (ECCV). pp. 740\u2013755."},{"key":"e_1_3_2_1_21_1","first-page":"23","volume-title":"Neural Information Processing Systems (NeurIPS).","author":"Lu Jiasen","unstructured":"Jiasen Lu, Dhruv Batra, Devi Parikh, and Stefan Lee. 2019. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language tasks. In Neural Information Processing Systems (NeurIPS). pp. 13\u201323."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1177\/0264619606064436"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1145\/1753846.1754085"},{"key":"e_1_3_2_1_24_1","first-page":"318","volume-title":"BLEU: A Method for Automatic Evaluation of Machine Translation. In Annual Meetings of the Association for Computational Linguistics (ACL).","author":"Papineni Kishore","year":"2002","unstructured":"Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. BLEU: A Method for Automatic Evaluation of Machine Translation. In Annual Meetings of the Association for Computational Linguistics (ACL). pp. 311\u2013318."},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1145\/3379337.3415864"},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.1145\/3173574.3174192"},{"key":"e_1_3_2_1_27_1","unstructured":"Joseph Redmon and Ali Farhadi. 2018. YOLOv3: An Incremental Improvement. arxiv:1804.02767\u00a0[cs.CV]"},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1145\/2049536.2049580"},{"key":"e_1_3_2_1_29_1","volume-title":"Access Technology for Blind and Low Vision Accessibility","author":"Siu Yue-Ting","unstructured":"Yue-Ting Siu and Ike Presley. 2020. Access Technology for Blind and Low Vision Accessibility. APH Press, Louisville, KY."},{"key":"e_1_3_2_1_30_1","volume-title":"Vl-BERT: Pre-Training of Generic Visual-Linguistic Representations. arXiv:1908.08530","author":"Su Weijie","year":"2019","unstructured":"Weijie Su, Xizhou Zhu, Yue Cao, Bin Li, Lewei Lu, Furu Wei, and Jifeng Dai. 2019. Vl-BERT: Pre-Training of Generic Visual-Linguistic Representations. arXiv:1908.08530 (2019)."},{"key":"e_1_3_2_1_31_1","first-page":"9","volume-title":"Going Deeper with Convolutions. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR).","author":"Szegedy Christian","year":"2015","unstructured":"Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich. 2015. Going Deeper with Convolutions. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 1\u20139."},{"key":"e_1_3_2_1_32_1","first-page":"6008","volume-title":"Advances in Neural Information Processing Systems (NeurIPS).","author":"Vaswani Ashish","unstructured":"Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan\u00a0N Gomez, \u0141ukasz Kaiser, and Illia Polosukhin. 2017. Attention is All You Need. In Advances in Neural Information Processing Systems (NeurIPS). pp. 5998\u20136008."},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1145\/1124772.1124941"},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"publisher","DOI":"10.1145\/329124.329126"},{"key":"e_1_3_2_1_35_1","unstructured":"[35] YouDescribe.Accessed Date 2021-01-10. https:\/\/www.youdescribe.org\/"},{"key":"e_1_3_2_1_36_1","first-page":"60","volume-title":"ACM Designing Interactive Systems (DIS).","author":"Yuksel Beste","unstructured":"Beste Yuksel, Pooyan Fazli, Umang Mathur, Vaishali Bisht, Soo\u00a0Jung Kim, Joshua\u00a0Junhee Lee, Seung\u00a0Jung Jin, Yue-Ting Siu, Joshua\u00a0A Miele, and Ilmi Yoon. 2020. Human-in-the-Loop Machine Learning to Increase Video Accessibility for Visually Impaired and Blind Users. In ACM Designing Interactive Systems (DIS). pp. 47\u201360."},{"key":"e_1_3_2_1_37_1","first-page":"9","volume-title":"Increasing Video Accessibility for Visually Impaired Users with Human-in-the-Loop Machine Learning. In ACM SIGCHI Conference Extended Abstracts on Human Factors in Computing Systems (CHI).","author":"Yuksel Beste","year":"2020","unstructured":"Beste Yuksel, Pooyan Fazli, Umang Mathur, Vaishali Bisht, Soo\u00a0Jung Kim, Joshua\u00a0Junhee Lee, Seung\u00a0Jung Jin, Yue-Ting Siu, Joshua\u00a0A Miele, and Ilmi Yoon. 2020. Increasing Video Accessibility for Visually Impaired Users with Human-in-the-Loop Machine Learning. In ACM SIGCHI Conference Extended Abstracts on Human Factors in Computing Systems (CHI). pp. 1\u20139."}],"event":{"name":"CHI '21: CHI Conference on Human Factors in Computing Systems","location":"Yokohama Japan","acronym":"CHI '21","sponsor":["SIGCHI ACM Special Interest Group on Computer-Human Interaction"]},"container-title":["Extended Abstracts of the 2021 CHI Conference on Human Factors in Computing Systems"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3411763.3451810","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3411763.3451810","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T21:28:21Z","timestamp":1750195701000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3411763.3451810"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,5,8]]},"references-count":37,"alternative-id":["10.1145\/3411763.3451810","10.1145\/3411763"],"URL":"https:\/\/doi.org\/10.1145\/3411763.3451810","relation":{},"subject":[],"published":{"date-parts":[[2021,5,8]]},"assertion":[{"value":"2021-05-08","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}