{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,22]],"date-time":"2026-04-22T20:13:19Z","timestamp":1776888799045,"version":"3.51.2"},"publisher-location":"New York, NY, USA","reference-count":38,"publisher":"ACM","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,11,13]]},"DOI":"10.1145\/3696593.3696617","type":"proceedings-article","created":{"date-parts":[[2025,7,31]],"date-time":"2025-07-31T10:35:52Z","timestamp":1753958152000},"page":"345-353","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":2,"title":["Empowering the Deaf and Hard of Hearing Community: Improving Video Captions with Large Language Models"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-7921-034X","authenticated-orcid":false,"given":"Nadeen","family":"Fathallah","sequence":"first","affiliation":[{"name":"University of Stuttgart, Analytic Computing, Institute for Artificial Intelligence, Stuttgart, Germany"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-3412-8575","authenticated-orcid":false,"given":"Monika","family":"Bhole","sequence":"additional","affiliation":[{"name":"University of Stuttgart, Stuttgart, Germany"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0780-4154","authenticated-orcid":false,"given":"Steffen","family":"Staab","sequence":"additional","affiliation":[{"name":"Analytic Computing, Institute for Artificial Intelligence, University of Stuttgart, Stuttgart, Germany and University of Southampton, Southampton, United Kingdom"}]}],"member":"320","published-online":{"date-parts":[[2025,7,31]]},"reference":[{"key":"e_1_3_3_1_2_2","doi-asserted-by":"publisher","DOI":"10.18653\/V1\/P18-2004"},{"key":"e_1_3_3_1_3_2","first-page":"4218","volume-title":"Proceedings of The 12th Language Resources and Evaluation Conference, LREC 2020, Marseille, France, May 11-16, 2020","author":"Ardila Rosana","year":"2020","unstructured":"Rosana Ardila, Megan Branson, Kelly Davis, Michael Kohler, Josh Meyer, Michael Henretty, Reuben Morais, Lindsay Saunders, Francis\u00a0M. Tyers, and Gregor Weber. 2020. Common Voice: A Massively-Multilingual Speech Corpus. In Proceedings of The 12th Language Resources and Evaluation Conference, LREC 2020, Marseille, France, May 11-16, 2020, Nicoletta Calzolari, Fr\u00e9d\u00e9ric B\u00e9chet, Philippe Blache, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, H\u00e9l\u00e8ne Mazo, Asunci\u00f3n Moreno, Jan Odijk, and Stelios Piperidis (Eds.). European Language Resources Association, 4218\u20134222. https:\/\/aclanthology.org\/2020.lrec-1.520\/"},{"key":"e_1_3_3_1_4_2","volume-title":"Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual","author":"Brown Tom\u00a0B.","year":"2020","unstructured":"Tom\u00a0B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel\u00a0M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. 2020. Language Models are Few-Shot Learners. In Advances in Neural Information Processing Systems 33: Annual Conference on Neural Information Processing Systems 2020, NeurIPS 2020, December 6-12, 2020, virtual, Hugo Larochelle, Marc\u2019Aurelio Ranzato, Raia Hadsell, Maria-Florina Balcan, and Hsuan-Tien Lin (Eds.). https:\/\/proceedings.neurips.cc\/paper\/2020\/hash\/1457c0d6bfcb4967418bfb8ac142f64a-Abstract.html"},{"key":"e_1_3_3_1_5_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-14100-3_25"},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472621"},{"key":"e_1_3_3_1_7_2","first-page":"190","volume-title":"The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Proceedings of the Conference, 19-24 June, 2011, Portland, Oregon, USA","author":"Chen David\u00a0L.","year":"2011","unstructured":"David\u00a0L. Chen and William\u00a0B. Dolan. 2011. Collecting Highly Parallel Data for Paraphrase Evaluation. In The 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, Proceedings of the Conference, 19-24 June, 2011, Portland, Oregon, USA, Dekang Lin, Yuji Matsumoto, and Rada Mihalcea (Eds.). The Association for Computer Linguistics, 190\u2013200. https:\/\/aclanthology.org\/P11-1020\/"},{"key":"e_1_3_3_1_8_2","doi-asserted-by":"publisher","DOI":"10.21437\/INTERSPEECH.2021-1809"},{"key":"e_1_3_3_1_9_2","doi-asserted-by":"publisher","unstructured":"Jean Louis Fendji\u00a0Kedieng Ebongue Diane\u00a0M. Tala Blaise\u00a0Omer Yenke and Marcellin Atemkeng. 2022. Automatic Speech Recognition Using Limited Vocabulary: A Survey. Appl. Artif. Intell. 36 1 (2022). 10.1080\/08839514.2022.2095039","DOI":"10.1080\/08839514.2022.2095039"},{"key":"e_1_3_3_1_10_2","doi-asserted-by":"crossref","unstructured":"Hayato Futami Hirofumi Inaguma Sei Ueno Masato Mimura Shinsuke Sakai and Tatsuya Kawahara. 2020. Distilling the knowledge of BERT for sequence-to-sequence ASR. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2008.03822 (2020).","DOI":"10.21437\/Interspeech.2020-1179"},{"key":"e_1_3_3_1_11_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6638947"},{"key":"e_1_3_3_1_12_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-99579-3_21"},{"key":"e_1_3_3_1_13_2","volume-title":"T5","unstructured":"huggingface.co. [n. d.]. T5. https:\/\/huggingface.co\/docs\/transformers\/en\/model_doc\/t5"},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"publisher","unstructured":"Ana Iglesias Javier Jim\u00e9nez Pablo Revuelta and Lourdes Moreno. 2016. Avoiding communication barriers in the classroom: the APEINTA project. Interact. Learn. Environ. 24 4 (2016) 829\u2013843. 10.1080\/10494820.2014.924533","DOI":"10.1080\/10494820.2014.924533"},{"key":"e_1_3_3_1_15_2","doi-asserted-by":"publisher","unstructured":"Zhengbao Jiang Frank\u00a0F. Xu Jun Araki and Graham Neubig. 2020. How Can We Know What Language Models Know. Trans. Assoc. Comput. Linguistics 8 (2020) 423\u2013438. 10.1162\/TACL_A_00324","DOI":"10.1162\/TACL_A_00324"},{"key":"e_1_3_3_1_16_2","doi-asserted-by":"publisher","DOI":"10.1145\/3132525.3132542"},{"key":"e_1_3_3_1_17_2","doi-asserted-by":"publisher","DOI":"10.1145\/2982142.2982164"},{"key":"e_1_3_3_1_18_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9746801"},{"key":"e_1_3_3_1_19_2","unstructured":"Jinyu Li Li Deng Reinhold Haeb-Umbach and Yifan Gong. 2015. Robust automatic speech recognition: a bridge to practical applications. (2015)."},{"key":"e_1_3_3_1_20_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8683223"},{"key":"e_1_3_3_1_21_2","first-page":"74","volume-title":"Text summarization branches out","author":"Lin Chin-Yew","year":"2004","unstructured":"Chin-Yew Lin. 2004. Rouge: A package for automatic evaluation of summaries. In Text summarization branches out. 74\u201381."},{"key":"e_1_3_3_1_22_2","doi-asserted-by":"publisher","DOI":"10.21437\/INTERSPEECH.2019-2396"},{"key":"e_1_3_3_1_23_2","doi-asserted-by":"publisher","DOI":"10.21437\/INTERSPEECH.2010-563"},{"key":"e_1_3_3_1_24_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178964"},{"key":"e_1_3_3_1_25_2","doi-asserted-by":"publisher","DOI":"10.1145\/1414471.1414534"},{"key":"e_1_3_3_1_26_2","volume-title":"YouTube Transcript API","author":"Pietrzak Przemys\u0142aw","year":"2023","unstructured":"Przemys\u0142aw Pietrzak. 2023. YouTube Transcript API. https:\/\/pypi.org\/project\/youtube-transcript-api\/ Accessed: 2024-06-29."},{"key":"e_1_3_3_1_27_2","series-title":"Proceedings of Machine Learning Research","first-page":"28492","volume-title":"International Conference on Machine Learning, ICML 2023, 23-29 July 2023, Honolulu, Hawaii, USA","volume":"202","author":"Radford Alec","year":"2023","unstructured":"Alec Radford, Jong\u00a0Wook Kim, Tao Xu, Greg Brockman, Christine McLeavey, and Ilya Sutskever. 2023. Robust Speech Recognition via Large-Scale Weak Supervision. In International Conference on Machine Learning, ICML 2023, 23-29 July 2023, Honolulu, Hawaii, USA(Proceedings of Machine Learning Research, Vol.\u00a0202), Andreas Krause, Emma Brunskill, Kyunghyun Cho, Barbara Engelhardt, Sivan Sabato, and Jonathan Scarlett (Eds.). PMLR, 28492\u201328518. https:\/\/proceedings.mlr.press\/v202\/radford23a.html"},{"key":"e_1_3_3_1_28_2","unstructured":"Alec Radford Jeffrey Wu Rewon Child David Luan Dario Amodei Ilya Sutskever et\u00a0al. 2019. Language models are unsupervised multitask learners. OpenAI blog 1 8 (2019) 9."},{"key":"e_1_3_3_1_29_2","volume-title":"9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021","author":"Ren Yi","year":"2021","unstructured":"Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, and Tie-Yan Liu. 2021. FastSpeech 2: Fast and High-Quality End-to-End Text to Speech. In 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021. OpenReview.net. https:\/\/openreview.net\/forum?id=piLPYqxtWuA"},{"key":"e_1_3_3_1_30_2","doi-asserted-by":"publisher","unstructured":"Pranab Sahoo Ayush\u00a0Kumar Singh Sriparna Saha Vinija Jain Samrat Mondal and Aman Chadha. 2024. A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications. CoRR abs\/2402.07927 (2024). 10.48550\/ARXIV.2402.07927 arXiv:https:\/\/arXiv.org\/abs\/2402.07927","DOI":"10.48550\/ARXIV.2402.07927"},{"key":"e_1_3_3_1_31_2","first-page":"1081","volume-title":"Asian Conference on Machine Learning","author":"Shin Joonbo","year":"2019","unstructured":"Joonbo Shin, Yoonhyung Lee, and Kyomin Jung. 2019. Effective sentence scoring method using bert for speech recognition. In Asian Conference on Machine Learning. PMLR, 1081\u20131093."},{"key":"e_1_3_3_1_32_2","unstructured":"Nina Shvetsova Anna Kukleva Xudong Hong Christian Rupprecht Bernt Schiele and Hilde Kuehne. 2023. HowToCaption: Prompting LLMs to transform video annotations at scale. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2310.04900 (2023)."},{"key":"e_1_3_3_1_33_2","doi-asserted-by":"publisher","unstructured":"Hugo Touvron Louis Martin Kevin Stone Peter Albert Amjad Almahairi Yasmine Babaei Nikolay Bashlykov Soumya Batra Prajjwal Bhargava Shruti Bhosale Dan Bikel Lukas Blecher Cristian Canton-Ferrer Moya Chen Guillem Cucurull David Esiobu Jude Fernandes Jeremy Fu Wenyin Fu Brian Fuller Cynthia Gao Vedanuj Goswami Naman Goyal Anthony Hartshorn Saghar Hosseini Rui Hou Hakan Inan Marcin Kardas Viktor Kerkez Madian Khabsa Isabel Kloumann Artem Korenev Punit\u00a0Singh Koura Marie-Anne Lachaux Thibaut Lavril Jenya Lee Diana Liskovich Yinghai Lu Yuning Mao Xavier Martinet Todor Mihaylov Pushkar Mishra Igor Molybog Yixin Nie Andrew Poulton Jeremy Reizenstein Rashi Rungta Kalyan Saladi Alan Schelten Ruan Silva Eric\u00a0Michael Smith Ranjan Subramanian Xiaoqing\u00a0Ellen Tan Binh Tang Ross Taylor Adina Williams Jian\u00a0Xiang Kuan Puxin Xu Zheng Yan Iliyan Zarov Yuchen Zhang Angela Fan Melanie Kambadur Sharan Narang Aur\u00e9lien Rodriguez Robert Stojnic Sergey Edunov and Thomas Scialom. 2023. Llama 2: Open Foundation and Fine-Tuned Chat Models. CoRR abs\/2307.09288 (2023). 10.48550\/ARXIV.2307.09288 arXiv:https:\/\/arXiv.org\/abs\/2307.09288","DOI":"10.48550\/ARXIV.2307.09288"},{"key":"e_1_3_3_1_34_2","doi-asserted-by":"publisher","DOI":"10.1007\/11555261_90"},{"key":"e_1_3_3_1_35_2","unstructured":"Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan\u00a0N Gomez \u0141ukasz Kaiser and Illia Polosukhin. 2017. Attention is all you need. Advances in neural information processing systems 30 (2017)."},{"key":"e_1_3_3_1_36_2","unstructured":"Jason Wei Yi Tay Rishi Bommasani Colin Raffel Barret Zoph Sebastian Borgeaud Dani Yogatama Maarten Bosma Denny Zhou Donald Metzler Ed\u00a0H. Chi Tatsunori Hashimoto Oriol Vinyals Percy Liang Jeff Dean and William Fedus. 2022. Emergent Abilities of Large Language Models. Trans. Mach. Learn. Res. 2022 (2022). https:\/\/openreview.net\/forum?id=yzkSU5zdwD"},{"key":"e_1_3_3_1_37_2","unstructured":"World Health Organization. 2024. Deafness and Hearing Loss. https:\/\/www.who.int\/news-room\/fact-sheets\/detail\/deafness-and-hearing-loss Accessed: 2024-09-30."},{"key":"e_1_3_3_1_38_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9747118"},{"key":"e_1_3_3_1_39_2","doi-asserted-by":"publisher","DOI":"10.18653\/V1\/2021.NAACL-MAIN.41"}],"event":{"name":"DSAI 2024: 11th International Conference on Software Development and Technologies for Enhancing Accessibility and Fighting Info-exclusion","location":"Abu Dhabi United Arab Emirates","acronym":"DSAI 2024"},"container-title":["Proceedings of the 11th International Conference on Software Development and Technologies for Enhancing Accessibility and Fighting Info-exclusion"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3696593.3696617","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,7]],"date-time":"2025-08-07T04:27:06Z","timestamp":1754540826000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3696593.3696617"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,11,13]]},"references-count":38,"alternative-id":["10.1145\/3696593.3696617","10.1145\/3696593"],"URL":"https:\/\/doi.org\/10.1145\/3696593.3696617","relation":{},"subject":[],"published":{"date-parts":[[2024,11,13]]},"assertion":[{"value":"2025-07-31","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}