{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,25]],"date-time":"2026-06-25T04:54:31Z","timestamp":1782363271688,"version":"3.54.5"},"reference-count":57,"publisher":"IEEE","license":[{"start":{"date-parts":[[2024,12,2]],"date-time":"2024-12-02T00:00:00Z","timestamp":1733097600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,12,2]],"date-time":"2024-12-02T00:00:00Z","timestamp":1733097600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,12,2]]},"DOI":"10.1109\/slt61566.2024.10832176","type":"proceedings-article","created":{"date-parts":[[2025,1,16]],"date-time":"2025-01-16T13:31:27Z","timestamp":1737034287000},"page":"371-378","source":"Crossref","is-referenced-by-count":11,"title":["Large Language Model Based Generative Error Correction: A Challenge and Baselines For Speech Recognition, Speaker Tagging, and Emotion Recognition"],"prefix":"10.1109","author":[{"given":"Chao-Han Huck","family":"Yang","sequence":"first","affiliation":[{"name":"NVIDIA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Taejin","family":"Park","sequence":"additional","affiliation":[{"name":"NVIDIA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yuan","family":"Gong","sequence":"additional","affiliation":[{"name":"MIT CSAIL"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yuanchao","family":"Li","sequence":"additional","affiliation":[{"name":"University of Edinburgh"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zhehuai","family":"Chen","sequence":"additional","affiliation":[{"name":"NVIDIA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yen-Ting","family":"Lin","sequence":"additional","affiliation":[{"name":"National Taiwan University"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Chen","family":"Chen","sequence":"additional","affiliation":[{"name":"Nanyang Technological University"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yuchen","family":"Hu","sequence":"additional","affiliation":[{"name":"Nanyang Technological University"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kunal","family":"Dhawan","sequence":"additional","affiliation":[{"name":"NVIDIA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Piotr","family":"\u017belasko","sequence":"additional","affiliation":[{"name":"NVIDIA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Chao","family":"Zhang","sequence":"additional","affiliation":[{"name":"Tsinghua University"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yun-Nung","family":"Chen","sequence":"additional","affiliation":[{"name":"National Taiwan University"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yu","family":"Tsao","sequence":"additional","affiliation":[{"name":"Academia Sinica"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Jagadeesh","family":"Balam","sequence":"additional","affiliation":[{"name":"NVIDIA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Boris","family":"Ginsburg","sequence":"additional","affiliation":[{"name":"NVIDIA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Sabato Marco","family":"Siniscalchi","sequence":"additional","affiliation":[{"name":"University of Palermo"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Eng Siong","family":"Chng","sequence":"additional","affiliation":[{"name":"Nanyang Technological University"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Peter","family":"Bell","sequence":"additional","affiliation":[{"name":"University of Edinburgh"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Catherine","family":"Lai","sequence":"additional","affiliation":[{"name":"University of Edinburgh"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Shinji","family":"Watanabe","sequence":"additional","affiliation":[{"name":"CMU"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Andreas","family":"Stolcke","sequence":"additional","affiliation":[{"name":"Uniphore"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/PROC.1976.10159"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.3115\/112405.112416"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/SLT48900.2021.9383515"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9054419"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2024.3419719"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU57964.2023.10389632"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/asru57964.2023.10389673"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.618"},{"key":"ref9","article-title":"HyPoradise: An open baseline for generative speech recognition with large language models","author":"Chen","year":"2024"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.5"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.556"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.986"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.21437\/ICSLP.2002-303"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1145\/2939672.2945397"},{"key":"ref15","article-title":"The Kaldi speech recognition toolkit","author":"Povey","year":"2011","journal-title":"ASRU"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i21.30570"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2006.879807"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7179007"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2017.2756440"},{"key":"ref20","article-title":"Better evaluation for grammatical error correction","author":"Dahlmeier","year":"2012","journal-title":"NAACL-HLT"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.bppf-1.4"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1162\/coli_a_00349"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8683745"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2023-1616"},{"key":"ref25","article-title":"Speaker diarization from speech transcripts","author":"Canseco-Rodriguez","year":"2004","journal-title":"ICSLP"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2005.1566507"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2018-1364"},{"key":"ref28","article-title":"Turn-todiarize: Online speaker diarization constrained by transformer transducer speaker turn detection","author":"Xia","year":"2022","journal-title":"ICASSP"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9746964"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-1947"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-1943"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9746225"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-acl.884"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2023-2289"},{"key":"ref35","article-title":"Lexical speaker error correction: Leveraging language models for speaker diarization error correction","author":"Paturi","year":"2021"},{"issue":"240","key":"ref36","first-page":"1","article-title":"Palm: Scaling language modeling with pathways","volume":"24","author":"Chowdhery","year":"2023","journal-title":"Journal of Machine Learning Research"},{"key":"ref37","article-title":"Google USM: Scaling automatic speech recognition beyond 100 languages","author":"Zhang","year":"2023","journal-title":"arXiv preprint arXiv:2303.01037"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2024-209"},{"key":"ref39","article-title":"LLMbased speaker diarization correction: A generalizable approach","author":"Efstathiadis","year":"2024","journal-title":"arXiv preprint arXiv:2406.04927"},{"key":"ref40","article-title":"Enhancing speaker diarization with large language models: A contextual beam search approach","author":"Park","year":"2023","journal-title":"ICASSP"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.21437\/interspeech.2020-2800"},{"key":"ref42","article-title":"The Mixer 6 corpus: Resources for cross-channel and text independent speaker recognition","volume-title":"Proc. of LREC","author":"Brandschain"},{"key":"ref43","doi-asserted-by":"crossref","DOI":"10.1007\/11677482_3","article-title":"The AMI meeting corpus: A pre-announcement","volume-title":"International workshop on machine learning for multimodal interaction","author":"Carletta"},{"key":"ref44","article-title":"CALLHOME American English speech","author":"Canavan","year":"1997"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.21437\/CHiME.2023-11"},{"key":"ref46","article-title":"NeMo: a toolkit for building AI applications using neural modules","author":"Kuchaiev","year":"2019","journal-title":"arXiv preprint arXiv:1909.09577"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.21437\/chime.2020-1"},{"key":"ref48","article-title":"MeetEval: A meeting transcription evaluation toolkit","author":"Neumann"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2023-2078"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2021-411"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/SLT61566.2024.10832240"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP48485.2024.10446548"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.21437\/ICSLP.2002-559"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9746289"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP48485.2024.10448130"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1007\/s10579-008-9076-6"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/SLT61566.2024.10832143"}],"event":{"name":"2024 IEEE Spoken Language Technology Workshop (SLT)","location":"Macao","start":{"date-parts":[[2024,12,2]]},"end":{"date-parts":[[2024,12,5]]}},"container-title":["2024 IEEE Spoken Language Technology Workshop (SLT)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10830790\/10830793\/10832176.pdf?arnumber=10832176","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,27]],"date-time":"2026-01-27T04:40:58Z","timestamp":1769488858000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10832176\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,2]]},"references-count":57,"URL":"https:\/\/doi.org\/10.1109\/slt61566.2024.10832176","relation":{},"subject":[],"published":{"date-parts":[[2024,12,2]]}}}