{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,10]],"date-time":"2026-04-10T18:21:43Z","timestamp":1775845303339,"version":"3.50.1"},"reference-count":36,"publisher":"IEEE","license":[{"start":{"date-parts":[[2024,9,24]],"date-time":"2024-09-24T00:00:00Z","timestamp":1727136000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,9,24]],"date-time":"2024-09-24T00:00:00Z","timestamp":1727136000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,9,24]]},"DOI":"10.1109\/idsta62194.2024.10746999","type":"proceedings-article","created":{"date-parts":[[2024,11,12]],"date-time":"2024-11-12T18:36:28Z","timestamp":1731436588000},"page":"76-80","source":"Crossref","is-referenced-by-count":4,"title":["Evaluating the Robustness of ASR Systems in Adverse Acoustic Conditions"],"prefix":"10.1109","author":[{"given":"Sergei","family":"Katkov","sequence":"first","affiliation":[{"name":"Free University of Bozen-Bolzano,Bolzano,Italy"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Antonio","family":"Liotta","sequence":"additional","affiliation":[{"name":"Free University of Bozen-Bolzano,Bolzano,Italy"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Alessandro","family":"Vietti","sequence":"additional","affiliation":[{"name":"Free University of Bozen-Bolzano,Bolzano,Italy"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Wav2vec 2.0: A framework for self-supervised learning of speech representations","volume-title":"Proceedings of the 34th International Conference on Neural Information Processing Systems, ser. NIPS\u201920.","author":"Baevski"},{"key":"ref2","article-title":"Robust speech recognition via large-scale weak supervision","author":"Radford","year":"2022"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-3015"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-1819"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9053889"},{"key":"ref6","doi-asserted-by":"crossref","first-page":"745","DOI":"10.1109\/TASLP.2014.2304637","article-title":"An overview of noise-robust automatic speech recognition","volume":"22","author":"Li","year":"2014","journal-title":"IEEE\/ACM Transactions on Audio, Speech, and Language Processing"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.23919\/Eusipco47968.2020.9287488"},{"key":"ref8","article-title":"An approach to improve robustness of nlp systems against asr errors","author":"Cui","year":"2021","journal-title":"ArXiv"},{"key":"ref9","article-title":"Cross-language transfer learning, continuous learning, and domain adaptation for end-to-end automatic speech recognition","author":"Huang","year":"2020"},{"key":"ref10","article-title":"The audio degradation toolbox and its application to robustness evaluation","volume-title":"International Society for Music Information Retrieval Conference","author":"Mauch"},{"key":"ref11","doi-asserted-by":"crossref","DOI":"10.1007\/978-3-031-44195-0_31","article-title":"Bring the noise: Introducing noise robustness to pretrained automatic speech recognition","volume-title":"International Conference on Artificial Neural Networks","author":"Eickhoff"},{"key":"ref12","article-title":"Two-step joint optimization with auxiliary loss function for noise-robust speech recognition","volume-title":"Sensors","volume":"22","author":"Lee"},{"key":"ref13","article-title":"Building a noisy audio dataset to evaluate machine learning approaches for automatic speech recognition systems","author":"Duarte","year":"2018","journal-title":"ArXiv"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1016\/j.neunet.2023.02.032"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-16327-2_40"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/icassp49357.2023.10095761"},{"key":"ref17","doi-asserted-by":"crossref","first-page":"394","DOI":"10.1109\/TASLP.2014.2372342","article-title":"Online speech dereverberation using kalman filter and em algorithm","volume":"23","author":"Schwartz","year":"2015","journal-title":"IEEE\/ACM Transactions on Audio, Speech, and Language Processing"},{"key":"ref18","article-title":"Improving noise robustness of an end-to-end neural model for automatic speech recognition","author":"Balam","year":"2020"},{"key":"ref19","first-page":"18","article-title":"No pitch left behind: Addressing gender unbalance in automatic speech recognition through pitch manipulation","volume-title":"2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","author":"Fucci"},{"key":"ref20","first-page":"38","article-title":"Transformers: State-of-the-art natural language processing","volume-title":"Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations","author":"Wolf"},{"key":"ref21","article-title":"Nemo: a toolkit for building ai applications using neural modules","author":"Kuchaiev","year":"2019"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178964"},{"key":"ref23","article-title":"The fisher corpus: A resource for the next generations of speech-to-text","volume":"01","author":"Cieri","year":"2004"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1992.225858"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.3115\/1075527.1075614"},{"key":"ref26","article-title":"Common voice: A massively-multilingual speech corpus","volume-title":"International Conference on Language Resources and Evaluation","author":"Ardila"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1145\/1143844.1143891"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.21437\/interspeech.2020-2826"},{"key":"ref29","article-title":"Voxpopuli: A large-scale multilingual speech corpus for representation learning, semi-supervised learning and interpretation","author":"Wang","year":"2021","journal-title":"CoRR"},{"key":"ref30","article-title":"Sentencepiece","journal-title":"Google"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9053896"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU57964.2023.10389701"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1121\/1.408545"},{"key":"ref34","article-title":"Hallucinations in neural automatic speech recognition: Identifying errors and hallucinatory models","author":"Frieske","year":"2024"},{"key":"ref35","article-title":"The curious case of neural text degeneration","author":"Holtzman","year":"2019","journal-title":"CoRR"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.3389\/fpsyg.2019.00449"}],"event":{"name":"2024 Fifth International Conference on Intelligent Data Science Technologies and Applications (IDSTA)","location":"DUBROVNIK, Croatia","start":{"date-parts":[[2024,9,24]]},"end":{"date-parts":[[2024,9,27]]}},"container-title":["2024 Fifth International Conference on Intelligent Data Science Technologies and Applications (IDSTA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10746932\/10746934\/10746999.pdf?arnumber=10746999","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,27]],"date-time":"2024-11-27T14:46:34Z","timestamp":1732718794000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10746999\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,9,24]]},"references-count":36,"URL":"https:\/\/doi.org\/10.1109\/idsta62194.2024.10746999","relation":{},"subject":[],"published":{"date-parts":[[2024,9,24]]}}}