{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,6]],"date-time":"2026-06-06T13:01:50Z","timestamp":1780750910537,"version":"3.54.1"},"reference-count":41,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,5,5]],"date-time":"2026-05-05T00:00:00Z","timestamp":1777939200000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100000780","name":"European Commission","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100000780","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001871","name":"Foundation for Science and Technology","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001871","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Information Sciences"],"published-print":{"date-parts":[[2026,10]]},"DOI":"10.1016\/j.ins.2026.123591","type":"journal-article","created":{"date-parts":[[2026,5,6]],"date-time":"2026-05-06T06:38:48Z","timestamp":1778049528000},"page":"123591","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["WAVe: Word-aligned verification of synthetic speech for ASR"],"prefix":"10.1016","volume":"752","author":[{"given":"Yuriy","family":"Perezhohin","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8793-1451","authenticated-orcid":false,"given":"Mauro","family":"Castelli","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"key":"10.1016\/j.ins.2026.123591_bib0005","series-title":"International Conference on Machine Learning","first-page":"28492","article-title":"Robust speech recognition via large-scale weak supervision","author":"Radford","year":"2023"},{"key":"10.1016\/j.ins.2026.123591_bib0010","author":"Barrault"},{"key":"10.1016\/j.ins.2026.123591_bib0015","first-page":"12449","article-title":"wav2vec 2.0: a framework for self-supervised learning of speech representations","volume":"33","author":"Baevski","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.ins.2026.123591_bib0020","doi-asserted-by":"crossref","first-page":"9411","DOI":"10.1007\/s11042-020-10073-7","article-title":"Automatic speech recognition: a survey","volume":"80","author":"Malik","year":"2021","journal-title":"Multimed. Tools Appl."},{"key":"10.1016\/j.ins.2026.123591_bib0025","series-title":"2019 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","first-page":"996","article-title":"Speech recognition with augmented synthesized speech","author":"Rosenberg","year":"2019"},{"key":"10.1016\/j.ins.2026.123591_bib0030","series-title":"Proc. Interspeech 2021","first-page":"896","article-title":"Synthasr: unlocking synthetic data for speech recognition","author":"Fazel","year":"2021"},{"key":"10.1016\/j.ins.2026.123591_bib0035","series-title":"ICASSP 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"1","article-title":"Enhancing low-resource ASR through versatile TTS: bridging the data gap","author":"Yang","year":"2025"},{"key":"10.1016\/j.ins.2026.123591_bib0040","series-title":"ICASSP 2025-2025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"1","article-title":"LLM based text generation for improved low-resource speech recognition models","author":"Nagano","year":"2025"},{"key":"10.1016\/j.ins.2026.123591_bib0045","author":"Wang"},{"key":"10.1016\/j.ins.2026.123591_bib0050","author":"Liu"},{"key":"10.1016\/j.ins.2026.123591_bib0055","doi-asserted-by":"crossref","first-page":"81","DOI":"10.21437\/SynData4GenAI.2024-17","article-title":"Investigating the use of synthetic speech data for the analysis of Spanish-accented english pronunciation patterns in ASR","author":"Masson","year":"2024","journal-title":"Synthetic Data\u2019s Transformative Role in Foundational Speech Models, pages"},{"key":"10.1016\/j.ins.2026.123591_bib0060","series-title":"Proc. SynData4GENAI 2024","first-page":"36","article-title":"Using voicebox-based synthetic speech for ASR adaptation","author":"Dhamyal","year":"2024"},{"key":"10.1016\/j.ins.2026.123591_bib0065","author":"Hilmes"},{"key":"10.1016\/j.ins.2026.123591_bib0070","series-title":"The 26th Interspeech Conference","first-page":"1","article-title":"Scaling laws for synthetic speech for model training","author":"Minixhofer","year":"2025"},{"key":"10.1016\/j.ins.2026.123591_bib0075","author":"Rossenbach"},{"key":"10.1016\/j.ins.2026.123591_bib0080","author":"Ogun"},{"key":"10.1016\/j.ins.2026.123591_bib0085","author":"Cornell"},{"key":"10.1016\/j.ins.2026.123591_bib0090","author":"Chou"},{"key":"10.1016\/j.ins.2026.123591_bib0095","doi-asserted-by":"crossref","first-page":"155136","DOI":"10.1109\/ACCESS.2024.3482970","article-title":"Enhancing automatic speech recognition: effects of semantic audio filtering on models performance","volume":"12","author":"Perezhohin","year":"2024","journal-title":"IEEE Access"},{"key":"10.1016\/j.ins.2026.123591_bib0100","author":"Manco"},{"key":"10.1016\/j.ins.2026.123591_bib0105","author":"Quintas"},{"key":"10.1016\/j.ins.2026.123591_bib0110","author":"Wang"},{"key":"10.1016\/j.ins.2026.123591_bib0115","series-title":"Proceedings of the 32nd ACM International Conference on Multimedia","first-page":"7356","article-title":"Advancing multi-grained alignment for contrastive language-audio pre-training","author":"Li","year":"2024"},{"key":"10.1016\/j.ins.2026.123591_bib0120","author":"Jin"},{"key":"10.1016\/j.ins.2026.123591_bib0125","series-title":"ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"1","article-title":"Contrastive learning-based audio to lyrics alignment for multiple languages","author":"Durand","year":"2023"},{"key":"10.1016\/j.ins.2026.123591_bib0130","series-title":"Findings of the Association for Computational Linguistics: ACL 2024","first-page":"4435","article-title":"Multi-modal retrieval for large language model based speech recognition","author":"Gourav","year":"2024"},{"key":"10.1016\/j.ins.2026.123591_bib0135","series-title":"Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)","first-page":"3891","article-title":"Waco: word-aligned contrastive learning for speech translation","author":"Ouyang","year":"2023"},{"key":"10.1016\/j.ins.2026.123591_bib0140","author":"Rousso"},{"key":"10.1016\/j.ins.2026.123591_bib0145","author":"Ardila"},{"key":"10.1016\/j.ins.2026.123591_bib0150","author":"Pratap"},{"key":"10.1016\/j.ins.2026.123591_bib0155","first-page":"16857","article-title":"Mpnet: masked and permuted pre-training for language understanding","volume":"33","author":"Song","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.ins.2026.123591_bib0160","series-title":"Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)","first-page":"328","article-title":"Universal language model fine-tuning for text classification","author":"Howard","year":"2018"},{"key":"10.1016\/j.ins.2026.123591_bib0165","series-title":"International Conference on Machine Learning","first-page":"1597","article-title":"A simple framework for contrastive learning of visual representations","author":"Chen","year":"2020"},{"key":"10.1016\/j.ins.2026.123591_bib0170","article-title":"Attention is all you need","volume":"30","author":"Vaswani","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.ins.2026.123591_bib0175","author":"Shazeer"},{"key":"10.1016\/j.ins.2026.123591_bib0180","article-title":"Are sixteen heads really better than one?","volume":"32","author":"Michel","year":"2019","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.ins.2026.123591_bib0185","author":"Oord van den"},{"key":"10.1016\/j.ins.2026.123591_bib0190","article-title":"When does label smoothing help?","volume":"32","author":"M\u00fcller","year":"2019","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.ins.2026.123591_bib0195","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"7482","article-title":"Multi-task learning using uncertainty to weigh losses for scene geometry and semantics","author":"Kendall","year":"2018"},{"issue":"6","key":"10.1016\/j.ins.2026.123591_bib0200","doi-asserted-by":"crossref","first-page":"80","DOI":"10.2307\/3001968","article-title":"Individual comparisons by ranking methods","volume":"1","author":"Wilcoxon","year":"1945","journal-title":"Biom. Bull."},{"key":"10.1016\/j.ins.2026.123591_bib0205","series-title":"Statistical Power Analysis for the Behavioral Sciences","author":"Cohen","year":"2013"}],"container-title":["Information Sciences"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0020025526005220?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0020025526005220?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,6,6]],"date-time":"2026-06-06T12:45:19Z","timestamp":1780749919000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0020025526005220"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,10]]},"references-count":41,"alternative-id":["S0020025526005220"],"URL":"https:\/\/doi.org\/10.1016\/j.ins.2026.123591","relation":{},"ISSN":["0020-0255"],"issn-type":[{"value":"0020-0255","type":"print"}],"subject":[],"published":{"date-parts":[[2026,10]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"WAVe: Word-aligned verification of synthetic speech for ASR","name":"articletitle","label":"Article Title"},{"value":"Information Sciences","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.ins.2026.123591","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 The Author(s). Published by Elsevier Inc.","name":"copyright","label":"Copyright"}],"article-number":"123591"}}