{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,6]],"date-time":"2026-05-06T16:25:01Z","timestamp":1778084701142,"version":"3.51.4"},"reference-count":102,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100001871","name":"Funda??o para a Ci?ncia e a Tecnologia","doi-asserted-by":"publisher","award":["UIDB\/04152\/2020"],"award-info":[{"award-number":["UIDB\/04152\/2020"]}],"id":[{"id":"10.13039\/501100001871","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2024]]},"DOI":"10.1109\/access.2024.3482970","type":"journal-article","created":{"date-parts":[[2024,10,17]],"date-time":"2024-10-17T17:43:59Z","timestamp":1729187039000},"page":"155136-155150","source":"Crossref","is-referenced-by-count":6,"title":["Enhancing Automatic Speech Recognition: Effects of Semantic Audio Filtering on Models Performance"],"prefix":"10.1109","volume":"12","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-1046-7883","authenticated-orcid":false,"given":"Yuriy","family":"Perezhohin","sequence":"first","affiliation":[{"name":"MyNorth AI Research, Oeiras, Portugal"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-5616-4141","authenticated-orcid":false,"given":"Tiago","family":"Santos","sequence":"additional","affiliation":[{"name":"MyNorth AI Research, Oeiras, Portugal"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Victor","family":"Costa","sequence":"additional","affiliation":[{"name":"MyNorth AI Research, Oeiras, Portugal"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Fernando","family":"Peres","sequence":"additional","affiliation":[{"name":"MyNorth AI Research, Oeiras, Portugal"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8793-1451","authenticated-orcid":false,"given":"Mauro","family":"Castelli","sequence":"additional","affiliation":[{"name":"NOVA Information Management School (NOVA IMS), Universidade NOVA de Lisboa, Campus de Campolide, Lisbon, Portugal"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.42"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9053008"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9053139"},{"key":"ref4","article-title":"Towards selection of text-to-speech data to augment ASR training","author":"Liu","year":"2023","journal-title":"arXiv:2306.00998"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP48485.2024.10446991"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2021.3090866"},{"key":"ref7","article-title":"Common voice: A massively-multilingual speech corpus","author":"Ardila","year":"2019","journal-title":"arXiv:1912.06670"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-2826"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1038\/scientificamerican0255-92"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1121\/1.2003089"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/TASSP.1975.1162641"},{"key":"ref12","volume-title":"Automatic Speech Recognition","volume":"1","author":"Yu","year":"2016"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TASSP.1980.1163420"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1121\/1.399423"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/MASSP.1986.1165342"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1007\/978-0-387-73003-5_196"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TIT.1986.1057145"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1986.1169179"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1007\/s11831-020-09422-4"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1007\/BF02459570"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2007.367023"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2000.862024"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.21437\/ICSLP.2000-743"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2011.5947489"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1007\/BF00344251"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.21437\/interspeech.2015-3"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2012.6288864"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/PROC.1973.9030"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.35111\/17gk-bn40"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2896880"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2013.6707749"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.79.8.2554"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/1143844.1143891"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6638947"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2024.102422"},{"key":"ref38","first-page":"28492","article-title":"Robust speech recognition via large-scale weak supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.23919\/ICACT56868.2023.10079686"},{"key":"ref40","article-title":"Spaiche: Extending state-of-the-art ASR models to Swiss German dialects","author":"Sicard","year":"2023","journal-title":"arXiv:2304.11075"},{"key":"ref41","article-title":"MADGF: Multi-agent data generation framework","author":"Xie","year":"2023","journal-title":"arXiv:2310.17953"},{"key":"ref42","article-title":"SeamlessM4T: Massively multilingual & multimodal machine translation","author":"Barrault","year":"2023","journal-title":"arXiv:2308.11596"},{"key":"ref43","article-title":"SpeechT5: Unified-modal encoder\u2013decoder pre-training for spoken language processing","author":"Ao","year":"2021","journal-title":"arXiv:2110.07205"},{"issue":"140","key":"ref44","first-page":"1","article-title":"Exploring the limits of transfer learning with a unified text-to-text transformer","volume":"21","author":"Raffel","year":"2020","journal-title":"J. Mach. Learn. Res."},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1186\/s13636-024-00349-3"},{"key":"ref46","article-title":"On the effect of purely synthetic training data for different automatic speech recognition architectures","author":"Rossenbach","year":"2024","journal-title":"arXiv:2407.17997"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-40498-6_20"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU51503.2021.9688218"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1080\/00437956.1954.11659520"},{"key":"ref50","article-title":"Efficient estimation of word representations in vector space","author":"Mikolov","year":"2013","journal-title":"arXiv:1301.3781"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1162"},{"key":"ref52","article-title":"Neural machine translation by jointly learning to align and translate","author":"Bahdanau","year":"2016","journal-title":"arXiv:1409.0473"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref54","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","author":"Devlin","year":"2019","journal-title":"arXiv:1810.04805"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1907.11692"},{"key":"ref56","article-title":"AlBERT: A lite BERT for self-supervised learning of language representations","author":"Lan","year":"2020","journal-title":"arXiv:1909.11942"},{"key":"ref57","article-title":"DeBERTa: Decoding-enhanced BERT with disentangled attention","author":"He","year":"2021","journal-title":"arXiv:2006.03654"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-1410"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-006-9019-7"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2003.821689"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1155\/2009\/540409"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2010.2049684"},{"key":"ref63","article-title":"Representation learning with contrastive predictive coding","author":"van den Oord","year":"2019","journal-title":"arXiv:1807.03748"},{"key":"ref64","first-page":"12449","article-title":"wav2vec 2.0: A framework for self-supervised learning of speech representations","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Baevski"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2021.3122291"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2022.3188113"},{"key":"ref67","first-page":"1","article-title":"Distance metric learning for large margin nearest neighbor classification","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"18","author":"Weinberger"},{"key":"ref68","first-page":"1857","article-title":"Improved deep metric learning with multi-class N-pair loss objective","volume-title":"Proc. 30th Int. Conf. Neural Inf. Process. Syst.","author":"Sohn"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.5555\/3524938.3525087"},{"key":"ref70","article-title":"Unsupervised representation learning for time series with temporal neighborhood coding","author":"Tonekaboni","year":"2021","journal-title":"arXiv:2106.00750"},{"key":"ref71","article-title":"Learning deep representations by mutual information estimation and maximization","author":"Hjelm","year":"2019","journal-title":"arXiv:1808.06670"},{"key":"ref72","first-page":"2530","article-title":"CLAR: Contrastive learning of auditory representations","volume-title":"Proc. Int. Conf. Artif. Intell. Statist.","author":"Al-Tahan"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9413528"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1145\/3302506.3310402"},{"key":"ref75","article-title":"Multi-format contrastive learning of audio representations","author":"Wang","year":"2021","journal-title":"arXiv:2103.06508"},{"key":"ref76","first-page":"1","article-title":"Image-to-word transformation based on dividing and vector quantizing images with words","volume-title":"Proc. 1st Int. Workshop Multimedia Intell. Storage Retr. Manage.","author":"Mori"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2007.383173"},{"key":"ref78","article-title":"Multimodal learning with deep Boltzmann machines","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"25","author":"Srivastava"},{"key":"ref79","first-page":"740","article-title":"Microsoft COCO: Common objects in context","volume-title":"Proc. Eur. Conf. Comput. Vis.","author":"Lin"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.303"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-016-0987-1"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.571"},{"key":"ref83","article-title":"Speech commands: A dataset for limited-vocabulary speech recognition","author":"Warden","year":"2018","journal-title":"arXiv:1804.03209"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7952261"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1145\/2733373.2806390"},{"key":"ref86","article-title":"SLAM: A unified encoder for speech and language modeling via speech-text joint pre-training","author":"Bapna","year":"2021","journal-title":"arXiv:2110.10329"},{"key":"ref87","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9747631"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9747669"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10095889"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10095969"},{"key":"ref92","first-page":"24206","article-title":"VATT: Transformers for multimodal self-supervised learning from raw video, audio and text","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Akbari"},{"key":"ref93","article-title":"Multimodal self-supervised learning of general audio representations","author":"Wang","year":"2021","journal-title":"arXiv:2104.12807"},{"key":"ref94","article-title":"One-peace: Exploring one general representation model toward unlimited modalities","author":"Wang","year":"2023","journal-title":"arXiv:2305.11172"},{"key":"ref95","article-title":"Robust speech recognition via large-scale weak supervision","author":"Radford","year":"2022","journal-title":"arXiv:2212.04356"},{"key":"ref96","volume-title":"O fen\u00f3meno do que\u00edsmo no falar bracarense: Um estudo sociolingu\u00edstico","author":"Herdeiro","year":"2015"},{"key":"ref97","article-title":"Contrastive audio-language learning for music","author":"Manco","year":"2022","journal-title":"arXiv:2208.12208"},{"key":"ref98","article-title":"Fostering the ecosystem of open neural encoders for Portuguese with Albertina PT* family","author":"Santos","year":"2024","journal-title":"arXiv:2403.01897"},{"key":"ref99","article-title":"Seamless: Multilingual expressive and streaming speech translation","author":"Barrault","year":"2023","journal-title":"arXiv:2312.05187"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-99722-3_35"},{"key":"ref101","article-title":"FLEURS: Few-shot learning evaluation of universal representations of speech","author":"Conneau","year":"2022","journal-title":"arXiv:2205.12446"},{"key":"ref102","article-title":"Synthetic data in AI: Challenges, applications, and ethical implications","author":"Hao","year":"2024","journal-title":"arXiv:2401.01629"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6287639\/10380310\/10720758.pdf?arnumber=10720758","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,27]],"date-time":"2024-11-27T00:52:42Z","timestamp":1732668762000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10720758\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024]]},"references-count":102,"URL":"https:\/\/doi.org\/10.1109\/access.2024.3482970","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024]]}}}