{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T13:17:47Z","timestamp":1740143867903,"version":"3.37.3"},"reference-count":30,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2021,6,16]],"date-time":"2021-06-16T00:00:00Z","timestamp":1623801600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2021,6,16]],"date-time":"2021-06-16T00:00:00Z","timestamp":1623801600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61701243"],"award-info":[{"award-number":["61701243"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["71771125"],"award-info":[{"award-number":["71771125"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61871174"],"award-info":[{"award-number":["61871174"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Major Project of Natural Science Foundation of Jiangsu Education Department","award":["19KJA180002"],"award-info":[{"award-number":["19KJA180002"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J AUDIO SPEECH MUSIC PROC."],"published-print":{"date-parts":[[2021,12]]},"abstract":"<jats:title>Abstract<\/jats:title><jats:p>In this paper, we propose a novel feature compensation algorithm based on independent noise estimation, which employs a Gaussian mixture model (GMM) with fewer Gaussian components to rapidly estimate the noise parameters from the noisy speech and monitor the noise variation. The estimated noise model is combined with a GMM with sufficient Gaussian mixtures to produce the noisy GMM for the clean speech estimation so that parameters are updated if and only if the noise variation occurs. Experimental results show that the proposed algorithm can achieve the recognition accuracy similar to that of the traditional GMM-based feature compensation, but significantly reduces the computational cost, and thereby is more useful for resource-limited mobile devices.<\/jats:p>","DOI":"10.1186\/s13636-021-00213-8","type":"journal-article","created":{"date-parts":[[2021,6,16]],"date-time":"2021-06-16T09:03:03Z","timestamp":1623834183000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["Feature compensation based on independent noise estimation for robust speech recognition"],"prefix":"10.1186","volume":"2021","author":[{"given":"Yong","family":"L\u00fc","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Han","family":"Lin","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7028-4200","authenticated-orcid":false,"given":"Pingping","family":"Wu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yitao","family":"Chen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2021,6,16]]},"reference":[{"key":"213_CR1","doi-asserted-by":"publisher","first-page":"69","DOI":"10.1016\/j.vlsi.2020.09.002","volume":"76","author":"B. S. Paul S","year":"2021","unstructured":"B. S. Paul S, A. X. Glittas, L. Gopalakrishnan, A low latency modular-level deeply integrated MFCC feature extraction architecture for speech recognition. Integration. 76:, 69\u201375 (2021).","journal-title":"Integration"},{"issue":"6","key":"213_CR2","doi-asserted-by":"publisher","first-page":"9411","DOI":"10.1007\/s11042-020-10073-7","volume":"80","author":"M. Malik","year":"2021","unstructured":"M. Malik, M. K. Malik, K. Mehmood, I. Makhdoom, Automatic speech recognition: a survey. Multimed. Tools Appl.80(6), 9411\u20139457 (2021).","journal-title":"Multimed. Tools Appl."},{"issue":"6","key":"213_CR3","doi-asserted-by":"publisher","first-page":"1194","DOI":"10.1016\/j.engappai.2012.04.004","volume":"25","author":"N. Esfandian","year":"2012","unstructured":"N. Esfandian, F. Razzazi, A. Behrad, A clustering based feature selection method in spectro-temporal domain for speech recognition. Eng. Appl. Artif. Intell.25(6), 1194\u20131202 (2012).","journal-title":"Eng. Appl. Artif. Intell."},{"key":"213_CR4","doi-asserted-by":"publisher","first-page":"81911","DOI":"10.1109\/ACCESS.2019.2918147","volume":"7","author":"Y. Shi","year":"2019","unstructured":"Y. Shi, J. Bai, P. Xue, D. Shi, Fusion feature extraction based on auditory and energy for noise-robust speech recognition. IEEE Access. 7:, 81911\u201381922 (2019).","journal-title":"IEEE Access"},{"issue":"2","key":"213_CR5","doi-asserted-by":"publisher","first-page":"257","DOI":"10.1109\/5.18626","volume":"77","author":"L. R. Rabiner","year":"1989","unstructured":"L. R. Rabiner, A tutorial on hidden Markov models and selected applications in speech recognition. Proc. IEEE. 77(2), 257\u2013286 (1989).","journal-title":"Proc. IEEE"},{"issue":"1","key":"213_CR6","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1186\/s13636-019-0169-5","volume":"2020","author":"M. S. Yakoub","year":"2020","unstructured":"M. S. Yakoub, S. -a. Selouani, B. -F. Zaidi, A. Bouchair, Improving dysarthric speech recognition using empirical mode decomposition and convolutional neural network. EURASIP J. Audio Speech Music Process.2020(1), 1\u20137 (2020).","journal-title":"EURASIP J. Audio Speech Music Process."},{"issue":"2-3","key":"213_CR7","doi-asserted-by":"publisher","first-page":"263","DOI":"10.1016\/S0885-2308(03)00011-1","volume":"17","author":"K. Daoudi","year":"2003","unstructured":"K. Daoudi, D. Fohr, C. Antoine, Dynamic Bayesian networks for multi-band automatic speech recognition. Comput. Speech Lang.17(2-3), 263\u2013285 (2003).","journal-title":"Comput. Speech Lang."},{"issue":"10-11","key":"213_CR8","doi-asserted-by":"publisher","first-page":"763","DOI":"10.1016\/j.specom.2007.02.006","volume":"49","author":"M. Benzeghiba","year":"2007","unstructured":"M. Benzeghiba, R. De Mori, O. Deroo, S. Dupont, T. Erbes, D. Jouvet, L. Fissore, P. Laface, A. Mertins, C. Ris, et al, Automatic speech recognition and speech variability: a review. Speech Comm.49(10-11), 763\u2013786 (2007).","journal-title":"Speech Comm."},{"issue":"4","key":"213_CR9","doi-asserted-by":"publisher","first-page":"745","DOI":"10.1109\/TASLP.2014.2304637","volume":"22","author":"J. Li","year":"2014","unstructured":"J. Li, L. Deng, Y. Gong, R. Haeb-Umbach, An overview of noise-robust automatic speech recognition. IEEE\/ACM Trans. Audio Speech Lang. Process. 22(4), 745\u2013777 (2014).","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process"},{"key":"213_CR10","doi-asserted-by":"publisher","first-page":"401","DOI":"10.1016\/j.csl.2017.01.013","volume":"46","author":"T. Hori","year":"2017","unstructured":"T. Hori, Z. Chen, H. Erdogan, J. R. Hershey, J. Le Roux, V. Mitra, S. Watanabe, Multi-microphone speech recognition integrating beamforming, robust feature extraction, and advanced DNN\/RNN backend. Comput. Speech Lang.46:, 401\u2013418 (2017).","journal-title":"Comput. Speech Lang."},{"key":"213_CR11","doi-asserted-by":"publisher","first-page":"558","DOI":"10.1016\/j.csl.2016.11.004","volume":"46","author":"N. Moritz","year":"2017","unstructured":"N. Moritz, K. Adilo\u011flu, J. Anem\u00fcller, S. Goetze, B. Kollmeier, Multi-channel speech enhancement and amplitude modulation analysis for noise robust automatic speech recognition. Comput. Speech Lang.46:, 558\u2013573 (2017).","journal-title":"Comput. Speech Lang."},{"issue":"5","key":"213_CR12","doi-asserted-by":"publisher","first-page":"587","DOI":"10.1016\/j.specom.2013.02.004","volume":"55","author":"H. F. Pardede","year":"2013","unstructured":"H. F. Pardede, K. Iwano, K. Shinoda, Feature normalization based on non-extensive statistics for speech recognition. Speech Comm.55(5), 587\u2013599 (2013).","journal-title":"Speech Comm."},{"key":"213_CR13","doi-asserted-by":"publisher","first-page":"46","DOI":"10.1016\/j.specom.2015.02.005","volume":"69","author":"V. Joshi","year":"2015","unstructured":"V. Joshi, R. Bilgi, S. Umesh, L. Garcia, C. Benitez, Sub-band based histogram equalization in cepstral domain for speech recognition. Speech Comm.69:, 46\u201365 (2015).","journal-title":"Speech Comm."},{"issue":"3","key":"213_CR14","doi-asserted-by":"publisher","first-page":"585","DOI":"10.1016\/j.csl.2010.09.001","volume":"25","author":"T. Kleinschmidt","year":"2011","unstructured":"T. Kleinschmidt, S. Sridharan, M. Mason, The use of phase in complex spectrum subtraction for robust speech recognition. Comput. Speech Lang.25(3), 585\u2013600 (2011).","journal-title":"Comput. Speech Lang."},{"issue":"11","key":"213_CR15","doi-asserted-by":"publisher","first-page":"1601","DOI":"10.1109\/TASLP.2014.2341912","volume":"22","author":"J. Du","year":"2014","unstructured":"J. Du, Q. Huo, An improved VTS feature compensation using mixture models of distortion and IVN training for noisy speech recognition. IEEE\/ACM Trans. Audio Speech Lang. Process.22(11), 1601\u20131611 (2014).","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"issue":"2","key":"213_CR16","doi-asserted-by":"publisher","first-page":"291","DOI":"10.1109\/89.279278","volume":"2","author":"J. -L. Gauvain","year":"1994","unstructured":"J. -L. Gauvain, C. -H. Lee, Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains. IEEE Trans. Speech Audio Process.2(2), 291\u2013298 (1994).","journal-title":"IEEE Trans. Speech Audio Process."},{"issue":"2","key":"213_CR17","doi-asserted-by":"publisher","first-page":"171","DOI":"10.1006\/csla.1995.0010","volume":"9","author":"C. J. Leggetter","year":"1995","unstructured":"C. J. Leggetter, P. C. Woodland, Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. Comput. Speech Lang.9(2), 171\u2013185 (1995).","journal-title":"Comput. Speech Lang."},{"issue":"4","key":"213_CR18","doi-asserted-by":"publisher","first-page":"249","DOI":"10.1006\/csla.1996.0013","volume":"10","author":"M. J. Gales","year":"1996","unstructured":"M. J. Gales, P. C. Woodland, Mean and variance adaptation within the MLLR framework. Comput. Speech Lang.10(4), 249\u2013264 (1996).","journal-title":"Comput. Speech Lang."},{"key":"213_CR19","volume-title":"Sixth European Conference on Speech Communication and Technology","author":"C. Chesta","year":"1999","unstructured":"C. Chesta, O. Siohan, C. -H. Lee, in Sixth European Conference on Speech Communication and Technology. Maximum a posteriori linear regression for hidden Markov model adaptation (ISCABudapest, 1999)."},{"issue":"4","key":"213_CR20","doi-asserted-by":"publisher","first-page":"289","DOI":"10.1006\/csla.1995.0014","volume":"9","author":"M. Gales","year":"1995","unstructured":"M. Gales, S. J. Young, Robust speech recognition in additive and convolutional noise using parallel model combination. Comput. Speech Lang.9(4), 289\u2013307 (1995).","journal-title":"Comput. Speech Lang."},{"issue":"1","key":"213_CR21","doi-asserted-by":"publisher","first-page":"36","DOI":"10.1016\/j.dsp.2010.07.004","volume":"21","author":"H. Veisi","year":"2011","unstructured":"H. Veisi, H. Sameti, The integration of principal component analysis and cepstral mean subtraction in parallel model combination for robust speech recognition. Dig. Signal Proc.21(1), 36\u201353 (2011).","journal-title":"Dig. Signal Proc."},{"issue":"1","key":"213_CR22","doi-asserted-by":"publisher","first-page":"68","DOI":"10.1109\/89.221385","volume":"1","author":"A. Erell","year":"1993","unstructured":"A. Erell, M. Weintraub, Filterbank-energy estimation using mixture and Markov models for recognition of noisy speech. IEEE Trans. Speech Audio Process.1(1), 68\u201376 (1993).","journal-title":"IEEE Trans. Speech Audio Process."},{"issue":"1","key":"213_CR23","doi-asserted-by":"publisher","first-page":"1","DOI":"10.2478\/msr-2020-0001","volume":"20","author":"V. Witkovsky\u0300","year":"2020","unstructured":"V. Witkovsky\u0300, I. Frollo, Measurement science is the science of sciences - there is no science without measurement. Meas. Sci. Rev.20(1), 1\u20135 (2020).","journal-title":"Meas. Sci. Rev."},{"issue":"2","key":"213_CR24","doi-asserted-by":"publisher","first-page":"83","DOI":"10.1016\/j.specom.2008.06.004","volume":"51","author":"W. Kim","year":"2009","unstructured":"W. Kim, J. H. Hansen, Feature compensation in the cepstral domain employing model combination. Speech Comm.51(2), 83\u201396 (2009).","journal-title":"Speech Comm."},{"key":"213_CR25","doi-asserted-by":"publisher","first-page":"84","DOI":"10.1016\/j.specom.2017.03.001","volume":"89","author":"M. Korenevsky","year":"2017","unstructured":"M. Korenevsky, Phase term modeling for enhanced feature-space VTS. Speech Commun.89:, 84\u201391 (2017).","journal-title":"Speech Commun."},{"issue":"1","key":"213_CR26","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1111\/j.2517-6161.1977.tb01600.x","volume":"39","author":"A. Dempster","year":"1977","unstructured":"A. Dempster, N. Laird, D. Rubin, Maximum-likelihood from incomplete data via EM algorithm. J. R. Stat. Soc.39(1), 1\u201338 (1977).","journal-title":"J. R. Stat. Soc."},{"issue":"2","key":"213_CR27","doi-asserted-by":"publisher","first-page":"764","DOI":"10.1109\/TCE.2010.5505999","volume":"56","author":"Y. Lu","year":"2010","unstructured":"Y. Lu, H. Wu, Z. Wu, Robust speech recognition using improved vector Taylor series algorithm for embedded systems. IEEE Trans. Consum. Electron.56(2), 764\u2013769 (2010).","journal-title":"IEEE Trans. Consum. Electron."},{"issue":"3","key":"213_CR28","doi-asserted-by":"publisher","first-page":"389","DOI":"10.1016\/j.csl.2009.02.001","volume":"23","author":"J. Li","year":"2009","unstructured":"J. Li, L. Deng, D. Yu, Y. Gong, A. Acero, A unified framework of HMM adaptation with joint compensation of additive and convolutive distortions. Comput. Speech Lang.23(3), 389\u2013405 (2009).","journal-title":"Comput. Speech Lang."},{"key":"213_CR29","doi-asserted-by":"crossref","unstructured":"V. Zue, S. Seneff, J. Glass, 9. Speech Database Development: TIMIT and Beyond, (1990), pp. 351\u2013356.","DOI":"10.1016\/0167-6393(90)90010-7"},{"issue":"3","key":"213_CR30","doi-asserted-by":"publisher","first-page":"247","DOI":"10.1016\/0167-6393(93)90095-3","volume":"12","author":"A. Varga","year":"1993","unstructured":"A. Varga, H. J. Steeneken, Assessment for automatic speech recognition: II, NOISEX-92: a database and an experiment to study the effect of additive noise on speech recognition systems. Speech Commun.12(3), 247\u2013251 (1993).","journal-title":"Speech Commun."}],"container-title":["EURASIP Journal on Audio, Speech, and Music Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-021-00213-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1186\/s13636-021-00213-8\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-021-00213-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,9,1]],"date-time":"2024-09-01T22:20:17Z","timestamp":1725229217000},"score":1,"resource":{"primary":{"URL":"https:\/\/asmp-eurasipjournals.springeropen.com\/articles\/10.1186\/s13636-021-00213-8"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,6,16]]},"references-count":30,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2021,12]]}},"alternative-id":["213"],"URL":"https:\/\/doi.org\/10.1186\/s13636-021-00213-8","relation":{},"ISSN":["1687-4722"],"issn-type":[{"type":"electronic","value":"1687-4722"}],"subject":[],"published":{"date-parts":[[2021,6,16]]},"assertion":[{"value":"7 January 2021","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"2 June 2021","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"16 June 2021","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare that they have no competing interests.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interests"}}],"article-number":"22"}}