{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T12:40:02Z","timestamp":1750336802209,"version":"3.41.0"},"reference-count":42,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2017,6,12]],"date-time":"2017-06-12T00:00:00Z","timestamp":1497225600000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Circuits Syst Signal Process"],"published-print":{"date-parts":[[2018,3]]},"DOI":"10.1007\/s00034-017-0586-6","type":"journal-article","created":{"date-parts":[[2017,6,12]],"date-time":"2017-06-12T12:26:18Z","timestamp":1497270378000},"page":"1098-1115","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":4,"title":["A Fast Adaptation Approach for Enhanced Automatic Recognition of Children\u2019s Speech with Mismatched Acoustic Models"],"prefix":"10.1007","volume":"37","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-3916-9693","authenticated-orcid":false,"given":"S.","family":"Shahnawazuddin","sequence":"first","affiliation":[]},{"given":"Rohit","family":"Sinha","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2017,6,12]]},"reference":[{"key":"586_CR1","doi-asserted-by":"crossref","unstructured":"O. Abdel-Hamid, H. Jiang: Rapid and Effective Speaker Adaptation of Convolutional Neural Network Based Models for Speech Recognition. In: Proceedings INTERSPEECH, pp. 1248\u20131252 (2013)","DOI":"10.21437\/Interspeech.2013-336"},{"key":"586_CR2","doi-asserted-by":"crossref","unstructured":"A. Batliner, M. Blomberg, S. D\u2019Arcy, D. Elenius, D. Giuliani, M. Gerosa, C. Hacker, M. Russell, M. Wong: The PF_STAR Children\u2019s Speech Corpus. In: Proceedings of INTERSPEECH, pp. 2761\u20132764 (2005)","DOI":"10.21437\/Interspeech.2005-705"},{"key":"586_CR3","doi-asserted-by":"crossref","unstructured":"L. Bell, J. Gustafson, Children\u2019s Convergence in Referring Expressions to Graphical Objects in a Speech-Enabled Computer Game. In: Proceedings of INTERSPEECH, pp. 2209\u20132212 (2007)","DOI":"10.21437\/Interspeech.2007-601"},{"key":"586_CR4","first-page":"1145","volume":"2","author":"D Burnett","year":"1996","unstructured":"D. Burnett, M. Fanty, Rapid unsupervised adaptation to children\u2019s speech on a connected-digit task. Proc. ICSLP 2, 1145\u20131148 (1996)","journal-title":"Proc. ICSLP"},{"issue":"4","key":"586_CR5","doi-asserted-by":"publisher","first-page":"357","DOI":"10.1109\/TASSP.1980.1163420","volume":"28","author":"S Davis","year":"1980","unstructured":"S. Davis, P. Mermelstein, Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IEEE Trans. Acoustic, Speech. Signal Process. 28(4), 357\u2013366 (1980). doi: 10.1109\/TASSP.1980.1163420","journal-title":"Signal Process."},{"key":"586_CR6","doi-asserted-by":"crossref","first-page":"357","DOI":"10.1109\/89.466659","volume":"3","author":"V Digalakis","year":"1995","unstructured":"V. Digalakis, D. Rtischev, L. Neumeyer, Speaker adaptation using constrained estimation of Gaussian mixtures. IEEE Trans. Speech Audio Process. 3, 357\u2013366 (1995)","journal-title":"IEEE Trans. Speech Audio Process."},{"issue":"2","key":"586_CR7","doi-asserted-by":"crossref","first-page":"160","DOI":"10.1016\/j.biopsycho.2005.09.003","volume":"72","author":"S Evans","year":"2006","unstructured":"S. Evans, N. Neave, D. Wakelin, Relationships between vocal characteristics and body size and shape in human males: an evolutionary explanation for a deep male voice. Biol. Psychol. 72(2), 160\u2013163 (2006)","journal-title":"Biol. Psychol."},{"key":"586_CR8","doi-asserted-by":"crossref","unstructured":"J. Fainberg, Improving Children\u2019s Speech Recognition Through Out of Domain Data Augmentation. Master\u2019s thesis, School of Informatics University of Edinburgh (2015)","DOI":"10.21437\/Interspeech.2016-1348"},{"key":"586_CR9","unstructured":"W.M. Fisher, G.R. Doddington, K.M. Goudie-Marshall, The DARPA Speech Recognition Research Database: Specifications and Status. In: Proceedings of DARPA Workshop on Speech Recognition, pp. 93\u201399 (1986)"},{"issue":"4","key":"586_CR10","doi-asserted-by":"crossref","first-page":"417","DOI":"10.1109\/89.848223","volume":"8","author":"MJF Gales","year":"1999","unstructured":"M.J.F. Gales, Cluster adaptive training of hidden Markov models. IEEE Trans. Speech Audio Process. 8(4), 417\u2013428 (1999)","journal-title":"IEEE Trans. Speech Audio Process."},{"key":"586_CR11","doi-asserted-by":"crossref","first-page":"291","DOI":"10.1109\/89.279278","volume":"2","author":"JL Gauvain","year":"1994","unstructured":"J.L. Gauvain, C.H. Lee, Maximum a-posteriori estimation for multivariate Gaussian mixture observations of Markov chains. IEEE Trans. Speech Audio Process. 2, 291\u2013298 (1994)","journal-title":"IEEE Trans. Speech Audio Process."},{"key":"586_CR12","unstructured":"S. Ghai, Addressing Pitch Mismatch for Children\u2019s Automatic Speech Recognition. Ph.D. thesis, Department of EEE, Indian Institute of Technology Guwahati, India (2011)"},{"key":"586_CR13","doi-asserted-by":"crossref","unstructured":"S. Ghai, R. Sinha, Exploring the Role of Spectral Smoothing in Context of Children\u2019s Speech Recognition. In: Proceedings of INTERSPEECH, pp. 1607\u20131610 (2009)","DOI":"10.21437\/Interspeech.2009-209"},{"key":"586_CR14","doi-asserted-by":"crossref","unstructured":"S. Ghai, R. Sinha, Exploring the effect of differences in the acoustic correlates of adults\u2019 and children\u2019s speech in the context of automatic speech recognition. EURASIP J. Audio Speech Music Process. 2010, 7:1\u20137:15 (2010)","DOI":"10.1155\/2010\/318785"},{"issue":"2","key":"586_CR15","doi-asserted-by":"crossref","first-page":"277","DOI":"10.1016\/S0095-4470(03)00049-4","volume":"32","author":"J Gonz\u00e1lez","year":"2004","unstructured":"J. Gonz\u00e1lez, Formant frequencies and body size of speaker: a weak relationship in adult humans. J. Phon. 32(2), 277\u2013287 (2004)","journal-title":"J. Phon."},{"key":"586_CR16","unstructured":"S.S. Gray, D. Willett, J. Pinto, J. Lu, P. Maergner, N. Bodenstab, Child Automatic Speech Recognition for US English: Child Interaction with Living-Room-Electronic-Devices. In: Proceedings of INTERSPEECH, Workshop on Child, Computer and Interaction (2014)"},{"key":"586_CR17","doi-asserted-by":"crossref","unstructured":"J. Gustafson, K. Sjolander, Voice Transformations for Improving Children\u2019s Speech Recognition in a Publicly Available Dialogue System. In: Proceedings of ICSLP, pp. 297\u2013300 (2002)","DOI":"10.21437\/ICSLP.2002-139"},{"key":"586_CR18","unstructured":"A. Hagen, B. Pellom, R. Cole, Children\u2019s Speech Recognition with Application to Interactive Books and Tutors. In: Proceedings of ASRU Workshop, pp. 186\u2013191 (2003)"},{"issue":"12","key":"586_CR19","doi-asserted-by":"crossref","first-page":"861","DOI":"10.1016\/j.specom.2007.05.004","volume":"49","author":"A Hagen","year":"2007","unstructured":"A. Hagen, B. Pellom, R. Cole, Highly accurate children\u2019s speech recognition for interactive reading tutors using subword units. Speech Commun. 49(12), 861\u2013873 (2007)","journal-title":"Speech Commun."},{"key":"586_CR20","doi-asserted-by":"crossref","unstructured":"T.J. Hazen, J.R. Glass, A Comparison of Novel Techniques for Instantaneous Speaker Adaptation. In: Proceedings of European Conference on Speech Communication and Technology, pp. 2047\u20132050 (1997)","DOI":"10.21437\/Eurospeech.1997-542"},{"key":"586_CR21","doi-asserted-by":"crossref","DOI":"10.1007\/978-1-4757-1904-8","volume-title":"Principal Component Analysis","author":"IT Jolliffe","year":"1986","unstructured":"I.T. Jolliffe, Principal Component Analysis (Springer, Berlin, 1986)"},{"key":"586_CR22","doi-asserted-by":"crossref","unstructured":"H.K. Kathania, S. Shahnawazuddin, R. Sinha, Exploring HLDA Based Transformation for Reducing Acoustic Mismatch in Context of Children Speech Recognition. In: Proceedings of International Conference on Signal Processing and Communications (SPCOM), pp. 1\u20135 (2014)","DOI":"10.1109\/SPCOM.2014.6983999"},{"issue":"6","key":"586_CR23","doi-asserted-by":"crossref","first-page":"695","DOI":"10.1109\/89.876308","volume":"8","author":"R Kuhn","year":"2000","unstructured":"R. Kuhn, J.C. Junqua, P. Nguyen, N. Niedzielski, Rapid speaker adaptation in eigenvoice space. IEEE Trans. Speech Audio Process. 8(6), 695\u2013707 (2000)","journal-title":"IEEE Trans. Speech Audio Process."},{"issue":"4","key":"586_CR24","doi-asserted-by":"crossref","first-page":"283","DOI":"10.1016\/S0167-6393(98)00061-2","volume":"26","author":"N Kumar","year":"1998","unstructured":"N. Kumar, A.G. Andreou, Heteroscedastic discriminant analysis and reduced rank HMMs for improved speech recognition. Speech Commun. 26(4), 283\u2013297 (1998)","journal-title":"Speech Commun."},{"issue":"1","key":"586_CR25","doi-asserted-by":"crossref","first-page":"49","DOI":"10.1109\/89.650310","volume":"6","author":"L Lee","year":"1998","unstructured":"L. Lee, R. Rose, A frequency warping approach to speaker normalization. IEEE Trans. Speech Audio Process. 6(1), 49\u201360 (1998)","journal-title":"IEEE Trans. Speech Audio Process."},{"key":"586_CR26","doi-asserted-by":"crossref","first-page":"171","DOI":"10.1006\/csla.1995.0010","volume":"9","author":"CJ Leggetter","year":"1995","unstructured":"C.J. Leggetter, P.C. Woodland, Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models. Comput. Speech Lang. 9, 171\u2013185 (1995)","journal-title":"Comput. Speech Lang."},{"key":"586_CR27","doi-asserted-by":"crossref","unstructured":"H. Liao, Speaker Adaptation of Context Dependent Deep Neural Networks. In: Proceedings of ICASSP, pp. 7947\u20137951 (2013)","DOI":"10.1109\/ICASSP.2013.6639212"},{"key":"586_CR28","first-page":"433","volume":"1","author":"R Nisimura","year":"2004","unstructured":"R. Nisimura, A. Lee, H. Saruwatari, K. Shikano, Public speech-oriented guidance system with adult and child discrimination capability. Proc. ICASSP 1, 433\u2013436 (2004)","journal-title":"Proc. ICASSP"},{"issue":"6","key":"586_CR29","doi-asserted-by":"crossref","first-page":"603","DOI":"10.1109\/TSA.2003.818026","volume":"11","author":"A Potamianos","year":"2003","unstructured":"A. Potamianos, S. Narayanan, Robust recognition of children speech. IEEE Trans. Speech and Audio Process. 11(6), 603\u2013616 (2003)","journal-title":"IEEE Trans. Speech and Audio Process."},{"key":"586_CR30","doi-asserted-by":"crossref","unstructured":"Robinson, T., Fransen, J., Pye, D., Foote, J., Renals, S.: WSJCAM0: A British English Speech Corpus for Large Vocabulary Continuous Speech Recognition. In: Proceedings of ICASSP, pp. 81\u201385 (1995)","DOI":"10.1109\/ICASSP.1995.479278"},{"key":"586_CR31","first-page":"61","volume":"4","author":"J Schalkwyk","year":"2010","unstructured":"J. Schalkwyk, D. Beeferman, F. Beaufays, B. Byrne, C. Chelba, M. Cohen, M. Kamvar, B. Strope, Your word is my command: Google search by voice: a case study. Adv. Speech Recogn. Mobile Environ. Call Centers Clin. chap. 4, 61\u201390 (2010)","journal-title":"Adv. Speech Recogn. Mobile Environ. Call Centers Clin. chap."},{"key":"586_CR32","doi-asserted-by":"crossref","unstructured":"S. Shahnawazuddin, H. Kathania, R. Sinha, Enhancing the Recognition of Children\u2019s Speech on Acoustically Mismatched ASR System. In: Proceedings IEEE TENCON, 2015","DOI":"10.1109\/TENCON.2015.7373176"},{"issue":"4","key":"586_CR33","doi-asserted-by":"crossref","first-page":"493","DOI":"10.1109\/LSP.2014.2306451","volume":"21","author":"S Shahnawazuddin","year":"2014","unstructured":"S. Shahnawazuddin, R. Sinha, Improved bases selection in acoustic model interpolation for fast on-line adaptation. IEEE Signal Process. Lett. 21(4), 493\u2013497 (2014)","journal-title":"IEEE Signal Process. Lett."},{"key":"586_CR34","doi-asserted-by":"crossref","unstructured":"S. Shahnawazuddin, R. Sinha, Low-Memory Fast On-Line Adaptation for Acoustically Mismatched Children\u2019s Speech Recognition. In: Proceedings of INTERSPEECH, pp. 1630\u20131634 (2015)","DOI":"10.21437\/Interspeech.2015-377"},{"key":"586_CR35","doi-asserted-by":"crossref","unstructured":"Shao, X., Milner, B.: Pitch Prediction from MFCC Vectors for Speech Reconstruction. In: Proceedings of ICASSP, pp. 97\u2013100 (2004)","DOI":"10.21437\/Interspeech.2004-389"},{"key":"586_CR36","doi-asserted-by":"crossref","unstructured":"Singer, H., Sagayama, S.: Pitch Dependent Phone Modelling for HMM Based Speech Recognition. In: Proceedings of ICASSP, pp. 273\u2013276 (1992)","DOI":"10.1109\/ICASSP.1992.225918"},{"key":"586_CR37","doi-asserted-by":"crossref","unstructured":"R. Sinha, S. Ghai, On the Use of Pitch Normalization for Improving Children\u2019s Speech Recognition. In: Proceedings of INTERSPEECH, pp. 568\u2013571 (2009)","DOI":"10.21437\/Interspeech.2009-202"},{"issue":"3","key":"586_CR38","doi-asserted-by":"crossref","first-page":"459","DOI":"10.1109\/TASLP.2015.2511922","volume":"24","author":"T Tan","year":"2016","unstructured":"T. Tan, Y. Qian, K. Yu, Cluster adaptive training for deep neural network based acoustic model. IEEE\/ACM Trans. Audio Speech Lang. Process 24(3), 459\u2013468 (2016)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process"},{"key":"586_CR39","unstructured":"P.C. Woodland, Speaker Adaptation for Continuos Density HMMs: A Review. In: Proceedings of ISCA Tutorial and Research Workshop on Adaptatation Methods for Speech Recognition, pp. 11\u201319 (2001)"},{"issue":"12","key":"586_CR40","doi-asserted-by":"crossref","first-page":"1713","DOI":"10.1109\/TASLP.2014.2346313","volume":"22","author":"S Xue","year":"2014","unstructured":"S. Xue, O. Abdel-Hamid, H. Jiang, L. Dai, Q. Liu, Fast adaptation of deep neural network based on discriminant codes for speech recognition. IEEE\/ACM Trans. Audio Speech Lang. Process 22(12), 1713\u20131725 (2014)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process"},{"key":"586_CR41","doi-asserted-by":"crossref","unstructured":"K. Yao, D. Yu, F. Seide, H. Su, L. Deng, Y. Gong, Adaptation of Context-Dependent Deep Neural Networks for Automatic Speech Recognition. In: Proceedings of SLT, pp. 366\u2013369 (2012)","DOI":"10.1109\/SLT.2012.6424251"},{"key":"586_CR42","unstructured":"Young, S., Evermann, G., Gales, M.J.F., Kershaw, D., Moore, G., Odell, J., Ollason, D., Povey, D., Valtchev, V., Woodland, P.: The HTK Book version 3.4. CUED, Cambridge, U.K. (2006)"}],"container-title":["Circuits, Systems, and Signal Processing"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s00034-017-0586-6\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-017-0586-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-017-0586-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T11:58:40Z","timestamp":1750334320000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s00034-017-0586-6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,6,12]]},"references-count":42,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2018,3]]}},"alternative-id":["586"],"URL":"https:\/\/doi.org\/10.1007\/s00034-017-0586-6","relation":{},"ISSN":["0278-081X","1531-5878"],"issn-type":[{"type":"print","value":"0278-081X"},{"type":"electronic","value":"1531-5878"}],"subject":[],"published":{"date-parts":[[2017,6,12]]}}}