{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,7]],"date-time":"2026-01-07T07:34:08Z","timestamp":1767771248894,"version":"3.37.3"},"reference-count":37,"publisher":"Springer Science and Business Media LLC","issue":"7","license":[{"start":{"date-parts":[[2021,1,11]],"date-time":"2021-01-11T00:00:00Z","timestamp":1610323200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2021,1,11]],"date-time":"2021-01-11T00:00:00Z","timestamp":1610323200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100004543","name":"China Scholarship Council","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100004543","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Circuits Syst Signal Process"],"published-print":{"date-parts":[[2021,7]]},"DOI":"10.1007\/s00034-020-01641-1","type":"journal-article","created":{"date-parts":[[2021,1,11]],"date-time":"2021-01-11T14:21:50Z","timestamp":1610374910000},"page":"3621-3638","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["Variance Normalised Features for Language and Dialect Discrimination"],"prefix":"10.1007","volume":"40","author":[{"given":"Xiaoxiao","family":"Miao","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7111-2008","authenticated-orcid":false,"given":"Ian","family":"McLoughlin","sequence":"additional","affiliation":[]},{"given":"Yan","family":"Song","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2021,1,11]]},"reference":[{"key":"1641_CR1","doi-asserted-by":"publisher","first-page":"33","DOI":"10.1016\/j.specom.2019.04.001","volume":"110","author":"AI Ahmed","year":"2019","unstructured":"A.I. Ahmed, J.P. Chiverton, D.L. Ndzi, V.M. Becerra, Speaker recognition using PCA-based feature transformation. Speech Commun. 110, 33\u201346 (2019)","journal-title":"Speech Commun."},{"key":"1641_CR2","doi-asserted-by":"crossref","unstructured":"A. Ali, S. Shon, Y. Samih, H. Mubarak, A. Abdelali, J. Glass, S. Renals, K. Choukri, K. The MGB-5 challenge: Recognition and dialect identification of dialectal Arabic speech. in IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU) (2019)","DOI":"10.1109\/ASRU46091.2019.9003960"},{"key":"1641_CR3","doi-asserted-by":"crossref","unstructured":"W. Cai, Z. Cai, W. Liu, X. Wang, M. Li. Insights into end-to-end learning scheme for language identification. arXiv preprint arXiv:1804.00381 (2018)","DOI":"10.1109\/ICASSP.2018.8462026"},{"key":"1641_CR4","doi-asserted-by":"crossref","unstructured":"W. Cai, Z. Cai, X. Zhang, X. Wang, M. Li, A novel learnable dictionary encoding layer for end-to-end language identification. in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 5189\u20135193. IEEE (2018)","DOI":"10.1109\/ICASSP.2018.8462025"},{"key":"1641_CR5","doi-asserted-by":"crossref","unstructured":"W.M. Campbell, J. Campbell, D.A. Reynolds, D.A. Jones, T.R. Leek, High-level speaker verification with support vector machines. in 2004 IEEE International Conference on Acoustics, Speech, and Signal Processing, vol.\u00a01, pp. I\u201373. IEEE (2004)","DOI":"10.1109\/ICASSP.2004.1325925"},{"key":"1641_CR6","doi-asserted-by":"crossref","unstructured":"W.M. Campbell, F. Richardson, D.A. Reynolds, Language recognition with word lattices and support vector machines. in 2007 IEEE International Conference on Acoustics, Speech and Signal Processing-ICASSP\u201907, vol.\u00a04, pp. IV\u2013989. IEEE (2007)","DOI":"10.1109\/ICASSP.2007.367238"},{"issue":"5","key":"1641_CR7","doi-asserted-by":"publisher","first-page":"308","DOI":"10.1109\/LSP.2006.870086","volume":"13","author":"WM Campbell","year":"2006","unstructured":"W.M. Campbell, D.E. Sturim, D.A. Reynolds, Support vector machines using GMM supervectors for speaker verification. IEEE Signal Process. Lett. 13(5), 308\u2013311 (2006)","journal-title":"IEEE Signal Process. Lett."},{"issue":"4","key":"1641_CR8","doi-asserted-by":"publisher","first-page":"357","DOI":"10.1109\/TASSP.1980.1163420","volume":"28","author":"S Davis","year":"1980","unstructured":"S. Davis, P. Mermelstein, Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IEEE Trans. Acoustics Speech Signal Process. 28(4), 357\u2013366 (1980)","journal-title":"IEEE Trans. Acoustics Speech Signal Process."},{"key":"1641_CR9","doi-asserted-by":"crossref","unstructured":"N. Dehak, P.A. Torres-Carrasquillo, D. Reynolds, R. Dehak, Language recognition via i-vectors and dimensionality reduction. in Twelfth Annual Conference of the International Speech Communication Association (2011)","DOI":"10.21437\/Interspeech.2011-328"},{"key":"1641_CR10","volume-title":"An Introduction to Language","author":"V Fromkin","year":"2018","unstructured":"V. Fromkin, R. Rodman, N. Hyams, An Introduction to Language (Cengage Learning, Boston, 2018)"},{"issue":"4","key":"1641_CR11","doi-asserted-by":"publisher","first-page":"1738","DOI":"10.1121\/1.399423","volume":"87","author":"H Hermansky","year":"1990","unstructured":"H. Hermansky, Perceptual linear predictive (PLP) analysis of speech. J. Acoust. Soc. Am. 87(4), 1738\u20131752 (1990)","journal-title":"J. Acoust. Soc. Am."},{"issue":"7","key":"1641_CR12","doi-asserted-by":"publisher","first-page":"e100795","DOI":"10.1371\/journal.pone.0100795","volume":"9","author":"B Jiang","year":"2014","unstructured":"B. Jiang, Y. Song, S. Wei, J.H. Liu, I.V. McLoughlin, L.R. Dai, Deep bottleneck features for spoken language identification. PLoS ONE 9(7), e100795 (2014)","journal-title":"PLoS ONE"},{"issue":"1","key":"1641_CR13","doi-asserted-by":"publisher","first-page":"171","DOI":"10.1109\/TASLP.2017.2766023","volume":"26","author":"M Jin","year":"2018","unstructured":"M. Jin, Y. Song, I. McLoughlin, L.R. Dai, LID-senones and their statistics for language identification. IEEE\/ACM Trans. Audio Speech Lang. Process. 26(1), 171\u2013183 (2018)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"1641_CR14","doi-asserted-by":"crossref","unstructured":"M.A. Kohler, M. Kennedy, Language identification using shifted delta cepstra. in The 2002 45th Midwest Symposium on Circuits and Systems, 2002. MWSCAS-2002., vol.\u00a03, pp. III\u201369. IEEE (2002)","DOI":"10.1109\/MWSCAS.2002.1186972"},{"key":"1641_CR15","doi-asserted-by":"crossref","unstructured":"Y. Lei, L. Ferrer, A. Lawson, M. McLaren, N. Scheffer, Application of convolutional neural networks to language identification in noisy conditions. in Odyssey (2014)","DOI":"10.21437\/Odyssey.2014-43"},{"issue":"1","key":"1641_CR16","doi-asserted-by":"publisher","first-page":"271","DOI":"10.1109\/TASL.2006.876860","volume":"15","author":"H Li","year":"2007","unstructured":"H. Li, B. Ma, C.H. Lee, A vector space modeling approach to spoken language identification. IEEE Trans. Audio Speech Lang. Process. 15(1), 271\u2013284 (2007)","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"issue":"5","key":"1641_CR17","doi-asserted-by":"publisher","first-page":"1136","DOI":"10.1109\/JPROC.2012.2237151","volume":"101","author":"H Li","year":"2013","unstructured":"H. Li, B. Ma, K.A. Lee, Spoken language recognition: from fundamentals to practice. Proc. IEEE 101(5), 1136\u20131159 (2013)","journal-title":"Proc. IEEE"},{"key":"1641_CR18","doi-asserted-by":"publisher","first-page":"611","DOI":"10.1109\/TPAMI.1981.4767154","volume":"5","author":"W Malina","year":"1981","unstructured":"W. Malina, On an extended Fisher criterion for feature selection. IEEE Trans. Pattern Anal. Mach. Intell. 5, 611\u2013614 (1981)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"1641_CR19","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9781316084205","volume-title":"Speech and Audio Processing: a MATLAB-Based Approach","author":"IV McLoughlin","year":"2016","unstructured":"I.V. McLoughlin, Speech and Audio Processing: a MATLAB-Based Approach (Cambridge University Press, Cambridge, 2016)"},{"key":"1641_CR20","doi-asserted-by":"crossref","unstructured":"X. Miao, I. McLoughlin, Y. Yan, A new time-frequency attention mechanism for TDNN and CNN-LSTM-TDNN, with application to language identification. in Proc. Interspeech (2019)","DOI":"10.21437\/Interspeech.2019-1256"},{"issue":"1","key":"1641_CR21","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s13042-019-00928-3","volume":"11","author":"H Mukherjee","year":"2020","unstructured":"H. Mukherjee, S.M. Obaidullah, K. Santosh, S. Phadikar, K. Roy, A lazy learning-based language identification from speech using MFCC-2 features. Int. J. Mach. Learn. Cybernetics 11(1), 1\u201314 (2020)","journal-title":"Int. J. Mach. Learn. Cybernetics"},{"key":"1641_CR22","unstructured":"D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz, et\u00a0al. The Kaldi speech recognition toolkit. in IEEE 2011 workshop on automatic speech recognition and understanding, EPFL-CONF-192584. IEEE Signal Processing Society (2011)"},{"issue":"1\u20133","key":"1641_CR23","doi-asserted-by":"publisher","first-page":"19","DOI":"10.1006\/dspr.1999.0361","volume":"10","author":"DA Reynolds","year":"2000","unstructured":"D.A. Reynolds, T.F. Quatieri, R.B. Dunn, Speaker verification using adapted Gaussian mixture models. Digital Signal Process. 10(1\u20133), 19\u201341 (2000)","journal-title":"Digital Signal Process."},{"issue":"10","key":"1641_CR24","doi-asserted-by":"publisher","first-page":"1671","DOI":"10.1109\/LSP.2015.2420092","volume":"22","author":"F Richardson","year":"2015","unstructured":"F. Richardson, D. Reynolds, N. Dehak, Deep neural network approaches to speaker and language recognition. IEEE Signal Process. Lett. 22(10), 1671\u20131675 (2015)","journal-title":"IEEE Signal Process. Lett."},{"key":"1641_CR25","doi-asserted-by":"crossref","unstructured":"H. Sak, A. Senior, F. Beaufays, Long short-term memory based recurrent neural network architectures for large vocabulary speech recognition. arXiv preprint arXiv:1402.1128 (2014)","DOI":"10.21437\/Interspeech.2014-80"},{"key":"1641_CR26","doi-asserted-by":"crossref","unstructured":"D. Snyder, D. Garcia-Romero, A. McCree, G. Sell, D. Povey, S. Khudanpur, Spoken language recognition using x-vectors. in Odyssey, pp. 105\u2013111 (2018)","DOI":"10.21437\/Odyssey.2018-15"},{"key":"1641_CR27","doi-asserted-by":"crossref","unstructured":"Y. Song, X. Hong, B. Jiang, R. Cui, I. McLoughlin, L.R. Dai, Deep bottleneck network based i-vector representation for language identification. in Sixteenth Annual Conference of the International Speech Communication Association. Proc. Interspeech (2015)","DOI":"10.21437\/Interspeech.2015-163"},{"issue":"24","key":"1641_CR28","doi-asserted-by":"publisher","first-page":"1569","DOI":"10.1049\/el.2013.1721","volume":"49","author":"Y Song","year":"2013","unstructured":"Y. Song, B. Jiang, Y. Bao, S. Wei, L.R. Dai, I-vector representation based on bottleneck features for language identification. Electron. Lett. 49(24), 1569\u20131570 (2013)","journal-title":"Electron. Lett."},{"key":"1641_CR29","unstructured":"National Institute of Standards and Technology: The 2007 NIST language recognition evaluation plan (lre07) (2007). https:\/\/catalog.ldc.upenn.edu\/docs\/LDC2009S04\/LRE07EvalPlan-v8b-1.pdf 3b"},{"issue":"1","key":"1641_CR30","doi-asserted-by":"publisher","first-page":"134","DOI":"10.1109\/TASLP.2017.2764271","volume":"26","author":"Z Tang","year":"2018","unstructured":"Z. Tang, D. Wang, Y. Chen, L. Li, A. Abel, Phonetic temporal neural model for language identification. IEEE\/ACM Trans. Audio Speech Lang. Process. 26(1), 134\u2013144 (2018)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"1641_CR31","doi-asserted-by":"crossref","unstructured":"P.A. Torres-Carrasquillo, E. Singer, M.A. Kohler, R.J. Greene, D.A. Reynolds, J.R. Deller\u00a0Jr, Approaches to language identification using Gaussian mixture models and shifted delta cepstral features. in Seventh International Conference on Spoken Language Processing (2002)","DOI":"10.1109\/ICASSP.2002.5743828"},{"issue":"1","key":"1641_CR32","doi-asserted-by":"publisher","first-page":"15","DOI":"10.1109\/LSP.2012.2227312","volume":"20","author":"H Wang","year":"2013","unstructured":"H. Wang, C.C. Leung, T. Lee, B. Ma, H. Li, Shifted-delta MLP features for spoken language recognition. IEEE Signal Process. Lett. 20(1), 15\u201318 (2013)","journal-title":"IEEE Signal Process. Lett."},{"key":"1641_CR33","doi-asserted-by":"publisher","first-page":"119","DOI":"10.1016\/j.dsp.2016.04.005","volume":"54","author":"Z Xie","year":"2016","unstructured":"Z. Xie, I. McLoughlin, H. Zhang, Y. Song, W. Xiao, A new variance-based approach for discriminative feature extraction in machine hearing classification using spectrogram features. Digit. Signal Proc. 54, 119\u2013128 (2016)","journal-title":"Digit. Signal Proc."},{"key":"1641_CR34","doi-asserted-by":"crossref","unstructured":"Y. Yan, E. Barnard, An approach to automatic language identification based on language-dependent phone recognition. in 1995 International Conference on Acoustics, Speech, and Signal Processing, vol.\u00a05, pp. 3511\u20133514. IEEE (1995)","DOI":"10.1109\/ICASSP.1995.479743"},{"issue":"1","key":"1641_CR35","doi-asserted-by":"publisher","first-page":"37","DOI":"10.1006\/csla.1996.0003","volume":"10","author":"Y Yan","year":"1996","unstructured":"Y. Yan, E. Barnard, R.A. Cole, Development of an approach to automatic language identification based on phone recognition. Comput. Speech Lang. 10(1), 37\u201354 (1996)","journal-title":"Comput. Speech Lang."},{"key":"1641_CR36","doi-asserted-by":"publisher","unstructured":"Y. Yang, H. Zhang, W. Tu, H. Ai, L. Cai, R. Hu, F. Xiang, Kullback-Leibler divergence frequency warping scale for acoustic scene classification using convolutional neural network. in ICASSP 2019\u20132019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 840\u2013844 (2019). https:\/\/doi.org\/10.1109\/ICASSP.2019.8683000","DOI":"10.1109\/ICASSP.2019.8683000"},{"issue":"1","key":"1641_CR37","doi-asserted-by":"publisher","first-page":"31","DOI":"10.1109\/TSA.1996.481450","volume":"4","author":"MA Zissman","year":"1996","unstructured":"M.A. Zissman, Comparison of four approaches to automatic language identification of telephone speech. IEEE Trans. Speech Audio Process. 4(1), 31 (1996)","journal-title":"IEEE Trans. Speech Audio Process."}],"container-title":["Circuits, Systems, and Signal Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-020-01641-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00034-020-01641-1\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-020-01641-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,8,22]],"date-time":"2024-08-22T05:24:21Z","timestamp":1724304261000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00034-020-01641-1"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,1,11]]},"references-count":37,"journal-issue":{"issue":"7","published-print":{"date-parts":[[2021,7]]}},"alternative-id":["1641"],"URL":"https:\/\/doi.org\/10.1007\/s00034-020-01641-1","relation":{},"ISSN":["0278-081X","1531-5878"],"issn-type":[{"type":"print","value":"0278-081X"},{"type":"electronic","value":"1531-5878"}],"subject":[],"published":{"date-parts":[[2021,1,11]]},"assertion":[{"value":"29 May 2020","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"18 December 2020","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"24 December 2020","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"11 January 2021","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}