{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,26]],"date-time":"2026-03-26T16:11:27Z","timestamp":1774541487160,"version":"3.50.1"},"reference-count":42,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2020,7,21]],"date-time":"2020-07-21T00:00:00Z","timestamp":1595289600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2020,7,21]],"date-time":"2020-07-21T00:00:00Z","timestamp":1595289600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"funder":[{"name":"Young Faculty Research Fellowship of Visvesvaraya PhD Programme of Ministry of Electronics & Information Technology, MeitY, Government of India","award":["VISPHD-MEITY-2917, Ref: DIC\/MUM\/GA\/10(37)D, dt. 24 Jan 2019"],"award-info":[{"award-number":["VISPHD-MEITY-2917, Ref: DIC\/MUM\/GA\/10(37)D, dt. 24 Jan 2019"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Circuits Syst Signal Process"],"published-print":{"date-parts":[[2021,1]]},"DOI":"10.1007\/s00034-020-01486-8","type":"journal-article","created":{"date-parts":[[2020,7,21]],"date-time":"2020-07-21T14:04:00Z","timestamp":1595340240000},"page":"466-489","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":74,"title":["DNN-HMM-Based Speaker-Adaptive Emotion Recognition Using MFCC and Epoch-Based Features"],"prefix":"10.1007","volume":"40","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-2556-131X","authenticated-orcid":false,"given":"Md. Shah","family":"Fahad","sequence":"first","affiliation":[]},{"given":"Akshay","family":"Deepak","sequence":"additional","affiliation":[]},{"given":"Gayadhar","family":"Pradhan","sequence":"additional","affiliation":[]},{"given":"Jainath","family":"Yadav","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2020,7,21]]},"reference":[{"issue":"3","key":"1486_CR1","first-page":"1","volume":"56","author":"DO Bos","year":"2006","unstructured":"D.O. Bos, EEG-based emotion recognition. Infl. Vis. Audit. Stimul. 56(3), 1\u201317 (2006)","journal-title":"Infl. Vis. Audit. Stimul."},{"key":"1486_CR2","doi-asserted-by":"crossref","unstructured":"F. Burkhardt, A. Paeschke, M. Rolfes, W.F. Sendlmeier, B. Weiss, A database of German emotional speech, in 9h European Conference on Speech Communication and Technology (2005)","DOI":"10.21437\/Interspeech.2005-446"},{"issue":"4","key":"1486_CR3","doi-asserted-by":"publisher","first-page":"335","DOI":"10.1007\/s10579-008-9076-6","volume":"42","author":"C Busso","year":"2008","unstructured":"C. Busso, M. Bulut, C.C. Lee, A. Kazemzadeh, E. Mower, S. Kim, J.N. Chang, S. Lee, S.S. Narayanan, IEMOCAP: interactive emotional dyadic motion capture database. Lang. Resour. Eval. 42(4), 335 (2008)","journal-title":"Lang. Resour. Eval."},{"key":"1486_CR4","doi-asserted-by":"crossref","unstructured":"C. Busso, A. Metallinou, S.S. Narayanan, Iterative feature normalization for emotional speech detection, in 2011 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 5692\u20135695 (2011)","DOI":"10.1109\/ICASSP.2011.5947652"},{"issue":"2","key":"1486_CR5","doi-asserted-by":"publisher","first-page":"319","DOI":"10.1007\/s11042-011-0909-8","volume":"62","author":"RA Calix","year":"2013","unstructured":"R.A. Calix, G.M. Knapp, Actor level emotion magnitude prediction in text and speech. Multimed. Tools. Appl. 62(2), 319\u2013332 (2013)","journal-title":"Multimed. Tools. Appl."},{"issue":"6","key":"1486_CR6","doi-asserted-by":"publisher","first-page":"487","DOI":"10.1016\/j.specom.2008.03.012","volume":"50","author":"C Clavel","year":"2008","unstructured":"C. Clavel, I. Vasilescu, L. Devillers, G. Richard, T. Ehrette, Fear-type emotion recognition for future audio-based surveillance systems. Speech Commun. 50(6), 487\u2013503 (2008)","journal-title":"Speech Commun."},{"key":"1486_CR7","doi-asserted-by":"crossref","unstructured":"F. Dellaert, T. Polzin, A. Waibel, Recognizing emotion in speech, in Proceeding of Fourth International Conference on Spoken Language Processing ICSLP\u201996, vol. 3. IEEE, pp. 1970-1973. (1996)","DOI":"10.21437\/ICSLP.1996-462"},{"key":"1486_CR8","doi-asserted-by":"crossref","unstructured":"F. Eyben, A. Batliner, B. Schuller, Towards a standard set of acoustic features for the processing of emotion in speech, in Proceedings of Meetings on Acoustics 159ASA, vol. 9. Acoustical Society of America, p. 060006 (2010)","DOI":"10.1121\/1.4739483"},{"key":"1486_CR9","doi-asserted-by":"crossref","unstructured":"P. Gangamohan, S.R. Kadiri, S.V. Gangashetty, B. Yegnanarayana, Excitation source features for discrimination of anger and happy emotions, in 15th Annual Conference of the International Speech Communication Association (2014)","DOI":"10.21437\/Interspeech.2014-314"},{"issue":"2","key":"1486_CR10","doi-asserted-by":"publisher","first-page":"75","DOI":"10.1006\/csla.1998.0043","volume":"12","author":"MJ Gales","year":"1998","unstructured":"M.J. Gales, Maximum likelihood linear transformations for HMM-based speech recognition. Comput. Speech Lang. 12(2), 75\u201398 (1998)","journal-title":"Comput. Speech Lang."},{"issue":"3","key":"1486_CR11","doi-asserted-by":"publisher","first-page":"272","DOI":"10.1109\/89.759034","volume":"7","author":"MJ Gales","year":"1999","unstructured":"M.J. Gales, Semi-tied covariance matrices for hidden Markov models. IEEE Trans. Speech Audio Process. 7(3), 272\u2013281 (1999)","journal-title":"IEEE Trans. Speech Audio Process."},{"key":"1486_CR12","doi-asserted-by":"crossref","unstructured":"K. Han, D. Yu, I. Tashev, Speech emotion recognition using deep neural network and extreme learning machine, in 15th Annual Conference of the International Speech Communication Association (2014)","DOI":"10.21437\/Interspeech.2014-57"},{"issue":"12","key":"1486_CR13","doi-asserted-by":"publisher","first-page":"2639","DOI":"10.1162\/0899766042321814","volume":"16","author":"DR Hardoon","year":"2004","unstructured":"D.R. Hardoon, S. Szedmak, J. Shawe-Taylor, Canonical correlation analysis: an overview with application to learning methods. Neural Comput. 16(12), 2639\u20132664 (2004)","journal-title":"Neural Comput."},{"key":"1486_CR14","doi-asserted-by":"crossref","unstructured":"S.G. Koolagudi, R. Reddy, K.S. Rao, Emotion recognition from speech signal using epoch parameters, in 2010 international conference on signal processing and communications (SPCOM), pp. 1\u20135 (2010)","DOI":"10.1109\/SPCOM.2010.5560541"},{"issue":"2","key":"1486_CR15","doi-asserted-by":"publisher","first-page":"181","DOI":"10.1007\/s10772-012-9175-z","volume":"16","author":"SR Krothapalli","year":"2013","unstructured":"S.R. Krothapalli, S.G. Koolagudi, Characterization and recognition of emotions from speech using excitation source information. Int. J. Speech Technol. 16(2), 181\u2013201 (2013)","journal-title":"Int. J. Speech Technol."},{"key":"1486_CR16","doi-asserted-by":"publisher","first-page":"90","DOI":"10.1016\/j.specom.2016.01.008","volume":"81","author":"SS Kumar","year":"2016","unstructured":"S.S. Kumar, K.S. Rao, Voice\/non-voice detection using phase of zero frequency filtered speech signal. Speech Commun. 81, 90\u2013103 (2016)","journal-title":"Speech Commun."},{"issue":"2","key":"1486_CR17","doi-asserted-by":"publisher","first-page":"293","DOI":"10.1109\/TSA.2004.838534","volume":"13","author":"CM Lee","year":"2005","unstructured":"C.M. Lee, S.S. Narayanan, Toward detecting emotions in spoken dialogs. IEEE Trans. Speech Audio Process. 13(2), 293\u2013303 (2005)","journal-title":"IEEE Trans. Speech Audio Process."},{"key":"1486_CR18","doi-asserted-by":"crossref","unstructured":"L. Li, Y. Zhao, D. Jiang, Y. Zhang, F. Wang, I. Gonzalez, E. Valentin, H. Sahli, Hybrid deep neural network\u2013hidden Markov model (DNN-HMM) based speech emotion recognition, in 2013 Humaine Association Conference on Affective Computing and Intelligent Interaction, pp. 312\u2013317 (2013)","DOI":"10.1109\/ACII.2013.58"},{"issue":"2","key":"1486_CR19","doi-asserted-by":"publisher","first-page":"277","DOI":"10.1007\/s11042-009-0344-2","volume":"49","author":"M Mansoorizadeh","year":"2010","unstructured":"M. Mansoorizadeh, N.M. Charkari, Multimodal information fusion application to human emotion recognition from face and speech. Multimed. Tools Appl. 49(2), 277\u2013297 (2010)","journal-title":"Multimed. Tools Appl."},{"key":"1486_CR20","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1016\/j.specom.2013.07.011","volume":"57","author":"S Mariooryad","year":"2014","unstructured":"S. Mariooryad, C. Busso, Compensating for speaker or lexical variabilities in speech for emotion recognition. Speech Commun. 57, 1\u201312 (2014)","journal-title":"Speech Commun."},{"key":"1486_CR21","doi-asserted-by":"crossref","unstructured":"L. Mary, Significance of prosody for speaker, language, emotion, and speech recognition, in Extraction of Prosody for Automatic Speaker, Language, Emotion and Speech Recognition. Springer, Cham, pp. 1-22 (2019)","DOI":"10.1007\/978-3-319-91171-7_1"},{"key":"1486_CR22","unstructured":"S. Matsoukas, R. Schwartz, H. Jin, L. Nguyen, Practical implementations of speaker-adaptive training, in DARPA Speech Recognition Workshop (1997)"},{"key":"1486_CR23","doi-asserted-by":"crossref","unstructured":"S. Mirsamadi, E. Barsoum, C. Zhang, Automatic speech emotion recognition using recurrent neural networks with local attention, in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 2227\u20132231 (2017)","DOI":"10.1109\/ICASSP.2017.7952552"},{"issue":"7","key":"1486_CR24","doi-asserted-by":"publisher","first-page":"497","DOI":"10.1016\/S0950-7051(00)00070-8","volume":"13","author":"R Nakatsu","year":"2000","unstructured":"R. Nakatsu, J. Nicholson, N. Tosa, Emotion recognition and its application to computer agents with spontaneous interactive capabilities. Knowl.-Based Syst. 13(7), 497\u2013504 (2000)","journal-title":"Knowl.-Based Syst."},{"issue":"8","key":"1486_CR25","doi-asserted-by":"publisher","first-page":"2597","DOI":"10.1007\/s00034-015-9977-8","volume":"34","author":"NP Narendra","year":"2015","unstructured":"N.P. Narendra, K.S. Rao, Robust voicing detection and $$ F_ 0 $$ estimation for HMM-based speech synthesis. Circuits Syst. Signal Process. 34(8), 2597\u20132619 (2015)","journal-title":"Circuits Syst. Signal Process."},{"issue":"4","key":"1486_CR26","doi-asserted-by":"publisher","first-page":"290","DOI":"10.1007\/s005210070006","volume":"9","author":"J Nicholson","year":"2000","unstructured":"J. Nicholson, K. Takahashi, R. Nakatsu, Emotion recognition in speech using neural networks. Neural Comput. Appl. 9(4), 290\u2013296 (2000)","journal-title":"Neural Comput. Appl."},{"key":"1486_CR27","unstructured":"K.E.B. Ooi, L.S.A. Low, M. Lech, N. Allen, Early prediction of major depression in adolescents using glottal wave characteristics and teager energy parameters, in 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4613\u20134616 (2012)"},{"issue":"8","key":"1486_CR28","doi-asserted-by":"publisher","first-page":"3454","DOI":"10.1007\/s00034-019-01081-6","volume":"38","author":"D O\u2019Shaughnessy","year":"2019","unstructured":"D. O\u2019Shaughnessy, Recognition and processing of speech signals using neural networks. Circuits Syst. Signal Process. 38(8), 3454\u20133481 (2019)","journal-title":"Circuits Syst. Signal Process."},{"key":"1486_CR29","unstructured":"D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz, J. Silovsky, The Kaldi speech recognition toolkit, in IEEE 2011 Workshop on Automatic Speech Recognition and Understanding (No. CONF). IEEE Signal Processing Society (2011)"},{"key":"1486_CR30","unstructured":"L. Rabiner, Fundamentals of speech recognition. Fundam. Speech Recognit. (1993)"},{"key":"1486_CR31","unstructured":"T.V. Sagar, Characterisation and synthesis of emotions in speech using prosodic features. Master\u2019s thesis, Dept. of Electronics and communications Engineering, Indian Institute of Technology Guwahati (2007)"},{"key":"1486_CR32","doi-asserted-by":"crossref","unstructured":"B. Schuller, G. Rigoll, M. Lang, Hidden Markov model-based speech emotion recognition, in 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing Proceedings (ICASSP\u201903), vol. 2. IEEE, pp. II\u20131 (2003)","DOI":"10.1109\/ICME.2003.1220939"},{"issue":"2","key":"1486_CR33","doi-asserted-by":"publisher","first-page":"119","DOI":"10.1109\/T-AFFC.2010.8","volume":"1","author":"B Schuller","year":"2010","unstructured":"B. Schuller, B. Vlasenko, F. Eyben, M. Wollmer, A. Stuhlsatz, A. Wendemuth, G. Rigoll, Cross-corpus acoustic emotion recognition: Variances and strategies. IEEE Trans. affect. Comput. 1(2), 119\u2013131 (2010)","journal-title":"IEEE Trans. affect. Comput."},{"key":"1486_CR34","unstructured":"D. Ververidis, C. Kotropoulos, A state of the art review on emotional speech databases, in Proceedings of 1st Richmedia Conference, pp. 109\u2013119 (2003)"},{"key":"1486_CR35","doi-asserted-by":"crossref","unstructured":"D. Ververidis, C. Kotropoulos, I. Pitas, Automatic emotional speech classification, in 2004 IEEE International Conference on Acoustics, Speech, and Signal Processing, vol. 1. IEEE, pp. I-593 (2004)","DOI":"10.1109\/ICASSP.2004.1326055"},{"issue":"1\u20133","key":"1486_CR36","doi-asserted-by":"publisher","first-page":"133","DOI":"10.1016\/S0167-6393(98)00033-8","volume":"25","author":"O Viikki","year":"1998","unstructured":"O. Viikki, K. Laurila, Cepstral domain segmental feature vector normalization for noise robust speech recognition. Speech Commun. 25(1\u20133), 133\u2013147 (1998)","journal-title":"Speech Commun."},{"issue":"5","key":"1486_CR37","doi-asserted-by":"publisher","first-page":"1643","DOI":"10.1007\/s00034-015-0134-1","volume":"35","author":"HK Vydana","year":"2016","unstructured":"H.K. Vydana, S.R. Kadiri, A.K. Vuppala, Vowel-based non-uniform prosody modification for emotion conversion. Circuits Syst. Signal Process. 35(5), 1643\u20131663 (2016)","journal-title":"Circuits Syst. Signal Process."},{"key":"1486_CR38","unstructured":"Y. Wang, L. Guan, An investigation of speech-based human emotion recognition, in IEEE 6th Workshop on Multimedia Signal Processing, pp. 15\u201318 (2004)"},{"issue":"18","key":"1486_CR39","doi-asserted-by":"publisher","first-page":"24353","DOI":"10.1007\/s11042-018-5742-x","volume":"77","author":"C Wu","year":"2018","unstructured":"C. Wu, C. Huang, H. Chen, Text-independent speech emotion recognition using frequency adaptive features. Multimed. Tools Appl. 77(18), 24353\u201324363 (2018)","journal-title":"Multimed. Tools Appl."},{"issue":"1","key":"1486_CR40","doi-asserted-by":"publisher","first-page":"139","DOI":"10.1007\/s00034-015-0051-3","volume":"35","author":"J Yadav","year":"2016","unstructured":"J. Yadav, K.S. Rao, Prosodic mapping using neural networks for emotion conversion in Hindi language. Circuits Syst. Signal Process. 35(1), 139\u2013162 (2016)","journal-title":"Circuits Syst. Signal Process."},{"key":"1486_CR41","doi-asserted-by":"publisher","first-page":"142","DOI":"10.1016\/j.specom.2017.12.002","volume":"96","author":"J Yadav","year":"2018","unstructured":"J. Yadav, M.S. Fahad, K.S. Rao, Epoch detection from emotional speech signal using zero time windowing. Speech Commun. 96, 142\u2013149 (2018)","journal-title":"Speech Commun."},{"key":"1486_CR42","doi-asserted-by":"crossref","unstructured":"D. Yu, L. Deng, Automatic Speech Recognition. Springer London Limited (2016)","DOI":"10.1007\/978-1-4471-5779-3"}],"container-title":["Circuits, Systems, and Signal Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-020-01486-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00034-020-01486-8\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-020-01486-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,8,10]],"date-time":"2024-08-10T13:28:17Z","timestamp":1723296497000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00034-020-01486-8"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020,7,21]]},"references-count":42,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2021,1]]}},"alternative-id":["1486"],"URL":"https:\/\/doi.org\/10.1007\/s00034-020-01486-8","relation":{},"ISSN":["0278-081X","1531-5878"],"issn-type":[{"value":"0278-081X","type":"print"},{"value":"1531-5878","type":"electronic"}],"subject":[],"published":{"date-parts":[[2020,7,21]]},"assertion":[{"value":"23 April 2019","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"12 June 2020","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"13 June 2020","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 July 2020","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}