{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,24]],"date-time":"2026-01-24T02:00:45Z","timestamp":1769220045216,"version":"3.49.0"},"reference-count":29,"publisher":"Springer Science and Business Media LLC","issue":"12","license":[{"start":{"date-parts":[[2024,5,13]],"date-time":"2024-05-13T00:00:00Z","timestamp":1715558400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,5,13]],"date-time":"2024-05-13T00:00:00Z","timestamp":1715558400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"DOI":"10.1007\/s11042-024-19321-6","type":"journal-article","created":{"date-parts":[[2024,5,13]],"date-time":"2024-05-13T06:02:46Z","timestamp":1715580166000},"page":"10155-10172","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":3,"title":["ADAM optimised human speech emotion recogniser based on statistical information distribution of chroma, MFCC, and MBSE features"],"prefix":"10.1007","volume":"84","author":[{"given":"Surbhi","family":"Khurana","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Amita","family":"Dev","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Poonam","family":"Bansal","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,5,13]]},"reference":[{"issue":"4","key":"19321_CR1","doi-asserted-by":"publisher","first-page":"313","DOI":"10.1016\/j.neunet.2005.04.001","volume":"18","author":"JG Taylor","year":"2005","unstructured":"Taylor JG, Scherer K, Cowie R (2005) Emotion and brain: u. Neural Netw 18(4):313\u2013316","journal-title":"Neural Netw"},{"issue":"20","key":"19321_CR2","first-page":"6","volume":"1","author":"Y Chavhan","year":"2010","unstructured":"Chavhan Y, Dhore ML, Yesaware P (2010) Speech emotion recognition using support vector machine. Int J Comput Appl 1(20):6\u20139","journal-title":"Int J Comput Appl"},{"key":"19321_CR3","doi-asserted-by":"crossref","unstructured":"Shami M, Verhelst W (2007) An evaluation of the robustness of existing supervised machine learning approaches to the classification of emotions in speech. Speech Commun 49(3):201\u2013212.\u00a0https:\/\/doi.org\/10.1016\/j.specom.2007.01.006","DOI":"10.1016\/j.specom.2007.01.006"},{"issue":"1","key":"19321_CR4","doi-asserted-by":"publisher","first-page":"58","DOI":"10.1007\/s10044-006-0025-y","volume":"9","author":"P Rani","year":"2006","unstructured":"Rani P, Liu C, Sarkar N, Vanman E (2006) An empirical study of machine learning techniques for affect recognition in human-robot interaction. Pattern Anal Appl 9(1):58\u201369","journal-title":"Pattern Anal Appl"},{"key":"19321_CR5","doi-asserted-by":"crossref","unstructured":"Partila P, Voznak M (2013) Speech emotions recognition using a 2-d neural classifier. In: Nostradamus 2013: Prediction, modeling and analysis of complex systems. Springer, Berlin, Germany, pp 221\u2013231","DOI":"10.1007\/978-3-319-00542-3_23"},{"key":"19321_CR6","doi-asserted-by":"publisher","first-page":"52","DOI":"10.1016\/j.neunet.2021.03.013","volume":"141","author":"Z Zhao","year":"2021","unstructured":"Zhao Z (2021) Combining a parallel 2D CNN with a self-attention dilated residual network for CTC- based discrete speech emotion recognition. Neural Netw 141:52\u201360","journal-title":"Neural Netw"},{"issue":"22","key":"19321_CR7","doi-asserted-by":"publisher","first-page":"6688","DOI":"10.3390\/s20226688","volume":"20","author":"S Lee","year":"2020","unstructured":"Lee S, Han DK, Ko H (2020) Fusion-ConvBERT: parallel convolution and BERT fusion for speech emotion recognition. Sensors 20(22):6688","journal-title":"Sensors"},{"key":"19321_CR8","doi-asserted-by":"publisher","first-page":"643202","DOI":"10.3389\/fphys.2021.643202","volume":"12","author":"H Zhang","year":"2021","unstructured":"Zhang H, Gou R, Shang J, Shen F, Wu Y, Dai G (2021) Pretrained deep convolution neural network model with attention for speech emotion recognition. Front Physiol 12:643202","journal-title":"Front Physiol"},{"issue":"8","key":"19321_CR9","doi-asserted-by":"publisher","first-page":"2115","DOI":"10.1007\/s00521-011-0643-1","volume":"21","author":"D Gharavian","year":"2012","unstructured":"Gharavian D, Sheikhan M, Nazerieh A, Garoucy S (2012) Speech emotion recognition using FCBF feature selection method and GA-optimized fuzzy ARTMAP neural network. Neural Comput Appl 21(8):2115\u20132126","journal-title":"Neural Comput Appl"},{"key":"19321_CR10","first-page":"22","volume":"710","author":"V Petrushin","year":"1999","unstructured":"Petrushin V (1999) Emotion in speech: recognition and application to call centers. Proc Artif Neural Netw Eng 710:22","journal-title":"Proc Artif Neural Netw Eng"},{"issue":"3","key":"19321_CR11","doi-asserted-by":"publisher","first-page":"615","DOI":"10.1007\/s11042-011-0887-x","volume":"63","author":"S Zhang","year":"2013","unstructured":"Zhang S, Zhao X (2013) Dimensionality reduction-based spoken emotion recognition. Multimed Tools Appl 63(3):615\u2013646","journal-title":"Multimed Tools Appl"},{"issue":"10","key":"19321_CR12","doi-asserted-by":"publisher","first-page":"1175","DOI":"10.1109\/34.954607","volume":"23","author":"RW Picard","year":"2001","unstructured":"Picard RW, Vyzas E, Healey J (2001) Toward machine emotional intelligence: analysis of affective physiological state. IEEE Trans Pattern Anal Mach Intell 23(10):1175\u20131191","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"19321_CR13","doi-asserted-by":"publisher","unstructured":"Fahad Md.S, Ranjan A, Yadav J, Deepak A (2021) A survey of speech emotion recognition in natural environment. Digit Sig Proc 110:102951. https:\/\/doi.org\/10.1016\/j.dsp.2020.102951","DOI":"10.1016\/j.dsp.2020.102951"},{"key":"19321_CR14","doi-asserted-by":"crossref","unstructured":"Khurana S, Dev A, Bansal P (2021) Current state of Speech emotion dataset- national and international level. In: Proc. International conference on artificial intelligence and speech technology. Springer, pp 232\u2013243","DOI":"10.1007\/978-3-030-95711-7_21"},{"key":"19321_CR15","doi-asserted-by":"publisher","DOI":"10.1145\/3605778","author":"S Khurana","year":"2023","unstructured":"Khurana S, Dev A, Bansal P (2023) SER: performance evaluation of cnn model along with an overview of available indic speech datasets, and transition of classifiers from traditional to modern era. ACM Trans Asian Low-Resour Lang Inf Process. https:\/\/doi.org\/10.1145\/3605778","journal-title":"ACM Trans Asian Low-Resour Lang Inf Process"},{"key":"19321_CR16","doi-asserted-by":"crossref","unstructured":"Livingstone S, Russo F (2018) The Ryerson audio-visual database of emotional speech and song(RAVDESS): a dynamic. Multimodal Set Facial Vocal Expressions N. Amer Engl 13","DOI":"10.1371\/journal.pone.0196391"},{"key":"19321_CR17","unstructured":"https:\/\/www.kaggle.com\/uwrfkaggler\/ravdess-emotionalspeech-audio. Accessed Jan 2023"},{"key":"19321_CR18","doi-asserted-by":"crossref","unstructured":"Koolagudi GS, Reddy R, Yadav J, Rao KS (2022) IITKGP-SEHSC: Hindi speech corpus for emotion analysis. In: Proc. IEEE international conference on devices and communications (ICDeCom), pp1\u20135","DOI":"10.1109\/ICDECOM.2011.5738540"},{"issue":"19","key":"19321_CR19","doi-asserted-by":"publisher","first-page":"29307","DOI":"10.1007\/s11042-023-14656-y","volume":"82","author":"K Kaur","year":"2023","unstructured":"Kaur K, Singh P (2023) Trends in speech emotion recognition: a comprehensive survey. Multimed Tools Appl 82(19):29307\u201329351. https:\/\/doi.org\/10.1007\/s11042-023-14656-y","journal-title":"Multimed Tools Appl"},{"key":"19321_CR20","unstructured":"Kattel M, Nepal A, Shah AK, Shrestha D (2019) Chroma feature extraction using Fourier Transform. In: Proc the conference, Jan 2019"},{"issue":"2","key":"19321_CR21","first-page":"322","volume":"23","author":"JJM Moreno","year":"2011","unstructured":"Moreno JJM (2011) Artificial neural networks applied to forecasting time series. Psicothema 23(2):322\u2013329","journal-title":"Psicothema"},{"key":"19321_CR22","unstructured":"Raghu Vamsi U, Yuvraj Chowdhary B, Harshitha M, Ravi Theja S, Divya Udayan J (2021) Speech emotion recognition(ser) using multilayer perceptron and deep learning techniques. IEEE Access\u00a027(5)"},{"key":"19321_CR23","doi-asserted-by":"publisher","unstructured":"Agarwal SS (2011) Emotions in Hindi speech-analysis, perception and recognition. In: Proc of international conference on Speech Database and Assessment. https:\/\/doi.org\/10.1109\/ICSDA.2011.6085972","DOI":"10.1109\/ICSDA.2011.6085972"},{"key":"19321_CR24","unstructured":"Montero JM, Gutierrez-Arriola J, Col\u00e1s J, Enriquez E, Pardo JM (1999) Analysis andmodelling of emotional speech in Spanish. In: Proc of ICPhS. vol 2, pp 957\u2013960"},{"key":"19321_CR25","doi-asserted-by":"publisher","first-page":"74539","DOI":"10.1109\/ACCESS.2021.3067460","volume":"9","author":"M Xu","year":"2021","unstructured":"Xu M, Zhang F, Zhang W (2021) Head fusion: improving the accuracy and robustness of speech emotion recognition on the IEMOCAP and RAVDESS dataset. IEEE Access 9:74539\u201374549","journal-title":"IEEE Access"},{"key":"19321_CR26","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1155\/2022\/6005446","volume":"2022","author":"AA Alnuaim","year":"2022","unstructured":"Alnuaim AA et al (2022) Human-computer interaction for recognizing speech emotions using multilayer perceptron classifier. J Healthc Eng 2022:1\u201312. https:\/\/doi.org\/10.1155\/2022\/6005446","journal-title":"J Healthc Eng"},{"issue":"4","key":"19321_CR27","doi-asserted-by":"publisher","first-page":"28","DOI":"10.3390\/mti6040028","volume":"6","author":"MC Caschera","year":"2022","unstructured":"Caschera MC, Grifoni P, Ferri F (2022) Emotion classification from speech and text in videos using a multimodal approach. Multimodal Technol Interact 6(4):28. https:\/\/doi.org\/10.3390\/mti6040028","journal-title":"Multimodal Technol Interact"},{"key":"19321_CR28","doi-asserted-by":"publisher","first-page":"200171","DOI":"10.1016\/j.iswa.2022.200171","volume":"17","author":"N Ahmed","year":"2023","unstructured":"Ahmed N, Aghbari ZA, Girija S (2023) A systematic survey on multimodal emotion recognition using learning algorithms. Intell Syst Appl 17:200171. https:\/\/doi.org\/10.1016\/j.iswa.2022.200171","journal-title":"Intell Syst Appl"},{"issue":"4","key":"19321_CR29","doi-asserted-by":"publisher","first-page":"2525","DOI":"10.1007\/s11277-023-10244-3","volume":"129","author":"MJ Al-Dujaili","year":"2023","unstructured":"Al-Dujaili MJ, Ebrahimi-Moghadam A (2023) Speech emotion recognition: a comprehensive survey. Wirel Pers Commun 129(4):2525\u20132561. https:\/\/doi.org\/10.1007\/s11277-023-10244-3","journal-title":"Wirel Pers Commun"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-024-19321-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-024-19321-6\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-024-19321-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,1]],"date-time":"2025-05-01T05:03:30Z","timestamp":1746075810000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-024-19321-6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,5,13]]},"references-count":29,"journal-issue":{"issue":"12","published-online":{"date-parts":[[2025,4]]}},"alternative-id":["19321"],"URL":"https:\/\/doi.org\/10.1007\/s11042-024-19321-6","relation":{},"ISSN":["1573-7721"],"issn-type":[{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,5,13]]},"assertion":[{"value":"15 February 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"6 April 2024","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"30 April 2024","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"13 May 2024","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"Authors have shown No conflict of Interest. No funding has been taken to conduct the experiment and study.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interests"}}]}}