{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,31]],"date-time":"2026-03-31T02:06:38Z","timestamp":1774922798834,"version":"3.50.1"},"reference-count":99,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2025,3,4]],"date-time":"2025-03-04T00:00:00Z","timestamp":1741046400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0"},{"start":{"date-parts":[[2025,3,4]],"date-time":"2025-03-04T00:00:00Z","timestamp":1741046400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J Big Data"],"DOI":"10.1186\/s40537-025-01090-0","type":"journal-article","created":{"date-parts":[[2025,3,4]],"date-time":"2025-03-04T06:34:18Z","timestamp":1741070058000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":8,"title":["Developing a negative speech emotion recognition model for safety systems using deep learning"],"prefix":"10.1186","volume":"12","author":[{"given":"Shreya","family":"Jena","sequence":"first","affiliation":[]},{"given":"Sneha","family":"Basak","sequence":"additional","affiliation":[]},{"given":"Himanshi","family":"Agrawal","sequence":"additional","affiliation":[]},{"given":"Bunny","family":"Saini","sequence":"additional","affiliation":[]},{"given":"Shilpa","family":"Gite","sequence":"additional","affiliation":[]},{"given":"Ketan","family":"Kotecha","sequence":"additional","affiliation":[]},{"given":"Sultan","family":"Alfarhood","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,3,4]]},"reference":[{"key":"1090_CR1","doi-asserted-by":"crossref","unstructured":"Mishra V, Shivankar N, Gadpayle S, Shinde S, Khan MohdA, Zunke S. Women\u2019s Safety System by Voice Recognition. 2020 IEEE International Students\u2019 Conference on Electrical, Electronics and Computer Science (SCEECS). Bhopal, India: IEEE; 2020.","DOI":"10.1109\/SCEECS48394.2020.3"},{"key":"1090_CR2","doi-asserted-by":"publisher","first-page":"33","DOI":"10.5120\/ijca2015907144","volume":"130","author":"A Paradkar","year":"2015","unstructured":"Paradkar A, Sharma D. All in one intelligent safety system for women security. IJCA. 2015;130:33\u201340.","journal-title":"IJCA"},{"key":"1090_CR3","doi-asserted-by":"crossref","unstructured":"Prashanth DS, Patel G, Bharathi B. Research and development of a mobile based women safety application with real-time database and data-stream network. 2017 International Conference on Circuit, Power and Computing Technologies (ICCPCT). Kollam, India: IEEE; 2017. p. 1\u20135.","DOI":"10.1109\/ICCPCT.2017.8074261"},{"key":"1090_CR4","first-page":"2","volume":"32","author":"A Murugan","year":"2021","unstructured":"Murugan A, Anitha C, Bharathi T, Jeevitha G. A novel approach in women safety system. Turkish J Physiother Rehabil. 2021;32:2.","journal-title":"Turkish J Physiother Rehabil"},{"key":"1090_CR5","doi-asserted-by":"crossref","unstructured":"Cohen J. Embedded speech recognition applications in mobile phones: Status, trends, and challenges. 2008 IEEE International Conference on Acoustics, Speech and Signal Processing. Las Vegas, NV, USA: IEEE; 2008.","DOI":"10.1109\/ICASSP.2008.4518869"},{"key":"1090_CR6","doi-asserted-by":"publisher","DOI":"10.18178\/ijmlc.2018.8.6.739","author":"SV Ault","year":"2018","unstructured":"Ault SV, Perez RJ, Kimble CA, Wang J. On speech recognition algorithms. IJMLC. 2018. https:\/\/doi.org\/10.18178\/ijmlc.2018.8.6.739.","journal-title":"IJMLC"},{"key":"1090_CR7","doi-asserted-by":"publisher","first-page":"19143","DOI":"10.1109\/ACCESS.2019.2896880","volume":"7","author":"AB Nassif","year":"2019","unstructured":"Nassif AB, Shahin I, Attili I, Azzeh M, Shaalan K. Speech recognition using deep neural networks: a systematic review. IEEE Access. 2019;7:19143\u201365.","journal-title":"IEEE Access"},{"key":"1090_CR8","first-page":"77","volume":"3","author":"MA Al-Alaoui","year":"2008","unstructured":"Al-Alaoui MA, Al-Kanj L, Azar J, Yaacoub E. Speech recognition using artificial neural networks and hidden markov models. IEEE Multidisc Eng Educ Magazine. 2008;3:77\u201386.","journal-title":"IEEE Multidisc Eng Educ Magazine"},{"key":"1090_CR9","doi-asserted-by":"crossref","unstructured":"Deng L, Hinton G, Kingsbury B. New types of deep neural network learning for speech recognition and related applications: an overview. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver, BC, Canada: IEEE; 2013. p. 8599\u2013603.","DOI":"10.1109\/ICASSP.2013.6639344"},{"key":"1090_CR10","first-page":"51","volume":"8","author":"WB Amara","year":"2020","unstructured":"Amara WB, Hamza S, Touihri A. Speech recognition for COVID-19 keywords using machine learning. Int J Sci Res Comput Sci Eng. 2020;8:51\u20137.","journal-title":"Int J Sci Res Comput Sci Eng"},{"key":"1090_CR11","unstructured":"De Andrade, Leo S, Viana MLDS, Bernkopf C, Douglas Coimbra. A neural attention model for speech command recognition. arXiv; 2018."},{"key":"1090_CR12","doi-asserted-by":"crossref","unstructured":"Liu M, Wang Y, Wang J, Wang J, Xie X. Speech Enhancement Method Based On LSTM Neural Network for Speech Recognition. 2018 14th IEEE International Conference on Signal Processing (ICSP). Beijing, China: IEEE; 2018. p. 245\u20139.","DOI":"10.1109\/ICSP.2018.8652331"},{"key":"1090_CR13","first-page":"171","volume":"5","author":"BR Poorna","year":"2020","unstructured":"Poorna BR, Haripriya J, Mohan J. wSafe24\/7- a personalized women safety application. Int Res J Adv Eng Sci. 2020;5:171\u20134.","journal-title":"Int Res J Adv Eng Sci"},{"key":"1090_CR14","doi-asserted-by":"publisher","first-page":"1533","DOI":"10.1109\/TASLP.2014.2339736","volume":"22","author":"O Abdel-Hamid","year":"2014","unstructured":"Abdel-Hamid O, Mohamed A, Jiang H, Deng L, Penn G, Yu D. Convolutional neural networks for speech recognition. IEEE\/ACM Trans Audio Speech Lang Process. 2014;22:1533\u201345.","journal-title":"IEEE\/ACM Trans Audio Speech Lang Process"},{"key":"1090_CR15","doi-asserted-by":"crossref","unstructured":"Nahid MMH, Purkaystha B, Islam MS. Bengali speech recognition: A double layered LSTM-RNN approach. 2017 20th International Conference of Computer and Information Technology (ICCIT). Dhaka: IEEE; 2017. p. 1\u20136.","DOI":"10.1109\/ICCITECHN.2017.8281848"},{"key":"1090_CR16","doi-asserted-by":"crossref","unstructured":"Karmiani D, Kazi R, Nambisan A, Shah A, Kamble V. Comparison of Predictive Algorithms: Backpropagation, SVM, LSTM and Kalman Filter for Stock Market. 2019 Amity International Conference on Artificial Intelligence (AICAI). Dubai, United Arab Emirates: IEEE; 2019. p. 228\u201334.","DOI":"10.1109\/AICAI.2019.8701258"},{"key":"1090_CR17","unstructured":"Chen G. A Gentle Tutorial of Recurrent Neural Network with Error Backpropagation. 2016;"},{"key":"1090_CR18","doi-asserted-by":"crossref","unstructured":"Zhang Z, Geiger J, Pohjalainen J, Mousa AE-D, Jin W, Schuller B. Deep Learning for Environmentally Robust Speech Recognition: An Overview of Recent Developments. 2017;","DOI":"10.1145\/3178115"},{"key":"1090_CR19","doi-asserted-by":"publisher","first-page":"768","DOI":"10.4314\/jfas.v9i3s.59","volume":"9","author":"A Zabidi","year":"2018","unstructured":"Zabidi A, Yassin IM, Hassan HA, Ismail N, Hamzah MMAM, Rizman ZI, et al. Detection of asphyxia in infants using deep learning Convolutional Neural Network (CNN) trained on Mel Frequency Cepstrum Coefficient (MFCC) features extracted from cry sounds. J Fundam and Appl Sci. 2018;9:768.","journal-title":"J Fundam and Appl Sci"},{"key":"1090_CR20","doi-asserted-by":"crossref","unstructured":"Chen G, Parada C, Heigold G. Small-footprint keyword spotting using deep neural networks. 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Florence, Italy: IEEE; 2014. p. 4087\u201391","DOI":"10.1109\/ICASSP.2014.6854370"},{"key":"1090_CR21","doi-asserted-by":"publisher","DOI":"10.1088\/1742-6596\/1973\/1\/012166","author":"A Alsobhani","year":"2021","unstructured":"Alsobhani A, ALabboodi HMA, Mahdi H. Speech recognition using convolution deep neural networks. J Phys Conf Ser. 2021. https:\/\/doi.org\/10.1088\/1742-6596\/1973\/1\/012166.","journal-title":"J Phys Conf Ser"},{"key":"1090_CR22","doi-asserted-by":"crossref","unstructured":"Ashar A, Bhatti MS, Mushtaq U. Speaker Identification Using a Hybrid CNN-MFCC Approach. 2020 International Conference on Emerging Trends in Smart Technologies (ICETST). Karachi, Pakistan: IEEE; 2020. p. 1\u20134.","DOI":"10.1109\/ICETST49965.2020.9080730"},{"key":"1090_CR23","doi-asserted-by":"crossref","unstructured":"Zhang Y, Pezeshki M, Brakel P, Zhang S, Bengio CLY, Courville A. Towards End-to-End Speech Recognition with Deep Convolutional Neural Networks. 2017;","DOI":"10.21437\/Interspeech.2016-1446"},{"key":"1090_CR24","doi-asserted-by":"crossref","unstructured":"Dara S, Tumma P. Feature Extraction By Using Deep Learning: A Survey 2018 Second International Conference on Electronics, Communication and Aerospace Technology (ICECA). Coimbatore: IEEE; 2018.","DOI":"10.1109\/ICECA.2018.8474912"},{"key":"1090_CR25","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2015-3","volume-title":"Analysis of CNN-based speech recognition system using raw speech as input","author":"D Palaz","year":"2015","unstructured":"Palaz D, Magimai-Doss M, Collobert R. Analysis of CNN-based speech recognition system using raw speech as input. Hyderabad: Interspeech; 2015."},{"key":"1090_CR26","doi-asserted-by":"crossref","unstructured":"Qi J, Tejedor J. Classical-to-Quantum Transfer Learning for Spoken Command Recognition Based on Quantum Neural Networks. 2021;","DOI":"10.1109\/ICASSP43922.2022.9747636"},{"key":"1090_CR27","doi-asserted-by":"crossref","unstructured":"Qi J, Tejedor J. Exploiting Hybrid Models of Tensor-Train Networks for Spoken Command Recognition. 2022;","DOI":"10.1109\/ICASSP43922.2022.9747327"},{"key":"1090_CR28","doi-asserted-by":"crossref","unstructured":"Yang C-HH, Qi J, Chen SY-C, Chen P-Y, Siniscalchi SM, Ma X, et al. Decentralizing Feature Extraction with Quantum Convolutional Neural Network for Automatic Speech Recognition. ICASSP 2021 - 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Toronto, ON, Canada: IEEE; 2021.","DOI":"10.1109\/ICASSP39728.2021.9413453"},{"key":"1090_CR29","doi-asserted-by":"crossref","unstructured":"Jun Qi, Dong Wang, Yi Jiang, Runsheng Liu. Auditory features based on Gammatone filters for robust speech recognition. 2013 IEEE International Symposium on Circuits and Systems (ISCAS2013). Beijing: IEEE; 2013.","DOI":"10.1109\/ISCAS.2013.6571843"},{"key":"1090_CR30","doi-asserted-by":"crossref","unstructured":"Schneider S, Baevski A, Collobert R, Auli M. wav2vec: Unsupervised Pre-training for Speech Recognition. 2019;","DOI":"10.21437\/Interspeech.2019-1873"},{"key":"1090_CR31","doi-asserted-by":"crossref","unstructured":"Lu L, Liu C, Li J, Gong Y. Exploring Transformers for Large-Scale Speech Recognition. 2020;","DOI":"10.21437\/Interspeech.2020-2638"},{"key":"1090_CR32","doi-asserted-by":"crossref","unstructured":"Boles A, Rad P. Voice biometrics: deep learning-based voiceprint authentication system. 2017 12th System of Systems Engineering Conference (SoSE). Waikoloa, HI, USA: IEEE; 2017. p. 1\u20136.","DOI":"10.1109\/SYSOSE.2017.7994971"},{"key":"1090_CR33","doi-asserted-by":"crossref","unstructured":"Xiong W, Wu L, Alleva F, Droppo J, Huang X, Stolcke A. The Microsoft 2017 Conversational Speech Recognition System. 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Calgary, AB: IEEE; 2018.","DOI":"10.1109\/ICASSP.2018.8461870"},{"key":"1090_CR34","unstructured":"Amodei D, Anubhai R, Battenberg E, Case C, Casper J, Catanzaro B, et al. Deep Speech 2: End-to-End Speech Recognition in English and Mandarin. arXiv. 2015;"},{"key":"1090_CR35","doi-asserted-by":"publisher","first-page":"22","DOI":"10.1016\/j.neunet.2020.06.015","volume":"130","author":"M Deng","year":"2020","unstructured":"Deng M, Meng T, Cao J, Wang S, Zhang J, Fan H. Heart sound classification based on improved MFCC features and convolutional recurrent neural networks. Neural Netw. 2020;130:22\u201332.","journal-title":"Neural Netw"},{"key":"1090_CR36","doi-asserted-by":"crossref","unstructured":"Krishna G, Tran C, Yu J, Tewfik AH. Speech Recognition with No Speech or with Noisy Speech. ICASSP 2019 - 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brighton, United Kingdom: IEEE; 2019. p. 1090\u20134.","DOI":"10.1109\/ICASSP.2019.8683453"},{"key":"1090_CR37","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2019-2993","volume-title":"Study of the Performance of Automatic Speech Recognition Systems in Speakers with Parkinson\u2019s Disease","author":"L Moro-Velazquez","year":"2019","unstructured":"Moro-Velazquez L, Cho J, Watanabe S, Hasegawa-Johnson MA, Scharenborg O, Kim H, et al. Study of the Performance of Automatic Speech Recognition Systems in Speakers with Parkinson\u2019s Disease. Hyderabad: Interspeech; 2019."},{"key":"1090_CR38","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2020-2698","volume-title":"Improving Detection of Alzheimer\u2019s Disease Using Automatic Speech Recognition to Identify High-Quality Segments for More Robust Feature Extraction","author":"Y Pan","year":"2020","unstructured":"Pan Y, Mirheidari B, Reuber M, Venneri A, Blackburn D, Christensen H. Improving Detection of Alzheimer\u2019s Disease Using Automatic Speech Recognition to Identify High-Quality Segments for More Robust Feature Extraction. Interspeech: Hyderabad; 2020."},{"key":"1090_CR39","doi-asserted-by":"publisher","first-page":"183","DOI":"10.3390\/s20010183","volume":"20","author":"KS Mustaqeem","year":"2019","unstructured":"Mustaqeem KS. A CNN-assisted enhanced audio signal processing for speech emotion recognition. Sensors. 2019;20:183.","journal-title":"Sensors"},{"key":"1090_CR40","doi-asserted-by":"publisher","DOI":"10.17485\/ijst\/2016\/v9i10\/88898","author":"DG Monisha","year":"2016","unstructured":"Monisha DG, Monisha M, Pavithra G, Subhashini R. Women safety device and application-FEMME. Indian J Sci Technol. 2016. https:\/\/doi.org\/10.17485\/ijst\/2016\/v9i10\/88898.","journal-title":"Indian J Sci Technol"},{"key":"1090_CR41","doi-asserted-by":"crossref","unstructured":"Khandoker RR, Khondaker S, Fatiha-Tus-Sazia, Nur FN, Sultana S. Lifecraft: An Android Based Application System for Women Safety. 2019 International Conference on Sustainable Technologies for Industry 40 (STI). Dhaka, Bangladesh: IEEE; 2019.","DOI":"10.1109\/STI47673.2019.9068024"},{"key":"1090_CR42","doi-asserted-by":"publisher","DOI":"10.1017\/ATSIP.2015.22","author":"L Deng","year":"2016","unstructured":"Deng L. Deep learning: from speech recognition to language and multimodal processing. SIP. 2016. https:\/\/doi.org\/10.1017\/ATSIP.2015.22.","journal-title":"SIP"},{"key":"1090_CR43","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pone.0196391","volume":"13","author":"SR Livingstone","year":"2018","unstructured":"Livingstone SR, Russo FA. The ryerson audio-visual database of emotional speech and song (RAVDESS): a dynamic, multimodal set of facial and vocal expressions in North American English. PLoS ONE. 2018;13: e0196391.","journal-title":"PLoS ONE"},{"key":"1090_CR44","doi-asserted-by":"crossref","unstructured":"Bhadragiri Jagan Mohan, Ramesh Babu N. Speech recognition using MFCC and DTW. 2014 International Conference on Advances in Electrical Engineering (ICAEE). Vellore, India: IEEE; 2014.","DOI":"10.1109\/ICAEE.2014.6838564"},{"key":"1090_CR45","doi-asserted-by":"crossref","unstructured":"Garg K, Jain G. A comparative study of noise reduction techniques for automatic speech recognition systems. 2016 International Conference on Advances in Computing, Communications and Informatics (ICACCI). Jaipur, India: IEEE; 2016. p. 2098\u2013103.","DOI":"10.1109\/ICACCI.2016.7732361"},{"key":"1090_CR46","doi-asserted-by":"publisher","first-page":"1692","DOI":"10.1109\/PROC.1975.10036","volume":"63","author":"B Widrow","year":"1975","unstructured":"Widrow B, Glover JR, McCool JM, Kaunitz J, Williams CS, Hearn RH, et al. Adaptive noise cancelling: principles and applications. Proc IEEE. 1975;63:1692\u2013716.","journal-title":"Proc IEEE"},{"key":"1090_CR47","unstructured":"Sloveby Suksri, Chadawan Ittichaichareon, Thaweesak Yingthawornsuk. Speech Recognition using MFCC. International Conference on Computer Graphics, Simulation and Modelling (ICGSM\u20192012). Pattaya, Thailand: Unpublished; 2012."},{"key":"1090_CR48","unstructured":"Boyang Zhang, Jared Leitner, Samuel Thornton. Audio Recognition using Mel Spectrograms and Convolution Neural Networks. 2019."},{"issue":"6","key":"1090_CR49","first-page":"1","volume":"1","author":"N Dave","year":"2013","unstructured":"Dave N. Feature extraction methods LPC, PLP and MFCC in speech recognition. Int J Adv Res Eng Technol. 2013;1(6):1\u20134.","journal-title":"Int J Adv Res Eng Technol"},{"key":"1090_CR50","unstructured":"Warden P. Speech Commands: A Dataset for Limited-Vocabulary Speech Recognition. 2018;"},{"key":"1090_CR51","doi-asserted-by":"publisher","first-page":"125868","DOI":"10.1109\/ACCESS.2019.2938007","volume":"7","author":"H Meng","year":"2019","unstructured":"Meng H, Yan T, Yuan F, Wei H. Speech emotion recognition from 3D Log-Mel spectrograms with deep learning network. IEEE Access. 2019;7:125868\u201381.","journal-title":"IEEE Access"},{"key":"1090_CR52","doi-asserted-by":"crossref","unstructured":"Das JK, Ghosh A, Pal AK, Dutta S, Chakrabarty A. Urban sound classification using convolutional neural network and long short term memory based on multiple features. 2020 fourth international conference on intelligent computing in data sciences (ICDS). Fez, Morocco: IEEE; 2020. p. 1\u20139.","DOI":"10.1109\/ICDS50568.2020.9268723"},{"key":"1090_CR53","unstructured":"Speaker Identification Using MEL Frequency cepstral coefficients. 3rd International Conference on Electrical & Computer Engineering(ICECE). Dhaka, Bangladesh; 2004."},{"key":"1090_CR54","unstructured":"Dan-Ning Jiang, Lie Lu, Hong-Jiang Zhang, Jian-Hua Tao, Lian-Hong Cai. Music type classification by spectral contrast feature Proceedings IEEE International Conference on Multimedia and Expo. Lausanne Switzerland: IEEE; 2002"},{"key":"1090_CR55","doi-asserted-by":"publisher","first-page":"414","DOI":"10.1007\/978-3-030-50417-5_31","volume-title":"Computational Science \u2013 ICCS 2020","author":"M Aminian","year":"2020","unstructured":"Aminian M, Kehoe E, Ma X, Peterson A, Kirby M, et al. Exploring Musical Structure Using Tonnetz Lattice Geometry and LSTMs. In: Krzhizhanovskaya VV, Z\u00e1vodszky G, Lees MH, Dongarra JJ, Sloot PMA, Brissos S, et al., editors. Computational Science \u2013 ICCS 2020. Cham: Springer International Publishing; 2020. p. 414\u201324."},{"key":"1090_CR56","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2013-336","volume-title":"Rapid and effective speaker adaptation of convolutional neural network based models for speech recognition","author":"O Abdel-Hamid","year":"2013","unstructured":"Abdel-Hamid O, Jiang H. Rapid and effective speaker adaptation of convolutional neural network based models for speech recognition. Hyderabad: Interspeech; 2013."},{"key":"1090_CR57","unstructured":"Krishna G, Tran C, Carnahan M, Tewfik A. Constrained Variational Autoencoder for improving EEG based Speech Recognition Systems. 2020; https:\/\/arxiv.org\/abs\/2006.02902"},{"key":"1090_CR58","doi-asserted-by":"publisher","first-page":"729","DOI":"10.21105\/joss.00729","volume":"3","author":"S Haghighi","year":"2018","unstructured":"Haghighi S, Jasemi M, Hessabi S, Zolanvari A. PyCM: multiclass confusion matrix library in python. JOSS. 2018;3:729.","journal-title":"JOSS"},{"key":"1090_CR59","doi-asserted-by":"publisher","DOI":"10.1088\/1757-899X\/879\/1\/012076","volume":"879","author":"F Rahmad","year":"2020","unstructured":"Rahmad F, Suryanto Y, Ramli K. Performance comparison of anti-spam technology using confusion matrix classification. IOP Conf Ser: Mater Sci Eng. 2020;879: 012076.","journal-title":"IOP Conf Ser: Mater Sci Eng"},{"key":"1090_CR60","unstructured":"Shrawankar U, Thakare VM. Techniques for feature extraction In Speech Recognition System\u202f: A Comparative Study. 2013"},{"key":"1090_CR61","first-page":"1261","volume":"29","author":"V Passricha","year":"2019","unstructured":"Passricha V, Aggarwal RK. A hybrid of deep CNN and bidirectional LSTM for automatic speech recognition. J Intell Syst. 2019;29:1261\u201374.","journal-title":"J Intell Syst"},{"key":"1090_CR62","doi-asserted-by":"crossref","unstructured":"Chauhan N, Isshiki T, Li D. Speaker Recognition Using LPC, MFCC, ZCR Features with ANN and SVM Classifier for Large Input Database. 2019 IEEE 4th International Conference on Computer and Communication Systems (ICCCS). Singapore: IEEE; 2019. p. 130\u20133.","DOI":"10.1109\/CCOMS.2019.8821751"},{"key":"1090_CR63","unstructured":"Speech recognition performance. https:\/\/en.wikipedia.org\/wiki\/Speech_recognition#Performance"},{"key":"1090_CR64","doi-asserted-by":"publisher","first-page":"312","DOI":"10.1016\/j.bspc.2018.08.035","volume":"47","author":"J Zhao","year":"2019","unstructured":"Zhao J, Mao X, Chen L. Speech emotion recognition using deep 1D & 2D CNN LSTM networks. Biomed Signal Process Control. 2019;47:312\u201323.","journal-title":"Biomed Signal Process Control"},{"key":"1090_CR65","doi-asserted-by":"publisher","first-page":"1249","DOI":"10.3390\/s21041249","volume":"21","author":"BJ Abbaschian","year":"2021","unstructured":"Abbaschian BJ, Sierra-Sosa D, Elmaghraby A. Deep learning techniques for speech emotion recognition, from databases to models. Sensors. 2021;21:1249.","journal-title":"Sensors"},{"key":"1090_CR66","doi-asserted-by":"publisher","first-page":"913","DOI":"10.18280\/ria.380318","volume":"38","author":"R Kawade","year":"2024","unstructured":"Kawade R, Jagtap S. Indian cross corpus speech emotion recognition using multiple spectral-temporal-voice quality acoustic features and deep convolution neural network. RIA. 2024;38:913\u201327.","journal-title":"RIA"},{"key":"1090_CR67","doi-asserted-by":"publisher","first-page":"148","DOI":"10.1007\/s10462-024-10760-z","volume":"57","author":"I Gurowiec","year":"2024","unstructured":"Gurowiec I, Nissim N. Speech emotion recognition systems and their security aspects. Artif Intell Rev. 2024;57:148.","journal-title":"Artif Intell Rev"},{"key":"1090_CR68","doi-asserted-by":"publisher","first-page":"343","DOI":"10.1504\/IJICT.2020.110791","volume":"17","author":"M Sharma","year":"2020","unstructured":"Sharma M, Sarma KK. Deep features-based dialect and mood recognition using assamese telephonic speech. IJICT. 2020;17:343.","journal-title":"IJICT"},{"key":"1090_CR69","doi-asserted-by":"publisher","first-page":"499","DOI":"10.1007\/s10772-022-09976-7","volume":"25","author":"G Chakraborty","year":"2022","unstructured":"Chakraborty G, Sharma M, Saikia N, Sarma KK. Soft-computation based speech recognition system for Sylheti language. Int J Speech Technol. 2022;25:499\u2013509.","journal-title":"Int J Speech Technol"},{"key":"1090_CR70","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-33-4084-8_26","volume-title":"Combination of cepstral features and temporal learning approach for emotion recognition","author":"R Barman","year":"2021","unstructured":"Barman R, Sharma M, Sarma KK, Sarma P. Combination of cepstral features and temporal learning approach for emotion recognition. Singapore: Springer Singapore; 2021."},{"key":"1090_CR71","first-page":"9","volume":"3925","author":"M Sarma","year":"2019","unstructured":"Sarma M, Ghahremani P, Povey D, Goel NK, Sarma KK, Dehak N. Improving emotion identification using phone posteriors in raw speech waveform based DNN. Interspeech. 2019;3925:9.","journal-title":"Interspeech"},{"key":"1090_CR72","doi-asserted-by":"publisher","DOI":"10.3389\/fpsyg.2020.619222","volume":"11","author":"M Mauchand","year":"2021","unstructured":"Mauchand M, Pell MD. Emotivity in the voice: prosodic, lexical, and cultural appraisal of complaining speech. Front Psychol. 2021;11: 619222.","journal-title":"Front Psychol"},{"key":"1090_CR73","unstructured":"Jain M, Narayan S, Balaji P, P BK, Bhowmick A, R K, et al. Speech Emotion Recognition using Support Vector Machine. arXiv; 2020."},{"key":"1090_CR74","doi-asserted-by":"publisher","first-page":"839","DOI":"10.3390\/electronics12040839","volume":"12","author":"K Bhangale","year":"2023","unstructured":"Bhangale K, Kothandaraman M. Speech emotion recognition based on multiple acoustic features and deep convolutional neural network. Electronics. 2023;12:839.","journal-title":"Electronics"},{"key":"1090_CR75","doi-asserted-by":"publisher","first-page":"5797","DOI":"10.3390\/s24175797","volume":"24","author":"R Begazo","year":"2024","unstructured":"Begazo R, Aguilera A, Dongo I, Cardinale Y. A combined CNN architecture for speech emotion recognition. Sensors. 2024;24:5797.","journal-title":"Sensors"},{"key":"1090_CR76","doi-asserted-by":"publisher","first-page":"2512","DOI":"10.3390\/electronics12112512","volume":"12","author":"T Han","year":"2023","unstructured":"Han T, Zhang Z, Ren M, Dong C, Jiang X, Zhuang Q. Speech emotion recognition based on deep residual shrinkage network. Electronics. 2023;12:2512.","journal-title":"Electronics"},{"key":"1090_CR77","doi-asserted-by":"publisher","first-page":"4859","DOI":"10.3390\/electronics12234859","volume":"12","author":"LTC Ottoni","year":"2023","unstructured":"Ottoni LTC, Ottoni ALC, Cerqueira JDJF. A deep learning approach for speech emotion recognition optimization using meta-learning. Electronics. 2023;12:4859.","journal-title":"Electronics"},{"key":"1090_CR78","unstructured":"Min Z, Wang J. Exploring the Integration of Large Language Models into Automatic Speech Recognition Systems: An Empirical Study. arXiv."},{"key":"1090_CR79","doi-asserted-by":"publisher","first-page":"3964","DOI":"10.3390\/electronics12183964","volume":"12","author":"J Yoon","year":"2023","unstructured":"Yoon J, Kim N, Lee D, Lee S-J, Kwak G-H, Kim T-H. A resource-efficient keyword spotting system based on a one-dimensional binary convolutional neural network. Electronics. 2023;12:3964.","journal-title":"Electronics"},{"key":"1090_CR80","doi-asserted-by":"publisher","DOI":"10.15878\/j.cnki.instrumentation.2023.01.003","author":"W Kuang","year":"2023","unstructured":"Kuang W, Luo W. Based on STM32 of CNN speech keyword command recognition system. Instrumentation. 2023. https:\/\/doi.org\/10.15878\/j.cnki.instrumentation.2023.01.003.","journal-title":"Instrumentation"},{"key":"1090_CR81","doi-asserted-by":"publisher","DOI":"10.14201\/adcaij.29191","volume":"13","author":"H Ilgaz","year":"2024","unstructured":"Ilgaz H, Akkoyun B, Alpay \u00d6, Akcayol MA. CNN based automatic speech recognition: a comparative study. ADCAIJ. 2024;13: e29191.","journal-title":"ADCAIJ"},{"key":"1090_CR82","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3606019","volume":"23","author":"P Gambhir","year":"2024","unstructured":"Gambhir P, Dev A, Bansal P, Sharma DK. End-to-end multi-modal low-resourced speech keywords recognition using sequential Conv2D nets. ACM Trans Asian Low-Resour Lang Inf Process. 2024;23:1\u201321.","journal-title":"ACM Trans Asian Low-Resour Lang Inf Process"},{"key":"1090_CR83","doi-asserted-by":"publisher","first-page":"6212","DOI":"10.3390\/s23136212","volume":"23","author":"R Ullah","year":"2023","unstructured":"Ullah R, Asif M, Shah WA, Anjam F, Ullah I, Khurshaid T, et al. Speech emotion recognition using convolution neural networks and multi-head convolutional transformer. Sensors. 2023;23:6212.","journal-title":"Sensors"},{"key":"1090_CR84","doi-asserted-by":"publisher","first-page":"19","DOI":"10.1007\/s10772-023-10037-w","volume":"27","author":"S Deshmukh","year":"2024","unstructured":"Deshmukh S, Gupta P. Application of probabilistic neural network for speech emotion recognition. Int J Speech Technol. 2024;27:19\u201328.","journal-title":"Int J Speech Technol"},{"key":"1090_CR85","doi-asserted-by":"publisher","first-page":"5140","DOI":"10.3390\/ijerph20065140","volume":"20","author":"J Singh","year":"2023","unstructured":"Singh J, Saheer LB, Faust O. Speech emotion recognition using attention model. IJERPH. 2023;20:5140.","journal-title":"IJERPH"},{"key":"1090_CR86","doi-asserted-by":"crossref","unstructured":"Mishra SP, Warule P, Deb S. 2024 Speech Emotion Classification Using Deep Learning. In: Hirose K, Joshi D, Sanyal S, (eds). Proceedings of 27th International Symposium on Frontiers of Research in Speech and Music. Singapore: Springer Nature Singapore. p. 19\u201331.","DOI":"10.1007\/978-981-97-1549-7_2"},{"key":"1090_CR87","doi-asserted-by":"publisher","first-page":"77086","DOI":"10.1109\/ACCESS.2023.3297269","volume":"11","author":"S Akinpelu","year":"2023","unstructured":"Akinpelu S, Viriri S, Adegun A. Lightweight deep learning framework for speech emotion recognition. IEEE Access. 2023;11:77086\u201398.","journal-title":"IEEE Access"},{"key":"1090_CR88","doi-asserted-by":"crossref","unstructured":"Kawade R, Konade R, Majukar P, Patil S. Speech Emotion Recognition Using 1D CNN-LSTM Network on Indo-Aryan Database. 2022 Third International Conference on Intelligent Computing Instrumentation and Control Technologies (ICICICT). Kannur India: IEEE; 2022.","DOI":"10.1109\/ICICICT54557.2022.9917635"},{"key":"1090_CR89","doi-asserted-by":"publisher","first-page":"3046","DOI":"10.3390\/electronics13153046","volume":"13","author":"S Ko","year":"2024","unstructured":"Ko S, Park M. Efficient speech signal dimensionality reduction using complex-valued techniques. Electronics. 2024;13:3046.","journal-title":"Electronics"},{"key":"1090_CR90","doi-asserted-by":"publisher","first-page":"439","DOI":"10.3390\/acoustics6020024","volume":"6","author":"N Chauhan","year":"2024","unstructured":"Chauhan N, Isshiki T, Li D. Enhancing speaker recognition models with noise-resilient feature optimization strategies. Acoustics. 2024;6:439\u201369.","journal-title":"Acoustics"},{"key":"1090_CR91","doi-asserted-by":"publisher","first-page":"1888","DOI":"10.3390\/s21051888","volume":"21","author":"J Kacur","year":"2021","unstructured":"Kacur J, Puterka B, Pavlovicova J, Oravec M. On the speech properties and feature extraction methods in speech emotion recognition. Sensors. 2021;21:1888.","journal-title":"Sensors"},{"key":"1090_CR92","doi-asserted-by":"publisher","DOI":"10.1016\/S0065-2458(10)78003-7","volume-title":"Features for Content-Based Audio Retrieval","author":"D Mitrovi\u0107","year":"2010","unstructured":"Mitrovi\u0107 D, Zeppelzauer M, Breiteneder C. Features for Content-Based Audio Retrieval. Amsterdam: Elsevier; 2010."},{"key":"1090_CR93","doi-asserted-by":"publisher","first-page":"3599","DOI":"10.3390\/electronics12173599","volume":"12","author":"F Wang","year":"2023","unstructured":"Wang F, Shen X. Research on speech emotion recognition based on teager energy operator coefficients and inverted MFCC feature fusion. Electronics. 2023;12:3599.","journal-title":"Electronics"},{"key":"1090_CR94","doi-asserted-by":"publisher","first-page":"49265","DOI":"10.1109\/ACCESS.2022.3172954","volume":"10","author":"AA Abdelhamid","year":"2022","unstructured":"Abdelhamid AA, El-Kenawy E-SM, Alotaibi B, Amer GM, Abdelkader MY, Ibrahim A, et al. Robust speech emotion recognition using CNN+LSTM based on stochastic fractal search optimization algorithm. IEEE Access. 2022;10:49265\u201384.","journal-title":"IEEE Access"},{"key":"1090_CR95","doi-asserted-by":"publisher","first-page":"152152","DOI":"10.1109\/ACCESS.2024.3474553","volume":"12","author":"S Akinpelu","year":"2024","unstructured":"Akinpelu S, Viriri S. Deep learning framework for speech emotion classification: a survey of the state-of-the-art. IEEE Access. 2024;12:152152\u201382.","journal-title":"IEEE Access"},{"key":"1090_CR96","doi-asserted-by":"publisher","first-page":"1142","DOI":"10.1109\/JPROC.2023.3276209","volume":"111","author":"C-C Lee","year":"2023","unstructured":"Lee C-C, Chaspari T, Provost EM, Narayanan SS. An engineering view on emotions and speech: from analysis and predictive models to responsible human-centered applications. Proc IEEE. 2023;111:1142\u201358.","journal-title":"Proc IEEE"},{"key":"1090_CR97","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1016\/j.neucom.2023.01.002","volume":"528","author":"J De Lope","year":"2023","unstructured":"De Lope J, Gra\u00f1a M. An ongoing review of speech emotion recognition. Neurocomputing. 2023;528:1\u201311.","journal-title":"Neurocomputing"},{"key":"1090_CR98","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2023.102019","volume":"102","author":"SK Khare","year":"2024","unstructured":"Khare SK, Blanes-Vidal V, Nadimi ES, Acharya UR. Emotion recognition and artificial intelligence: a systematic review (2014\u20132023) and research recommendations. Information Fusion. 2024;102: 102019.","journal-title":"Information Fusion"},{"key":"1090_CR99","doi-asserted-by":"publisher","first-page":"47795","DOI":"10.1109\/ACCESS.2021.3068045","volume":"9","author":"TM Wani","year":"2021","unstructured":"Wani TM, Gunawan TS, Qadri SAA, Kartiwi M, Ambikairajah E. A comprehensive review of speech emotion recognition systems. IEEE Access. 2021;9:47795\u2013814.","journal-title":"IEEE Access"}],"container-title":["Journal of Big Data"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1186\/s40537-025-01090-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1186\/s40537-025-01090-0\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1186\/s40537-025-01090-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,3,4]],"date-time":"2025-03-04T07:10:23Z","timestamp":1741072223000},"score":1,"resource":{"primary":{"URL":"https:\/\/journalofbigdata.springeropen.com\/articles\/10.1186\/s40537-025-01090-0"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,3,4]]},"references-count":99,"journal-issue":{"issue":"1","published-online":{"date-parts":[[2025,12]]}},"alternative-id":["1090"],"URL":"https:\/\/doi.org\/10.1186\/s40537-025-01090-0","relation":{},"ISSN":["2196-1115"],"issn-type":[{"value":"2196-1115","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,3,4]]},"assertion":[{"value":"9 August 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"11 February 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"4 March 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"Not applicable.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethics approval and consent to participate"}},{"value":"Not applicable.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Consent for publication"}},{"value":"The authors declare no competing interests.","order":4,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interests"}}],"article-number":"54"}}