{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,2]],"date-time":"2026-06-02T23:43:37Z","timestamp":1780443817328,"version":"3.54.1"},"reference-count":48,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2018,11,22]],"date-time":"2018-11-22T00:00:00Z","timestamp":1542844800000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Speech Technol"],"published-print":{"date-parts":[[2019,9]]},"DOI":"10.1007\/s10772-018-09572-8","type":"journal-article","created":{"date-parts":[[2018,11,22]],"date-time":"2018-11-22T08:11:56Z","timestamp":1542874316000},"page":"497-510","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":74,"title":["Enhanced speech emotion detection using deep neural networks"],"prefix":"10.1007","volume":"22","author":[{"given":"S.","family":"Lalitha","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Shikha","family":"Tripathi","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Deepa","family":"Gupta","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2018,11,22]]},"reference":[{"key":"9572_CR1","doi-asserted-by":"crossref","unstructured":"Amer, M. R., Siddiquie, B., Richey, C., & Divakaran, A. (2014). Emotion detection in speech using deep networks. In 2014 IEEE international conference on acoustics, speech and signal processing (ICASSP), Florence, pp.\u00a03724\u20133728.","DOI":"10.1109\/ICASSP.2014.6854297"},{"issue":"2","key":"9572_CR2","doi-asserted-by":"publisher","first-page":"155","DOI":"10.1007\/s10462-012-9368-5","volume":"43","author":"CN Anagnostopoulos","year":"2015","unstructured":"Anagnostopoulos, C. N., Iliou, T., & Giannoukos, I. (2015). Features and classifiers for emotion recognition from speech: A survey from 2010 to 2011. Artificial Intelligence Review, 43(2), 155\u2013177.","journal-title":"Artificial Intelligence Review"},{"key":"9572_CR3","doi-asserted-by":"crossref","unstructured":"Anila, R., & Revathy, A. (2015). Emotion recognition using continuous density HMM. In IEEE international conference on communications and signal processing (ICCSP), pp.\u00a00919\u20130923.","DOI":"10.1109\/ICCSP.2015.7322630"},{"key":"9572_CR4","unstructured":"Badshah, A. M., Ahmad, J., Rahim, N., & Baik, S. W. (2017). Speech emotion recognition from spectrograms with deep convolutional neural network, 2017. In International conference on platform technology and service (PlatCon), Busan, South Korea, pp.\u00a01\u20135."},{"issue":"7","key":"9572_CR5","doi-asserted-by":"publisher","first-page":"613","DOI":"10.1016\/j.specom.2010.02.010","volume":"52","author":"D Bitouk","year":"2010","unstructured":"Bitouk, D., Verma, R., & Nenkova, A. (2010). Class-level spectral features for emotion recognition. Speech Communication, 52(7), 613\u2013625.","journal-title":"Speech Communication"},{"key":"9572_CR6","unstructured":"Cullen, A., & Harte, N. (2013). Late integration of features for acoustic emotion recognition. In Proceedings of the 21st European Signal Processing Conference (EUSIPCO), IEEE, pp\u00a01\u20135."},{"key":"9572_CR7","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1109\/TAFFC.2017.2761750","volume":"99","author":"S Deb","year":"2017","unstructured":"Deb, S., & Dandapat, S. (2017). Emotion classification using segmentation of vowel-like and non-vowel-like regions. IEEE Transactions on Affective Computing, 99, 1\u20131.","journal-title":"IEEE Transactions on Affective Computing"},{"key":"9572_CR8","unstructured":"Deng, L. (2012). Three classes of deep learning architectures and their applications: A tutorial survey. In APSIPA Transactions on Signal and Information Processing."},{"key":"9572_CR9","doi-asserted-by":"publisher","DOI":"10.1186\/s13636-017-0100-x","author":"T Dorota Kaminska","year":"2017","unstructured":"Dorota Kaminska, T., Sapinski, & Anbarjafari, G. (2017). Efficiency of chosen speech descriptors in relation to emotion recognition, Eurasip Journal of Speech, Audio and Music Processing. \n                    https:\/\/doi.org\/10.1186\/s13636-017-0100-x\n                    \n                  .","journal-title":"Eurasip Journal of Speech, Audio and Music Processing"},{"key":"9572_CR48","doi-asserted-by":"publisher","first-page":"169","DOI":"10.1080\/02699939208411068","volume":"6","author":"P Ekman","year":"1992","unstructured":"Ekman, P. (1992). Argument for basic emotions. Cognition and Emotion., 6, 169\u2013200.","journal-title":"Cognition and Emotion."},{"key":"9572_CR10","doi-asserted-by":"crossref","unstructured":"Fayek, H. M., Lech, M., & Cavedon, L. (2015). Towards real-time speech emotion recognition using deep neural networks. In 2015 9th International Conference on Signal Processing and Communication Systems (ICSPCS), Cairns, QLD, pp.\u00a01\u20135.","DOI":"10.1109\/ICSPCS.2015.7391796"},{"key":"9572_CR11","unstructured":"Feraru, S. M., & Zbancioc, M. D. (2013). Emotion recognition in Romanain language using LPC features. In E-health and bioengineering conference (EHB), pp\u00a01\u20134."},{"key":"9572_CR12","doi-asserted-by":"crossref","unstructured":"Ghai, M., Lal, S., Duggal, S., & Manik, S. (2017). Emotion recognition on speech signals using machine learning. In 2017 international conference on big data analytics and computational intelligence (ICBDAC), Chirala, pp.\u00a034\u201339.","DOI":"10.1109\/ICBDACI.2017.8070805"},{"key":"9572_CR13","doi-asserted-by":"crossref","unstructured":"Han, J., Zhang, Z., Ringeval, F., & Schuller, B. (2017). Prediction-based learning for continuous emotion recognition in speech. In 2017 IEEE international conference on acoustics, speech and signal processing (ICASSP), New Orleans, pp.\u00a05005\u20135009.","DOI":"10.1109\/ICASSP.2017.7953109"},{"issue":"7","key":"9572_CR14","doi-asserted-by":"publisher","first-page":"903","DOI":"10.1016\/j.specom.2012.03.003","volume":"54","author":"A Hassan","year":"2012","unstructured":"Hassan, A., & Damper, R. I. (2012). Classification of emotional speech using 3dec hierarchical classifier. Speech Communication, 54(7), 903\u2013916.","journal-title":"Speech Communication"},{"key":"9572_CR15","unstructured":"http:\/\/www.mathworks.com\/matlabcentral\/\n                    \n                  ."},{"key":"9572_CR16","doi-asserted-by":"crossref","unstructured":"Huang, C. W., & Narayanan, S. S. S. (2016). Flow of Renyi information in deep neural networks. In 2016 IEEE 26th international workshop on machine learning for signal processing (MLSP), Vietrisul Mare, pp.\u00a01\u20136.","DOI":"10.1109\/MLSP.2016.7738809"},{"key":"9572_CR17","doi-asserted-by":"crossref","unstructured":"Huang, Z., & Epps, J. (2017). A PLLR and multi-stage staircase regression framework for speech-based emotion prediction. In 2017 IEEE international conference on acoustics, speech and signal processing (ICASSP), New Orleans, pp.\u00a05145\u20135149.","DOI":"10.1109\/ICASSP.2017.7953137"},{"issue":"5","key":"9572_CR18","doi-asserted-by":"publisher","first-page":"587","DOI":"10.1049\/iet-spr.2016.0336","volume":"11","author":"WA Jassim","year":"2017","unstructured":"Jassim, W. A., Paramesran, R., & Harte, N. (2017). Speech emotion classification using combined neurogram and INTERSPEECH 2010 paralinguistic challenge features. IET Signal Processing, 11(5), 587\u2013595.","journal-title":"IET Signal Processing"},{"key":"9572_CR19","doi-asserted-by":"crossref","unstructured":"Kami\u0144ska, D., Sapi\u0144ski, T., & Pelikant, A. (2013). Comparison of perceptual features efficiency for automatic identification of emotional states from speech. In 6th international conference on human system interactions (HSI), Sopot, pp.\u00a0210\u2013213.","DOI":"10.1109\/HSI.2013.6577824"},{"key":"9572_CR20","doi-asserted-by":"crossref","unstructured":"Khan, A., & Roy, U. K. (2017). Emotion recognition using prosodie and spectral features of speech and Na\u00efve Bayes Classifier. In 2017 international conference on wireless communications, signal processing and networking (WiSPNET), Chennai, pp.\u00a01017\u20131021.","DOI":"10.1109\/WiSPNET.2017.8299916"},{"key":"9572_CR21","doi-asserted-by":"crossref","unstructured":"Khorrami, P., Le Paine, T., Brady, K., Dagli, C., & Huang, T. S. (2016). How deep neural networks can improve emotion recognition on video data. In 2016 IEEE international conference on image processing (ICIP), Phoenix, pp.\u00a0619\u2013623.","DOI":"10.1109\/ICIP.2016.7532431"},{"issue":"2","key":"9572_CR22","doi-asserted-by":"publisher","first-page":"131","DOI":"10.1007\/s10772-012-9127-7","volume":"15","author":"M Kotti","year":"2012","unstructured":"Kotti, M., & Paterno, F. (2012). Speaker-independent emotion recognition exploiting a psychologically-inspired binary cascade classification schema. International Journal of Speech Technology, 15(2), 131\u2013150.","journal-title":"International Journal of Speech Technology"},{"key":"9572_CR23","doi-asserted-by":"crossref","unstructured":"Kumar, K., Kim, C., & Stern, R. M. (2011). Delta-spectral cepstral coefficients for robust speech recognition. In 2011 IEEE international conference on acoustics, speech and signal processing (ICASSP), Prague, pp.\u00a04784\u20134787.","DOI":"10.1109\/ICASSP.2011.5947425"},{"key":"9572_CR24","doi-asserted-by":"crossref","unstructured":"Lalitha, S., Chaitanya, K. K., Teja, G. V. N., Varma, K. V., & Tripathi, S. (2015). Time-frequency and phase derived features for emotion classification. In 2015 annual IEEE India conference (INDICON), New Delhi, pp.\u00a01\u20135.","DOI":"10.1109\/INDICON.2015.7443191"},{"key":"9572_CR25","doi-asserted-by":"crossref","unstructured":"Lalitha, S., Geyasruti, D., Narayanan, R., & Shravani, M. (2015). Emotion detection using MFCC and cepstrum features. In 4th international conference on eco-friendly computing and communication systems, Procedia Computer Science, pp\u00a029\u201335.","DOI":"10.1016\/j.procs.2015.10.020"},{"key":"9572_CR26","doi-asserted-by":"crossref","unstructured":"Lalitha, S., Madhavan, A., Bhushan, B., & Saketh, S. (2014). Speech emotion recognition. In International conference on advances in electronics, computers and communications (ICAECC), pp\u00a01\u20134.","DOI":"10.1109\/ICAECC.2014.7002390"},{"key":"9572_CR27","doi-asserted-by":"crossref","unstructured":"Latha (2016). Robust speaker identification incorporating high frequency features. In Twelth international multi-conference on information processing, Procedia Computer Science, pp\u00a0804\u2013811.","DOI":"10.1016\/j.procs.2016.06.064"},{"key":"9572_CR28","doi-asserted-by":"crossref","unstructured":"Li, L., et al. (2013). Hybrid deep neural network\u2013hidden markov model (DNN-HMM) based speech emotion recognition. In Humaine association conference on affective computing and intelligent interaction, Geneva, pp.\u00a0312\u2013317.","DOI":"10.1109\/ACII.2013.58"},{"key":"9572_CR29","doi-asserted-by":"crossref","unstructured":"Lim, W., Jang, D., & Lee, T. (2016). Speech emotion recognition using convolutional and recurrent neural networks. In 2016 Asia-Pacific signal and information processing association annual summit and conference (APSIPA), Jeju, pp.\u00a01\u20134.","DOI":"10.1109\/APSIPA.2016.7820699"},{"key":"9572_CR30","doi-asserted-by":"crossref","unstructured":"Ma, J., Jin, H., Yang, L., & Tsai, J. (2006). Ubiquitous intelligence and computing. In Third International Conference, UIC 2006, Wuhan, China, September 3\u20136, 2006, Proceedings (Lecture Notes in Computer Science), Springer, New York, Inc., Secaucus.","DOI":"10.1007\/11833529"},{"key":"9572_CR31","doi-asserted-by":"publisher","DOI":"10.1016\/j.aej.2016.09.002","author":"K Mannepalli","year":"2016","unstructured":"Mannepalli, K., Sastry, P. N., & Suman, M. (2016). A novel adaptive fractional deep belief networks for speaker emotion recognition. Alexandria Engineering Journal. \n                    https:\/\/doi.org\/10.1016\/j.aej.2016.09.002","journal-title":"Alexandria Engineering Journal"},{"key":"9572_CR32","doi-asserted-by":"crossref","unstructured":"Mao, X., Chen, L., & Fu, L. (2009). Multi-level Speech Emotion Recognition Based on HMM and ANN. In WRI world congress on computer science and information engineering, IEEE, pp.\u00a0225\u2013229.","DOI":"10.1109\/CSIE.2009.113"},{"key":"9572_CR33","doi-asserted-by":"crossref","unstructured":"Niu, J., Qian, Y., & Yu, K. (2014). Acoustic emotion recognition using deep neural network. In The 9th international symposium on chinese spoken language processing, Singapore, pp.\u00a0128\u2013132.","DOI":"10.1109\/ISCSLP.2014.6936657"},{"key":"9572_CR34","doi-asserted-by":"crossref","unstructured":"Parthasarathy, S., Lotfian, R., & Busso, C. (2017). Ranking emotional attributes with deep neural networks. In 2017 IEEE international conference on acoustics, speech and signal processing (ICASSP), New Orleans, pp.\u00a04995\u20134999.","DOI":"10.1109\/ICASSP.2017.7953107"},{"key":"9572_CR35","doi-asserted-by":"publisher","first-page":"81","DOI":"10.1037\/h0054570","volume":"61","author":"H Schlosberg","year":"1954","unstructured":"Schlosberg, H. (1954). Three dimensions of emotions. Psychological Review 61, 81\u201388.","journal-title":"Psychological Review"},{"key":"9572_CR36","doi-asserted-by":"crossref","unstructured":"Soltani, K., & Ainon, R. N. (2007). Speech emotion detection based on neural networks. In 2007 9th international symposium on signal processing and its applications, Sharjah, pp.\u00a01\u20133.","DOI":"10.1109\/ISSPA.2007.4555476"},{"key":"9572_CR37","unstructured":"Trigeorgis, G., et al. (2017). Adieu features? End-to-end speech emotion recognition using a deep convolutional recurrent network. In 2016 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), Shanghai, pp.\u00a05200\u20135204."},{"key":"9572_CR38","unstructured":"Vlckova-Mejvaldova, J., & Horak, P. (2011). The influence of individual prosodic parameters on the perception of emotions in Czech. In Signal processing algorithms, architectures, arrangements, and applications conference proceedings (SPA), IEEE, pp.\u00a01\u20136."},{"issue":"1","key":"9572_CR39","doi-asserted-by":"publisher","first-page":"69","DOI":"10.1109\/TAFFC.2015.2392101","volume":"6","author":"K Wang","year":"2015","unstructured":"Wang, K., An, N., Li, B. N., Zhang, Y., & Li, L. (2015). Speech emotion recognition using Fourier parameters. IEEE Transactions on Affective Computing, 6(1), 69\u201375.","journal-title":"IEEE Transactions on Affective Computing"},{"key":"9572_CR40","unstructured":"Wang, Y., & Guan, L. (2008). Recognizing human emotional state from audiovisual signals. In IEEE transactions on multimedia, pp.\u00a0936\u2013946."},{"key":"9572_CR41","doi-asserted-by":"crossref","unstructured":"Wang, Z., & Tashev, I. (2017). Learning utterance-level representations for speech emotion and age\/gender recognition using deep neural networks. In 2017 IEEE international conference on acoustics, speech and signal processing (ICASSP), New Orleans, pp.\u00a05150\u20135154.","DOI":"10.1109\/ICASSP.2017.7953138"},{"issue":"1","key":"9572_CR42","doi-asserted-by":"publisher","first-page":"3","DOI":"10.1109\/TAFFC.2015.2512598","volume":"8","author":"R Xia","year":"2017","unstructured":"Xia, R., & Liu, Y. (2017). A multi-task learning framework for emotion recognition using 2D continuous space. IEEE Transactions on Affective Computing, 8(1), 3\u201314.","journal-title":"IEEE Transactions on Affective Computing"},{"key":"9572_CR43","doi-asserted-by":"crossref","unstructured":"Yadav, J., Kumari, A., & Rao, K. S. (2015). Emotion recognition using LP residual at sub-segmental, segmental and supra-segmental levels. In International conference on communication, information & computing Technology (ICCICT), IEEE, pp.\u00a01\u20136.","DOI":"10.1109\/ICCICT.2015.7045735"},{"issue":"5","key":"9572_CR44","doi-asserted-by":"publisher","first-page":"1415","DOI":"10.1016\/j.sigpro.2009.09.009","volume":"90","author":"B Yang","year":"2010","unstructured":"Yang, B., & Lugger, M. (2010). Emotion recognition from speech signals using new harmony features. Signal Processing, 90(5), 1415\u20131423.","journal-title":"Signal Processing"},{"issue":"5","key":"9572_CR45","doi-asserted-by":"publisher","first-page":"620","DOI":"10.1109\/LSP.2014.2311435","volume":"21","author":"L Zao","year":"2014","unstructured":"Zao, L., Cavalcante, D., & Coelho, R. (2014). Time-frequency feature and AMS-GMM mask for acoustic emotion classification. IEEE Signal Processing Letters, 21(5), 620\u2013624.","journal-title":"IEEE Signal Processing Letters"},{"key":"9572_CR46","doi-asserted-by":"crossref","unstructured":"Zhang, Y., Liu, Y., Weninger, F., & Schuller, B. (2017). Multi-task deep neural network with shared hidden layers: Breaking down the wall between emotion representations. In 2017 IEEE international conference on acoustics, speech and signal processing (ICASSP), New Orleans, pp.\u00a04990\u20134994.","DOI":"10.1109\/ICASSP.2017.7953106"},{"key":"9572_CR47","doi-asserted-by":"crossref","unstructured":"Zheng, W. Q., Yu, J. S., & Zou, Y. X. (2015). An experimental study of speech emotion recognition based on deep convolutional neural networks. In 2015 international conference on affective computing and intelligent interaction (ACII), Xi\u2019an, pp.\u00a0827\u2013831.","DOI":"10.1109\/ACII.2015.7344669"}],"container-title":["International Journal of Speech Technology"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10772-018-09572-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s10772-018-09572-8\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10772-018-09572-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,11,22]],"date-time":"2019-11-22T00:19:11Z","timestamp":1574381951000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s10772-018-09572-8"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,11,22]]},"references-count":48,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2019,9]]}},"alternative-id":["9572"],"URL":"https:\/\/doi.org\/10.1007\/s10772-018-09572-8","relation":{},"ISSN":["1381-2416","1572-8110"],"issn-type":[{"value":"1381-2416","type":"print"},{"value":"1572-8110","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018,11,22]]},"assertion":[{"value":"11 June 2018","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"30 October 2018","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"22 November 2018","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}