{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,14]],"date-time":"2026-02-14T21:36:10Z","timestamp":1771104970869,"version":"3.50.1"},"reference-count":51,"publisher":"Springer Science and Business Media LLC","issue":"6","license":[{"start":{"date-parts":[[2021,8,9]],"date-time":"2021-08-09T00:00:00Z","timestamp":1628467200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2021,8,9]],"date-time":"2021-08-09T00:00:00Z","timestamp":1628467200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"funder":[{"name":"Natural Science Foundations of China","award":["61806078"],"award-info":[{"award-number":["61806078"]}]},{"DOI":"10.13039\/501100001809","name":"Natural Science Foundation of China","doi-asserted-by":"crossref","award":["62076094"],"award-info":[{"award-number":["62076094"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"crossref"}]},{"name":"National Major Scientific and Technological Special Project for \u201cSignificant New Drugs Development\u201d","award":["2019ZX09201004"],"award-info":[{"award-number":["2019ZX09201004"]}]},{"name":"Shanghai Science and Technology Program \u201cDistributed and generative few-shot algorithm and theory research\u201d","award":["20511100600"],"award-info":[{"award-number":["20511100600"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Neural Process Lett"],"published-print":{"date-parts":[[2021,12]]},"DOI":"10.1007\/s11063-021-10581-z","type":"journal-article","created":{"date-parts":[[2021,8,9]],"date-time":"2021-08-09T20:05:14Z","timestamp":1628539514000},"page":"4097-4115","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":25,"title":["BLSTM and CNN Stacking Architecture for Speech Emotion Recognition"],"prefix":"10.1007","volume":"53","author":[{"given":"Dongdong","family":"Li","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Linyu","family":"Sun","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xinlei","family":"Xu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhe","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jing","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wenli","family":"Du","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2021,8,9]]},"reference":[{"issue":"1","key":"10581_CR1","doi-asserted-by":"publisher","first-page":"18","DOI":"10.1109\/T-AFFC.2010.1","volume":"1","author":"RA Calvo","year":"2010","unstructured":"Calvo RA, Sidney D (2010) Affect detection: an interdisciplinary review of models, methods, and their applications. IEEE Trans Affect Comput 1(1):18\u201337","journal-title":"IEEE Trans Affect Comput"},{"issue":"7553","key":"10581_CR2","doi-asserted-by":"publisher","first-page":"436","DOI":"10.1038\/nature14539","volume":"521","author":"Y Lecun","year":"2015","unstructured":"Lecun Y, Bengio Y, Hinton G (2015) Deep learning. Nature 521(7553):436","journal-title":"Nature"},{"issue":"6","key":"10581_CR3","doi-asserted-by":"publisher","first-page":"82","DOI":"10.1109\/MSP.2012.2205597","volume":"29","author":"G Hinto","year":"2012","unstructured":"Hinto G, Li D, Dong Y, Dahl GE, Mohamed AR, Navdeep J, Senior A, Nguyen P, Vanhoucke V, Sainath TN (2012) Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups. IEEE Signal Process Mag 29(6):82\u201397","journal-title":"IEEE Signal Process Mag"},{"key":"10581_CR4","doi-asserted-by":"crossref","unstructured":"Pitsilis GK, Ramampiaro H, Langseth H (2018) Effective hate-speech detection in twitter data using recurrent neural networks. Appl Intell (page in press)","DOI":"10.1007\/s10489-018-1242-y"},{"issue":"1","key":"10581_CR5","doi-asserted-by":"publisher","first-page":"44","DOI":"10.1007\/s10489-018-1206-2","volume":"49","author":"W Xing","year":"2019","unstructured":"Xing W, Zhikang D, Guo Y, Fujita H (2019) Hierarchical attention based long short-term memory for Chinese lyric generation. Appl Intell 49(1):44\u201352","journal-title":"Appl Intell"},{"key":"10581_CR6","unstructured":"Felix W, Yang S, Junho P, Daniel W, Puming Z (2019) Deep learning based mandarin accent identification for accent robust ASR. In: INTERSPEECH, pp 510\u2013514"},{"key":"10581_CR7","doi-asserted-by":"crossref","unstructured":"Mirsamadi S, Barsoum E, Zhang C (2017) Automatic speech emotion recognition using recurrent neural networks with local attention. In: IEEE international conference on acoustics, speech and signal processing","DOI":"10.1109\/ICASSP.2017.7952552"},{"key":"10581_CR8","unstructured":"Chernykh V, Sterling G, Prihodko P (2017) Emotion recognition from speech with recurrent neural networks. CoRR. abs\/1701.08071"},{"key":"10581_CR9","doi-asserted-by":"publisher","first-page":"4","DOI":"10.1016\/j.patrec.2014.10.015","volume":"66","author":"E Trentin","year":"2015","unstructured":"Trentin E, Scherer S, Schwenker F (2015) Emotion recognition from speech signals via a probabilistic echo-state network. Pattern Recognit Lett 66:4\u201312","journal-title":"Pattern Recognit Lett"},{"key":"10581_CR10","doi-asserted-by":"crossref","unstructured":"Fayek HM, Lech M, Cavedon L (2017) Evaluating deep learning architectures for speech emotion recognition. Neural Networks","DOI":"10.1016\/j.neunet.2017.02.013"},{"key":"10581_CR11","doi-asserted-by":"crossref","unstructured":"Zhen-Tao L, Peng X, Dan-Yun L, Man H (2019) Speaker-independent speech emotion recognition based on cnn-blstm and multiple svms. In: International conference on intelligent robotics and applications. Springer, pp 481\u2013491","DOI":"10.1007\/978-3-030-27535-8_43"},{"issue":"5","key":"10581_CR12","doi-asserted-by":"publisher","first-page":"713","DOI":"10.3390\/electronics9050713","volume":"9","author":"Yu Yeonguk","year":"2020","unstructured":"Yeonguk Yu, Kim Y-J (2020) Attention-LSTM-attention model for speech emotion recognition and analysis of IEMOCAP database. Electronics 9(5):713","journal-title":"Electronics"},{"key":"10581_CR13","doi-asserted-by":"crossref","unstructured":"Stolar MN, Lech M, Bolia RS, Skinner M (2017) Real time speech emotion recognition using RGB image classification and transfer learning. In: 2017 11th International conference on signal processing and communication systems (ICSPCS). IEEE, pp 1\u20138","DOI":"10.1109\/ICSPCS.2017.8270472"},{"key":"10581_CR14","doi-asserted-by":"crossref","unstructured":"Sourav S, Puneet K, Balasubramanian R, Partha Pratim R (2019) A segment level approach to speech emotion recognition using transfer learning. In: Asian conference on pattern recognition. Springer, pp 435\u2013448","DOI":"10.1007\/978-3-030-41299-9_34"},{"key":"10581_CR15","doi-asserted-by":"crossref","unstructured":"Soonil K et\u00a0al (2020) MLT-DNET: speech emotion recognition using 1d dilated CNN based on multi-learning trick approach. Expert Syst Appl 114177","DOI":"10.1016\/j.eswa.2020.114177"},{"key":"10581_CR16","unstructured":"Jiamu L, Wenjing H, Huabin R, Xiaomin C, Dongmei J, Haifeng L (2018) Learning salient features for speech emotion recognition using CNN. In: 2018 1st Asian conference on affective computing and intelligent interaction (ACII Asia). IEEE, pp 1\u20135"},{"issue":"6","key":"10581_CR17","doi-asserted-by":"publisher","first-page":"1576","DOI":"10.1109\/TMM.2017.2766843","volume":"20","author":"S Zhang","year":"2018","unstructured":"Zhang S, Zhang S, Huang T, Gao W (2018) Speech emotion recognition using deep convolutional neural network and discriminant temporal pyramid matching. IEEE Trans Multimed 20(6):1576\u20131590","journal-title":"IEEE Trans Multimed"},{"key":"10581_CR18","doi-asserted-by":"crossref","unstructured":"Neumann M, Vu NT (2017) Attentive convolutional neural network based speech emotion recognition: a study on the impact of input features, signal length, and acted speech. In: INTERSPEECH, pp 1263\u20131267","DOI":"10.21437\/Interspeech.2017-917"},{"key":"10581_CR19","doi-asserted-by":"crossref","unstructured":"Kim NK, Lee J, Ha HK, Lee GW, Lee JH, Hong KK (2017) Speech emotion recognition based on multi-task learning using a convolutional neural network. In: Asia-Pacific Signal and Information Processing Association Summit and Conference, pp 704\u2013707","DOI":"10.1109\/APSIPA.2017.8282123"},{"key":"10581_CR20","doi-asserted-by":"crossref","unstructured":"Deng L, Platt JC (2014) Ensemble deep learning for speech recognition. Proc Interspeech","DOI":"10.21437\/Interspeech.2014-433"},{"issue":"8","key":"10581_CR21","doi-asserted-by":"publisher","first-page":"1301","DOI":"10.1109\/JSTSP.2017.2764438","volume":"11","author":"P Tzirakis","year":"2017","unstructured":"Tzirakis P, Trigeorgis G, Nicolaou MA, Schuller B, Zafeiriou S (2017) End-to-end multimodal emotion recognition using deep neural networks. IEEE J Sel Top Signal Process 11(8):1301\u20131309","journal-title":"IEEE J Sel Top Signal Process"},{"issue":"2","key":"10581_CR22","doi-asserted-by":"publisher","first-page":"241","DOI":"10.1016\/S0893-6080(05)80023-1","volume":"5","author":"DH Wolpert","year":"1992","unstructured":"Wolpert DH (1992) Stacked generalization *. Neural Networks 5(2):241\u2013259","journal-title":"Neural Networks"},{"issue":"4","key":"10581_CR23","doi-asserted-by":"publisher","first-page":"335","DOI":"10.1007\/s10579-008-9076-6","volume":"42","author":"C Busso","year":"2008","unstructured":"Busso C, Bulut M, Lee CC, Kazemzadeh A, Mower E, Kim S, Chang JN, Lee S, Narayanan SS (2008) Iemocap: interactive emotional dyadic motion capture database. Lang Resour Eval 42(4):335\u2013359","journal-title":"Lang Resour Eval"},{"key":"10581_CR24","unstructured":"Bottou L (2012) Online algorithms and stochastic approximations. In: David S (ed) Online Learning and Neural Networks. Cambridge University Press, Cambridge"},{"key":"10581_CR25","doi-asserted-by":"crossref","unstructured":"Li X, Xianyu H, Tian J, Chen W, Meng F, Xu MX, Cai LH (2016) A deep bidirectional long short-term memory based multi-scale approach for music dynamic emotion prediction. In: IEEE international conference on acoustics, speech and signal processing, pp 544\u2013548","DOI":"10.1109\/ICASSP.2016.7471734"},{"issue":"2","key":"10581_CR26","first-page":"396","volume":"2","author":"YL Cun","year":"1990","unstructured":"Cun YL, Boser B, Denker JS, Howard RE, Habbard W, Jackel LD (1990) Handwritten digit recognition with a back-propagation network. Adv Neural Inf Process Syst 2(2):396\u2013404","journal-title":"Adv Neural Inf Process Syst"},{"key":"10581_CR27","doi-asserted-by":"crossref","unstructured":"Lecun Y, Kavukcuoglu K, Farabet C (2011). Convolutional networks and applications in vision. In: IEEE International Symposium on Circuits and Systems, pp 253\u2013256","DOI":"10.1109\/ISCAS.2010.5537907"},{"key":"10581_CR28","unstructured":"Glorot X, Bordes A, Bengio Y (2011). Deep sparse rectifier neural networks. In: International conference on artificial intelligence and statistics, pp 315\u2013323"},{"issue":"6","key":"10581_CR29","doi-asserted-by":"publisher","first-page":"1066","DOI":"10.1109\/TASLP.2016.2540805","volume":"24","author":"X Zhang","year":"2016","unstructured":"Zhang X, Zhang H, Nie S, Gao G, Liu W (2016) A pairwise algorithm using the deep stacking network for speech separation and pitch estimation. IEEE\/ACM Trans Audio Speech Lang Process 24(6):1066\u20131078","journal-title":"IEEE\/ACM Trans Audio Speech Lang Process"},{"key":"10581_CR30","doi-asserted-by":"crossref","unstructured":"Wang ZQ, Wang DL (2017) Recurrent deep stacking networks for supervised speech separation. In: IEEE international conference on acoustics, speech and signal processing, pp 71\u201375","DOI":"10.1109\/ICASSP.2017.7952120"},{"key":"10581_CR31","doi-asserted-by":"crossref","unstructured":"Palangi H, Ward R, Li D (2016) Exploiting correlations among channels in distributed compressive sensing with convolutional deep stacking networks. In: IEEE International Conference on Acoustics, Speech and Signal Processing, pp 2692\u20132696","DOI":"10.1109\/ICASSP.2016.7472166"},{"key":"10581_CR32","unstructured":"Kingma DP, Adam JB (2014) A method for stochastic optimization. Comput Sci"},{"key":"10581_CR33","unstructured":"Xi C, Bohdan K, Norman M, Pete M (2018) Polynomial regression as an alternative to neural nets. ArXiv e-prints"},{"key":"10581_CR34","doi-asserted-by":"publisher","first-page":"328","DOI":"10.1016\/j.ins.2020.09.047","volume":"548","author":"D Li","year":"2021","unstructured":"Li D, Zhou Y, Wang Z, Gao D (2021) Exploiting the potentialities of features for speech emotion recognition. Inf Sci 548:328\u2013343","journal-title":"Inf Sci"},{"key":"10581_CR35","unstructured":"Sayan G, Eugene L, Louis-Philippe M, Stefan S (2016) Representation learning for speech emotion recognition. In: Interspeech, pp 3603\u20133607"},{"key":"10581_CR36","unstructured":"Michael N, Ngoc\u00a0Thang V (2017) Attentive convolutional neural network based speech emotion recognition: a study on the impact of input features, signal length, and acted speech. arXiv preprint arXiv:1706.00612"},{"key":"10581_CR37","unstructured":"Zheng L, Ya L, Jianhua T, Jian H (2018) Speech emotion recognition via contrastive loss under siamese networks. In: Proceedings of the Joint Workshop of the 4th Workshop on Affective Social Multimedia Computing and First Multi-Modal Affective Computing of Large-Scale Multimedia Data, pp 21\u201326"},{"key":"10581_CR38","unstructured":"Qin J, Chengxin L, Shizhe C, Huimin W (2015) Speech emotion recognition with acoustic and lexical features. In: 2015 IEEE international conference on acoustics, speech and signal processing (ICASSP). IEEE, pp 4749\u20134753"},{"key":"10581_CR39","doi-asserted-by":"crossref","unstructured":"Schuller B, Steidl S, Batliner A (2009) The interspeech 2009 emotion challenge. Interspeech, pp 312\u2013315","DOI":"10.21437\/Interspeech.2009-103"},{"issue":"4","key":"10581_CR40","doi-asserted-by":"publisher","first-page":"65","DOI":"10.1016\/B978-0-08-051584-7.50010-3","volume":"28","author":"SB Davis","year":"1990","unstructured":"Davis SB, Ieee M (1990) Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. Read Speech Recognit 28(4):65\u201374","journal-title":"Read Speech Recognit"},{"issue":"2","key":"10581_CR41","doi-asserted-by":"publisher","first-page":"659","DOI":"10.1016\/j.dsp.2012.10.008","volume":"23","author":"M Kos","year":"2013","unstructured":"Kos M, Ka\u010di\u010d Z, Vlaj D (2013) Acoustic classification and segmentation using modified spectral roll-off and variance-based features. Digit Signal Process 23(2):659\u2013674","journal-title":"Digit Signal Process"},{"key":"10581_CR42","unstructured":"Bjorn S, Stephan R, Gerhard R (2006) Evolutionary feature generation in speech emotion recognition. In: IEEE International Conference on Multimedia & Expo"},{"issue":"101","key":"10581_CR43","first-page":"31","volume":"101","author":"P Chandrasekar","year":"2014","unstructured":"Chandrasekar P, Chapaneri S, Jayaswal D (2014) Emotion recognition from speech using discriminative features. Int J Comput Appl 101(101):31\u201336","journal-title":"Int J Comput Appl"},{"key":"10581_CR44","doi-asserted-by":"crossref","unstructured":"Lalitha S, Mudupu A, Nandyala BV, Munagala R (2016) Speech emotion recognition using dwt. In: IEEE International Conference on Computational Intelligence & Computing Research","DOI":"10.1109\/ICCIC.2015.7435630"},{"key":"10581_CR45","doi-asserted-by":"crossref","unstructured":"Bao\u00a0Zhang G, Li Y, Ming\u00a0Huang Y (2014) Robust speech emotion recognition with novel sub-band spectral centroid weighted wavelet packet feature. Appl Mech Mater 610:283\u2013286","DOI":"10.4028\/www.scientific.net\/AMM.610.283"},{"key":"10581_CR46","unstructured":"Woo\u00a0Seok L, Yong\u00a0Wan R, Dong\u00a0Ju K, Jung\u00a0Hyun K, Kwang\u00a0Seok H (2008) Speech emotion recognition using spectral entropy. In: International Conference on Intelligent Robotics & Applications"},{"key":"10581_CR47","doi-asserted-by":"crossref","unstructured":"Wu S, Falk TH, Chan WY (2011) Automatic speech emotion recognition using modulation spectral features. Speech Commun 53(5):768\u2013785","DOI":"10.1016\/j.specom.2010.08.013"},{"issue":"1","key":"10581_CR48","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1155\/2009\/153017","volume":"2009","author":"F Pachet","year":"2009","unstructured":"Pachet F, Roy P (2009) Analytical features: a knowledge-based approach to audio feature generation. Eurasip J Audio Speech Music Process 2009(1):1\u201323","journal-title":"Eurasip J Audio Speech Music Process"},{"key":"10581_CR49","doi-asserted-by":"crossref","unstructured":"Eyben F, Weninger F, Gross F (2013) Recent developments in opensmile, the Munich open-source multimedia feature extractor. In: ACM International Conference on Multimedia, pp 835\u2013838","DOI":"10.1145\/2502081.2502224"},{"issue":"1","key":"10581_CR50","first-page":"2653","volume":"18","author":"A Benavoli","year":"2017","unstructured":"Benavoli A, Corani G, Dem\u0161ar J, Zaffalon M (2017) Time for a change: a tutorial for comparing multiple classifiers through Bayesian analysis. J Mach Learn Res 18(1):2653\u20132688","journal-title":"J Mach Learn Res"},{"key":"10581_CR51","unstructured":"Kun H, Dong Y, Ivan T (2014) Speech emotion recognition using deep neural network and extreme learning machine. In: Fifteenth annual conference of the international speech communication association"}],"container-title":["Neural Processing Letters"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11063-021-10581-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11063-021-10581-z\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11063-021-10581-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2021,10,31]],"date-time":"2021-10-31T10:16:42Z","timestamp":1635675402000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11063-021-10581-z"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,8,9]]},"references-count":51,"journal-issue":{"issue":"6","published-print":{"date-parts":[[2021,12]]}},"alternative-id":["10581"],"URL":"https:\/\/doi.org\/10.1007\/s11063-021-10581-z","relation":{},"ISSN":["1370-4621","1573-773X"],"issn-type":[{"value":"1370-4621","type":"print"},{"value":"1573-773X","type":"electronic"}],"subject":[],"published":{"date-parts":[[2021,8,9]]},"assertion":[{"value":"5 July 2021","order":1,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"9 August 2021","order":2,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}