{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,25]],"date-time":"2026-03-25T16:21:55Z","timestamp":1774455715658,"version":"3.50.1"},"reference-count":39,"publisher":"Springer Science and Business Media LLC","issue":"15-16","license":[{"start":{"date-parts":[[2023,8,17]],"date-time":"2023-08-17T00:00:00Z","timestamp":1692230400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,8,17]],"date-time":"2023-08-17T00:00:00Z","timestamp":1692230400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61772023"],"award-info":[{"award-number":["61772023"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Soft Comput"],"published-print":{"date-parts":[[2024,8]]},"DOI":"10.1007\/s00500-023-08957-5","type":"journal-article","created":{"date-parts":[[2023,8,17]],"date-time":"2023-08-17T06:02:11Z","timestamp":1692252131000},"page":"8701-8713","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["TWACapsNet: a capsule network with two-way attention mechanism for speech emotion recognition"],"prefix":"10.1007","volume":"28","author":[{"given":"Xin-Cheng","family":"Wen","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kun-Hong","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yan","family":"Luo","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiaxin","family":"Ye","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1222-8876","authenticated-orcid":false,"given":"Liyan","family":"Chen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2023,8,17]]},"reference":[{"key":"8957_CR1","doi-asserted-by":"publisher","first-page":"19","DOI":"10.1016\/j.specom.2020.04.005","volume":"122","author":"L Abdel-Hamid","year":"2020","unstructured":"Abdel-Hamid L (2020) Egyptian Arabic speech emotion recognition using prosodic, spectral and wavelet features. Speech Commun 122:19\u201330","journal-title":"Speech Commun"},{"key":"8957_CR2","doi-asserted-by":"publisher","first-page":"1533","DOI":"10.1109\/TASLP.2014.2339736","volume":"22","author":"O Abdel-Hamid","year":"2014","unstructured":"Abdel-Hamid O, Mohamed A, Jiang H, Deng L, Penn G, Yu D (2014) Convolutional neural networks for speech recognition. IEEE\/ACM Trans Audio, Speech Lang Process 22:1533\u20131545","journal-title":"IEEE\/ACM Trans Audio, Speech Lang Process"},{"key":"8957_CR3","doi-asserted-by":"publisher","first-page":"556","DOI":"10.1016\/j.csl.2010.10.001","volume":"25","author":"E Albornoz","year":"2011","unstructured":"Albornoz E, Milone DH, Rufiner HL (2011) Spoken emotion recognition using hierarchical classifiers. Comput Speech Lang 25:556\u2013570","journal-title":"Comput Speech Lang"},{"key":"8957_CR4","doi-asserted-by":"publisher","first-page":"20483","DOI":"10.1007\/s11042-019-07988-1","volume":"79","author":"I Bakkouri","year":"2020","unstructured":"Bakkouri I, Afdel K (2020) Computer-aided diagnosis (cad) system based on multi-layer feature fusion network for skin lesion recognition in dermoscopy images. Multimed Tools Appl 79:20483\u201320518","journal-title":"Multimed Tools Appl"},{"key":"8957_CR5","first-page":"1","volume-title":"Mlca2f: Multi-level context attentional feature fusion for Covid-19 lesion segmentation from CT scans","author":"I Bakkouri","year":"2022","unstructured":"Bakkouri I, Afdel K (2022) Mlca2f: Multi-level context attentional feature fusion for Covid-19 lesion segmentation from CT scans. Signal, Image and Video Processing, pp 1\u20138"},{"key":"8957_CR6","doi-asserted-by":"publisher","DOI":"10.1016\/j.apacoust.2020.107645","volume":"172","author":"SR Bandela","year":"2021","unstructured":"Bandela SR, Kumar TK (2021) Unsupervised feature selection and NMF de-noising for robust speech emotion recognition. Appl Acoust 172:107645","journal-title":"Appl Acoust"},{"key":"8957_CR7","first-page":"4699","volume":"31","author":"H Burgan","year":"2022","unstructured":"Burgan H (2022) Comparison of different ANN (FFBP GRNN RBF) algorithms and multiple linear regression for daily streamflow prediction in kocasu river-turkey. Fresenius Environ Bull 31:4699\u20134708","journal-title":"Fresenius Environ Bull"},{"key":"8957_CR8","doi-asserted-by":"crossref","unstructured":"Burkhardt F, Paeschke A, Rolfes M, Sendlmeier WF, Weiss B (2005) A database of german emotional speech, In: INTERSPEECH 2005 - Eurospeech, 9th European conference on speech communication and technology, Lisbon, Portugal, 2005","DOI":"10.21437\/Interspeech.2005-446"},{"key":"8957_CR9","doi-asserted-by":"crossref","unstructured":"Busso C, Bulut M, Lee CC, Kazemzadeh A, Mower E, Kim S, Chang JN, Lee S, Narayanan SS (2008) Iemocap: Interactive emotional dyadic motion capture database, Springer. pp 335\u2013359","DOI":"10.1007\/s10579-008-9076-6"},{"key":"8957_CR10","first-page":"1","volume":"9","author":"PR Chaudhari","year":"2016","unstructured":"Chaudhari PR, Alex JSR (2016) Selection of features for emotion recognition from speech. Indian J Sci Technol 9:1\u20135","journal-title":"Indian J Sci Technol"},{"key":"8957_CR11","doi-asserted-by":"publisher","first-page":"363","DOI":"10.1108\/IJICC-08-2021-0178","volume":"15","author":"ML George","year":"2022","unstructured":"George ML, Lakshmi NVSSR, Nagarajan SM, Mahapatra RP, Muthukumaran V, Sivaram M (2022) Intelligent recognition system for viewpoint variations on gait and speech using CNN-Capsnet. Int J Intell Comput Cybern 15:363\u2013382","journal-title":"Int J Intell Comput Cybern"},{"key":"8957_CR12","doi-asserted-by":"publisher","first-page":"882","DOI":"10.1049\/iet-ipr.2019.0312","volume":"14","author":"E G\u00f6\u00e7eri","year":"2020","unstructured":"G\u00f6\u00e7eri E (2020) Capsnet topology to classify tumours from brain images and comparative evaluation. IET Image Process 14:882\u2013889","journal-title":"IET Image Process"},{"key":"8957_CR13","doi-asserted-by":"publisher","first-page":"521","DOI":"10.1007\/s10772-018-09576-4","volume":"22","author":"AP Gudmalwar","year":"2018","unstructured":"Gudmalwar AP, Rama Rao CV, Dutta A (2018) Improving the performance of the speaker emotion recognition based on low dimension prosody features vector. Int J Speech Technol 22:521\u2013531","journal-title":"Int J Speech Technol"},{"key":"8957_CR14","volume-title":"Surrey audio-visual expressed emotion (savee) database","author":"P Jackson","year":"2014","unstructured":"Jackson P, Haq S (2014) Surrey audio-visual expressed emotion (savee) database. University of Surrey, Guildford"},{"key":"8957_CR15","doi-asserted-by":"crossref","unstructured":"Jalal MA, Loweimi E, Moore RK, Hain T (2019) Learning temporal clusters using capsule routing for speech emotion recognition, In: Proceedings of interspeech 2019, ISCA. pp 1701\u20131705","DOI":"10.21437\/Interspeech.2019-3068"},{"key":"8957_CR16","doi-asserted-by":"publisher","first-page":"328","DOI":"10.1016\/j.ins.2020.09.047","volume":"548","author":"D Li","year":"2021","unstructured":"Li D, Zhou Y, Wang Z, Gao D (2021) Exploiting the potentialities of features for speech emotion recognition. Inf Sci 548:328\u2013343","journal-title":"Inf Sci"},{"key":"8957_CR17","doi-asserted-by":"publisher","DOI":"10.1016\/j.ymssp.2021.108664","volume":"168","author":"J Liu","year":"2022","unstructured":"Liu J, Zhang C, Jiang X (2022) Imbalanced fault diagnosis of rolling bearing using improved MSR-GAN and feature enhancement-driven Capsnet. Mech Syst Signal Process 168:108664","journal-title":"Mech Syst Signal Process"},{"key":"8957_CR18","doi-asserted-by":"crossref","unstructured":"McFee B, Raffel C, Liang D, Ellis D, Mcvicar M, Battenberg E, Nieto O (2015) librosa: audio and music signal analysis in python, pp 18\u201324","DOI":"10.25080\/Majora-7b98e3ed-003"},{"key":"8957_CR19","first-page":"27","volume-title":"Vocal emotion recognition based on HMM and GMM for mandarin speech","author":"S Menghan","year":"2011","unstructured":"Menghan S, Baochen J, Jing Y (2011) Vocal emotion recognition based on HMM and GMM for mandarin speech. IEEE Computer Society, USA, pp 27\u201330"},{"key":"8957_CR20","unstructured":"Mnih V, Heess N, Graves A, Kavukcuoglu K (2014) Recurrent models of visual attention, In: Proceedings of the 27th international conference on neural information processing systems - Volume 2, MIT Press, Cambridge, MA, USA. pp 2204-2212"},{"key":"8957_CR21","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2020.114177","volume":"167","author":"S Mustaqeem Kwon","year":"2020","unstructured":"Mustaqeem Kwon S (2020) MLT-DNet: speech emotion recognition using 1d dilated CNN based on multi-learning trick approach. Expert Syst Appl 167:114177","journal-title":"Expert Syst Appl"},{"key":"8957_CR22","doi-asserted-by":"publisher","DOI":"10.1016\/j.dsp.2020.102763","volume":"104","author":"S Nagarajan","year":"2020","unstructured":"Nagarajan S, Nettimi SSS, Kumar LS, Nath MK, Kanhe A (2020) Speech emotion recognition using cepstral features extracted with novel triangular filter banks based on bark and erb frequency scales. Digital Signal Process 104:102763","journal-title":"Digital Signal Process"},{"key":"8957_CR23","doi-asserted-by":"publisher","first-page":"320","DOI":"10.1016\/j.apacoust.2018.11.028","volume":"146","author":"T \u00d6zseven","year":"2019","unstructured":"\u00d6zseven T (2019) A novel feature selection method for speech emotion recognition. Appl Acoust 146:320\u2013326","journal-title":"Appl Acoust"},{"key":"8957_CR24","unstructured":"Sabour S, Frosst N, Hinton GE (2017) Dynamic routing between capsules. arXiv preprint arXiv:1710.09829"},{"key":"8957_CR25","doi-asserted-by":"publisher","first-page":"1","DOI":"10.17485\/ijst\/2016\/v9i11\/88460","volume":"9","author":"R Subhashree","year":"2016","unstructured":"Subhashree R, Rathna G (2016) Speech emotion recognition: performance analysis based on fused algorithms and GMM modelling. Indian J Sci Technol 9:1\u201318","journal-title":"Indian J Sci Technol"},{"key":"8957_CR26","doi-asserted-by":"publisher","first-page":"29","DOI":"10.1016\/j.specom.2019.10.004","volume":"115","author":"L Sun","year":"2019","unstructured":"Sun L, Zou B, Fu S, Chen J, Wang F (2019) Speech emotion recognition based on DNN-decision tree SVM model. Speech Commun 115:29\u201337","journal-title":"Speech Commun"},{"key":"8957_CR27","unstructured":"Tao J, Liu F, Zhang M, Jia H (2008) Design of speech corpus for mandarin text to speech, In: The Blizzard Challenge 2008 workshop"},{"key":"8957_CR28","doi-asserted-by":"crossref","unstructured":"Wen X, Ye J, Luo Y, Xu Y, Wang X, Wu C, Liu K (2022) CTL-MTNet: a novel capsnet and transfer learning-based mixed task net for single-corpus and cross-corpus speech emotion recognition. IJCAI 2022. Austria, Vienna, pp 2305\u20132311","DOI":"10.24963\/ijcai.2022\/320"},{"key":"8957_CR29","doi-asserted-by":"publisher","unstructured":"Wen XC, Liu KH, Zhang WM, Jiang K (2021) The application of capsule neural network based cnn for speech emotion recognition, In: 2020 25th international conference on pattern recognition (ICPR), pp 9356\u20139362. https:\/\/doi.org\/10.1109\/ICPR48806.2021.9412360","DOI":"10.1109\/ICPR48806.2021.9412360"},{"key":"8957_CR30","doi-asserted-by":"publisher","unstructured":"Wu X, Cao Y, Lu H, Liu S, Wang D, Wu Z, Liu X, Meng HM (2021) Speech emotion recognition using sequential capsule networks, pp 1\u20131. https:\/\/doi.org\/10.1109\/TASLP.2021.3120586","DOI":"10.1109\/TASLP.2021.3120586"},{"key":"8957_CR31","doi-asserted-by":"publisher","unstructured":"Wu X, Liu S, Cao Y, Li X, Yu J, Dai D, Ma X, Hu S, Wu Z, Liu X, Meng H (2019) Speech emotion recognition using capsule networks, In: ICASSP 2019 - 2019 IEEE international conference on acoustics, speech and signal processing (ICASSP), pp 6695\u20136699. https:\/\/doi.org\/10.1109\/ICASSP.2019.8683163","DOI":"10.1109\/ICASSP.2019.8683163"},{"key":"8957_CR32","doi-asserted-by":"crossref","unstructured":"W\u00f6llmer M, Schuller B, Eyben F, Rigoll G (2010) Combining long short-term memory and dynamic Bayesian networks for incremental emotion-sensitive artificial listening. IEEE J Select Topics Signal Process 4:867\u2013881","DOI":"10.1109\/JSTSP.2010.2057200"},{"key":"8957_CR33","first-page":"1","volume-title":"Speech emotion classification using attention-based LSTM","author":"Y Xie","year":"2019","unstructured":"Xie Y, Liang R, Liang Z, Huang C, Schuller B (2019) Speech emotion classification using attention-based LSTM. IEEE\/ACM Transactions on Audio, Speech and Language Processing (TASLP) PP, pp 1\u20131"},{"key":"8957_CR34","doi-asserted-by":"crossref","unstructured":"Xie Y, Zhu F, Wang J, Liang R, Zhao L, Tang G (2018) Long-short term memory for emotional recognition with variable length speech, In: 2018 First Asian conference on affective computing and intelligent interaction (ACII Asia), IEEE. pp 1\u20134","DOI":"10.1109\/ACIIAsia.2018.8470341"},{"key":"8957_CR35","doi-asserted-by":"crossref","unstructured":"Yang Z, Yang D, Dyer C, He X, Smola A, Hovy E (2016) Hierarchical attention networks for document classification, In: Proceedings of the 2016 conference of the North American chapter of the association for computational linguistics: human language technologies, pp 1480\u20131489","DOI":"10.18653\/v1\/N16-1174"},{"key":"8957_CR36","doi-asserted-by":"publisher","first-page":"21","DOI":"10.1016\/j.specom.2022.07.005","volume":"145","author":"J Ye","year":"2022","unstructured":"Ye J, Wen X, Wang X, Xu Y, Luo Y, Wu C, Chen L, Liu K (2022) GM-TCNet: Gated multi-scale temporal convolutional network using emotion causality for speech emotion recognition. Speech Commun 145:21\u201335","journal-title":"Speech Commun"},{"key":"8957_CR37","doi-asserted-by":"crossref","unstructured":"Ye J, Wen X, Wei Y, Xu Y, Liu K, Shan H (2023) Temporal modeling matters: a novel temporal emotional modeling approach for speech emotion recognition, In: IEEE international conference on acoustics, speech and signal processing (ICASSP), Rhodes Island, Greece, 2023, pp 1\u20135","DOI":"10.1109\/ICASSP49357.2023.10096370"},{"key":"8957_CR38","doi-asserted-by":"crossref","unstructured":"Yeh SL, Lin YS, Lee CC (2019) An interaction-aware attention network for speech emotion recognition in spoken dialogs, In: ICASSP 2019 - 2019 IEEE international conference on acoustics, speech and signal processing (ICASSP)","DOI":"10.1109\/ICASSP.2019.8683293"},{"key":"8957_CR39","doi-asserted-by":"publisher","first-page":"312","DOI":"10.1016\/j.bspc.2018.08.035","volume":"47","author":"J Zhao","year":"2019","unstructured":"Zhao J, Mao X, Chen L (2019) Speech emotion recognition using deep 1d & 2d CNN lSTM networks. Biomed Signal Process Control 47:312\u2013323","journal-title":"Biomed Signal Process Control"}],"container-title":["Soft Computing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00500-023-08957-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00500-023-08957-5\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00500-023-08957-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,5]],"date-time":"2025-09-05T18:01:08Z","timestamp":1757095268000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00500-023-08957-5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,8,17]]},"references-count":39,"journal-issue":{"issue":"15-16","published-print":{"date-parts":[[2024,8]]}},"alternative-id":["8957"],"URL":"https:\/\/doi.org\/10.1007\/s00500-023-08957-5","relation":{},"ISSN":["1432-7643","1433-7479"],"issn-type":[{"value":"1432-7643","type":"print"},{"value":"1433-7479","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,8,17]]},"assertion":[{"value":"16 June 2023","order":1,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"17 August 2023","order":2,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare that they have no conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}},{"value":"This article does not contain any studies with human participants or animals performed by any of the authors.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethical approval"}},{"value":"This article does not contain any studies with human participants performed by any of the authors.","order":4,"name":"Ethics","group":{"name":"EthicsHeading","label":"Human and animal rights"}}]}}