{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,21]],"date-time":"2025-12-21T13:27:05Z","timestamp":1766323625113,"version":"3.48.0"},"reference-count":35,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2025,12,21]],"date-time":"2025-12-21T00:00:00Z","timestamp":1766275200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,12,21]],"date-time":"2025-12-21T00:00:00Z","timestamp":1766275200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100001809","name":"The National Natural Science Foundation of China","doi-asserted-by":"crossref","award":["61602161"],"award-info":[{"award-number":["61602161"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J Supercomput"],"DOI":"10.1007\/s11227-025-08140-7","type":"journal-article","created":{"date-parts":[[2025,12,21]],"date-time":"2025-12-21T13:26:27Z","timestamp":1766323587000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Mamba-based dynamic fusion of cross-modal attention optimization models for ERC"],"prefix":"10.1007","volume":"82","author":[{"given":"Jun","family":"Wu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yu","family":"Chen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Panpan","family":"Chen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Shuai","family":"Guo","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiahui","family":"Huang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xinyi","family":"Zhu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qun","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,12,21]]},"reference":[{"key":"8140_CR1","doi-asserted-by":"publisher","unstructured":"Shen W, Chen J, Quan X et al (2021) Dialogxl: all-in-one xlnet for multi-party conversation emotion recognition. In: 35th AAAI Conference on Artificial Intelligence, AAAI 2021, 33rd Conference on Innovative Applications of Artificial Intelligence, IAAI 2021, The Eleventh Symposium on Educational Advances in Artificial Intelligence, EAAI 2021, Virtual Event, February 2\u20139, 2021, pp. 13789\u201313797. https:\/\/doi.org\/10.1609\/AAAI.V35I15.17625","DOI":"10.1609\/AAAI.V35I15.17625"},{"key":"8140_CR2","doi-asserted-by":"publisher","unstructured":"Zhong M, Liu Y, Xu Y, Zhu C, Zeng M (2022) Dialoglm: pre-trained model for long dialogue understanding and summarization. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol 36, pp. 11765\u201311773. https:\/\/doi.org\/10.1609\/aaai.v36i10.21432","DOI":"10.1609\/aaai.v36i10.21432"},{"key":"8140_CR3","doi-asserted-by":"crossref","unstructured":"Li D, Wang Y, Funakoshi K, Okumura M (2023) Joyful: joint modality fusion and graph contrastive learning for multimodal emotion recognition. arXiv preprint arXiv:2311.11009","DOI":"10.18653\/v1\/2023.emnlp-main.996"},{"key":"8140_CR4","doi-asserted-by":"publisher","unstructured":"Miao S, Xu Q, Li W, Yang C, Sheng B, Liu F, Bezabih TT, Yu X (2024) MMTFN: multi-modal multi-scale transformer fusion network for Alzheimer\u2019s disease diagnosis. Int J Imaging Syst Technol. https:\/\/doi.org\/10.1002\/IMA.22970","DOI":"10.1002\/IMA.22970"},{"key":"8140_CR5","doi-asserted-by":"publisher","unstructured":"Xiang P, Lin C, Wu K, Bai O (2024) Multimae-der: multimodal masked autoencoder for dynamic emotion recognition. In: 2024 14th International Conference on Pattern Recognition Systems (ICPRS), pp. 1\u20137. https:\/\/doi.org\/10.1109\/ICPRS62101.2024.10677820","DOI":"10.1109\/ICPRS62101.2024.10677820"},{"key":"8140_CR6","doi-asserted-by":"publisher","unstructured":"Hu J, Liu Y, Zhao J, Jin Q (2021) MMGCN: multimodal fusion via deep graph convolution network for emotion recognition in conversation. In: Zong, C., Xia, F., Li, W., Navigli, R. (eds.) Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, ACL\/IJCNLP 2021, (Volume 1: Long Papers), Virtual Event, August 1\u20136, 2021, pp. 5666\u20135675. https:\/\/doi.org\/10.18653\/V1\/2021.ACL-LONG.440","DOI":"10.18653\/V1\/2021.ACL-LONG.440"},{"key":"8140_CR7","doi-asserted-by":"publisher","unstructured":"Hu D, Hou X, Wei L, Jiang L, Mo Y (2022) MM-DFN: multimodal dynamic fusion network for emotion recognition in conversations. In: IEEE International Conference on Acoustics, Speech and Signal Processing, ICASSP 2022, Virtual and Singapore, 23\u201327 May 2022, pp. 7037\u20137041. https:\/\/doi.org\/10.1109\/ICASSP43922.2022.9747397","DOI":"10.1109\/ICASSP43922.2022.9747397"},{"issue":"6","key":"8140_CR8","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s00530-024-01518-2","volume":"30","author":"J Wu","year":"2024","unstructured":"Wu J, Wang J, Jing S, Liu J, Zhang T, Han M, Zhan P, Zuo G (2024) Text-dominant strategy for multistage optimized modality fusion in multimodal sentiment analysis. Multimedia Syst 30(6):1\u201311. https:\/\/doi.org\/10.1007\/s00530-024-01518-2","journal-title":"Multimedia Syst"},{"key":"8140_CR9","doi-asserted-by":"publisher","unstructured":"Ghosal D, Majumder N, Poria S et al (2019) Dialoguegcn: a graph convolutional neural network for emotion recognition in conversation. In: Inui K, Jiang J, Ng V, Wan X (eds) Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, EMNLP-IJCNLP 2019, Hong Kong, China, November 3\u20137, 2019, pp. 154\u2013164. https:\/\/doi.org\/10.18653\/V1\/D19-1015","DOI":"10.18653\/V1\/D19-1015"},{"issue":"3","key":"8140_CR10","doi-asserted-by":"publisher","first-page":"673","DOI":"10.1007\/S10844-023-00789-X","volume":"61","author":"R Kumari","year":"2023","unstructured":"Kumari R, Ashok N, Agrawal PK et al (2023) Identifying multimodal misinformation leveraging novelty detection and emotion recognition. J Intell Inf Syst 61(3):673\u2013694. https:\/\/doi.org\/10.1007\/S10844-023-00789-X","journal-title":"J Intell Inf Syst"},{"key":"8140_CR11","doi-asserted-by":"crossref","unstructured":"Chudasama V, Kar P, Gudmalwar A, Shah N, Wasnik P, Onoe N (2022) M2fnet: multi-modal fusion network for emotion recognition in conversation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 4652\u20134661. arXiv:2206.02187","DOI":"10.1109\/CVPRW56347.2022.00511"},{"key":"8140_CR12","doi-asserted-by":"publisher","unstructured":"Poria S, Cambria E, Hazarika D et al (2017) Context-dependent sentiment analysis in user-generated videos. In: Barzilay R, Kan M (eds) Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, ACL 2017, Vancouver, Canada, July 30\u2013August 4, Volume 1: Long Papers, pp 873\u2013883. https:\/\/doi.org\/10.18653\/V1\/P17-1081","DOI":"10.18653\/V1\/P17-1081"},{"key":"8140_CR13","unstructured":"Gu A, Dao T (2023) Mamba: linear-time sequence modeling with selective state spaces. CoRR arXiv:2312.00752"},{"key":"8140_CR14","unstructured":"Pi\u00f3ro M, Ciebiera K, Kr\u00f3l K, Ludziejewski J, Krutul M, Krajewski J, Antoniak S, Mi\u0142o\u015b P, Cygan M, Jaszczur S (2024) MoE-Mamba: efficient selective state space models with mixture of experts. arXiv:2401.04081"},{"key":"8140_CR15","doi-asserted-by":"crossref","unstructured":"Hatamizadeh A, Kautz J (2025) MambaVision: a hybrid mamba-transformer vision backbone. arXiv:2407.08083","DOI":"10.1109\/CVPR52734.2025.02352"},{"key":"8140_CR16","doi-asserted-by":"publisher","unstructured":"Liu Q, Jia H, Ye J, Feng J, Lan F, Du B, Huang R (2024) Trans-mamba: the cross-network of transformer and mamba for traffic flow prediction. In: 2024 IEEE Smart World Congress (SWC), pp 219\u2013226. https:\/\/doi.org\/10.1109\/SWC62898.2024.00064","DOI":"10.1109\/SWC62898.2024.00064"},{"key":"8140_CR17","doi-asserted-by":"crossref","unstructured":"Xu X, Chen C, Liang Y, Huang B, Bai G, Zhao L, Shu K (2024) SST: multi-scale hybrid mamba-transformer experts for time series forecasting. arXiv e-prints arXiv:2404.14757","DOI":"10.1145\/3746252.3761394"},{"key":"8140_CR18","unstructured":"Meng T, Zhang F, Shou Y, Ai W, Yin N, Li K (2024) Revisiting multimodal emotion recognition in conversation from the perspective of graph spectrum. arXiv preprint arXiv:2404.17862"},{"issue":"3","key":"8140_CR19","doi-asserted-by":"publisher","first-page":"91","DOI":"10.1109\/MMUL.2022.3173430","volume":"29","author":"Y Fu","year":"2022","unstructured":"Fu Y, Okada S, Wang L, Guo L, Song Y, Liu J, Dang J (2022) Context- and knowledge-aware graph convolutional network for multimodal emotion recognition. IEEE Multimedia 29(3):91\u2013100. https:\/\/doi.org\/10.1109\/MMUL.2022.3173430","journal-title":"IEEE Multimedia"},{"key":"8140_CR20","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2023.127109","volume":"569","author":"T Meng","year":"2024","unstructured":"Meng T, Shou Y, Ai W, Du J, Liu H, Li K (2024) A multi-message passing framework based on heterogeneous graphs in conversational emotion recognition. Neurocomputing 569:127109. https:\/\/doi.org\/10.1016\/j.neucom.2023.127109","journal-title":"Neurocomputing"},{"issue":"5","key":"8140_CR21","doi-asserted-by":"publisher","first-page":"6991","DOI":"10.1109\/TNNLS.2022.3213589","volume":"35","author":"M Behmanesh","year":"2024","unstructured":"Behmanesh M, Adibi P, Ehsani SMS, Chanussot J (2024) Geometric multimodal deep learning with multiscaled graph wavelet convolutional network. IEEE Trans Neural Netw Learn Syst 35(5):6991\u20137005. https:\/\/doi.org\/10.1109\/TNNLS.2022.3213589","journal-title":"IEEE Trans Neural Netw Learn Syst"},{"issue":"2","key":"8140_CR22","doi-asserted-by":"publisher","first-page":"40","DOI":"10.1007\/s10044-025-01414-z","volume":"28","author":"J Zhang","year":"2025","unstructured":"Zhang J, Yu Y, Tang S, Qi G, Wu H, Hachiya H (2025) Enhancing semantic audio-visual representation learning with supervised multi-scale attention. Pattern Anal Appl 28(2):40. https:\/\/doi.org\/10.1007\/s10044-025-01414-z","journal-title":"Pattern Anal Appl"},{"issue":"1","key":"8140_CR23","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3702996","volume":"21","author":"N Wang","year":"2024","unstructured":"Wang N, Wang Q (2024) Dynamic weighted gating for enhanced cross-modal interaction in multimodal sentiment analysis. ACM Trans Multimed Comput Commun Appl 21(1):1\u201319. https:\/\/doi.org\/10.1145\/3702996","journal-title":"ACM Trans Multimed Comput Commun Appl"},{"key":"8140_CR24","doi-asserted-by":"publisher","unstructured":"Ramavath B, Kadainti S, Subash N (2024) Sentiment analysis using multi head self-attention mechanism based bidirectional gated recurrent unit. In: 2024 International Conference on Intelligent Algorithms for Computational Intelligence Systems (IACIS), pp 1\u20138. https:\/\/doi.org\/10.1109\/IACIS61494.2024.10721765","DOI":"10.1109\/IACIS61494.2024.10721765"},{"key":"8140_CR25","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2025.129342","volume":"623","author":"C-VT Nguyen","year":"2025","unstructured":"Nguyen C-VT, Kieu H-D, Ha Q-T, Phan X-H, Le D-T (2025) Mi-cga: cross-modal graph attention network for robust emotion recognition in the presence of incomplete modalities. Neurocomputing 623:129342. https:\/\/doi.org\/10.1016\/j.neucom.2025.129342","journal-title":"Neurocomputing"},{"key":"8140_CR26","doi-asserted-by":"crossref","unstructured":"Clark K, Khandelwal U, Levy O, Manning CD (2019) What does Bert look at? An analysis of Bert\u2019s attention. arXiv preprint arXiv:1906.04341","DOI":"10.18653\/v1\/W19-4828"},{"issue":"6","key":"8140_CR27","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s00530-024-01561-z","volume":"30","author":"H Zhao","year":"2024","unstructured":"Zhao H, Liu S, Chen Y, Kong F, Zeng Q, Li K (2024) Ucema: uni-modal and cross-modal encoding network based on multi-head attention for emotion recognition in conversation. Multimedia Syst 30(6):1\u201314. https:\/\/doi.org\/10.1007\/s00530-024-01561-z","journal-title":"Multimedia Syst"},{"key":"8140_CR28","doi-asserted-by":"publisher","DOI":"10.1016\/j.knosys.2024.111969","volume":"296","author":"L Guo","year":"2024","unstructured":"Guo L, Song Y, Ding S (2024) Speaker-aware cognitive network with cross-modal attention for multimodal emotion recognition in conversation. Knowl-Based Syst 296:111969. https:\/\/doi.org\/10.1016\/j.knosys.2024.111969","journal-title":"Knowl-Based Syst"},{"key":"8140_CR29","doi-asserted-by":"publisher","unstructured":"Poria S, Hazarika D, Majumder N, Naik G, Cambria E, Mihalcea R (2019) MELD: a multimodal multi-party dataset for emotion recognition in conversations. In: Korhonen A, Traum D, M\u00e0rquez L (eds) Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, Florence, Italy, pp 527\u2013536. https:\/\/doi.org\/10.18653\/v1\/P19-1050","DOI":"10.18653\/v1\/P19-1050"},{"issue":"4","key":"8140_CR30","doi-asserted-by":"publisher","first-page":"335","DOI":"10.1007\/S10579-008-9076-6","volume":"42","author":"C Busso","year":"2008","unstructured":"Busso C, Bulut M, Lee C et al (2008) IEMOCAP: interactive emotional dyadic motion capture database. Lang Resour Evaluat 42(4):335\u2013359. https:\/\/doi.org\/10.1007\/S10579-008-9076-6","journal-title":"Lang Resour Evaluat"},{"key":"8140_CR31","doi-asserted-by":"publisher","unstructured":"Hazarika D, Poria S, Mihalcea R et al (2018) ICON: interactive conversational memory network for multimodal emotion detection. In: Riloff E, Chiang D, Hockenmaier J, Tsujii J (eds) Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, Brussels, Belgium, October 31\u2013November 4, 2018, pp 2594\u20132604. https:\/\/doi.org\/10.18653\/V1\/D18-1280","DOI":"10.18653\/V1\/D18-1280"},{"key":"8140_CR32","doi-asserted-by":"publisher","unstructured":"Majumder N, Poria S, Hazarika D et al (2019) Dialoguernn: an attentive RNN for emotion detection in conversations. In: The 33rd AAAI Conference on Artificial Intelligence, AAAI 2019, The 31st Innovative Applications of Artificial Intelligence Conference, IAAI 2019, the 9th AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2019, Honolulu, Hawaii, USA, January 27\u2013February 1, 2019, pp 6818\u20136825. https:\/\/doi.org\/10.1609\/AAAI.V33I01.33016818","DOI":"10.1609\/AAAI.V33I01.33016818"},{"key":"8140_CR33","doi-asserted-by":"publisher","unstructured":"Hu D, Wei L, Huai X (2021) Dialoguecrn: contextual reasoning networks for emotion recognition in conversations. In: Zong C, Xia F, Li W, Navigli R (eds) Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing, ACL\/IJCNLP 2021 (Volume 1: Long Papers), Virtual Event, August 1\u20136, 2021, pp 7042\u20137052. https:\/\/doi.org\/10.18653\/V1\/2021.ACL-LONG.547","DOI":"10.18653\/V1\/2021.ACL-LONG.547"},{"key":"8140_CR34","doi-asserted-by":"publisher","DOI":"10.1016\/J.KNOSYS.2023.110285","volume":"263","author":"B Wang","year":"2023","unstructured":"Wang B, Dong G, Zhao Y, Li R, Cao Q, Hu K, Jiang D (2023) Hierarchically stacked graph convolution for emotion recognition in conversation. Knowl Based Syst 263:110285. https:\/\/doi.org\/10.1016\/J.KNOSYS.2023.110285","journal-title":"Knowl Based Syst"},{"issue":"1","key":"8140_CR35","doi-asserted-by":"publisher","first-page":"130","DOI":"10.1109\/TAFFC.2023.3261279","volume":"15","author":"J Li","year":"2024","unstructured":"Li J, Wang X, Lv G, Zeng Z (2024) Ga2mif: Graph and attention based two-stage multi-source information fusion for conversational emotion detection. IEEE Trans Affect Comput 15(1):130\u2013143. https:\/\/doi.org\/10.1109\/TAFFC.2023.3261279","journal-title":"IEEE Trans Affect Comput"}],"container-title":["The Journal of Supercomputing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11227-025-08140-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11227-025-08140-7","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11227-025-08140-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,21]],"date-time":"2025-12-21T13:26:29Z","timestamp":1766323589000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11227-025-08140-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,21]]},"references-count":35,"journal-issue":{"issue":"1","published-online":{"date-parts":[[2026,1]]}},"alternative-id":["8140"],"URL":"https:\/\/doi.org\/10.1007\/s11227-025-08140-7","relation":{},"ISSN":["1573-0484"],"issn-type":[{"value":"1573-0484","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,12,21]]},"assertion":[{"value":"2 May 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"10 December 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 December 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}},{"value":"The authors state that this research complies with ethical standards. This research does not involve either human participants or animals.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethical approval"}}],"article-number":"10"}}