{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,27]],"date-time":"2026-01-27T09:13:46Z","timestamp":1769505226943,"version":"3.49.0"},"publisher-location":"New York, NY, USA","reference-count":51,"publisher":"ACM","funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62376051"],"award-info":[{"award-number":["62376051"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,13]]},"DOI":"10.1145\/3716553.3750769","type":"proceedings-article","created":{"date-parts":[[2025,10,11]],"date-time":"2025-10-11T13:13:16Z","timestamp":1760188396000},"page":"344-353","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Disentangling Cross-Modal Interactions for Enhanced Multimodal Emotion Recognition in Conversation"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0000-9725-0425","authenticated-orcid":false,"given":"Jian","family":"Ding","sequence":"first","affiliation":[{"name":"School of Computer Science and Technology, Dalian University of Technology, Dalian, Liaoning, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6933-922X","authenticated-orcid":false,"given":"Bo","family":"Zhang","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Dalian University of Technology, Dalian, Liaoning, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-5731-1790","authenticated-orcid":false,"given":"Dailin","family":"Li","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Dalian University of Technology, Dalian, Liaoning, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4656-7446","authenticated-orcid":false,"given":"Jian","family":"Wang","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Dalian University of Technology, Dalian, Liaoning, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0872-7688","authenticated-orcid":false,"given":"Hongfei","family":"Lin","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Dalian University of Technology, Dalian, Liaoning, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,10,12]]},"reference":[{"key":"e_1_3_3_2_2_2","doi-asserted-by":"publisher","unstructured":"Wei Ai Fuchen Zhang Yuntao Shou Tao Meng Haowen Chen and Keqin Li. 2025. Revisiting Multimodal Emotion Recognition in Conversation from the Perspective of Graph Spectrum. Proceedings of the AAAI Conference on Artificial Intelligence 39 11 (Apr. 2025) 11418\u201311426. 10.1609\/aaai.v39i11.33242","DOI":"10.1609\/aaai.v39i11.33242"},{"key":"e_1_3_3_2_3_2","doi-asserted-by":"crossref","unstructured":"Samson Akinpelu and Serestina Viriri. 2023. Speech emotion classification using attention based network and regularized feature selection. Scientific Reports 13 1 (25 Jul 2023) 11990.","DOI":"10.1038\/s41598-023-38868-2"},{"key":"e_1_3_3_2_4_2","doi-asserted-by":"crossref","unstructured":"Carlos Busso Murtaza Bulut Chi-Chun Lee Abe Kazemzadeh Emily Mower Samuel Kim Jeannette\u00a0N. Chang Sungbok Lee and Shrikanth\u00a0S. Narayanan. 2008. IEMOCAP: interactive emotional dyadic motion capture database. Lang. Resour. Evaluation 42 4 (2008) 335\u2013359.","DOI":"10.1007\/s10579-008-9076-6"},{"key":"e_1_3_3_2_5_2","series-title":"Proceedings of Machine Learning Research","first-page":"1779","volume-title":"ICML","volume":"119","author":"Cheng Pengyu","year":"2020","unstructured":"Pengyu Cheng, Weituo Hao, Shuyang Dai, Jiachang Liu, Zhe Gan, and Lawrence Carin. 2020. CLUB: A Contrastive Log-ratio Upper Bound of Mutual Information. In ICML(Proceedings of Machine Learning Research, Vol.\u00a0119). PMLR, 1779\u20131788."},{"key":"e_1_3_3_2_6_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW56347.2022.00511"},{"key":"e_1_3_3_2_7_2","unstructured":"Jaros\u0142aw Cichosz and Krzysztof Slot. 2007. Emotion recognition in speech signal using emotion-extracting binary decision trees. Proceedings of affective computing and intelligent interaction (2007) 1\u201310."},{"key":"e_1_3_3_2_8_2","doi-asserted-by":"publisher","unstructured":"Yijing Dai Yingjian Li Dongpeng Chen Jinxing Li and Guangming Lu. 2024. Multimodal Decoupled Distillation Graph Neural Network for Emotion Recognition in Conversation. IEEE Transactions on Circuits and Systems for Video Technology 34 10 (2024) 9910\u20139924. 10.1109\/TCSVT.2024.3405406","DOI":"10.1109\/TCSVT.2024.3405406"},{"key":"e_1_3_3_2_9_2","doi-asserted-by":"crossref","unstructured":"Daisy\u00a0Yi Ding Shuangning Li Balasubramanian Narasimhan and Robert Tibshirani. 2022. Cooperative learning for multiview analysis. Proceedings of the National Academy of Sciences 119 38 (2022) e2202113119.","DOI":"10.1073\/pnas.2202113119"},{"key":"e_1_3_3_2_10_2","doi-asserted-by":"publisher","DOI":"10.1145\/2502081.2502224"},{"key":"e_1_3_3_2_11_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.findings-emnlp.224"},{"key":"e_1_3_3_2_12_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-1015"},{"key":"e_1_3_3_2_13_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1280"},{"key":"e_1_3_3_2_14_2","doi-asserted-by":"crossref","unstructured":"Devamanyu Hazarika Soujanya Poria Amir Zadeh Erik Cambria Louis-Philippe Morency and Roger Zimmermann. 2018. Conversational Memory Network for Emotion Recognition in Dyadic Dialogue Videos. Proc Conf 2018 (June 2018) 2122\u20132132.","DOI":"10.18653\/v1\/N18-1193"},{"key":"e_1_3_3_2_15_2","unstructured":"Irina Higgins David Amos David Pfau S\u00e9bastien Racani\u00e8re Lo\u00efc Matthey Danilo\u00a0Jimenez Rezende and Alexander Lerchner. 2018. Towards a Definition of Disentangled Representations. ArXiv abs\/1812.02230 (2018)."},{"key":"e_1_3_3_2_16_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9747397"},{"key":"e_1_3_3_2_17_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.440"},{"key":"e_1_3_3_2_18_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9053762"},{"key":"e_1_3_3_2_19_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9053762"},{"key":"e_1_3_3_2_20_2","unstructured":"Taewoon Kim and Piek Vossen. 2021. EmoBERTa: Speaker-Aware Emotion Recognition in Conversation with RoBERTa. arxiv:https:\/\/arXiv.org\/abs\/2108.12009\u00a0[cs.CL]"},{"key":"e_1_3_3_2_21_2","unstructured":"Diederik\u00a0P Kingma and Max Welling. 2022. Auto-Encoding Variational Bayes. arxiv:https:\/\/arXiv.org\/abs\/1312.6114\u00a0[stat.ML]"},{"key":"e_1_3_3_2_22_2","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612053"},{"key":"e_1_3_3_2_23_2","series-title":"Proceedings of Machine Learning Research","first-page":"19730","volume-title":"Proceedings of the 40th International Conference on Machine Learning","volume":"202","author":"Li Junnan","year":"2023","unstructured":"Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. 2023. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. In Proceedings of the 40th International Conference on Machine Learning(Proceedings of Machine Learning Research, Vol.\u00a0202). PMLR, 19730\u201319742."},{"key":"e_1_3_3_2_24_2","doi-asserted-by":"publisher","unstructured":"Jiang Li Xiaoping Wang Yingjian Liu and Zhigang Zeng. 2024. CFN-ESA: A Cross-Modal Fusion Network With Emotion-Shift Awareness for Dialogue Emotion Recognition. IEEE Transactions on Affective Computing 15 4 (2024) 1919\u20131933. 10.1109\/TAFFC.2024.3389453","DOI":"10.1109\/TAFFC.2024.3389453"},{"key":"e_1_3_3_2_25_2","unstructured":"Xiao Liu Jian Zhang Heng Zhang Fuzhao Xue and Yang You. 2023. Hierarchical dialogue understanding with special tokens and turn-level attention. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2305.00262 (2023)."},{"key":"e_1_3_3_2_26_2","unstructured":"Yinhan Liu. 2019. Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/1907.11692 (2019)."},{"key":"e_1_3_3_2_27_2","doi-asserted-by":"crossref","unstructured":"Nannan Lu Zhiyuan Han Min Han and Jiansheng Qian. 2024. Bi-stream graph learning based multimodal fusion for emotion recognition in conversation. Information Fusion 106 (2024) 102272.","DOI":"10.1016\/j.inffus.2024.102272"},{"key":"e_1_3_3_2_28_2","doi-asserted-by":"publisher","unstructured":"Hui Ma Jian Wang Hongfei Lin Bo Zhang Yijia Zhang and Bo Xu. 2024. A Transformer-Based Model With Self-Distillation for Multimodal Emotion Recognition in Conversations. IEEE Transactions on Multimedia 26 (2024) 776\u2013788. 10.1109\/TMM.2023.3271019","DOI":"10.1109\/TMM.2023.3271019"},{"key":"e_1_3_3_2_29_2","unstructured":"Junxia Ma Lu Rong Yazhou Zhang and Prayag Tiwari. 2023. Moving From Narrative to Interactive Multi-Modal Sentiment Analysis: A Survey. ACM Trans. Asian Low-Resour. Lang. Inf. Process. (jul 2023). Just Accepted."},{"key":"e_1_3_3_2_30_2","doi-asserted-by":"crossref","unstructured":"Navonil Majumder Soujanya Poria Devamanyu Hazarika Rada Mihalcea Alexander Gelbukh and Erik Cambria. 2019. DialogueRNN: An Attentive RNN for Emotion Detection in Conversations. Proceedings of the AAAI Conference on Artificial Intelligence 33 01 (Jul. 2019) 6818\u20136825.","DOI":"10.1609\/aaai.v33i01.33016818"},{"key":"e_1_3_3_2_31_2","doi-asserted-by":"publisher","unstructured":"Theresa Matzinger Michael Pleyer and Przemys\u0142aw \u017bywiczy\u0144ski. 2023. Pause Length and Differences in Cognitive State Attribution in Native and Non-Native Speakers. Languages 8 1 (2023). 10.3390\/languages8010026","DOI":"10.3390\/languages8010026"},{"key":"e_1_3_3_2_32_2","unstructured":"Tao Meng Yuntao Shou Wei Ai Nan Yin and Keqin Li. 2024. Deep Imbalanced Learning for Multimodal Emotion Recognition in Conversations. IEEE Transactions on Artificial Intelligence (2024) 1\u201315."},{"key":"e_1_3_3_2_33_2","doi-asserted-by":"crossref","unstructured":"Tao Meng Fuchen Zhang Yuntao Shou Hongen Shao Wei Ai and Keqin Li. 2024. Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation. IEEE\/ACM Transactions on Audio Speech and Language Processing (2024) 1\u201314.","DOI":"10.1109\/TASLP.2024.3434495"},{"key":"e_1_3_3_2_34_2","doi-asserted-by":"publisher","unstructured":"Jesse Milzman and Vince Lyzinski. 2022. Signed and unsigned partial information decompositions of continuous network interactions. Journal of Complex Networks 10 5 (09 2022) cnac026. 10.1093\/comnet\/cnac026","DOI":"10.1093\/comnet\/cnac026"},{"key":"e_1_3_3_2_35_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1050"},{"key":"e_1_3_3_2_36_2","doi-asserted-by":"crossref","unstructured":"Soujanya Poria Navonil Majumder Rada Mihalcea and Eduard Hovy. 2019. Emotion Recognition in Conversation: Research Challenges Datasets and Recent Advances. IEEE Access 7 (2019) 100943\u2013100953.","DOI":"10.1109\/ACCESS.2019.2929050"},{"key":"e_1_3_3_2_37_2","doi-asserted-by":"publisher","DOI":"10.1145\/3536221.3556601"},{"key":"e_1_3_3_2_38_2","first-page":"1","volume-title":"Proceedings of The 2012 Asia Pacific Signal and Information Processing Association Annual Summit and Conference","author":"Rozgi\u0107 Viktor","year":"2012","unstructured":"Viktor Rozgi\u0107, Sankaranarayanan Ananthakrishnan, Shirin Saleem, Rohit Kumar, and Rohit Prasad. 2012. Ensemble of SVM trees for multimodal emotion recognition. In Proceedings of The 2012 Asia Pacific Signal and Information Processing Association Annual Summit and Conference. 1\u20134."},{"key":"e_1_3_3_2_39_2","doi-asserted-by":"crossref","unstructured":"Yuntao Shou Tao Meng Wei Ai Nan Yin and Keqin Li. 2023. A comprehensive survey on multi-modal conversational emotion recognition with deep learning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2312.05735 (2023).","DOI":"10.2139\/ssrn.5017731"},{"key":"e_1_3_3_2_40_2","doi-asserted-by":"crossref","unstructured":"Yuntao Shou Tao Meng Wei Ai Fuchen Zhang Nan Yin and Keqin Li. 2024. Adversarial alignment and graph fusion via information bottleneck for multimodal emotion recognition in conversations. Information Fusion 112 (2024) 102590.","DOI":"10.1016\/j.inffus.2024.102590"},{"key":"e_1_3_3_2_41_2","unstructured":"Yuting Su Yichen Wei Weizhi Nie Sicheng Zhao and Anan Liu. 2024. Dynamic Causal Disentanglement Model for Dialogue Emotion Detection. IEEE Transactions on Affective Computing (2024) 1\u201314."},{"key":"e_1_3_3_2_42_2","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3681515"},{"key":"e_1_3_3_2_43_2","unstructured":"Xin Wang Hong Chen Siao Tang Zihao Wu and Wenwu Zhu. 2022. Disentangled Representation Learning. IEEE transactions on pattern analysis and machine intelligence PP (2022)."},{"key":"e_1_3_3_2_44_2","doi-asserted-by":"crossref","unstructured":"Baijun Xie Mariia Sidulova and Chung\u00a0Hyuk Park. 2021. Robust Multimodal Emotion Recognition from Conversation with Transformer-Based Crossmodality Fusion. Sensors 21 14 (2021).","DOI":"10.3390\/s21144913"},{"key":"e_1_3_3_2_45_2","doi-asserted-by":"publisher","unstructured":"Songlong Xing Sijie Mai and Haifeng Hu. 2022. Adapted Dynamic Memory Network for Emotion Recognition in Conversation. IEEE Transactions on Affective Computing 13 3 (2022) 1426\u20131439. 10.1109\/TAFFC.2020.3005660","DOI":"10.1109\/TAFFC.2020.3005660"},{"key":"e_1_3_3_2_46_2","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3547754"},{"key":"e_1_3_3_2_47_2","unstructured":"Kailai Yang Tianlin Zhang and Sophia Ananiadou. 2023. Disentangled Variational Autoencoder for Emotion Recognition in Conversations. IEEE Transactions on Affective Computing (2023) 1\u201312."},{"key":"e_1_3_3_2_48_2","volume-title":"ACM Multimedia 2024","author":"Ye Jing","year":"2024","unstructured":"Jing Ye and Xinpei Zhao. 2024. DQ-Former: Querying Transformer with Dynamic Modality Priority for Cognitive-aligned Multimodal Emotion Recognition in Conversation. In ACM Multimedia 2024."},{"key":"e_1_3_3_2_49_2","doi-asserted-by":"crossref","unstructured":"Yazhou Zhang Ao Jia Bo Wang Peng Zhang Dongming Zhao Pu Li Yuexian Hou Xiaojia Jin Dawei Song and Jing Qin. 2023. M3GAT: A multi-modal multi-task interactive graph attention network for conversational sentiment analysis and emotion recognition. ACM Transactions on Information Systems 42 1 (2023) 1\u201332.","DOI":"10.1145\/3593583"},{"key":"e_1_3_3_2_50_2","doi-asserted-by":"publisher","unstructured":"Ying Zhou Xuefeng Liang Yu Gu Yifei Yin and Longshan Yao. 2022. Multi-Classifier Interactive Learning for Ambiguous Speech Emotion Recognition. IEEE\/ACM Transactions on Audio Speech and Language Processing 30 (jan 2022) 695\u2013705. 10.1109\/taslp.2022.3145287","DOI":"10.1109\/taslp.2022.3145287"},{"key":"e_1_3_3_2_51_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICDM59182.2024.00124"},{"key":"e_1_3_3_2_52_2","doi-asserted-by":"crossref","unstructured":"ShiHao Zou Xianying Huang XuDong Shen and Hankai Liu. 2022. Improving multimodal fusion with Main Modal Transformer for emotion recognition in conversation. Knowledge-Based Systems 258 (2022) 109978.","DOI":"10.1016\/j.knosys.2022.109978"}],"event":{"name":"ICMI '25: International Conference on Multimodal Interaction","location":"Canberra Australia","acronym":"ICMI '25","sponsor":["SIGCHI ACM Special Interest Group on Computer-Human Interaction"]},"container-title":["Proceedings of the 27th International Conference on Multimodal Interaction"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3716553.3750769","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,26]],"date-time":"2026-01-26T22:28:25Z","timestamp":1769466505000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3716553.3750769"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,12]]},"references-count":51,"alternative-id":["10.1145\/3716553.3750769","10.1145\/3716553"],"URL":"https:\/\/doi.org\/10.1145\/3716553.3750769","relation":{},"subject":[],"published":{"date-parts":[[2025,10,12]]},"assertion":[{"value":"2025-10-12","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}