{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,1]],"date-time":"2025-12-01T11:31:01Z","timestamp":1764588661556,"version":"3.44.0"},"publisher-location":"New York, NY, USA","reference-count":53,"publisher":"ACM","funder":[{"name":"Guangdong Basic and Applied Basic Research Foundation","award":["2023A1515140104"],"award-info":[{"award-number":["2023A1515140104"]}]},{"DOI":"10.13039\/501100006374","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62222203; 62476201; 62306065"],"award-info":[{"award-number":["62222203; 62476201; 62306065"]}],"id":[{"id":"10.13039\/501100006374","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,6,30]]},"DOI":"10.1145\/3731715.3733353","type":"proceedings-article","created":{"date-parts":[[2025,6,25]],"date-time":"2025-06-25T18:29:43Z","timestamp":1750876183000},"page":"460-468","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":1,"title":["Heterogeneous Graph Embedding for Multimodal Multi-Label Emotion Recognition"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0007-6251-5375","authenticated-orcid":false,"given":"Disen","family":"Hu","sequence":"first","affiliation":[{"name":"School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2209-651X","authenticated-orcid":false,"given":"Xun","family":"Jiang","sequence":"additional","affiliation":[{"name":"School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6531-0769","authenticated-orcid":false,"given":"Zhe","family":"Sun","sequence":"additional","affiliation":[{"name":"Health Data Science, Juntendo University, Tokyo, Japan"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7303-3231","authenticated-orcid":false,"given":"Fumin","family":"Shen","sequence":"additional","affiliation":[{"name":"School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5685-3123","authenticated-orcid":false,"given":"Xing","family":"Xu","sequence":"additional","affiliation":[{"name":"School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu, China and School of Computer Science and Technology, Tongji University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,6,30]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"crossref","unstructured":"Dong Zhang Xincheng Ju Junhui Li Shoushan Li Qiaoming Zhu and Guodong Zhou. 2020. Multi-modal multi-label emotion detection with modality and label dependence. In EMNLP. 3584--3593.","DOI":"10.18653\/v1\/2020.emnlp-main.291"},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"crossref","unstructured":"Xincheng Ju Dong Zhang Junhui Li and Guodong Zhou. 2020. Transformer-based label set generation for multi-modal multi-label emotion detection. In ACM MM. 512--520.","DOI":"10.1145\/3394171.3413577"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i16.17686"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"crossref","unstructured":"Shiping Ge Zhiwei Jiang Zifeng Cheng Cong Wang Yafeng Yin and Qing Gu. 2023. Learning robust multi-modal representation for multi-label emotion recognition via adversarial masking and perturbation. In WWW. 1510--1518.","DOI":"10.1145\/3543507.3583258"},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i8.20895"},{"key":"e_1_3_2_1_6_1","unstructured":"Zixian Gao Xun Jiang Xing Xu Fumin Shen Yujie Li and Heng Tao Shen. 2024. Embracing Unimodal Aleatoric Uncertainty for Robust Multimodal Fusion. In CVPR. 26876--26885."},{"key":"e_1_3_2_1_7_1","volume-title":"ACL","volume":"2019","author":"Hubert Tsai Yao-Hung","year":"2019","unstructured":"Yao-Hung Hubert Tsai, Shaojie Bai, Paul Pu Liang, J Zico Kolter, Louis-Philippe Morency, and Ruslan Salakhutdinov. 2019. Multimodal transformer for unaligned multimodal language sequences. In ACL, Vol. 2019. 6558."},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"crossref","unstructured":"Jian Huang Yanli Ji Yang Yang and Heng Tao Shen. 2023. Cross-modality Representation Interactive Learning for Multimodal Sentiment Analysis. In ACM MM. 426--434.","DOI":"10.1145\/3581783.3612295"},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i01.5347"},{"key":"e_1_3_2_1_10_1","first-page":"309","article-title":"Efficient multimodal transformer with dual-level feature restoration for robust multimodal sentiment analysis","volume":"15","author":"Sun Licai","year":"2023","unstructured":"Licai Sun, Zheng Lian, Bin Liu, and Jianhua Tao. 2023. Efficient multimodal transformer with dual-level feature restoration for robust multimodal sentiment analysis. IEEE TAFFC, Vol. 15, 1 (2023), 309--325.","journal-title":"IEEE TAFFC"},{"key":"e_1_3_2_1_11_1","first-page":"14200","article-title":"Attention bottlenecks for multimodal fusion","volume":"34","author":"Nagrani Arsha","year":"2021","unstructured":"Arsha Nagrani, Shan Yang, Anurag Arnab, Aren Jansen, Cordelia Schmid, and Chen Sun. 2021. Attention bottlenecks for multimodal fusion. NeurIPS, Vol. 34 (2021), 14200--14213.","journal-title":"NeurIPS"},{"key":"e_1_3_2_1_12_1","unstructured":"Yang Wu Pengwei Zhan Yunjian Zhang Liming Wang and Zhen Xu. 2021. Multimodal fusion with co-attention networks for fake news detection. In ACL Findings. 2560--2569."},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413678"},{"key":"e_1_3_2_1_14_1","volume-title":"Joint objective and subjective fuzziness denoising for multimodal sentiment analysis","author":"Jiang Xun","year":"2024","unstructured":"Xun Jiang, Xing Xu, Huimin Lu, Lianghua He, and Heng Tao Shen. 2024. Joint objective and subjective fuzziness denoising for multimodal sentiment analysis. IEEE TFS (2024)."},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"crossref","unstructured":"Yong Li Yuanzhi Wang and Zhen Cui. 2023. Decoupled multimodal distilling for emotion recognition. In CVPR. 6631--6640.","DOI":"10.1109\/CVPR52729.2023.00641"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"crossref","unstructured":"Tao Liang Guosheng Lin Lei Feng Yan Zhang and Fengmao Lv. 2021. Attention is not enough: Mitigating the distribution discrepancy in asynchronous multimodal sequence fusion. In ICCV. 8148--8156.","DOI":"10.1109\/ICCV48922.2021.00804"},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2023.126427"},{"key":"e_1_3_2_1_18_1","volume-title":"Dhhn: Dual hierarchical hybrid network for weakly-supervised audio-visual video parsing. In ACM MM. 719--727.","author":"Jiang Xun","year":"2022","unstructured":"Xun Jiang, Xing Xu, Zhiguo Chen, Jingran Zhang, Jingkuan Song, Fumin Shen, Huimin Lu, and Heng Tao Shen. 2022. Dhhn: Dual hierarchical hybrid network for weakly-supervised audio-visual video parsing. In ACM MM. 719--727."},{"key":"e_1_3_2_1_19_1","volume-title":"Resisting Noise in Pseudo Labels: Audible Video Event Parsing With Evidential Learning","author":"Jiang Xun","year":"2024","unstructured":"Xun Jiang, Xing Xu, Liqing Zhu, Zhe Sun, Andrzej Cichocki, and Heng Tao Shen. 2024. Resisting Noise in Pseudo Labels: Audible Video Event Parsing With Evidential Learning. IEEE TNNLS (2024)."},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"crossref","unstructured":"Shenshen Li Chen He Xing Xu Fumin Shen Yang Yang and Heng Tao Shen. 2024. Adaptive Uncertainty-Based Learning for Text-Based Person Retrieval. In AAAI. 3172--3180.","DOI":"10.1609\/aaai.v38i4.28101"},{"key":"e_1_3_2_1_21_1","doi-asserted-by":"crossref","unstructured":"Xun Jiang Zhuoyuan Wei Shenshen Li Xing Xu Jingkuan Song and Heng Tao Shen. 2024. Counterfactually Augmented Event Matching for De-biased Temporal Sentence Grounding. In ACM MM. 6472--6481.","DOI":"10.1145\/3664647.3680948"},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2021.3119334"},{"key":"e_1_3_2_1_23_1","first-page":"1819","article-title":"A review on multi-label learning algorithms","volume":"26","author":"Zhang Min-Ling","year":"2013","unstructured":"Min-Ling Zhang and Zhi-Hua Zhou. 2013. A review on multi-label learning algorithms. IEEE TKDE, Vol. 26, 8 (2013), 1819--1837.","journal-title":"IEEE TKDE"},{"key":"e_1_3_2_1_24_1","volume-title":"Multi-label noise robust collaborative learning for remote sensing image classification","author":"Aksoy Ahmet Kerem","year":"2022","unstructured":"Ahmet Kerem Aksoy, Mahdyar Ravanbakhsh, and Beg\u00fcm Demir. 2022. Multi-label noise robust collaborative learning for remote sensing image classification. IEEE TNNLS (2022)."},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2021.3059290"},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i04.6124"},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i19.30157"},{"key":"e_1_3_2_1_28_1","first-page":"24184","article-title":"Estimating noise transition matrix with label correlations for noisy multi-label learning","volume":"35","author":"Li Shikun","year":"2022","unstructured":"Shikun Li, Xiaobo Xia, Hansong Zhang, Yibing Zhan, Shiming Ge, and Tongliang Liu. 2022. Estimating noise transition matrix with label correlations for noisy multi-label learning. NeurIPS, Vol. 35 (2022), 24184--24198.","journal-title":"NeurIPS"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"crossref","unstructured":"Xiaobo Xia Jiankang Deng Wei Bao Yuxuan Du Bo Han Shiguang Shan and Tongliang Liu. 2023. Holistic label correction for noisy multi-label classification. In ICCV. 1483--1493.","DOI":"10.1109\/ICCV51070.2023.00143"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"crossref","unstructured":"Xun Jiang Zailei Zhou Xing Xu Yang Yang Guoqing Wang and Heng Tao Shen. 2023. Faster video moment retrieval with point-level supervision. In ACM MM. 1334--1342.","DOI":"10.1145\/3581783.3612394"},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"crossref","unstructured":"Liangchen Song Jialian Wu Ming Yang Qian Zhang Yuan Li and Junsong Yuan. 2021. Handling difficult labels for multi-label image classification via uncertainty distillation. In ACM MM. 2410--2419.","DOI":"10.1145\/3474085.3475406"},{"key":"e_1_3_2_1_32_1","first-page":"2881","article-title":"Cross-Modal Uncertainty Modeling With Diffusion-Based Refinement for Text-Based Person Retrieval","volume":"35","author":"Li Shenshen","year":"2025","unstructured":"Shenshen Li, Xing Xu, Chen He, Fumin Shen, Yang Yang, and Heng Tao Shen. 2025. Cross-Modal Uncertainty Modeling With Diffusion-Based Refinement for Text-Based Person Retrieval. IEEE TCSVT, Vol. 35, 3 (2025), 2881--2893.","journal-title":"IEEE TCSVT"},{"key":"e_1_3_2_1_33_1","volume-title":"NeurIPS","volume":"32","author":"Cao Kaidi","year":"2019","unstructured":"Kaidi Cao, Colin Wei, Adrien Gaidon, Nikos Arechiga, and Tengyu Ma. 2019. Learning imbalanced datasets with label-distribution-aware margin loss. NeurIPS, Vol. 32 (2019)."},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i13.29374"},{"key":"e_1_3_2_1_35_1","volume-title":"Joey Tianyi Zhou, and Xi Peng","author":"Zhang Qingyang","year":"2023","unstructured":"Qingyang Zhang, Haitao Wu, Changqing Zhang, Qinghua Hu, Huazhu Fu, Joey Tianyi Zhou, and Xi Peng. 2023. Provable dynamic fusion for low-quality multimodal data. In ICML. 41753--41769."},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i4.25643"},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"crossref","unstructured":"Xin Wang Benyuan Meng Hong Chen Yuan Meng Ke Lv and Wenwu Zhu. 2023. TIVA-KG: A multimodal knowledge graph with text image video and audio. In ACM MM.","DOI":"10.1145\/3581783.3612266"},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"crossref","unstructured":"Yimo Ren Jinfa Wang Jie Liu Peipei Liu Hong Li Hongsong Zhu and Limin Sun. 2024. A Relation-Aware Heterogeneous Graph Transformer on Dynamic Fusion for Multimodal Classification Tasks. In ICASSP. 7855--7859.","DOI":"10.1109\/ICASSP48485.2024.10446972"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"crossref","unstructured":"Xiang Chen Ningyu Zhang Lei Li Shumin Deng Chuanqi Tan Changliang Xu Fei Huang Luo Si and Huajun Chen. 2022. Hybrid transformer with multi-level fusion for multimodal knowledge graph completion. In SIGIR. 904--915.","DOI":"10.1145\/3477495.3531992"},{"key":"e_1_3_2_1_40_1","first-page":"1654","article-title":"Radial graph convolutional network for visual question generation","volume":"32","author":"Xu Xing","year":"2020","unstructured":"Xing Xu, Tan Wang, Yang Yang, Alan Hanjalic, and Heng Tao Shen. 2020. Radial graph convolutional network for visual question generation. IEEE TNNLS, Vol. 32, 4 (2020), 1654--1667.","journal-title":"IEEE TNNLS"},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"crossref","unstructured":"Tianxiang Zhao Xiang Zhang and Suhang Wang. 2024. Disambiguated Node Classification with Graph Neural Networks. In WWW. 914--923.","DOI":"10.1145\/3589334.3645637"},{"key":"e_1_3_2_1_42_1","doi-asserted-by":"crossref","unstructured":"Qian Li Shu Guo Yangyifei Luo Cheng Ji Lihong Wang Jiawei Sheng and Jianxin Li. 2023. Attribute-consistent knowledge graph representation learning for multi-modal entity alignment. In WWW. 2499--2508.","DOI":"10.1145\/3543507.3583328"},{"key":"e_1_3_2_1_43_1","volume-title":"PHGC: Procedural Heterogeneous Graph Completion for Natural Language Task Verification in Egocentric Videos. In CVPR.","author":"Jiang Xun","year":"2025","unstructured":"Xun Jiang, Zhiyi Huang, Xing Xu, Jingkuan Song, Fumin Shen, and Heng Tao Shen. 2025. PHGC: Procedural Heterogeneous Graph Completion for Natural Language Task Verification in Egocentric Videos. In CVPR."},{"key":"e_1_3_2_1_44_1","volume-title":"GTLR: Graph-based transformer with language reconstruction for video paragraph grounding. In ICME. 1--6.","author":"Jiang Xun","year":"2022","unstructured":"Xun Jiang, Xing Xu, Jingran Zhang, Fumin Shen, Zuo Cao, and Xunliang Cai. 2022. GTLR: Graph-based transformer with language reconstruction for video paragraph grounding. In ICME. 1--6."},{"key":"e_1_3_2_1_45_1","volume-title":"MMGCN: Multimodal fusion via deep graph convolution network for emotion recognition in conversation. arXiv preprint arXiv:2107.06779","author":"Hu Jingwen","year":"2021","unstructured":"Jingwen Hu, Yuchen Liu, Jinming Zhao, and Qin Jin. 2021. MMGCN: Multimodal fusion via deep graph convolution network for emotion recognition in conversation. arXiv preprint arXiv:2107.06779 (2021)."},{"key":"e_1_3_2_1_46_1","doi-asserted-by":"crossref","unstructured":"Jiayi Chen and Aidong Zhang. 2020. Hgmf: heterogeneous graph-based fusion for multimodal data with incompleteness. In KDD. 1295--1305.","DOI":"10.1145\/3394486.3403182"},{"key":"e_1_3_2_1_47_1","volume-title":"NeurIPS","volume":"30","author":"Vaswani Ashish","year":"2017","unstructured":"Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, \u0141ukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. NeurIPS, Vol. 30 (2017)."},{"key":"e_1_3_2_1_48_1","first-page":"8419","article-title":"GCNet: Graph completion network for incomplete multimodal learning in conversation","volume":"45","author":"Lian Zheng","year":"2023","unstructured":"Zheng Lian, Lan Chen, Licai Sun, Bin Liu, and Jianhua Tao. 2023. GCNet: Graph completion network for incomplete multimodal learning in conversation. IEEE TPAMI, Vol. 45, 7 (2023), 8419--8432.","journal-title":"IEEE TPAMI"},{"key":"e_1_3_2_1_49_1","volume-title":"Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114","author":"Kingma Diederik P","year":"2013","unstructured":"Diederik P Kingma and Max Welling. 2013. Auto-encoding variational bayes. arXiv preprint arXiv:1312.6114 (2013)."},{"key":"e_1_3_2_1_50_1","volume-title":"Soujanya Poria, Erik Cambria, and Louis-Philippe Morency.","author":"Bagher Zadeh AmirAli","year":"2018","unstructured":"AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria, and Louis-Philippe Morency. 2018. Multimodal language analysis in the wild: Cmu-mosei dataset and interpretable dynamic fusion graph. In ACL. 2236--2246."},{"key":"e_1_3_2_1_51_1","volume-title":"M3ED: Multi-modal multi-scene multi-label emotional dialogue database. arXiv preprint arXiv:2205.10237","author":"Zhao Jinming","year":"2022","unstructured":"Jinming Zhao, Tenggan Zhang, Jingwen Hu, Yuchen Liu, Qin Jin, Xinchao Wang, and Haizhou Li. 2022. M3ED: Multi-modal multi-scene multi-label emotional dialogue database. arXiv preprint arXiv:2205.10237 (2022)."},{"key":"e_1_3_2_1_52_1","volume-title":"Predictive Dynamic Fusion. arXiv preprint arXiv:2406.04802","author":"Cao Bing","year":"2024","unstructured":"Bing Cao, Yinan Xia, Yi Ding, Changqing Zhang, and Qinghua Hu. 2024. Predictive Dynamic Fusion. arXiv preprint arXiv:2406.04802 (2024)."},{"key":"e_1_3_2_1_53_1","volume-title":"JMLR","volume":"9","author":"der Maaten Laurens Van","year":"2008","unstructured":"Laurens Van der Maaten and Geoffrey Hinton. 2008. Visualizing data using t-SNE. JMLR, Vol. 9, 11 (2008)."}],"event":{"name":"ICMR '25: International Conference on Multimedia Retrieval","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Chicago IL USA","acronym":"ICMR '25"},"container-title":["Proceedings of the 2025 International Conference on Multimedia Retrieval"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3731715.3733353","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,21]],"date-time":"2025-08-21T04:11:00Z","timestamp":1755749460000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3731715.3733353"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6,30]]},"references-count":53,"alternative-id":["10.1145\/3731715.3733353","10.1145\/3731715"],"URL":"https:\/\/doi.org\/10.1145\/3731715.3733353","relation":{},"subject":[],"published":{"date-parts":[[2025,6,30]]},"assertion":[{"value":"2025-06-30","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}