{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,11]],"date-time":"2026-05-11T23:01:03Z","timestamp":1778540463769,"version":"3.51.4"},"publisher-location":"New York, NY, USA","reference-count":49,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,10,28]],"date-time":"2024-10-28T00:00:00Z","timestamp":1730073600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"name":"New Cornerstone Science Foundation"},{"name":"Sichuan Science and Technology Program","award":["2023-XT00-00001-GX"],"award-info":[{"award-number":["2023-XT00-00001-GX"]}]},{"DOI":"10.13039\/https:\/\/doi.org\/10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62222203;62072080"],"award-info":[{"award-number":["62222203;62072080"]}],"id":[{"id":"10.13039\/https:\/\/doi.org\/10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,10,28]]},"DOI":"10.1145\/3664647.3680949","type":"proceedings-article","created":{"date-parts":[[2024,10,26]],"date-time":"2024-10-26T06:59:41Z","timestamp":1729925981000},"page":"9650-9659","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":15,"title":["Enhanced Experts with Uncertainty-Aware Routing for Multimodal Sentiment Analysis"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0008-0183-170X","authenticated-orcid":false,"given":"Zixian","family":"Gao","sequence":"first","affiliation":[{"name":"Center for Future Media &amp; School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"role":"author","vocab":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-6251-5375","authenticated-orcid":false,"given":"Disen","family":"Hu","sequence":"additional","affiliation":[{"name":"Center for Future Media &amp; School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"role":"author","vocab":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2209-651X","authenticated-orcid":false,"given":"Xun","family":"Jiang","sequence":"additional","affiliation":[{"name":"Center for Future Media &amp; School of Computer Science and Engineering, University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"role":"author","vocab":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9794-3221","authenticated-orcid":false,"given":"Huimin","family":"Lu","sequence":"additional","affiliation":[{"name":"School of Automation, Southeast University, Nanjing, China"}],"role":[{"role":"author","vocab":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9872-8451","authenticated-orcid":false,"given":"Heng Tao","family":"Shen","sequence":"additional","affiliation":[{"name":"Center for Future Media &amp; School of Computer Science and Engineering, University of Electronic Science and Technology of China &amp; College of Electronic and Information Engineering, Tongji University, Chengdu, China"}],"role":[{"role":"author","vocab":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5685-3123","authenticated-orcid":false,"given":"Xing","family":"Xu","sequence":"additional","affiliation":[{"name":"Center for Future Media &amp; School of Computer Science and Engineering, University of Electronic Science and Technology of China &amp; College of Electronic and Information Engineering, Tongji University, Chengdu, China"}],"role":[{"role":"author","vocab":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2024,10,28]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548309"},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2023.3308571"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00250"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2020.3045530"},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2024.3396272"},{"key":"e_1_3_2_1_6_1","first-page":"9564","volume-title":"Advances in Neural Information Processing Systems","author":"Mustafa Basil","year":"2022","unstructured":"Basil Mustafa, Carlos Riquelme, Joan Puigcerver, Rodolphe Jenatton, and Neil Houlsby. Multimodal contrastive learning with limoe: the language-image mix ture of experts. Advances in Neural Information Processing Systems, pages 9564 9576, 2022."},{"key":"e_1_3_2_1_7_1","article-title":"Multimodal information bottleneck: Learning minimal sufficient unimodal and multimodal representations","author":"Mai Sijie","year":"2022","unstructured":"Sijie Mai, Ying Zeng, and Haifeng Hu. Multimodal information bottleneck: Learning minimal sufficient unimodal and multimodal representations. IEEE Transactions on Multimedia, 2022.","journal-title":"IEEE Transactions on Multimedia"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548025"},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00641"},{"key":"e_1_3_2_1_10_1","article-title":"Dynamically shifting multimodal representations via hybrid-modal attention for multimodal sentiment analysis","author":"Lin Ronghao","year":"2023","unstructured":"Ronghao Lin and Haifeng Hu. Dynamically shifting multimodal representations via hybrid-modal attention for multimodal sentiment analysis. IEEE Transactions on Multimedia, 2023.","journal-title":"IEEE Transactions on Multimedia"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICDM.2016.0055"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.421"},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02013"},{"key":"e_1_3_2_1_14_1","first-page":"606","volume-title":"Proceedings of Meeting of the Association for Computational Linguistics","author":"Kampman Onno","year":"2018","unstructured":"Onno Kampman, Elham J Barezi, Dario Bertero, and Pascale Fung. Investigating audio, video, and text fusion methods for end-to-end automatic personality pre diction. In Proceedings of Meeting of the Association for Computational Linguistics, pages 606--611, 2018."},{"key":"e_1_3_2_1_15_1","first-page":"41753","volume-title":"International conference on machine learning","author":"Zhang Qingyang","year":"2023","unstructured":"Qingyang Zhang, Haitao Wu, Changqing Zhang, Qinghua Hu, Huazhu Fu, Joey Tianyi Zhou, and Xi Peng. Provable dynamic fusion for low-quality multi modal data. In International conference on machine learning, pages 41753--41769, 2023."},{"key":"e_1_3_2_1_16_1","article-title":"Multimodal boost ing: Addressing noisy modalities and identifying modality contribution","author":"Mai Sijie","year":"2023","unstructured":"Sijie Mai, Ya Sun, Aolin Xiong, Ying Zeng, and Haifeng Hu. Multimodal boost ing: Addressing noisy modalities and identifying modality contribution. IEEE Transactions on Multimedia, 2023.","journal-title":"IEEE Transactions on Multimedia"},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2023.3234553"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00575"},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01271"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612051"},{"key":"e_1_3_2_1_21_1","first-page":"164","volume-title":"Modality to modality translation: An adversarial representation learning and graph fusion network for multimodal fusion","author":"Mai Sijie","year":"2020","unstructured":"Sijie Mai, Haifeng Hu, and Songlong Xing. Modality to modality translation: An adversarial representation learning and graph fusion network for multimodal fusion. In Association for the Advancement of Artificial Intelligence, pages 164--172, 2020."},{"key":"e_1_3_2_1_22_1","article-title":"Jointobjective and subjective fuzziness denoising for multimodal sentiment analysis","author":"Xu Xing","year":"2024","unstructured":"XunJiang, Xing Xu,HuiminLu,LianghuaHe,andHengTaoShen. Jointobjective and subjective fuzziness denoising for multimodal sentiment analysis. IEEE Transactions on Fuzzy Systems, pages 1--14, 2024.","journal-title":"IEEE Transactions on Fuzzy Systems, pages 1--14"},{"key":"e_1_3_2_1_23_1","first-page":"29406","volume-title":"Advances in Neural Information Processing Systems","author":"Huang Zhenyu","year":"2021","unstructured":"Zhenyu Huang, Guocheng Niu, Xiao Liu, Wenbiao Ding, Xinyan Xiao, Hua Wu, and Xi Peng. Learning with noisy correspondence for cross-modal matching. Advances in Neural Information Processing Systems, pages 29406--29419, 2021."},{"key":"e_1_3_2_1_24_1","article-title":"Improving medical images classification with label noise using dual-uncertainty estimation","author":"Ju Lie","year":"2022","unstructured":"Lie Ju, Xin Wang, Lin Wang, Dwarikanath Mahapatra, Xin Zhao, Quan Zhou, Tongliang Liu, and Zongyuan Ge. Improving medical images classification with label noise using dual-uncertainty estimation. IEEE Transactions on Medical Imaging, pages 1533--1546, 2022.","journal-title":"IEEE Transactions on Medical Imaging, pages 1533--1546"},{"key":"e_1_3_2_1_25_1","volume-title":"Yong Liu, and Huazhu Fu. Evidencecap: towards trustworthy medical image segmentation via evidential identity cap. arXiv preprint arXiv:2301.00349","author":"Zou Ke","year":"2023","unstructured":"Ke Zou, Xuedong Yuan, Xiaojing Shen, Yidi Chen, Meng Wang, Rick Siow Mong Goh, Yong Liu, and Huazhu Fu. Evidencecap: towards trustworthy medical image segmentation via evidential identity cap. arXiv preprint arXiv:2301.00349, 2023."},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02538"},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612394"},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612244"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i4.28101"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612349"},{"key":"e_1_3_2_1_31_1","first-page":"8583","volume-title":"Advances inNeural Information Processing Systems","author":"Riquelme Carlos","year":"2021","unstructured":"Carlos Riquelme, Joan Puigcerver, Basil Mustafa, Maxim Neumann, Rodolphe Jenatton, Andr\u00e9 Susano Pinto, Daniel Keysers, and Neil Houlsby. Scaling vision with sparse mixtureofexperts. Advances inNeural Information Processing Systems, pages 8583--8595, 2021."},{"key":"e_1_3_2_1_32_1","volume-title":"Cross-token modeling with conditional computation. arXiv preprint arXiv:2109.02008","author":"Lou Yuxuan","year":"2021","unstructured":"Yuxuan Lou, Fuzhao Xue, Zangwei Zheng, and Yang You. Cross-token modeling with conditional computation. arXiv preprint arXiv:2109.02008, 2021."},{"key":"e_1_3_2_1_33_1","volume-title":"Gshard: Scaling giant models with conditional computation and automatic sharding. arXiv preprint arXiv:2006.16668","author":"Lepikhin Dmitry","year":"2020","unstructured":"Dmitry Lepikhin, HyoukJoong Lee, Yuanzhong Xu, Dehao Chen, Orhan Firat, Yanping Huang, Maxim Krikun, Noam Shazeer, and Zhifeng Chen. Gshard: Scaling giant models with conditional computation and automatic sharding. arXiv preprint arXiv:2006.16668, 2020."},{"key":"e_1_3_2_1_34_1","first-page":"1","volume-title":"Journal of Machine Learning Research","author":"Fedus William","year":"2022","unstructured":"William Fedus, Barret Zoph, and Noam Shazeer. Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity. Journal of Machine Learning Research, pages 1--39, 2022."},{"key":"e_1_3_2_1_35_1","volume-title":"Scaling vision-language models with sparse mixture of experts. arXiv preprint arXiv:2303.07226","author":"Keutzer Kurt","year":"2023","unstructured":"ShengShen,ZheweiYao,ChunyuanLi,TrevorDarrell, Kurt Keutzer, and Yuxiong He. Scaling vision-language models with sparse mixture of experts. arXiv preprint arXiv:2303.07226, 2023."},{"key":"e_1_3_2_1_36_1","volume-title":"Moe-mamba: Efficient selective state space models with mixture of experts. arXiv preprint arXiv:2401.04081","author":"Pi\u00f3ro Maciej","year":"2024","unstructured":"Maciej Pi\u00f3ro, Kamil Ciebiera, Krystian Kr\u00f3l, Jan Ludziejewski, and Sebastian Jaszczur. Moe-mamba: Efficient selective state space models with mixture of experts. arXiv preprint arXiv:2401.04081, 2024."},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICME52920.2022.9860014"},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01330"},{"key":"e_1_3_2_1_39_1","volume-title":"International Conference on Learning Representations","author":"Han Zongbo","year":"2020","unstructured":"Zongbo Han, Changqing Zhang, Huazhu Fu, and Joey Tianyi Zhou. Trusted multi-view classification. In International Conference on Learning Representations, 2020."},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.287"},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"publisher","DOI":"10.1109\/MIS.2016.94"},{"key":"e_1_3_2_1_42_1","first-page":"2236","volume-title":"Proceedings of Meeting of the Association for Computational Linguistics","author":"Bagher Zadeh AmirAli","year":"2018","unstructured":"AmirAli Bagher Zadeh, Paul Pu Liang, Soujanya Poria, Erik Cambria, and Louis Philippe Morency. Multimodal language analysis in the wild: Carnegie Mellon University-MOSEI dataset and interpretable dynamic fusion graph. In Proceedings of Meeting of the Association for Computational Linguistics, pages 2236--2246, 2018."},{"key":"e_1_3_2_1_43_1","volume-title":"International Conference on MultiMedia Modeling","author":"Niu Teng","unstructured":"Teng Niu, Shiai Zhu, Lei Pang, and Abdulmotaleb El Saddik. Sentiment analysis on multi-view social data. In International Conference on MultiMedia Modeling,"},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-33715-4_54"},{"key":"e_1_3_2_1_45_1","first-page":"4171","volume-title":"Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies","author":"Devlin Jacob","year":"2019","unstructured":"Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. BERT: pre-training of deep bidirectional transformers for language understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 4171--4186, 2019."},{"key":"e_1_3_2_1_46_1","first-page":"1083","volume-title":"Proceedings of the 32nd International Conference on Machine Learning, volume 37 of Proceedings of Machine Learning Research","author":"Wang Weiran","year":"2015","unstructured":"Weiran Wang, Raman Arora, Karen Livescu, and Jeff Bilmes. On deep multi-view representation learning. In Proceedings of the 32nd International Conference on Machine Learning, volume 37 of Proceedings of Machine Learning Research, pages 1083--1092, 2015."},{"key":"e_1_3_2_1_47_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33016892"},{"key":"e_1_3_2_1_48_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.203"},{"key":"e_1_3_2_1_49_1","volume-title":"Journal of Machine Learning Research","author":"der Maaten Laurens Van","year":"2008","unstructured":"Laurens Van der Maaten and Geoffrey Hinton. Visualizing data using t-sne. Journal of Machine Learning Research, 2008"}],"event":{"name":"MM '24: The 32nd ACM International Conference on Multimedia","location":"Melbourne VIC Australia","acronym":"MM '24","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 32nd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3664647.3680949","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3664647.3680949","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T01:17:34Z","timestamp":1750295854000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3664647.3680949"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,10,28]]},"references-count":49,"alternative-id":["10.1145\/3664647.3680949","10.1145\/3664647"],"URL":"https:\/\/doi.org\/10.1145\/3664647.3680949","relation":{},"subject":[],"published":{"date-parts":[[2024,10,28]]},"assertion":[{"value":"2024-10-28","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}