{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:56:19Z","timestamp":1781535379465,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":50,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"Oil & Gas Major Project","award":["2025ZD1404600"],"award-info":[{"award-number":["2025ZD1404600"]}]},{"name":"CNPC Innovation Found","award":["2022DQ02-0609"],"award-info":[{"award-number":["2022DQ02-0609"]}]},{"name":"Frontier Interdisciplinary Exploration Research Program of China University of Petroleum, Beijing","award":["2462024XKQY003"],"award-info":[{"award-number":["2462024XKQY003"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810788","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"525-534","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Hyperbolic and Evidence-Prioritized Experts for Large Vision-Language Models"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0005-9587-4361","authenticated-orcid":false,"given":"Zijie","family":"Zhou","sequence":"first","affiliation":[{"name":"China University of Petroleum (Beijing), Beijing, China and Hainan Institute of China University of Petroleum (Beijing), Sanya, Hainan, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-6935-1623","authenticated-orcid":false,"given":"Dandan","family":"Zhu","sequence":"additional","affiliation":[{"name":"China University of Petroleum (Beijing), Beijing, China and Hainan Institute of China University of Petroleum (Beijing), Sanya, Hainan, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-7145-0125","authenticated-orcid":false,"given":"Hangxiangpan","family":"Wang","sequence":"additional","affiliation":[{"name":"China University of Petroleum (Beijing), Beijing, China and Hainan Institute of China University of Petroleum (Beijing), Sanya, Hainan, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-1699-322X","authenticated-orcid":false,"given":"Heng","family":"Zhang","sequence":"additional","affiliation":[{"name":"South China Normal University, Foshan, Guangdong, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-1974-1893","authenticated-orcid":false,"given":"Huishen","family":"Jiao","sequence":"additional","affiliation":[{"name":"China University of Petroleum (Beijing), Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-2999-6469","authenticated-orcid":false,"given":"Yi","family":"Zhao","sequence":"additional","affiliation":[{"name":"China University of Petroleum (Beijing), Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","unstructured":"Jinze Bai Shuai Bai Shusheng Yang Shijie Wang Sinan Tan Peng Wang Junyang Lin Chang Zhou and Jingren Zhou. 2023. Qwen-VL: A Versatile Vision-Language Model for Understanding Localization Text Reading and Beyond. arxiv:https:\/\/arXiv.org\/abs\/2308.12966\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2308.12966"},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.emnlp-main.1114"},{"key":"e_1_3_3_1_4_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72643-9_22"},{"key":"e_1_3_3_1_5_2","volume-title":"LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs","author":"Chen Shaoxiang","year":"2024","unstructured":"Shaoxiang Chen, Zequn Jie, and Lin Ma. 2024. LLaVA-MoLE: Sparse Mixture of LoRA Experts for Mitigating Data Conflicts in Instruction Finetuning MLLMs. arxiv:https:\/\/arXiv.org\/abs\/2401.16160\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2401.16160"},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00389"},{"key":"e_1_3_3_1_7_2","unstructured":"XTuner Contributors. 2023. XTuner: A Toolkit for Efficiently Fine-tuning LLM. https:\/\/github.com\/InternLM\/xtuner."},{"key":"e_1_3_3_1_8_2","doi-asserted-by":"publisher","DOI":"10.52202\/075280-2142"},{"key":"e_1_3_3_1_9_2","volume-title":"DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model","year":"2024","unstructured":"DeepSeek-AI. 2024. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model. arxiv:https:\/\/arXiv.org\/abs\/2405.04434\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2405.04434"},{"key":"e_1_3_3_1_10_2","volume-title":"GLaM: Efficient Scaling of Language Models with Mixture-of-Experts","author":"Du Nan","year":"2022","unstructured":"Nan Du, Yanping Huang, Andrew\u00a0M. Dai, Simon Tong, Dmitry Lepikhin, Yuanzhong Xu, Maxim Krikun, Yanqi Zhou, Adams\u00a0Wei Yu, Orhan Firat, Barret Zoph, Liam Fedus, Maarten Bosma, Zongwei Zhou, Tao Wang, Yu\u00a0Emma Wang, Kellie Webster, Marie Pellat, Kevin Robinson, Kathleen Meier-Hellstern, Toju Duke, Lucas Dixon, Kun Zhang, Quoc\u00a0V Le, Yonghui Wu, Zhifeng Chen, and Claire Cui. 2022. GLaM: Efficient Scaling of Language Models with Mixture-of-Experts. arxiv:https:\/\/arXiv.org\/abs\/2112.06905\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2112.06905"},{"key":"e_1_3_3_1_11_2","volume-title":"MouSi: Poly-Visual-Expert Vision-Language Models","author":"Fan Xiaoran","year":"2024","unstructured":"Xiaoran Fan, Tao Ji, Changhao Jiang, Shuo Li, Senjie Jin, Sirui Song, Junke Wang, Boyang Hong, Lu Chen, Guodong Zheng, Ming Zhang, Caishuang Huang, Rui Zheng, Zhiheng Xi, Yuhao Zhou, Shihan Dou, Junjie Ye, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Zuxuan Wu, and Yu-Gang Jiang. 2024. MouSi: Poly-Visual-Expert Vision-Language Models. arxiv:https:\/\/arXiv.org\/abs\/2401.17221\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2401.17221"},{"key":"e_1_3_3_1_12_2","unstructured":"William Fedus Barret Zoph and Noam Shazeer. 2022. Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. Journal of Machine Learning Research 23 120 (2022) 1\u201339. http:\/\/jmlr.org\/papers\/v23\/21-0998.html"},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01363"},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00686"},{"key":"e_1_3_3_1_15_2","doi-asserted-by":"publisher","unstructured":"Robert\u00a0A. Jacobs Michael\u00a0I. Jordan Steven\u00a0J. Nowlan and Geoffrey\u00a0E. Hinton. 1991. Adaptive Mixtures of Local Experts. Neural Computation 3 1 (1991) 79\u201387. 10.1162\/neco.1991.3.1.79","DOI":"10.1162\/neco.1991.3.1.79"},{"key":"e_1_3_3_1_16_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46493-0_15"},{"key":"e_1_3_3_1_17_2","volume-title":"Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints","author":"Komatsuzaki Aran","year":"2023","unstructured":"Aran Komatsuzaki, Joan Puigcerver, James Lee-Thorp, Carlos\u00a0Riquelme Ruiz, Basil Mustafa, Joshua Ainslie, Yi Tay, Mostafa Dehghani, and Neil Houlsby. 2023. Sparse Upcycling: Training Mixture-of-Experts from Dense Checkpoints. arxiv:https:\/\/arXiv.org\/abs\/2212.05055\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2212.05055"},{"key":"e_1_3_3_1_18_2","unstructured":"Dmitry Lepikhin HyoukJoong Lee Yuanzhong Xu Dehao Chen Orhan Firat Yanping Huang Maxim Krikun Noam Shazeer and Zhifeng Chen. 2020. GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arxiv:https:\/\/arXiv.org\/abs\/2006.16668\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2006.16668"},{"key":"e_1_3_3_1_19_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01263"},{"key":"e_1_3_3_1_20_2","volume-title":"Aria: An Open Multimodal Native Mixture-of-Experts Model","author":"Li Dongxu","year":"2025","unstructured":"Dongxu Li, Yudong Liu, Haoning Wu, Yue Wang, Zhiqi Shen, Bowen Qu, Xinyao Niu, Fan Zhou, Chengen Huang, Yanpeng Li, Chongyan Zhu, Xiaoyi Ren, Chao Li, Yifan Ye, Peng Liu, Lihuan Zhang, Hanshu Yan, Guoyin Wang, Bei Chen, and Junnan Li. 2025. Aria: An Open Multimodal Native Mixture-of-Experts Model. arxiv:https:\/\/arXiv.org\/abs\/2410.05993\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2410.05993"},{"key":"e_1_3_3_1_21_2","unstructured":"Jiachen Li Xinyao Wang Sijie Zhu Chia-Wen Kuo Lu Xu Fan Chen Jitesh Jain Humphrey Shi and Longyin Wen. 2024. CuMo: Scaling Multimodal LLM with Co-Upcycled Mixture-of-Experts. arxiv:https:\/\/arXiv.org\/abs\/2405.05949\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2405.05949"},{"key":"e_1_3_3_1_22_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.20"},{"key":"e_1_3_3_1_23_2","volume-title":"Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models","author":"Li Yanwei","year":"2024","unstructured":"Yanwei Li, Yuechen Zhang, Chengyao Wang, Zhisheng Zhong, Yixin Chen, Ruihang Chu, Shaoteng Liu, and Jiaya Jia. 2024. Mini-Gemini: Mining the Potential of Multi-modality Vision Language Models. arxiv:https:\/\/arXiv.org\/abs\/2403.18814\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2403.18814"},{"key":"e_1_3_3_1_24_2","unstructured":"Paul\u00a0Pu Liang Amir Zadeh and Louis-Philippe Morency. 2023. Foundations and Trends in Multimodal Machine Learning: Principles Challenges and Open Questions. arxiv:https:\/\/arXiv.org\/abs\/2209.03430\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2209.03430"},{"key":"e_1_3_3_1_25_2","volume-title":"MoE-LLaVA: Mixture of Experts for Large Vision-Language Models","author":"Lin Bin","year":"2024","unstructured":"Bin Lin, Zhenyu Tang, Yang Ye, Jinfa Huang, Junwu Zhang, Yatian Pang, Peng Jin, Munan Ning, Jiebo Luo, and Li Yuan. 2024. MoE-LLaVA: Mixture of Experts for Large Vision-Language Models. arxiv:https:\/\/arXiv.org\/abs\/2401.15947\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2401.15947"},{"key":"e_1_3_3_1_26_2","volume-title":"MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts","author":"Lin Xi\u00a0Victoria","year":"2024","unstructured":"Xi\u00a0Victoria Lin, Akshat Shrivastava, Liang Luo, Srinivasan Iyer, Mike Lewis, Gargi Ghosh, Luke Zettlemoyer, and Armen Aghajanyan. 2024. MoMa: Efficient Early-Fusion Pre-training with Mixture of Modality-Aware Experts. arxiv:https:\/\/arXiv.org\/abs\/2407.21770\u00a0[cs.AI] https:\/\/arxiv.org\/abs\/2407.21770"},{"key":"e_1_3_3_1_27_2","volume-title":"SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models","author":"Liu Dongyang","year":"2024","unstructured":"Dongyang Liu, Renrui Zhang, Longtian Qiu, Siyuan Huang, Weifeng Lin, Shitian Zhao, Shijie Geng, Ziyi Lin, Peng Jin, Kaipeng Zhang, Wenqi Shao, Chao Xu, Conghui He, Junjun He, Hao Shao, Pan Lu, Hongsheng Li, Yu Qiao, and Peng Gao. 2024. SPHINX-X: Scaling Data and Parameters for a Family of Multi-modal Large Language Models. arxiv:https:\/\/arXiv.org\/abs\/2402.05935\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2402.05935"},{"key":"e_1_3_3_1_28_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02484"},{"key":"e_1_3_3_1_29_2","unstructured":"Haotian Liu Chunyuan Li Yuheng Li Bo Li Yuanhan Zhang Sheng Shen and Yong\u00a0Jae Lee. 2024. LLaVA-NeXT: Improved reasoning OCR and world knowledge. https:\/\/llava-vl.github.io\/blog\/2024-01-30-llava-next\/"},{"key":"e_1_3_3_1_30_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72658-3_13"},{"key":"e_1_3_3_1_31_2","volume-title":"DeepSeek-VL: Towards Real-World Vision-Language Understanding","author":"Lu Haoyu","year":"2024","unstructured":"Haoyu Lu, Wen Liu, Bo Zhang, Bingxuan Wang, Kai Dong, Bo Liu, Jingxiang Sun, Tongzheng Ren, Zhuoshu Li, Hao Yang, Yaofeng Sun, Chengqi Deng, Hanwei Xu, Zhenda Xie, and Chong Ruan. 2024. DeepSeek-VL: Towards Real-World Vision-Language Understanding. arxiv:https:\/\/arXiv.org\/abs\/2403.05525\u00a0[cs.AI] https:\/\/arxiv.org\/abs\/2403.05525"},{"key":"e_1_3_3_1_32_2","first-page":"23439","volume-title":"International Conference on Learning Representations","volume":"2024","author":"Lu Pan","year":"2024","unstructured":"Pan Lu, Hritik Bansal, Tony Xia, Jiacheng Liu, Chunyuan Li, Hannaneh Hajishirzi, Hao Cheng, Kai-Wei Chang, Michel Galley, and Jianfeng Gao. 2024. MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts. In International Conference on Learning Representations , B.\u00a0Kim, Y.\u00a0Yue, S.\u00a0Chaudhuri, K.\u00a0Fragkiadaki, M.\u00a0Khan, and Y.\u00a0Sun (Eds.), Vol.\u00a02024. 23439\u201323554. https:\/\/proceedings.iclr.cc\/paper_files\/paper\/2024\/file\/663bce02a0050c4a11f1eb8a7f1429d3-Paper-Conference.pdf"},{"key":"e_1_3_3_1_33_2","first-page":"2507","volume-title":"Advances in Neural Information Processing Systems","volume":"35","author":"Lu Pan","year":"2022","unstructured":"Pan Lu, Swaroop Mishra, Tanglin Xia, Liang Qiu, Kai-Wei Chang, Song-Chun Zhu, Oyvind Tafjord, Peter Clark, and Ashwin Kalyan. 2022. Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering. In Advances in Neural Information Processing Systems , S.\u00a0Koyejo, S.\u00a0Mohamed, A.\u00a0Agarwal, D.\u00a0Belgrave, K.\u00a0Cho, and A.\u00a0Oh (Eds.), Vol.\u00a035. Curran Associates, Inc., 2507\u20132521. https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2022\/file\/11332b6b6cf4485b84afadb1352d3a9a-Paper-Conference.pdf"},{"key":"e_1_3_3_1_34_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.findings-acl.177"},{"key":"e_1_3_3_1_35_2","doi-asserted-by":"publisher","DOI":"10.1109\/WACV48630.2021.00225"},{"key":"e_1_3_3_1_36_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73397-0_18"},{"key":"e_1_3_3_1_37_2","unstructured":"MistralAITeam. 2023. Mixtral of experts A high quality Sparse Mixture-of-Experts. [EB\/OL]. https:\/\/mistral.ai\/news\/mixtral-of-experts\/ Accessed December 11 2023."},{"key":"e_1_3_3_1_38_2","volume-title":"OLMoE: Open Mixture-of-Experts Language Models","author":"Muennighoff Niklas","year":"2024","unstructured":"Niklas Muennighoff, Luca Soldaini, Dirk Groeneveld, Kyle Lo, Jacob Morrison, Sewon Min, Weijia Shi, Pete Walsh, Oyvind Tafjord, Nathan Lambert, Yuling Gu, Shane Arora, Akshita Bhagia, Dustin Schwenk, David Wadden, Alexander Wettig, Binyuan Hui, Tim Dettmers, Douwe Kiela, Ali Farhadi, Noah\u00a0A. Smith, Pang\u00a0Wei Koh, Amanpreet Singh, and Hannaneh Hajishirzi. 2024. OLMoE: Open Mixture-of-Experts Language Models. arxiv:https:\/\/arXiv.org\/abs\/2409.02060\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2409.02060"},{"key":"e_1_3_3_1_39_2","volume-title":"DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale","author":"Rajbhandari Samyam","year":"2022","unstructured":"Samyam Rajbhandari, Conglong Li, Zhewei Yao, Minjia Zhang, Reza\u00a0Yazdani Aminabadi, Ammar\u00a0Ahmad Awan, Jeff Rasley, and Yuxiong He. 2022. DeepSpeed-MoE: Advancing Mixture-of-Experts Inference and Training to Power Next-Generation AI Scale. arxiv:https:\/\/arXiv.org\/abs\/2201.05596\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2201.05596"},{"key":"e_1_3_3_1_40_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.758"},{"key":"e_1_3_3_1_41_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00851"},{"key":"e_1_3_3_1_42_2","unstructured":"Dianyi Wang Siyuan Wang Zejun Li Yikun Wang Yitong Li Duyu Tang Xiaoyu Shen Xuanjing Huang and Zhongyu Wei. 2025. MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models. arXiv:https:\/\/arXiv.org\/abs\/2508.09779 (2025)."},{"key":"e_1_3_3_1_43_2","volume-title":"DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding","author":"Wu Zhiyu","year":"2024","unstructured":"Zhiyu Wu, Xiaokang Chen, Zizheng Pan, Xingchao Liu, Wen Liu, Damai Dai, Huazuo Gao, Yiyang Ma, Chengyue Wu, Bingxuan Wang, Zhenda Xie, Yu Wu, Kai Hu, Jiawei Wang, Yaofeng Sun, Yukun Li, Yishi Piao, Kang Guan, Aixin Liu, Xin Xie, Yuxiang You, Kai Dong, Xingkai Yu, Haowei Zhang, Liang Zhao, Yisong Wang, and Chong Ruan. 2024. DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding. arxiv:https:\/\/arXiv.org\/abs\/2412.10302\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2412.10302"},{"key":"e_1_3_3_1_44_2","unstructured":"xAI. 2024. Grok-1. Online. https:\/\/github.com\/xai-org\/grok-1."},{"key":"e_1_3_3_1_45_2","volume-title":"OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models","author":"Xue Fuzhao","year":"2024","unstructured":"Fuzhao Xue, Zian Zheng, Yao Fu, Jinjie Ni, Zangwei Zheng, Wangchunshu Zhou, and Yang You. 2024. OpenMoE: An Early Effort on Open Mixture-of-Experts Language Models. arxiv:https:\/\/arXiv.org\/abs\/2402.01739\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2402.01739"},{"key":"e_1_3_3_1_46_2","first-page":"13040","volume-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","author":"Ye Qinghao","year":"2024","unstructured":"Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Anwen Hu, Haowei Liu, Qi Qian, Ji Zhang, and Fei Huang. 2024. mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 13040\u201313051."},{"key":"e_1_3_3_1_47_2","series-title":"Proceedings of Machine Learning Research","first-page":"57730","volume-title":"Proceedings of the 41st International Conference on Machine Learning","volume":"235","author":"Yu Weihao","year":"2024","unstructured":"Weihao Yu, Zhengyuan Yang, Linjie Li, Jianfeng Wang, Kevin Lin, Zicheng Liu, Xinchao Wang, and Lijuan Wang. 2024. MM-Vet: Evaluating Large Multimodal Models for Integrated Capabilities. In Proceedings of the 41st International Conference on Machine Learning(Proceedings of Machine Learning Research, Vol.\u00a0235), Ruslan Salakhutdinov, Zico Kolter, Katherine Heller, Adrian Weller, Nuria Oliver, Jonathan Scarlett, and Felix Berkenkamp (Eds.). PMLR, 57730\u201357754. https:\/\/proceedings.mlr.press\/v235\/yu24o.html"},{"key":"e_1_3_3_1_48_2","doi-asserted-by":"crossref","unstructured":"Xiang Yue Yuansheng Ni Kai Zhang Tianyu Zheng Ruoqi Liu Ge Zhang Samuel Stevens Dongfu Jiang Weiming Ren Yuxuan Sun Cong Wei Botao Yu Ruibin Yuan Renliang Sun Ming Yin Boyuan Zheng Zhenzhu Yang Yibo Liu Wenhao Huang Huan Sun Yu Su and Wenhu Chen. 2024. MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI. arxiv:https:\/\/arXiv.org\/abs\/2311.16502\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2311.16502","DOI":"10.1109\/CVPR52733.2024.00913"},{"key":"e_1_3_3_1_49_2","unstructured":"Sashuai Zhou Hai Huang and Yan Xia. 2025. Enhancing Multi-modal Models with Heterogeneous MoE Adapters for Fine-tuning. arxiv:https:\/\/arXiv.org\/abs\/2503.20633\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2503.20633"},{"key":"e_1_3_3_1_50_2","first-page":"18378","volume-title":"International Conference on Learning Representations","volume":"2024","author":"Zhu Deyao","year":"2024","unstructured":"Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, and Mohamed Elhoseiny. 2024. MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models. In International Conference on Learning Representations , B.\u00a0Kim, Y.\u00a0Yue, S.\u00a0Chaudhuri, K.\u00a0Fragkiadaki, M.\u00a0Khan, and Y.\u00a0Sun (Eds.), Vol.\u00a02024. 18378\u201318394. https:\/\/proceedings.iclr.cc\/paper_files\/paper\/2024\/file\/50623630a2372839c078474efa6c0cb8-Paper-Conference.pdf"},{"key":"e_1_3_3_1_51_2","volume-title":"ST-MoE: Designing Stable and Transferable Sparse Expert Models","author":"Zoph Barret","year":"2022","unstructured":"Barret Zoph, Irwan Bello, Sameer Kumar, Nan Du, Yanping Huang, Jeff Dean, Noam Shazeer, and William Fedus. 2022. ST-MoE: Designing Stable and Transferable Sparse Expert Models. arxiv:https:\/\/arXiv.org\/abs\/2202.08906\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2202.08906"}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:50:38Z","timestamp":1781535038000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810788"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":50,"alternative-id":["10.1145\/3805622.3810788","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810788","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}