{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,23]],"date-time":"2026-04-23T08:00:43Z","timestamp":1776931243599,"version":"3.51.2"},"publisher-location":"New York, NY, USA","reference-count":25,"publisher":"ACM","funder":[{"name":"National Key R&D Program of China","award":["2024YFB4709000"],"award-info":[{"award-number":["2024YFB4709000"]}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62402087, 62020106013"],"award-info":[{"award-number":["62402087, 62020106013"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Sichuan Science and Technology Program","award":["2024ZHCG0188"],"award-info":[{"award-number":["2024ZHCG0188"]}]},{"DOI":"10.13039\/501100019014","name":"Chengdu Science and Technology Program","doi-asserted-by":"publisher","award":["2023-XT00-00002-GX"],"award-info":[{"award-number":["2023-XT00-00002-GX"]}],"id":[{"id":"10.13039\/501100019014","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Fundamental Research Funds for Chinese Central Universities","award":["ZYGX2020ZB027,Y030232063003002"],"award-info":[{"award-number":["ZYGX2020ZB027,Y030232063003002"]}]},{"DOI":"10.13039\/501100002858","name":"China Postdoctoral Science Foundation","doi-asserted-by":"publisher","award":["BX20230060,2024M760356"],"award-info":[{"award-number":["BX20230060,2024M760356"]}],"id":[{"id":"10.13039\/501100002858","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,12,9]]},"DOI":"10.1145\/3743093.3770938","type":"proceedings-article","created":{"date-parts":[[2025,12,6]],"date-time":"2025-12-06T08:06:16Z","timestamp":1765008376000},"page":"1-7","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["When Hallucinated Concepts Cross Modals: Unveiling Backdoor Vulnerability in Multi-modal In-context Learning"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-0343-0383","authenticated-orcid":false,"given":"Guanyu","family":"Hou","sequence":"first","affiliation":[{"name":"University of Manchester, Manchester, United Kingdom"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-5391-2056","authenticated-orcid":false,"given":"Jiaming","family":"He","sequence":"additional","affiliation":[{"name":"University of Electronic Science and Technology of China, Chengdu, Sichuan, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-7280-293X","authenticated-orcid":false,"given":"Yitong","family":"Qiao","sequence":"additional","affiliation":[{"name":"Sun Yat-sen University, Guangzhou, Guangdong, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0602-9360","authenticated-orcid":false,"given":"Jiachen","family":"Li","sequence":"additional","affiliation":[{"name":"Wuhan University of Technology, Wuhan, Hubei, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1596-3331","authenticated-orcid":false,"given":"Qiyang","family":"Song","sequence":"additional","affiliation":[{"name":"Chinese Academy of Sciences, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-8990-436X","authenticated-orcid":false,"given":"Ji","family":"Guo","sequence":"additional","affiliation":[{"name":"University of Electronic Science and Technology of China, Chengdu, Sichuan, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-5184-6637","authenticated-orcid":false,"given":"Zihan","family":"Wang","sequence":"additional","affiliation":[{"name":"University of Electronic Science and Technology of China, Chengdu, Sichuan, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4592-8094","authenticated-orcid":false,"given":"Wenbo","family":"Jiang","sequence":"additional","affiliation":[{"name":"University of Electronic Science and Technology of China, Chengdu, Sichuan, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,12,6]]},"reference":[{"key":"e_1_3_3_2_2_2","unstructured":"Xiangrui Cai Haidong Xu Sihan Xu Ying Zhang et\u00a0al. 2022. Badprompt: Backdoor attacks on continuous prompts. Advances in Neural Information Processing Systems 35 (2022) 37068\u201337080."},{"key":"e_1_3_3_2_3_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10611018"},{"key":"e_1_3_3_2_4_2","first-page":"179","volume-title":"European Conference on Computer Vision","author":"Chen Xiuyuan","year":"2024","unstructured":"Xiuyuan Chen, Yuan Lin, Yuchen Zhang, and Weiran Huang. 2024. Autoeval-video: An automatic benchmark for assessing large vision language models in open-ended video question answering. In European Conference on Computer Vision. Springer, 179\u2013195."},{"key":"e_1_3_3_2_5_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"e_1_3_3_2_6_2","unstructured":"Yuntian Deng Yejin Choi and Stuart Shieber. 2024. From explicit cot to implicit cot: Learning to internalize cot step by step. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2405.14838 (2024)."},{"key":"e_1_3_3_2_7_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10610090"},{"key":"e_1_3_3_2_8_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.670"},{"key":"e_1_3_3_2_9_2","doi-asserted-by":"publisher","DOI":"10.1109\/SP54263.2024.00031"},{"key":"e_1_3_3_2_10_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i25.34819"},{"key":"e_1_3_3_2_11_2","unstructured":"Nikhil Kandpal Matthew Jagielski Florian Tram\u00e8r and Nicholas Carlini. 2023. Backdoor attacks for in-context learning with language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2307.14692 (2023)."},{"key":"e_1_3_3_2_12_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02652"},{"key":"e_1_3_3_2_13_2","unstructured":"Jiawei Liang Siyuan Liang Man Luo Aishan Liu Dongchen Han Ee-Chien Chang and Xiaochun Cao. 2024. Vl-trojan: Multimodal instruction backdoor attacks against autoregressive visual language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2402.13851 (2024)."},{"key":"e_1_3_3_2_14_2","first-page":"467","volume-title":"European Conference on Computer Vision","author":"Lyu Weimin","year":"2024","unstructured":"Weimin Lyu, Lu Pang, Tengfei Ma, Haibin Ling, and Chao Chen. 2024. Trojvlm: Backdoor attack against vision language models. In European Conference on Computer Vision. Springer, 467\u2013483."},{"key":"e_1_3_3_2_15_2","unstructured":"Libo Qin Qiguang Chen Hao Fei Zhi Chen Min Li and Wanxiang Che. 2024. What Factors Affect Multi-Modal In-Context Learning? An In-Depth Exploration. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2410.20482 (2024)."},{"key":"e_1_3_3_2_16_2","first-page":"256","volume-title":"European Conference on Computer Vision","author":"Sima Chonghao","year":"2024","unstructured":"Chonghao Sima, Katrin Renz, Kashyap Chitta, Li Chen, Hanxue Zhang, Chengen Xie, Jens Bei\u00dfwenger, Ping Luo, Andreas Geiger, and Hongyang Li. 2024. Drivelm: Driving with graph visual question answering. In European Conference on Computer Vision. Springer, 256\u2013274."},{"key":"e_1_3_3_2_17_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02566"},{"key":"e_1_3_3_2_18_2","unstructured":"Tony\u00a0Cheng Tong Sirui He Zhiwen Shao and Dit-Yan Yeung. 2024. G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2412.13647 (2024)."},{"key":"e_1_3_3_2_19_2","volume-title":"NeurIPS","author":"Wang Boxin","year":"2023","unstructured":"Boxin Wang, Weixin Chen, Hengzhi Pei, Chulin Xie, Mintong Kang, Chenhui Zhang, Chejian Xu, Zidi Xiong, Ritik Dutta, Rylan Schaeffer, et\u00a0al. 2023. DecodingTrust: A Comprehensive Assessment of Trustworthiness in GPT Models.. In NeurIPS."},{"key":"e_1_3_3_2_20_2","unstructured":"Yiqi Wang Wentao Chen Xiaotian Han Xudong Lin Haiteng Zhao Yongfei Liu Bohan Zhai Jianbo Yuan Quanzeng You and Hongxia Yang. 2024. Exploring the reasoning abilities of multimodal large language models (mllms): A comprehensive survey on emerging trends in multimodal reasoning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2401.06805 (2024)."},{"key":"e_1_3_3_2_21_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01428"},{"key":"e_1_3_3_2_22_2","volume-title":"The Twelfth International Conference on Learning Representations","author":"Xiang Zhen","unstructured":"Zhen Xiang, Fengqing Jiang, Zidi Xiong, Bhaskar Ramasubramanian, Radha Poovendran, and Bo Li. [n. d.]. BadChain: Backdoor Chain-of-Thought Prompting for Large Language Models. In The Twelfth International Conference on Learning Representations."},{"key":"e_1_3_3_2_23_2","doi-asserted-by":"crossref","unstructured":"Lei Xu Yangyi Chen Ganqu Cui Hongcheng Gao and Zhiyuan Liu. 2022. Exploring the universal vulnerability of prompt-based learning paradigm. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2204.05239 (2022).","DOI":"10.18653\/v1\/2022.findings-naacl.137"},{"key":"e_1_3_3_2_24_2","doi-asserted-by":"crossref","unstructured":"Peter Young Alice Lai Micah Hodosh and Julia Hockenmaier. 2014. From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. Transactions of the Association for Computational Linguistics 2 (2014) 67\u201378.","DOI":"10.1162\/tacl_a_00166"},{"key":"e_1_3_3_2_25_2","unstructured":"Haozhe Zhao Zefan Cai Shuzheng Si Xiaojian Ma Kaikai An Liang Chen Zixuan Liu Sheng Wang Wenjuan Han and Baobao Chang. 2023. Mmicl: Empowering vision-language model with multi-modal in-context learning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2309.07915 (2023)."},{"key":"e_1_3_3_2_26_2","doi-asserted-by":"crossref","unstructured":"Shuai Zhao Meihuizi Jia Luu\u00a0Anh Tuan Fengjun Pan and Jinming Wen. 2024. Universal vulnerabilities in large language models: Backdoor attacks for in-context learning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2401.05949 (2024).","DOI":"10.18653\/v1\/2024.emnlp-main.642"}],"event":{"name":"MMAsia '25: ACM Multimedia Asia","location":"Kuala Lumpur Malaysia","acronym":"MMAsia '25","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 7th ACM International Conference on Multimedia in Asia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3743093.3770938","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,6]],"date-time":"2025-12-06T08:09:49Z","timestamp":1765008589000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3743093.3770938"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,6]]},"references-count":25,"alternative-id":["10.1145\/3743093.3770938","10.1145\/3743093"],"URL":"https:\/\/doi.org\/10.1145\/3743093.3770938","relation":{},"subject":[],"published":{"date-parts":[[2025,12,6]]},"assertion":[{"value":"2025-12-06","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}