{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:52:01Z","timestamp":1781538721333,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":38,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810770","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"497-505","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["CodeMNER: Vision-Language Models are Better Multimodal Named Entity Recognizers via Progressive Vision-Code Alignment"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0005-3183-2576","authenticated-orcid":false,"given":"Jiakang","family":"Yu","sequence":"first","affiliation":[{"name":"Jianghan University, Wuhan, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-2057-5271","authenticated-orcid":false,"given":"Shizhou","family":"Huang","sequence":"additional","affiliation":[{"name":"East China Normal University, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-3752-6537","authenticated-orcid":false,"given":"Xiaode","family":"Chen","sequence":"additional","affiliation":[{"name":"Jianghan University, Wuhan, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6910-499X","authenticated-orcid":false,"given":"Hongtao","family":"Deng","sequence":"additional","affiliation":[{"name":"Jianghan University, Wuhan, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9671-489X","authenticated-orcid":false,"given":"Wang","family":"Gao","sequence":"additional","affiliation":[{"name":"Jianghan University, Wuhan, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5143-6774","authenticated-orcid":false,"given":"Xun","family":"Zhu","sequence":"additional","affiliation":[{"name":"Jianghan University, Wuhan, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_2_2_2","unstructured":"Shuai Bai Yuxuan Cai Ruizhe Chen Keqin Chen Xionghui Chen Zesen Cheng Lianghao Deng Wei Ding Chang Gao Chunjiang Ge Wenbin Ge Zhifang Guo Qidong Huang Jie Huang Fei Huang Binyuan Hui Shutong Jiang Zhaohai Li Mingsheng Li Mei Li Kaixin Li Zicheng Lin Junyang Lin Xuejing Liu Jiawei Liu Chenglong Liu Yang Liu Dayiheng Liu Shixuan Liu Dunjie Lu Ruilin Luo Chenxu Lv Rui Men Lingchen Meng Xuancheng Ren Xingzhang Ren Sibo Song Yuchong Sun Jun Tang Jianhong Tu Jianqiang Wan Peng Wang Pengfei Wang Qiuyue Wang Yuxuan Wang Tianbao Xie Yiheng Xu Haiyang Xu Jin Xu Zhibo Yang Mingkun Yang Jianxin Yang An Yang Bowen Yu Fei Zhang Hang Zhang Xi Zhang Bo Zheng Humen Zhong Jingren Zhou Fan Zhou Jing Zhou Yuanzhi Zhu and Ke Zhu. 2025. Qwen3-VL Technical Report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2511.21631 (2025)."},{"key":"e_1_3_3_2_3_2","doi-asserted-by":"publisher","DOI":"10.1145\/3583780.3614975"},{"key":"e_1_3_3_2_4_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i16.29721"},{"key":"e_1_3_3_2_5_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.findings-naacl.121"},{"key":"e_1_3_3_2_6_2","doi-asserted-by":"publisher","DOI":"10.1145\/3731715.3733430"},{"key":"e_1_3_3_2_7_2","unstructured":"Shuhao Gu Jialing Zhang Siyuan Zhou Kevin Yu Zhaohu Xing Liangdong Wang Zhou Cao Jintao Jia Zhuoyi Zhang Yixuan Wang et\u00a0al. 2024. Infinity-mm: Scaling multimodal performance with large-scale and high-quality instruction data. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2410.18558 (2024)."},{"key":"e_1_3_3_2_8_2","first-page":"30","volume-title":"Proceedings of the CCF International Conference on Natural Language Processing and Chinese Computing (NLPCC)","author":"Guo Yucan","year":"2024","unstructured":"Yucan Guo, Zixuan Li, Xiaolong Jin, Yantao Liu, Yutao Zeng, Wenxuan Liu, Xiang Li, Pan Yang, Long Bai, Jiafeng Guo, et\u00a0al. 2024. Retrieval-augmented code generation for universal information extraction. In Proceedings of the CCF International Conference on Natural Language Processing and Chinese Computing (NLPCC). 30\u201342."},{"key":"e_1_3_3_2_9_2","unstructured":"Ailin Huang Chengyuan Yao Chunrui Han Fanqi Wan Hangyu Guo Haoran Lv Hongyu Zhou Jia Wang Jian Zhou Jianjian Sun et\u00a0al. 2026. STEP3-VL-10B Technical Report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2601.09668 (2026)."},{"key":"e_1_3_3_2_10_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.813"},{"key":"e_1_3_3_2_11_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICME59968.2025.11209770"},{"key":"e_1_3_3_2_12_2","first-page":"19730","volume-title":"Proceedings of the International Conference on Machine Learning (ICML)","author":"Li Junnan","year":"2023","unstructured":"Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. 2023. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In Proceedings of the International Conference on Machine Learning (ICML). 19730\u201319742."},{"key":"e_1_3_3_2_13_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.855"},{"key":"e_1_3_3_2_14_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.475"},{"key":"e_1_3_3_2_15_2","first-page":"34892","volume-title":"Proceedings of the Annual Conference on Neural Information Processing Systems (NeurIPS)","volume":"36","author":"Liu Haotian","year":"2023","unstructured":"Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong\u00a0Jae Lee. 2023. Visual Instruction Tuning. In Proceedings of the Annual Conference on Neural Information Processing Systems (NeurIPS) , Vol.\u00a036. 34892\u201334916."},{"key":"e_1_3_3_2_16_2","doi-asserted-by":"crossref","unstructured":"Wei Liu Aiqun Ren Chao Wang Yan Peng Shaorong Xie and Weimin Li. 2024. MVPN: Multi-granularity visual prompt-guided fusion network for multimodal named entity recognition. Multimedia Tools and Applications 83 28 (2024) 71639\u201371663.","DOI":"10.1007\/s11042-024-18472-w"},{"key":"e_1_3_3_2_17_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P18-1185"},{"key":"e_1_3_3_2_18_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.395"},{"key":"e_1_3_3_2_19_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.514"},{"key":"e_1_3_3_2_20_2","unstructured":"Kaixiang Mo Yuxin Shi Weiwei Weng Zhiqiang Zhou Shuman Liu Haibo Zhang and Anxiang Zeng. 2025. Mid-training of large language models: A survey. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2510.06826 (2025)."},{"key":"e_1_3_3_2_21_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i17.29848"},{"key":"e_1_3_3_2_22_2","unstructured":"Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Junxiao Song Xiao Bi Haowei Zhang Mingchuan Zhang YK Li Yang Wu et\u00a0al. 2024. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2402.03300 (2024)."},{"key":"e_1_3_3_2_23_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i15.17633"},{"key":"e_1_3_3_2_24_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i17.29873"},{"key":"e_1_3_3_2_25_2","unstructured":"Tongyi\u00a0DeepResearch Team Baixuan Li Bo Zhang Dingchu Zhang Fei Huang Guangyu Li Guoxin Chen Huifeng Yin Jialong Wu Jingren Zhou et\u00a0al. 2025. Tongyi deepresearch technical report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2510.24701 (2025)."},{"key":"e_1_3_3_2_26_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.naacl-main.232"},{"key":"e_1_3_3_2_27_2","first-page":"1855","volume-title":"Proceedings of the International Conference on Computational Linguistics (COLING)","author":"Xu Bo","year":"2022","unstructured":"Bo Xu, Shizhou Huang, Ming Du, Hongya Wang, Hui Song, Chaofeng Sha, and Yanghua Xiao. 2022. Different Data, Different Modalities! Reinforced Data Splitting for Effective Multimodal Information Extraction from Social Media Posts. In Proceedings of the International Conference on Computational Linguistics (COLING). 1855\u20131864."},{"key":"e_1_3_3_2_28_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-30675-4_40"},{"key":"e_1_3_3_2_29_2","doi-asserted-by":"publisher","DOI":"10.1145\/3488560.3498475"},{"key":"e_1_3_3_2_30_2","first-page":"1802","volume-title":"Proceedings of the International Conference on Computational Linguistics (COLING)","author":"Xu Bo","year":"2025","unstructured":"Bo Xu, Haiqi Jiang, Jie Wei, Hongyu Jing, Ming Du, Hui Song, Hongya Wang, and Yanghua Xiao. 2025. Enhancing Multimodal Named Entity Recognition through Adaptive Mixup Image Augmentation. In Proceedings of the International Conference on Computational Linguistics (COLING). 1802\u20131812."},{"key":"e_1_3_3_2_31_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.306"},{"key":"e_1_3_3_2_32_2","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2025\/772"},{"key":"e_1_3_3_2_33_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.findings-acl.214"},{"key":"e_1_3_3_2_34_2","unstructured":"Charlie Zhang Graham Neubig and Xiang Yue. 2025. On the interplay of pre-training mid-training and rl on reasoning language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2512.07783 (2025)."},{"key":"e_1_3_3_2_35_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i16.17687"},{"key":"e_1_3_3_2_36_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11962"},{"key":"e_1_3_3_2_37_2","doi-asserted-by":"publisher","DOI":"10.1145\/3539597.3570485"},{"key":"e_1_3_3_2_38_2","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548228"},{"key":"e_1_3_3_2_39_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.findings-acl.748"}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:52:30Z","timestamp":1781535150000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810770"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":38,"alternative-id":["10.1145\/3805622.3810770","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810770","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}