{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T16:52:07Z","timestamp":1781542327171,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":29,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/legalcode"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810846","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"1711-1715","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["GDT-VLM: Global Distribution Modeling for Visual Token Compression in Efficient Multimodal Large Language Models"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-9714-0215","authenticated-orcid":false,"given":"Jiangtao","family":"Xie","sequence":"first","affiliation":[{"name":"Dalian University of Technology, Dalian, Liaoning, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-1056-6563","authenticated-orcid":false,"given":"Junjie","family":"Wu","sequence":"additional","affiliation":[{"name":"Tianjin University, Tianjin, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-2727-820X","authenticated-orcid":false,"given":"Zhaolin","family":"Zhang","sequence":"additional","affiliation":[{"name":"Tianjin University, Tianjin, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3765-9787","authenticated-orcid":false,"given":"Qilong","family":"Wang","sequence":"additional","affiliation":[{"name":"Tianjin University, Tianjin, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7229-3867","authenticated-orcid":false,"given":"Peihua","family":"Li","sequence":"additional","affiliation":[{"name":"Dalian University of Technology, Dalian, Liaoning, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","unstructured":"Shuai Bai Yuxuan Cai Ruizhe Chen Keqin Chen Xionghui Chen Zesen Cheng Lianghao Deng Wei Ding Chang Gao Chunjiang Ge Wenbin Ge Zhifang Guo Qidong Huang Jie Huang Fei Huang Binyuan Hui Shutong Jiang Zhaohai Li Mingsheng Li Mei Li Kaixin Li Zicheng Lin Junyang Lin Xuejing Liu Jiawei Liu Chenglong Liu Yang Liu Dayiheng Liu Shixuan Liu Dunjie Lu Ruilin Luo Chenxu Lv Rui Men Lingchen Meng Xuancheng Ren Xingzhang Ren Sibo Song Yuchong Sun Jun Tang Jianhong Tu Jianqiang Wan Peng Wang Pengfei Wang Qiuyue Wang Yuxuan Wang Tianbao Xie Yiheng Xu Haiyang Xu Jin Xu Zhibo Yang Mingkun Yang Jianxin Yang An Yang Bowen Yu Fei Zhang Hang Zhang Xi Zhang Bo Zheng Humen Zhong Jingren Zhou Fan Zhou Jing Zhou Yuanzhi Zhu and Ke Zhu. 2025. Qwen3-VL Technical Report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2511.21631 (2025)."},{"key":"e_1_3_3_1_3_2","volume-title":"Pattern recognition and machine learning","author":"Bishop Christopher\u00a0M","year":"2006","unstructured":"Christopher\u00a0M Bishop and Nasser\u00a0M Nasrabadi. 2006. Pattern recognition and machine learning. Vol.\u00a04."},{"key":"e_1_3_3_1_4_2","unstructured":"Kaitong Cai Jusheng Zhang Jing Yang Yijia Fan Pengtao Xie Jian Wang and Keze Wang. 2025. FlashVLM: Text-guided visual token selection for large multimodal models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2512.20561 (2025)."},{"key":"e_1_3_3_1_5_2","first-page":"19","volume-title":"ECCV","author":"Chen Liang","year":"2024","unstructured":"Liang Chen, Haozhe Zhao, Tianyu Liu, Shuai Bai, Junyang Lin, Chang Zhou, and Baobao Chang. 2024. An image is worth 1\/2 tokens after layer 2: Plug-and-play inference acceleration for large vision-language models. In ECCV. Springer, 19\u201335."},{"key":"e_1_3_3_1_6_2","first-page":"19","volume-title":"European Conference on Computer Vision","author":"Chen Liang","year":"2024","unstructured":"Liang Chen, Haozhe Zhao, Tianyu Liu, Shuai Bai, Junyang Lin, Chang Zhou, and Baobao Chang. 2024. An image is worth 1\/2 tokens after layer 2: Plug-and-play inference acceleration for large vision-language models. In European Conference on Computer Vision. Springer, 19\u201335."},{"key":"e_1_3_3_1_7_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01084"},{"key":"e_1_3_3_1_8_2","unstructured":"Bo Li Yuanhan Zhang Dong Guo Renrui Zhang Feng Li Hao Zhang Kaichen Zhang Peiyuan Zhang Yanwei Li Ziwei Liu and Chunyuan Li. 2025. LLaVA-OneVision: Easy Visual Task Transfer. Trans. Mach. Learn. Res. 2025 (2025)."},{"key":"e_1_3_3_1_9_2","first-page":"19730","volume-title":"International conference on machine learning","author":"Li Junnan","year":"2023","unstructured":"Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. 2023. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In International conference on machine learning. PMLR, 19730\u201319742."},{"key":"e_1_3_3_1_10_2","unstructured":"Kevin\u00a0Y Li Sachin Goyal Joao\u00a0D Semedo and J Zico\u00a0Kolter. 2024. Inference optimal vlms need only one visual token but larger models. arXiv e-prints (2024) arXiv\u20132411."},{"key":"e_1_3_3_1_11_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00105"},{"key":"e_1_3_3_1_12_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.228"},{"key":"e_1_3_3_1_13_2","unstructured":"Wentong Li Yuqian Yuan Jian Liu Dongqi Tang Song Wang Jie Qin Jianke Zhu and Lei Zhang. 2025. Tokenpacker: Efficient visual projector for multimodal llm. IJCV (2025) 1\u201319."},{"key":"e_1_3_3_1_14_2","unstructured":"Haotian Liu Chunyuan Li Yuheng Li Bo Li Yuanhan Zhang Sheng Shen and Yong\u00a0Jae Lee. 2024. LLaVA-NeXT: Improved reasoning OCR and world knowledge. https:\/\/llava-vl.github.io\/blog\/2024-01-30-llava-next\/"},{"key":"e_1_3_3_1_15_2","volume-title":"NeurIPS","author":"Liu Haotian","year":"2023","unstructured":"Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong\u00a0Jae Lee. 2023. Visual Instruction Tuning. In NeurIPS."},{"key":"e_1_3_3_1_16_2","volume-title":"ICML","author":"Long Fei","year":"2025","unstructured":"Fei Long, Xiaoou Li, Jiaming Lv, Haoyuan Yang, Xianjun Cheng, and Peihua Li. 2025. BDC-CLIP: Brownian Distance Covariance for Adapting CLIP to Action Recognition. In ICML."},{"key":"e_1_3_3_1_17_2","first-page":"8748","volume-title":"ICML","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong\u00a0Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. In ICML, Marina Meila and Tong Zhang (Eds.). PMLR, 8748\u20138763."},{"key":"e_1_3_3_1_18_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51701.2025.02122"},{"key":"e_1_3_3_1_19_2","doi-asserted-by":"crossref","unstructured":"G\u00e1bor\u00a0J Sz\u00e9kely and Maria\u00a0L Rizzo. 2009. Brownian distance covariance. (2009).","DOI":"10.1214\/09-AOAS312"},{"key":"e_1_3_3_1_20_2","unstructured":"Xudong Tan Peng Ye Chongjun Tu Jianjian Cao Yaoxin Yang Lin Zhang Dongzhan Zhou and Tao Chen. 2025. TokenCarve: Information-Preserving Visual Token Compression in Multimodal Large Language Models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2503.10501 (2025)."},{"key":"e_1_3_3_1_21_2","unstructured":"Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux Timoth\u00e9e Lacroix Baptiste Rozi\u00e8re Naman Goyal Eric Hambro Faisal Azhar et\u00a0al. 2023. Llama: Open and efficient foundation language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2302.13971 (2023)."},{"key":"e_1_3_3_1_22_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00781"},{"key":"e_1_3_3_1_23_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00781"},{"key":"e_1_3_3_1_24_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02777"},{"key":"e_1_3_3_1_25_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01100"},{"key":"e_1_3_3_1_26_2","volume-title":"ICLR","author":"Zhang Shaolei","year":"2025","unstructured":"Shaolei Zhang, Qingkai Fang, Zhe Yang, and Yang Feng. 2025. LLaVA-Mini: Efficient Image and Video Large Multimodal Models with One Vision Token. In ICLR."},{"key":"e_1_3_3_1_27_2","volume-title":"International Conference on Machine Learning","author":"Zhang Yuan","year":"2025","unstructured":"Yuan Zhang, Chun-Kai Fan, Junpeng Ma, Wenzhao Zheng, Tao Huang, Kuan Cheng, Denis\u00a0A Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, et\u00a0al. 2025. SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference. In International Conference on Machine Learning."},{"key":"e_1_3_3_1_28_2","first-page":"46595","volume-title":"NeurIPS","author":"Zheng Lianmin","year":"2023","unstructured":"Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric Xing, et\u00a0al. 2023. Judging llm-as-a-judge with mt-bench and chatbot arena. In NeurIPS. 46595\u201346623."},{"key":"e_1_3_3_1_29_2","unstructured":"Jinguo Zhu Weiyun Wang Zhe Chen Zhaoyang Liu Shenglong Ye Lixin Gu Hao Tian Yuchen Duan Weijie Su Jie Shao et\u00a0al. 2025. Internvl3: Exploring advanced training and test-time recipes for open-source multimodal models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2504.10479 (2025)."},{"key":"e_1_3_3_1_30_2","unstructured":"Yuke Zhu Chi Xie Shuang Liang Bo Zheng and Sheng Guo. 2024. FocusLLaVA: A coarse-to-fine approach for efficient and effective visual token compression. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2411.14228 (2024)."}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:53:23Z","timestamp":1781538803000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810846"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":29,"alternative-id":["10.1145\/3805622.3810846","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810846","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}