{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:57:48Z","timestamp":1781539068684,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":31,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62236008"],"award-info":[{"award-number":["62236008"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62521007"],"award-info":[{"award-number":["62521007"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62441232"],"award-info":[{"award-number":["62441232"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100018919","name":"Peng Cheng Laboratory","doi-asserted-by":"publisher","award":["PCL2025A14"],"award-info":[{"award-number":["PCL2025A14"]}],"id":[{"id":"10.13039\/100018919","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810733","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"1701-1705","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["SHARP: Semantic Head-Aware Representation Pruning for Efficient MLLMs"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0008-9658-224X","authenticated-orcid":false,"given":"Haifeng","family":"Ma","sequence":"first","affiliation":[{"name":"University of Chinese Academy of Sciences, Beijing, China and Pengcheng Laboratory, Shenzhen, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-2348-7530","authenticated-orcid":false,"given":"Mingyue","family":"Guo","sequence":"additional","affiliation":[{"name":"Pengcheng Laboratory, Shenzhen, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2592-5264","authenticated-orcid":false,"given":"Linhui","family":"Xiao","sequence":"additional","affiliation":[{"name":"Pengcheng Laboratory, Shenzhen, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-7568-9318","authenticated-orcid":false,"given":"Qingfang","family":"Zheng","sequence":"additional","affiliation":[{"name":"Pengcheng Laboratory, Shenzhen, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7542-296X","authenticated-orcid":false,"given":"Qingming","family":"Huang","sequence":"additional","affiliation":[{"name":"University of Chinese Academy of Sciences, Beijing, China and Pengcheng Laboratory, Shenzhen, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","unstructured":"Jinze Bai Shuai Bai Yunfei Chu Zeyu Cui Kai Dang Xiaodong Deng Yang Fan Wenbin Ge Yu Han Fei Huang et\u00a0al. 2023. Qwen technical report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2309.16609 (2023)."},{"key":"e_1_3_3_1_3_2","unstructured":"Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang et\u00a0al. 2025. Qwen2. 5-vl technical report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2502.13923 (2025)."},{"key":"e_1_3_3_1_4_2","unstructured":"Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer and Judy Hoffman. 2022. Token merging: Your vit but faster. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2210.09461 (2022)."},{"key":"e_1_3_3_1_5_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01487"},{"key":"e_1_3_3_1_6_2","first-page":"19","volume-title":"European Conference on Computer Vision","author":"Chen Liang","year":"2024","unstructured":"Liang Chen, Haozhe Zhao, Tianyu Liu, Shuai Bai, Junyang Lin, Chang Zhou, and Baobao Chang. 2024. An image is worth 1\/2 tokens after layer 2: Plug-and-play inference acceleration for large vision-language models. In European Conference on Computer Vision. Springer, 19\u201335."},{"key":"e_1_3_3_1_7_2","volume-title":"International Conference on Learning Representations (ICLR)","author":"Dao Tri","year":"2024","unstructured":"Tri Dao. 2024. FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning. In International Conference on Learning Representations (ICLR)."},{"key":"e_1_3_3_1_8_2","doi-asserted-by":"publisher","DOI":"10.1109\/BIGDATA66926.2025.11402394"},{"key":"e_1_3_3_1_9_2","unstructured":"Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai et\u00a0al. 2020. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2010.11929 (2020)."},{"key":"e_1_3_3_1_10_2","unstructured":"Chaoyou Fu Peixian Chen Yunhang Shen Yulei Qin Mengdan Zhang Xu Lin Jinrui Yang Xiawu Zheng Ke Li Xing Sun et\u00a0al. 2023. MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2306.13394 (2023)."},{"key":"e_1_3_3_1_11_2","volume-title":"ICLR","author":"Gandelsman Yossi","year":"2024","unstructured":"Yossi Gandelsman, Alexei\u00a0A Efros, and Jacob Steinhardt. 2024. Interpreting CLIP\u2019s Image Representation via Text-Based Decomposition. In ICLR."},{"key":"e_1_3_3_1_12_2","doi-asserted-by":"publisher","unstructured":"Yichen Guo Hanze Li Zonghao Zhang Jinhao You Kai Tang and Xiande Huang. 2025. STAR: Stage-Wise Attention-Guided Token Reduction for Efficient Large Vision-Language Models Inference. CoRR abs\/2505.12359 (2025). arXiv:https:\/\/arXiv.org\/abs\/2505.1235910.48550\/ARXIV.2505.12359","DOI":"10.48550\/ARXIV.2505.12359"},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00380"},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00686"},{"key":"e_1_3_3_1_15_2","unstructured":"Ahmadreza Jeddi Negin Baghbanzadeh Elham Dolatabadi and Babak Taati. 2025. Similarity-aware token pruning: Your vlm but faster. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2503.11549 (2025)."},{"key":"e_1_3_3_1_16_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.findings-acl.359"},{"key":"e_1_3_3_1_17_2","unstructured":"Yifan Li Yifan Du Kun Zhou Jinpeng Wang Wayne\u00a0Xin Zhao and Ji-Rong Wen. 2023. Evaluating object hallucination in large vision-language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2305.10355 (2023)."},{"key":"e_1_3_3_1_18_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02484"},{"key":"e_1_3_3_1_19_2","unstructured":"Haotian Liu Chunyuan Li Yuheng Li Bo Li Yuanhan Zhang Sheng Shen and Yong\u00a0Jae Lee. 2024. Llavanext: Improved reasoning ocr and world knowledge."},{"key":"e_1_3_3_1_20_2","first-page":"216","volume-title":"European conference on computer vision","author":"Liu Yuan","year":"2024","unstructured":"Yuan Liu, Haodong Duan, Yuanhan Zhang, Bo Li, Songyang Zhang, Wangbo Zhao, Yike Yuan, Jiaqi Wang, Conghui He, Ziwei Liu, et\u00a0al. 2024. Mmbench: Is your multi-modal model an all-around player?. In European conference on computer vision. Springer, 216\u2013233."},{"key":"e_1_3_3_1_21_2","doi-asserted-by":"crossref","unstructured":"Pan Lu Swaroop Mishra Tanglin Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark and Ashwin Kalyan. 2022. Learn to explain: Multimodal reasoning via thought chains for science question answering. Advances in Neural Information Processing Systems 35 (2022) 2507\u20132521.","DOI":"10.52202\/068431-0182"},{"key":"e_1_3_3_1_22_2","unstructured":"Yuzhang Shang Mu Cai Bingxin Xu Yong\u00a0Jae Lee and Yan Yan. 2024. Llava-prumerge: Adaptive token reduction for efficient large multimodal models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2403.15388 (2024)."},{"key":"e_1_3_3_1_23_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00851"},{"key":"e_1_3_3_1_24_2","unstructured":"Peng Wang Shuai Bai Sinan Tan Shijie Wang Zhihao Fan Jinze Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge et\u00a0al. 2024. Qwen2-vl: Enhancing vision-language model\u2019s perception of the world at any resolution. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2409.12191 (2024)."},{"key":"e_1_3_3_1_25_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.findings-acl.802"},{"key":"e_1_3_3_1_26_2","unstructured":"Chenfei Wu Jiahao Li Jingren Zhou Junyang Lin Kaiyuan Gao Kun Yan Sheng-ming Yin Shuai Bai Xiao Xu Yilei Chen et\u00a0al. 2025. Qwen-image technical report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2508.02324 (2025)."},{"key":"e_1_3_3_1_27_2","unstructured":"Long Xing Qidong Huang Xiaoyi Dong Jiajie Lu Pan Zhang Yuhang Zang Yuhang Cao Conghui He Jiaqi Wang Feng Wu et\u00a0al. 2024. Pyramiddrop: Accelerating your large vision-language models via pyramid visual redundancy reduction. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2410.17247 (2024)."},{"key":"e_1_3_3_1_28_2","unstructured":"Fan Yang Zhiyang Chen Yousong Zhu Xin Li and Jinqiao Wang. 2025. From Seeing to Predicting: A Vision-Language Framework for Trajectory Forecasting and Controlled Video Generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2510.00806 (2025)."},{"key":"e_1_3_3_1_29_2","unstructured":"Fan Yang Shurong Zheng Hongyin Zhao Yufei Zhan Xin Li Yousong Zhu Chaoyang Zhao\u00a0Ming Tang and Jinqiao Wang. 2026. TraceVision: Trajectory-Aware Vision-Language Model for Human-Like Spatial Understanding. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2602.19768 (2026)."},{"key":"e_1_3_3_1_30_2","volume-title":"The Thirty-ninth Annual Conference on Neural Information Processing Systems","author":"Yang Fan","year":"2026","unstructured":"Fan Yang, Yousong Zhu, Xin Li, Yufei Zhan, Hongyin Zhao, Shurong Zheng, Yaowei Wang, Ming Tang, and Jinqiao Wang. 2026. FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation. In The Thirty-ninth Annual Conference on Neural Information Processing Systems. https:\/\/openreview.net\/forum?id=FACJ0478oQ"},{"key":"e_1_3_3_1_31_2","unstructured":"Fan Yang Yousong Zhu Yufei Zhan Hongyin Zhao Xin Li Yaowei Wang Ming Tang Xin Ning and Jinqiao Wang. [n. d.]. Seg-LLaVA: Empowering Pixel-Level Understanding with Large Vision Language Model. Available at SSRN 5953536 ([n. d.])."},{"key":"e_1_3_3_1_32_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01843"}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:44:18Z","timestamp":1781538258000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810733"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":31,"alternative-id":["10.1145\/3805622.3810733","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810733","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}