{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:56:15Z","timestamp":1781538975666,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":47,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"National Key R&D Program of China","award":["2023YFC3806000"],"award-info":[{"award-number":["2023YFC3806000"]}]},{"name":"National Natural Science Foundation of China","award":["62401396"],"award-info":[{"award-number":["62401396"]}]},{"name":"Natural Science Foundation of Shanghai","award":["24ZR1467700"],"award-info":[{"award-number":["24ZR1467700"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810822","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"128-137","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Scaling Multimodal Retrieval and Generation for Long Documents through Visual Tiling and Context Compression"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-3426-3172","authenticated-orcid":false,"given":"Yi","family":"Jin","sequence":"first","affiliation":[{"name":"School of Computer Science and Technology, Tongji University, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7226-7885","authenticated-orcid":false,"given":"Weichao","family":"Chen","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Tongji University, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4301-394X","authenticated-orcid":false,"given":"Shengjie","family":"Zhao","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Tongji University, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","unstructured":"Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad Ilge Akkaya Florencia\u00a0Leoni Aleman Diogo Almeida Janko Altenschmidt Sam Altman Shyamal Anadkat et\u00a0al. 2023. Gpt-4 technical report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2303.08774 (2023)."},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.721"},{"key":"e_1_3_3_1_4_2","first-page":"19","volume-title":"European Conference on Computer Vision","author":"Chen Liang","year":"2024","unstructured":"Liang Chen, Haozhe Zhao, Tianyu Liu, Shuai Bai, Junyang Lin, Chang Zhou, and Baobao Chang. 2024. An image is worth 1\/2 tokens after layer 2: Plug-and-play inference acceleration for large vision-language models. In European Conference on Computer Vision. Springer, 19\u201335."},{"key":"e_1_3_3_1_5_2","unstructured":"Zhe Chen Weiyun Wang Yue Cao Yangzhou Liu Zhangwei Gao Erfei Cui Jinguo Zhu Shenglong Ye Hao Tian Zhaoyang Liu et\u00a0al. 2024. Expanding performance boundaries of open-source multimodal models with model data and test-time scaling. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2412.05271 (2024)."},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW69036.2025.00649"},{"key":"e_1_3_3_1_7_2","unstructured":"Cheng Cui Ting Sun Manhui Lin Tingquan Gao Yubo Zhang Jiaxuan Liu Xueqing Wang Zelun Zhang Changda Zhou Hongen Liu et\u00a0al. 2025. Paddleocr 3.0 technical report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2507.05595 (2025)."},{"key":"e_1_3_3_1_8_2","doi-asserted-by":"publisher","DOI":"10.52202\/068431-1189"},{"key":"e_1_3_3_1_9_2","unstructured":"Chao Deng Jiale Yuan Pi Bu Peijie Wang Zhong-Zhi Li Jian Xu Xiao-Hui Li Yuan Gao Jun Song Bo Zheng et\u00a0al. 2024. Longdocurl: a comprehensive multimodal long document benchmark integrating understanding reasoning and locating. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2412.18424 (2024)."},{"key":"e_1_3_3_1_10_2","doi-asserted-by":"crossref","unstructured":"Xiaoyi Dong Pan Zhang Yuhang Zang Yuhang Cao Bin Wang Linke Ouyang Songyang Zhang Haodong Duan Wenwei Zhang Yining Li et\u00a0al. 2024. Internlm-xcomposer2-4khd: A pioneering large vision-language model handling resolutions from 336 pixels to 4k hd. Advances in Neural Information Processing Systems 37 (2024) 42566\u201342592.","DOI":"10.52202\/079017-1348"},{"key":"e_1_3_3_1_11_2","unstructured":"Matthijs Douze Alexandr Guzhva Chengqi Deng Jeff Johnson Gergely Szilvasy Pierre-Emmanuel Mazar\u00e9 Maria Lomeli Lucas Hosseini and Herv\u00e9 J\u00e9gou. 2024. The faiss library. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2401.08281 (2024)."},{"key":"e_1_3_3_1_12_2","unstructured":"Manuel Faysse Hugues Sibille Tony Wu Bilel Omrani Gautier Viaud C\u00e9line Hudelot and Pierre Colombo. 2024. Colpali: Efficient document retrieval with vision language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2407.01449 (2024)."},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"crossref","unstructured":"Michael G\u00fcnther Saba Sturua Mohammad\u00a0Kalim Akram Isabelle Mohr Andrei Ungureanu Bo Wang Sedigheh Eslami Scott Martens Maximilian Werk Nan Wang et\u00a0al. 2025. jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2506.18902 (2025).","DOI":"10.18653\/v1\/2025.mrl-main.36"},{"key":"e_1_3_3_1_14_2","first-page":"3929","volume-title":"International conference on machine learning","author":"Guu Kelvin","year":"2020","unstructured":"Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, and Mingwei Chang. 2020. Retrieval augmented language model pre-training. In International conference on machine learning. PMLR, 3929\u20133938."},{"key":"e_1_3_3_1_15_2","unstructured":"Siwei Han Peng Xia Ruiyi Zhang Tong Sun Yun Li Hongtu Zhu and Huaxiu Yao. 2025. Mdocagent: A multi-modal multi-agent framework for document understanding. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2503.13964 (2025)."},{"key":"e_1_3_3_1_16_2","unstructured":"Siwei Han Peng Xia Ruiyi Zhang Tong Sun Yun Li Hongtu Zhu and Huaxiu Yao. 2025. Mdocagent: A multi-modal multi-agent framework for document understanding. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2503.13964 (2025)."},{"key":"e_1_3_3_1_17_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-emnlp.175"},{"key":"e_1_3_3_1_18_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.acl-long.291"},{"key":"e_1_3_3_1_19_2","unstructured":"Bo Li Yuanhan Zhang Dong Guo Renrui Zhang Feng Li Hao Zhang Kaichen Zhang Peiyuan Zhang Yanwei Li Ziwei Liu et\u00a0al. 2024. Llava-onevision: Easy visual task transfer. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2408.03326 (2024)."},{"key":"e_1_3_3_1_20_2","unstructured":"Kuan Li Liwen Zhang Yong Jiang Pengjun Xie Fei Huang Shuai Wang and Minhao Cheng. 2025. LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs\u2013No Silver Bullet for LC or RAG Routing. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2502.09977 (2025)."},{"key":"e_1_3_3_1_21_2","doi-asserted-by":"crossref","unstructured":"Yuhong Li Yingbing Huang Bowen Yang Bharat Venkitesh Acyr Locatelli Hanchen Ye Tianle Cai Patrick Lewis and Deming Chen. 2024. Snapkv: Llm knows what you are looking for before generation. Advances in Neural Information Processing Systems 37 (2024) 22947\u201322970.","DOI":"10.52202\/079017-0722"},{"key":"e_1_3_3_1_22_2","unstructured":"Zirui Li Siwei Wu Xingyu Wang Yi Zhou Yizhi Li and Chenghua Lin. 2025. DocMMIR: A Framework for Document Multi-modal Information Retrieval. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2505.19312 (2025)."},{"key":"e_1_3_3_1_23_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02527"},{"key":"e_1_3_3_1_24_2","unstructured":"Nikolaos Livathinos Christoph Auer Maksym Lysak Ahmed Nassar Michele Dolfi Panos Vagenas Cesar\u00a0Berrospi Ramis Matteo Omenetti Kasper Dinkla Yusik Kim et\u00a0al. 2025. Docling: An efficient open-source toolkit for ai-driven document conversion. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2501.17887 (2025)."},{"key":"e_1_3_3_1_25_2","unstructured":"Haoyu Lu Wen Liu Bo Zhang Bingxuan Wang Kai Dong Bo Liu Jingxiang Sun Tongzheng Ren Zhuoshu Li Hao Yang et\u00a0al. 2024. Deepseek-vl: towards real-world vision-language understanding. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2403.05525 (2024)."},{"key":"e_1_3_3_1_26_2","unstructured":"Shiyin Lu Yang Li Qing-Guo Chen Zhao Xu Weihua Luo Kaifu Zhang and Han-Jia Ye. 2024. Ovis: Structural embedding alignment for multimodal large language model 2024. URL https:\/\/arxiv. org\/abs\/2405.20797 (2024)."},{"key":"e_1_3_3_1_27_2","doi-asserted-by":"crossref","unstructured":"Yubo Ma Yuhang Zang Liangyu Chen Meiqi Chen Yizhu Jiao Xinze Li Xinyuan Lu Ziyu Liu Yan Ma Xiaoyi Dong et\u00a0al. 2024. Mmlongbench-doc: Benchmarking long-context document understanding with visualizations. Advances in Neural Information Processing Systems 37 (2024) 95963\u201396010.","DOI":"10.52202\/079017-3041"},{"key":"e_1_3_3_1_28_2","unstructured":"Quentin Mac\u00e9 Ant\u00f3nio Loison and Manuel Faysse. 2025. ViDoRe Benchmark V2: Raising the Bar for Visual Retrieval. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2505.17166 (2025)."},{"key":"e_1_3_3_1_29_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.findings-acl.177"},{"key":"e_1_3_3_1_30_2","doi-asserted-by":"publisher","DOI":"10.1109\/WACV51458.2022.00264"},{"key":"e_1_3_3_1_31_2","doi-asserted-by":"crossref","unstructured":"Minesh Mathew Dimosthenis Karatzas R. Manmatha and C.\u00a0V. Jawahar. 2020. DocVQA: A Dataset for VQA on Document Images. 2021 IEEE Winter Conference on Applications of Computer Vision (WACV) (2020) 2199\u20132208. https:\/\/api.semanticscholar.org\/CorpusID:220280200","DOI":"10.1109\/WACV48630.2021.00225"},{"key":"e_1_3_3_1_32_2","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/P15-1142"},{"key":"e_1_3_3_1_33_2","doi-asserted-by":"crossref","unstructured":"Stephen Robertson Hugo Zaragoza et\u00a0al. 2009. The probabilistic relevance framework: BM25 and beyond. Foundations and Trends\u00ae in Information Retrieval 3 4 (2009) 333\u2013389.","DOI":"10.1561\/1500000019"},{"key":"e_1_3_3_1_34_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02312"},{"key":"e_1_3_3_1_35_2","unstructured":"Gemini Team Rohan Anil Sebastian Borgeaud Jean-Baptiste Alayrac Jiahui Yu Radu Soricut Johan Schalkwyk Andrew\u00a0M Dai Anja Hauth Katie Millican et\u00a0al. 2023. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2312.11805 (2023)."},{"key":"e_1_3_3_1_36_2","doi-asserted-by":"publisher","DOI":"10.1145\/3315508.3329973"},{"key":"e_1_3_3_1_37_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-emnlp.235"},{"key":"e_1_3_3_1_38_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.emnlp-main.1172"},{"key":"e_1_3_3_1_39_2","unstructured":"Peng Wang Shuai Bai Sinan Tan Shijie Wang Zhihao Fan Jinze Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge et\u00a0al. 2024. Qwen2-vl: Enhancing vision-language model\u2019s perception of the world at any resolution. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2409.12191 (2024)."},{"key":"e_1_3_3_1_40_2","unstructured":"Guangxuan Xiao Yuandong Tian Beidi Chen Song Han and Mike Lewis. 2023. Efficient streaming language models with attention sinks. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2309.17453 (2023)."},{"key":"e_1_3_3_1_41_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01843"},{"key":"e_1_3_3_1_42_2","unstructured":"Yuan Yao Tianyu Yu Ao Zhang Chongyi Wang Junbo Cui Hongji Zhu Tianchi Cai Haoyu Li Weilin Zhao Zhihui He et\u00a0al. 2024. Minicpm-v: A gpt-4v level mllm on your phone. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2408.01800 (2024)."},{"key":"e_1_3_3_1_43_2","unstructured":"Shi Yu Chaoyue Tang Bokai Xu Junbo Cui Junhao Ran Yukun Yan Zhenghao Liu Shuo Wang Xu Han Zhiyuan Liu and Maosong Sun. 2024. VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents. ArXiv abs\/2410.10594 (2024). https:\/\/api.semanticscholar.org\/CorpusID:273346615"},{"key":"e_1_3_3_1_44_2","unstructured":"Quan-Sheng Zeng Yunheng Li Qilong Wang Peng-Tao Jiang Zuxuan Wu Ming-Ming Cheng and Qibin Hou. 2025. A glimpse to compress: Dynamic visual token pruning for large vision-language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2508.01548 (2025)."},{"key":"e_1_3_3_1_45_2","unstructured":"Xin Zhang Yanzhao Zhang Wen Xie Mingxin Li Ziqi Dai Dingkun Long Pengjun Xie Meishan Zhang Wenjie Li and Min Zhang. 2024. GME: Improving Universal Multimodal Retrieval by Multimodal LLMs. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2412.16855 (2024)."},{"key":"e_1_3_3_1_46_2","unstructured":"Yuan Zhang Chun-Kai Fan Junpeng Ma Wenzhao Zheng Tao Huang Kuan Cheng Denis Gudovskiy Tomoyuki Okuno Yohei Nakata Kurt Keutzer et\u00a0al. 2024. Sparsevlm: Visual token sparsification for efficient vision-language model inference. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2410.04417 (2024)."},{"key":"e_1_3_3_1_47_2","doi-asserted-by":"crossref","unstructured":"Zhenyu Zhang Ying Sheng Tianyi Zhou Tianlong Chen Lianmin Zheng Ruisi Cai Zhao Song Yuandong Tian Christopher R\u00e9 Clark Barrett et\u00a0al. 2023. H2o: Heavy-hitter oracle for efficient generative inference of large language models. Advances in Neural Information Processing Systems 36 (2023) 34661\u201334710.","DOI":"10.52202\/075280-1506"},{"key":"e_1_3_3_1_48_2","doi-asserted-by":"crossref","unstructured":"Ruochen Zhao Hailin Chen Weishi Wang Fangkai Jiao Xuan\u00a0Long Do Chengwei Qin Bosheng Ding Xiaobao Guo Minzhi Li Xingxuan Li et\u00a0al. 2023. Retrieving multimodal information for augmented generation: A survey. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2303.10868 (2023).","DOI":"10.18653\/v1\/2023.findings-emnlp.314"}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:25:35Z","timestamp":1781537135000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810822"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":47,"alternative-id":["10.1145\/3805622.3810822","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810822","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}