{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,8]],"date-time":"2026-05-08T16:38:46Z","timestamp":1778258326280,"version":"3.51.4"},"reference-count":94,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["42371321,424B2006"],"award-info":[{"award-number":["42371321,424B2006"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100007219","name":"Natural Science Foundation of Shanghai","doi-asserted-by":"publisher","award":["25ZR1402268"],"award-info":[{"award-number":["25ZR1402268"]}],"id":[{"id":"10.13039\/100007219","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccv51701.2025.00860","type":"proceedings-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:45:49Z","timestamp":1777491949000},"page":"9206-9217","source":"Crossref","is-referenced-by-count":1,"title":["When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning"],"prefix":"10.1109","author":[{"given":"Junwei","family":"Luo","sequence":"first","affiliation":[{"name":"Wuhan University"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yingying","family":"Zhang","sequence":"additional","affiliation":[{"name":"Ant Group"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xue","family":"Yang","sequence":"additional","affiliation":[{"name":"SAIS, Shanghai Jiao Tong University"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kang","family":"Wu","sequence":"additional","affiliation":[{"name":"Wuhan University"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qi","family":"Zhu","sequence":"additional","affiliation":[{"name":"Ant Group"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lei","family":"Liang","sequence":"additional","affiliation":[{"name":"Ant Group"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jingdong","family":"Chen","sequence":"additional","affiliation":[{"name":"Ant Group"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yansheng","family":"Li","sequence":"additional","affiliation":[{"name":"Wuhan University"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-93806-1_11"},{"key":"ref2","article-title":"Gpt-4 technical report","author":"Achiam","year":"2023","journal-title":"arXiv preprint arXiv"},{"key":"ref3","volume-title":"Hello gpt-4o","year":"2024"},{"key":"ref4","first-page":"3","volume-title":"Claude 3.5 sonnet model card addendum","year":"2024"},{"key":"ref5","volume-title":"Hired: Attention-guided token dropping for efficient inference of high-resolution vision-language models","author":"Hasan","year":"2024"},{"key":"ref6","article-title":"Qwen-vl: A frontier large vision-language model with versatile abilities","author":"Bai","year":"2023","journal-title":"arXiv preprint arXiv"},{"key":"ref7","article-title":"Subobject-level image tokenization","volume":"abs\/2402.14327","author":"Chen","year":"2024","journal-title":"CoRR"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73004-7_2"},{"key":"ref9","article-title":"Expanding performance boundaries of open-source multimodal models with model, data, and testtime scaling","author":"Chen","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1007\/s11432-024-4231-5"},{"key":"ref11","article-title":"Xing","author":"Chiang","year":"2023","journal-title":"Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality"},{"key":"ref12","article-title":"Geobench-vlm: Benchmarking vision-language models for geospatial tasks","author":"Sohail Danish","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.52202\/068431-1189"},{"key":"ref14","volume-title":"Deepseek-r1: Incentivizing reasoning capability in 11 ms via reinforcement learning","author":"DeepSeek-AI","year":"2025"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2021.3117983"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA56546.2023.10071047"},{"key":"ref17","article-title":"The llama 3 herd of models","author":"Dubey","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02613"},{"key":"ref19","first-page":"390","article-title":"Llava-uhd: an 1 mm perceiving any aspect ratio and highresolution images","volume-title":"European Conference on Computer Vision","author":"Guo","year":"2025"},{"key":"ref20","article-title":"Rethinking token reduction in mllms: Towards a unified paradigm for training-free acceleration","author":"Han","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.02775"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00686"},{"key":"ref23","article-title":"What\u2019s in the image? a deep-dive into the vision of vision language models","author":"Kaduri","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1145\/3534678.3539260"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20083-0_37"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.02629"},{"key":"ref28","article-title":"Superpixel tokenization for vision transformers: Preserving semantic integrity in visual tokens","author":"Lew","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref29","article-title":"Llava-onevision: Easy visual task transfer","author":"Li","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref30","first-page":"19730","article-title":"Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models","volume-title":"International conference on machine learning","author":"Li","year":"2023"},{"key":"ref31","first-page":"286","article-title":"Flexattention for efficient high-resolution vision-language models","volume-title":"European Conference on Computer Vision","author":"Li","year":"2024"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/IGARSS55030.2025.11242725"},{"key":"ref33","article-title":"Tokenpacker: Efficient visual projector for multimodal 11 m","author":"Li","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref34","article-title":"Mini-gemini: Mining the potential of multi-modality vision language models","author":"Li","year":"2023","journal-title":"arXiv"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2024.3393024"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72952-2_19"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2024.3508072"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/JAS.2025.125324"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02527"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2024.3390838"},{"key":"ref41","article-title":"Improved baselines with visual instruction tuning","author":"Liu","year":"2023","journal-title":"arXiv preprint arXiv"},{"key":"ref42","first-page":"36","article-title":"Visual instruction tuning","author":"Liu","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02517"},{"key":"ref44","article-title":"Rsunivlm: A unified vision language model for remote sensing via granularity-oriented mixture of experts","author":"Liu","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2026.3653415"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01167"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2020.2988782"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.02324"},{"key":"ref49","article-title":"Feast your eyes: Mixture-of-resolution adaptation for multimodal large language models","author":"Luo","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref50","article-title":"Skysensegpt: A fine-grained instruction tuning dataset and model for remote sensing visionlanguage understanding","author":"Luo","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01199"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1145\/219717.219748"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72904-1_26"},{"key":"ref54","volume-title":"Gpt-4v(ision) system card","year":"2023"},{"key":"ref55","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"International Conference on Machine Learning","author":"Radford","year":"2021"},{"key":"ref56","first-page":"13937","article-title":"Dynamicvit: Efficient vision transformers with dynamic token sparsification","volume":"34","author":"Rao","year":"2021","journal-title":"Advances in neural information processing systems"},{"key":"ref57","article-title":"Geopixel: Pixel grounding large multimodal model in remote sensing","author":"Shabbir","year":"2025","journal-title":"arXiv preprint arXiv"},{"key":"ref58","article-title":"Llava-prumerge: Adaptive token reduction for efficient large multimodal models","author":"Shang","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref59","first-page":"8612","article-title":"Visual cot: Advancing multi-modal language models with a comprehensive dataset and benchmark for chain-of-thought reasoning","volume":"37","author":"Shao","year":"2025","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref60","article-title":"Zoomeye: Enhancing multimodal 11 ms with human-like zooming capabilities through tree-based image exploration","author":"Shen","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.01334"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1016\/j.isprsjprs.2021.12.004"},{"key":"ref63","first-page":"87310","article-title":"Cambrian-1: A fully open, vision-centric exploration of multimodal 11 ms","volume":"37","author":"Tong","year":"2025","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i6.28357"},{"key":"ref65","article-title":"Qwen2-vl: Enhancing vision-language model\u2019s perception of the world at any resolution","author":"Wang","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i8.32852"},{"key":"ref67","article-title":"Longllava: Scaling multi-modal 11 ms to 1000 images efficiently via a hybrid architecture","author":"Wang","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00208"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.01243"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/mgrs.2025.3576766"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00965"},{"key":"ref72","article-title":"Pyramiddrop: Accelerating your large vision-language models via pyramid visual redundancy reduction","author":"Xing","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref73","article-title":"Reo-vlm: Transforming vlm to meet regression challenges in earth observation","author":"Xue","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i9.32982"},{"key":"ref75","article-title":"Qwen2.5 technical report","author":"Yang","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref76","volume-title":"Set-of-mark prompting unleashes extraordinary visual grounding in gpt-4v","author":"Yang","year":"2023"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.01843"},{"key":"ref78","article-title":"Deco: Decoupling token compression from semantic abstraction in multimodal large language models","author":"Yao","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.naacl-main.463"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.187"},{"key":"ref81","article-title":"Fit and prune: Fast and training-free visual token pruning for multi-modal large language models","author":"Ye","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.02777"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2023.3250471"},{"key":"ref84","article-title":"Internlm-xcomposer-2.5: A versatile large vision language model supporting long-contextual input and output","author":"Zhang","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref85","article-title":"Llava-mini: Efficient image and video large mul-timodal models with one vision token","author":"Zhang","year":"2025","journal-title":"arXiv preprint arXiv"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2024.3523505"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1109\/tgrs.2024.3409624"},{"key":"ref88","article-title":"Sparsevlm: Visual token sparsification for efficient vision-language model inference","author":"Zhang","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref89","article-title":"Llava-uhd v2: an mllm integrating highresolution feature pyramid via hierarchical window transformer","author":"Zhang","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref90","article-title":"Beyond llava-hd: Diving into high-resolution large multimodal models","author":"Zhang","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref91","article-title":"Mme-realworld: Could your multimodal 11 m challenge high-resolution real-world scenarios that are difficult for humans?","author":"Zhang","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref92","article-title":"Enhancing ultra high resolution remote sensing imagery analysis with imagerag","author":"Zhang","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref93","article-title":"Towards visionlanguage geo-foundation models: A survey","author":"Zhou","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01373"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision (ICCV)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,25]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision (ICCV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11443115\/11443287\/11444187.pdf?arnumber=11444187","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T04:48:22Z","timestamp":1777610902000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11444187\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":94,"URL":"https:\/\/doi.org\/10.1109\/iccv51701.2025.00860","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}