{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:55:29Z","timestamp":1781538929471,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":39,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810837","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"1644-1652","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Stillness is Redundant: Motion-Aware KV Cache Retrieval for Efficient Video Understanding"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0001-2994-2873","authenticated-orcid":false,"given":"Jingru","family":"Li","sequence":"first","affiliation":[{"name":"China University of Geosciences(Wuhan), wuhan, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-7479-0170","authenticated-orcid":false,"given":"Haowen","family":"Zheng","sequence":"additional","affiliation":[{"name":"Central University of Finance and Economics, beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.298"},{"key":"e_1_3_3_1_3_2","volume-title":"Proceedings of the 40th International Conference on Machine Learning (ICML)","author":"Behnam Payman","year":"2025","unstructured":"Payman Behnam, Yaosheng Fu, Ritchie Zhao, Po-An Tsai, Zhiding Yu, and Alexey Tumanov. 2025. RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression. In Proceedings of the 40th International Conference on Machine Learning (ICML)."},{"key":"e_1_3_3_1_4_2","unstructured":"Zefan Cai Yichi Zhang Bofei Gao Yuliang Liu Tianyu Liu Keming Lu Wayne Xiong Yue Dong Baobao Chang Junjie Hu and Wen Xiao. 2024. PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2406.02069 (2024)."},{"key":"e_1_3_3_1_5_2","volume-title":"Proceedings of the European Conference on Computer Vision (ECCV)","author":"Chen Liang","year":"2024","unstructured":"Liang Chen, Haozhe Zhao, Tianyu Liu, Shuai Bai, Junyang Lin, Chang Zhou, and Baobao Chang. 2024. An Image is Worth 1\/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models. In Proceedings of the European Conference on Computer Vision (ECCV)."},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"crossref","unstructured":"Zhe Chen Weiyun Wang Hao Tian Shenglong Ye Zhangwei Gao Erfei Cui Wenwen Tong Kongzhi Hu Jiapeng Luo Zheng Ma et\u00a0al. 2024. InternVL2: Scaling Up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2404.16821 (2024).","DOI":"10.1109\/CVPR52733.2024.02283"},{"key":"e_1_3_3_1_7_2","first-page":"24185","volume-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","author":"Chen Zhe","year":"2024","unstructured":"Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Muyan Zhong, Qinglong Zhang, Xizhou Zhu, Lewei Lu, Bin Li, Ping Luo, Tong Lu, Yu Qiao, and Jifeng Dai. 2024. InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 24185\u201324198."},{"key":"e_1_3_3_1_8_2","doi-asserted-by":"crossref","unstructured":"Alessio Devoto Yu Zhao Simone Scardapane and Pasquale Minervini. 2024. A Simple and Effective L2 Norm-Based Strategy for KV Cache Compression. (2024). https:\/\/arxiv.org\/abs\/2406.11430","DOI":"10.18653\/v1\/2024.emnlp-main.1027"},{"key":"e_1_3_3_1_9_2","unstructured":"Lars Doorenbos Federico Spurio and Juergen Gall. 2025. Video Panels for Long Video Understanding. https:\/\/api.semanticscholar.org\/CorpusID:281676065"},{"key":"e_1_3_3_1_10_2","unstructured":"Chaoyou Fu Yuhan Dai Yongdong Luo Lei Li Shuhuai Ren Renrui Zhang Zihan Wang Chenyu Zhou Yunhang Shen Mengdan Zhang Peixian Chen Yanwei Li Shaohui Lin Sirui Zhao Ke Li Tong Xu Xiawu Zheng Enhong Chen Rongrong Ji and Xing Sun. 2024. Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2405.21075 (2024)."},{"key":"e_1_3_3_1_11_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.findings-acl.1024"},{"key":"e_1_3_3_1_12_2","doi-asserted-by":"crossref","unstructured":"Yizhang Jin Jian Li Yexin Liu Tianjun Gu Kai Wu Zhengkai Jiang Muyang He Bo Zhao Xin Tan Zhenye Gan Yabiao Wang Chengjie Wang and Lizhuang Ma. 2024. Efficient multimodal large language models: a survey. Visual Intelligence 3 (2024).","DOI":"10.1007\/s44267-025-00099-6"},{"key":"e_1_3_3_1_13_2","volume-title":"Advances in Neural Information Processing Systems","author":"Kim Minsoo","year":"2025","unstructured":"Minsoo Kim, Kyuhong Shim, Jungwook Choi, and Simyung Chang. 2025. InfiniPot-V: Memory-Constrained KV Cache Compression for Streaming Video Understanding. In Advances in Neural Information Processing Systems. https:\/\/arxiv.org\/abs\/2506.15745"},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"publisher","DOI":"10.1145\/3600006.3613165"},{"key":"e_1_3_3_1_15_2","unstructured":"Haoyang Li Yiming Li Anxin Tian Tianhao Tang Zhanchao Xu Xuejia Chen Nicole Hu Wei Dong Qing Li and Lei Chen. 2025. A Survey on Large Language Model Acceleration based on KV Cache Management. Transactions on Machine Learning Research (2025)."},{"key":"e_1_3_3_1_16_2","unstructured":"KunChang Li Yinan He Yi Wang Yizhuo Li Wenhai Wang Ping Luo Yali Wang Limin Wang and Yu Qiao. 2024. VideoChat: Chat-Centric Video Understanding. (2024). arxiv:https:\/\/arXiv.org\/abs\/2305.06355\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2305.06355"},{"key":"e_1_3_3_1_17_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02095"},{"key":"e_1_3_3_1_18_2","doi-asserted-by":"publisher","DOI":"10.52202\/079017-0722"},{"key":"e_1_3_3_1_19_2","volume-title":"Proceedings of the European Conference on Computer Vision (ECCV)","author":"Li Yanwei","year":"2024","unstructured":"Yanwei Li, Chengyao Wang, and Jiaya Jia. 2024. LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models. In Proceedings of the European Conference on Computer Vision (ECCV)."},{"key":"e_1_3_3_1_20_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.342"},{"key":"e_1_3_3_1_21_2","doi-asserted-by":"publisher","DOI":"10.1145\/3651890.3672274"},{"key":"e_1_3_3_1_22_2","unstructured":"Zichang Liu Aditya Desai Fangshuo Liao Weitao Wang Victor Xie Zhaozhuo Xu Anastasios Kyrillidis and Anshumali Shrivastava. 2023. Scissorhands: Exploiting the Persistence of Importance Hypothesis for LLM KV Cache Compression at Test Time. 36 (2023) 52342\u201352364. https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2023\/file\/a452a7c6c463e4ae8fbdc614c6e983e6-Paper-Conference.pdf"},{"key":"e_1_3_3_1_23_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.679"},{"key":"e_1_3_3_1_24_2","volume-title":"Advances in Neural Information Processing Systems (NeurIPS)","author":"Mangalam Karttikeya","year":"2024","unstructured":"Karttikeya Mangalam, Raiymbek Akshulakov, and Jitendra Malik. 2024. EgoSchema: A Diagnostic Benchmark for Very Long-form Video Language Understanding. In Advances in Neural Information Processing Systems (NeurIPS)."},{"key":"e_1_3_3_1_25_2","unstructured":"Shrenik Patel and Daivik Patel. 2025. CacheFlow: Compressive Streaming Memory for Efficient Long-Form Video Understanding. ArXiv abs\/2511.13644 (2025)."},{"key":"e_1_3_3_1_26_2","unstructured":"Jialong Qin Xin Zou Di Lu Yibo Yan and Xuming Hu. 2025. Sharp Eyes and Memory for VideoLLMs: Information-Aware Visual Token Pruning for Efficient and Reliable VideoLLM Reasoning. (2025). arxiv:https:\/\/arXiv.org\/abs\/2511.08003\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2511.08003"},{"key":"e_1_3_3_1_27_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51701.2025.02122"},{"key":"e_1_3_3_1_28_2","doi-asserted-by":"crossref","unstructured":"Keda Tao Can Qin Haoxuan You Yang Sui and Huan Wang. 2024. DyCoke : Dynamic Compression of Tokens for Fast Video Large Language Models. 2025 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) 18992\u201319001.","DOI":"10.1109\/CVPR52734.2025.01769"},{"key":"e_1_3_3_1_29_2","doi-asserted-by":"publisher","unstructured":"Peng Wang Shuai Bai Sinan Tan Shijie Wang Zhihao Fan Jinze Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Yang Fan Kai Dang Mengfei Du Xuancheng Ren Rui Men Dayiheng Liu Chang Zhou Jingren Zhou and Junyang Lin. 2024. Qwen2-VL: Enhancing Vision-Language Model\u2019s Perception of the World at Any Resolution. CoRR abs\/2409.12191 (2024). https:\/\/doi.org\/10.48550\/arXiv.2409.12191","DOI":"10.48550\/arXiv.2409.12191"},{"key":"e_1_3_3_1_30_2","first-page":"58","volume-title":"European Conference on Computer Vision (ECCV)","author":"Wang Xiaohan","year":"2024","unstructured":"Xiaohan Wang, Yuhui Zhang, Orr Zohar, and Serena Yeung-Levy. 2024. VideoAgent: Long-Form Video Understanding with Large Language Model as Agent. In European Conference on Computer Vision (ECCV). 58\u201376."},{"key":"e_1_3_3_1_31_2","unstructured":"Zichen Wen Shaobo Wang Yufa Zhou Junyuan Zhang Qintong Zhang Yifeng Gao Zhaorun Chen Bin Wang Weijia Li Conghui He et\u00a0al. 2025. Efficient Multi-modal Large Language Models via Progressive Consistency Distillation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2510.00515 (2025)."},{"key":"e_1_3_3_1_32_2","doi-asserted-by":"publisher","unstructured":"Thomas Wiegand Gary\u00a0J. Sullivan Gisle Bjontegaard and Ajay Luthra. 2003. Overview of the H.264\/AVC Video Coding Standard. IEEE Transactions on Circuits and Systems for Video Technology 13 7 (2003) 560\u2013576. 10.1109\/TCSVT.2003.815165","DOI":"10.1109\/TCSVT.2003.815165"},{"key":"e_1_3_3_1_33_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00137"},{"key":"e_1_3_3_1_34_2","volume-title":"Proceedings of the International Conference on Learning Representations (ICLR)","author":"Xiao Guangxuan","year":"2024","unstructured":"Guangxuan Xiao, Yuandong Tian, Beidi Chen, Song Han, and Mike Lewis. 2024. Efficient Streaming Language Models with Attention Sinks. In Proceedings of the International Conference on Learning Representations (ICLR)."},{"key":"e_1_3_3_1_35_2","unstructured":"Yifeng Yao Yike Yun Jing Wang Huishuai Zhang Dongyan Zhao Ke Tian Zhihao Wang Minghui Qiu and Tao Wang. 2025. K-frames: Scene-Driven Any-k Keyframe Selection for long video understanding. arxiv:https:\/\/arXiv.org\/abs\/2510.13891\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2510.13891"},{"key":"e_1_3_3_1_36_2","doi-asserted-by":"crossref","unstructured":"Qinghao Yu Zidong Wang Guoliang Wei and Hui Yu. 2026. Deep Learning for Video Summarization: Systematic Review Challenges and Opportunities. IEEE\/CAA Journal of Automatica Sinica 13 (2026) 21\u201342.","DOI":"10.1109\/JAS.2025.125864"},{"key":"e_1_3_3_1_37_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-demo.49"},{"key":"e_1_3_3_1_38_2","first-page":"74840","volume-title":"Proceedings of the 42nd International Conference on Machine Learning","author":"Zhang Yuan","year":"2025","unstructured":"Yuan Zhang, Chun-Kai Fan, Junpeng Ma, Wenzhao Zheng, Tao Huang, Kuan Cheng, Denis\u00a0A Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, and Shanghang Zhang. 2025. SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference. In Proceedings of the 42nd International Conference on Machine Learning. 74840\u201374857."},{"key":"e_1_3_3_1_39_2","unstructured":"Zhenyu Zhang Ying Sheng Tianyi Zhou Tianlong Chen Lianmin Zheng Ruisi Cai Zhao Song Yuandong Tian Christopher R\u00e9 Clark Barrett Zhangyang Wang and Beidi Chen. 2023. H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models. https:\/\/arxiv.org\/abs\/2306.14048"},{"key":"e_1_3_3_1_40_2","unstructured":"Heqing Zou Tianze Luo Guiyang Xie Fengmao Lv Guangcong Wang Juanyang Chen Zhuochen Wang Hansheng Zhang Huaijian Zhang et\u00a0al. 2024. From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding."}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:21:48Z","timestamp":1781536908000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810837"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":39,"alternative-id":["10.1145\/3805622.3810837","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810837","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}