{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,18]],"date-time":"2026-06-18T14:54:57Z","timestamp":1781794497243,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":29,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,22]],"date-time":"2026-06-22T00:00:00Z","timestamp":1782086400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"DOI":"10.13039\/100000001","name":"NSF (National Science Foundation)","doi-asserted-by":"publisher","award":["NSF 2112562"],"award-info":[{"award-number":["NSF 2112562"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000183","name":"Army Research Office","doi-asserted-by":"publisher","award":["ARO W911NF-23-2-0224"],"award-info":[{"award-number":["ARO W911NF-23-2-0224"]}],"id":[{"id":"10.13039\/100000183","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,22]]},"DOI":"10.1145\/3787109.3816385","type":"proceedings-article","created":{"date-parts":[[2026,6,18]],"date-time":"2026-06-18T14:17:19Z","timestamp":1781792239000},"page":"824-829","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Frame Skipping Architecture for Video-Language Model Acceleration"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0000-9671-6713","authenticated-orcid":false,"given":"Haoxuan","family":"Shan","sequence":"first","affiliation":[{"name":"Duke University, Durham, NC, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-8815-7948","authenticated-orcid":false,"given":"Chiyue","family":"Wei","sequence":"additional","affiliation":[{"name":"Duke University, Durham, NC, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4479-5525","authenticated-orcid":false,"given":"Cong","family":"Guo","sequence":"additional","affiliation":[{"name":"Duke University, Durham, NC, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1381-0278","authenticated-orcid":false,"given":"Yuzhe","family":"Fu","sequence":"additional","affiliation":[{"name":"Duke University, Durham, NC, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-5353-2543","authenticated-orcid":false,"given":"Tian","family":"Liang","sequence":"additional","affiliation":[{"name":"Duke University, Durham, NC, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3228-6544","authenticated-orcid":false,"given":"Hai","family":"Li","sequence":"additional","affiliation":[{"name":"Duke University, Durham, NC, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1486-8412","authenticated-orcid":false,"given":"Yiran","family":"Chen","sequence":"additional","affiliation":[{"name":"Duke University, Durham, NC, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,22]]},"reference":[{"key":"e_1_3_3_1_2_2","doi-asserted-by":"crossref","unstructured":"Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr Yana Hasson Karel Lenc Arthur Mensch Katherine Millican Malcolm Reynolds et\u00a0al. 2022. Flamingo: a visual language model for few-shot learning. Advances in neural information processing systems 35 (2022) 23716\u201323736.","DOI":"10.52202\/068431-1723"},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00676"},{"key":"e_1_3_3_1_4_2","doi-asserted-by":"crossref","unstructured":"Rajeev Balasubramonian Andrew\u00a0B Kahng Naveen Muralimanohar Ali Shafiee and Vaishnav Srinivas. 2017. CACTI 7: New tools for interconnect exploration in innovative off-chip memories. ACM Transactions on Architecture and Code Optimization (TACO) 14 2 (2017) 1\u201325.","DOI":"10.1145\/3085572"},{"key":"e_1_3_3_1_5_2","unstructured":"Daniel Bolya Cheng-Yang Fu Xiaoliang Dai Peizhao Zhang Christoph Feichtenhofer and Judy Hoffman. 2022. Token merging: Your vit but faster. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2210.09461 (2022)."},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02245"},{"key":"e_1_3_3_1_7_2","unstructured":"Tianyu Fu Tengxuan Liu Qinghao Han Guohao Dai Shengen Yan Huazhong Yang Xuefei Ning and Yu Wang. 2024. FrameFusion: Combining Similarity and Importance for Video Token Reduction on Large Vision Language Models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2501.01986 (2024)."},{"key":"e_1_3_3_1_8_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01279"},{"key":"e_1_3_3_1_9_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.findings-acl.1024"},{"key":"e_1_3_3_1_10_2","unstructured":"Feng Li Renrui Zhang Hao Zhang Yuanhan Zhang Bo Li Wei Li Zejun Ma and Chunyuan Li. 2024. Llava-next-interleave: Tackling multi-image video and 3d in large multimodal models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2407.07895 (2024)."},{"key":"e_1_3_3_1_11_2","first-page":"12888","volume-title":"International conference on machine learning","author":"Li Junnan","year":"2022","unstructured":"Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. 2022. Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In International conference on machine learning. PMLR, 12888\u201312900."},{"key":"e_1_3_3_1_12_2","doi-asserted-by":"crossref","unstructured":"Shang Li Zhiyuan Yang Dhiraj Reddy Ankur Srivastava and Bruce Jacob. 2020. DRAMsim3: A cycle-accurate thermal-capable DRAM simulator. IEEE Computer Architecture Letters 19 2 (2020) 106\u2013109.","DOI":"10.1109\/LCA.2020.2973991"},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51701.2025.01934"},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02711"},{"key":"e_1_3_3_1_15_2","unstructured":"Peng Wang Shuai Bai Sinan Tan Shijie Wang Zhihao Fan Jinze Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge et\u00a0al. 2024. Qwen2-vl: Enhancing vision-language model\u2019s perception of the world at any resolution. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2409.12191 (2024)."},{"key":"e_1_3_3_1_16_2","unstructured":"Peng Wang Shuai Bai Sinan Tan Shijie Wang Zhihao Fan Jinze Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Yang Fan Kai Dang Mengfei Du Xuancheng Ren Rui Men Dayiheng Liu Chang Zhou Jingren Zhou and Junyang Lin. 2024. Qwen2-VL: Enhancing Vision-Language Model\u2019s Perception of the World at Any Resolution. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2409.12191 (2024)."},{"key":"e_1_3_3_1_17_2","unstructured":"Qinsi Wang Bo Liu Tianyi Zhou Jing Shi Yueqian Lin Yiran Chen Hai\u00a0Helen Li Kun Wan and Wentian Zhao. 2025. Vision-zero: Scalable vlm self-improvement via strategic gamified self-play. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2509.25541 (2025)."},{"key":"e_1_3_3_1_18_2","volume-title":"Forty-second International Conference on Machine Learning","author":"Wang Qinsi","unstructured":"Qinsi Wang, Hancheng Ye, Ming-Yu Chung, Yudong Liu, Yueqian Lin, Martin Kuo, Mingyuan Ma, Jianyi Zhang, and Yiran Chen. [n. d.]. CoreMatching: A Co-adaptive Sparse Inference Framework with Token and Neuron Pruning for Comprehensive Acceleration of Vision-Language Models. In Forty-second International Conference on Machine Learning."},{"key":"e_1_3_3_1_19_2","unstructured":"Yi Wang Kunchang Li Yizhuo Li Yinan He Bingkun Huang Zhiyu Zhao Hongjie Zhang Jilan Xu Yi Liu Zun Wang et\u00a0al. 2022. Internvideo: General video foundation models via generative and discriminative learning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2212.03191 (2022)."},{"key":"e_1_3_3_1_20_2","unstructured":"Yiheng Wang Lichen Zhu Yueqian Lin Yudong Liu Jingyang Zhang Hai Li Yiran Chen et\u00a0al. 2026. Query-Conditioned Evidential Keyframe Sampling for MLLM-Based Long-Form Video Understanding. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2604.01002 (2026)."},{"key":"e_1_3_3_1_21_2","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA68181.2026.11408525"},{"key":"e_1_3_3_1_22_2","first-page":"453","volume-title":"European Conference on Computer Vision","author":"Weng Yuetian","year":"2024","unstructured":"Yuetian Weng, Mingfei Han, Haoyu He, Xiaojun Chang, and Bohan Zhuang. 2024. Longvlm: Efficient long video understanding via large language models. In European Conference on Computer Vision. Springer, 453\u2013470."},{"key":"e_1_3_3_1_23_2","unstructured":"Haoning Wu Dongxu Li Bei Chen and Junnan Li. 2024. LongVideoBench: A Benchmark for Long-context Interleaved Video-Language Understanding. arxiv:https:\/\/arXiv.org\/abs\/2407.15754\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2407.15754"},{"key":"e_1_3_3_1_24_2","doi-asserted-by":"crossref","unstructured":"Junbin Xiao Nanxin Huang Hangyu Qin Dongyang Li Yicong Li Fengbin Zhu Zhulin Tao Jianxing Yu Liang Lin Tat-Seng Chua et\u00a0al. 2025. Videoqa in the era of llms: An empirical study. International Journal of Computer Vision 133 7 (2025) 3970\u20133993.","DOI":"10.1007\/s11263-025-02385-8"},{"key":"e_1_3_3_1_25_2","unstructured":"Zhengyuan Yang Linjie Li Kevin Lin Jianfeng Wang Chung-Ching Lin Zicheng Liu and Lijuan Wang. 2023. The dawn of lmms: Preliminary explorations with gpt-4v (ision). arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2309.17421 (2023)."},{"key":"e_1_3_3_1_26_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-demo.49"},{"key":"e_1_3_3_1_27_2","unstructured":"Kaichen Zhang Bo Li Peiyuan Zhang Fanyi Pu Joshua\u00a0Adrian Cahyono Kairui Hu Shuai Liu Yuanhan Zhang Jingkang Yang Chunyuan Li and Ziwei Liu. 2024. LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models. arxiv:https:\/\/arXiv.org\/abs\/2407.12772\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2407.12772"},{"key":"e_1_3_3_1_28_2","unstructured":"Yuanhan Zhang Jinming Wu Wei Li Bo Li Zejun Ma Ziwei Liu and Chunyuan Li. 2024. Video Instruction Tuning With Synthetic Data. arxiv:https:\/\/arXiv.org\/abs\/2410.02713\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2410.02713"},{"key":"e_1_3_3_1_29_2","unstructured":"Deyao Zhu Jun Chen Xiaoqian Shen Xiang Li and Mohamed Elhoseiny. 2023. Minigpt-4: Enhancing vision-language understanding with advanced large language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2304.10592 (2023)."},{"key":"e_1_3_3_1_30_2","unstructured":"Zirui Zhu Hailun Xu Yang Luo Yong Liu Kanchan Sarkar Zhenheng Yang and Yang You. 2025. Focus: Efficient keyframe selection for long video understanding. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2510.27280 (2025)."}],"event":{"name":"GLSVLSI '26: Great Lakes Symposium on VLSI 2026","location":"Canandaigua , NY , USA","acronym":"GLSVLSI '26","sponsor":["SIGDA ACM Special Interest Group on Design Automation","IEEE CEDA"]},"container-title":["Proceedings of the Great Lakes Symposium on VLSI 2026"],"original-title":[],"deposited":{"date-parts":[[2026,6,18]],"date-time":"2026-06-18T14:26:17Z","timestamp":1781792777000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3787109.3816385"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,22]]},"references-count":29,"alternative-id":["10.1145\/3787109.3816385","10.1145\/3787109"],"URL":"https:\/\/doi.org\/10.1145\/3787109.3816385","relation":{},"subject":[],"published":{"date-parts":[[2026,6,22]]},"assertion":[{"value":"2026-06-22","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}