{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,12]],"date-time":"2025-12-12T01:56:37Z","timestamp":1765504597959,"version":"3.48.0"},"publisher-location":"New York, NY, USA","reference-count":74,"publisher":"ACM","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,11,10]]},"DOI":"10.1145\/3746252.3761393","type":"proceedings-article","created":{"date-parts":[[2025,11,8]],"date-time":"2025-11-08T00:29:28Z","timestamp":1762561768000},"page":"1156-1167","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["SUMMA: A Multimodal Large Language Model for Advertisement Summarization"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0005-2375-0554","authenticated-orcid":false,"given":"Weitao","family":"Jia","sequence":"first","affiliation":[{"name":"ByteDance SearchAds, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0240-0764","authenticated-orcid":false,"given":"Shuo","family":"Yin","sequence":"additional","affiliation":[{"name":"ByteDance SearchAds, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-0894-5824","authenticated-orcid":false,"given":"Zhoufutu","family":"Wen","sequence":"additional","affiliation":[{"name":"ByteDance, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-1759-5068","authenticated-orcid":false,"given":"Han","family":"Wang","sequence":"additional","affiliation":[{"name":"ByteDance, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0406-8219","authenticated-orcid":false,"given":"Zehui","family":"Dai","sequence":"additional","affiliation":[{"name":"ByteDance SearchAds, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-7090-0554","authenticated-orcid":false,"given":"Kun","family":"Zhang","sequence":"additional","affiliation":[{"name":"ByteDance SearchAds, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-8366-3429","authenticated-orcid":false,"given":"Zhenyu","family":"Li","sequence":"additional","affiliation":[{"name":"ByteDance SearchAds, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-0627-8460","authenticated-orcid":false,"given":"Tao","family":"Zeng","sequence":"additional","affiliation":[{"name":"ByteDance SearchAds, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-8445-9170","authenticated-orcid":false,"given":"Xiaohui","family":"Lv","sequence":"additional","affiliation":[{"name":"ByteDance SearchAds, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,11,10]]},"reference":[{"key":"e_1_3_2_2_1_1","unstructured":"Meta AI. 2024. The Llama 3 Herd of Models. arXiv:2407.21783 [cs.AI] https:\/\/arxiv.org\/abs\/2407.21783"},{"key":"e_1_3_2_2_2_1","unstructured":"Jean-Baptiste Alayrac Jeff Donahue Pauline Luc Antoine Miech Iain Barr Yana Hasson Karel Lenc Arthur Mensch Katie Millican Malcolm Reynolds Roman Ring Eliza Rutherford Serkan Cabi Tengda Han Zhitao Gong Sina Samangooei Marianne Monteiro Jacob Menick Sebastian Borgeaud Andrew Brock Aida Nematzadeh Sahand Sharifzadeh Mikolaj Binkowski Ricardo Barreira Oriol Vinyals Andrew Zisserman and Karen Simonyan. 2022. Flamingo: a Visual Language Model for Few-Shot Learning. arXiv:2204.14198 [cs.CV] https:\/\/arxiv.org\/abs\/2204.14198"},{"key":"e_1_3_2_2_3_1","unstructured":"Jinze Bai Shuai Bai Shusheng Yang Shijie Wang Sinan Tan Peng Wang Junyang Lin Chang Zhou and Jingren Zhou. 2023. Qwen-VL: A Versatile Vision-Language Model for Understanding Localization Text Reading and Beyond. arXiv:2308.12966 [cs.CV] https:\/\/arxiv.org\/abs\/2308.12966"},{"key":"e_1_3_2_2_4_1","unstructured":"Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang Humen Zhong Yuanzhi Zhu Mingkun Yang Zhaohai Li Jianqiang Wan Pengfei Wang Wei Ding Zheren Fu Yiheng Xu Jiabo Ye Xi Zhang Tianbao Xie Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu and Junyang Lin. 2025. Qwen2.5-VL Technical Report. arXiv:2502.13923 [cs.CV] https:\/\/arxiv.org\/abs\/2502.13923"},{"key":"e_1_3_2_2_5_1","unstructured":"ByteDance. 2025. Doubao-1.5-pro. https:\/\/seed.bytedance.com\/en\/special\/doubao_1_5_pro"},{"key":"e_1_3_2_2_6_1","unstructured":"Zheng Cai Maosong Cao Haojiong Chen Kai Chen Keyu Chen Xin Chen Xun Chen Zehui Chen Zhi Chen Pei Chu Xiaoyi Dong Haodong Duan Qi Fan Zhaoye Fei Yang Gao Jiaye Ge Chenya Gu Yuzhe Gu Tao Gui Aijia Guo Qipeng Guo Conghui He Yingfan Hu Ting Huang Tao Jiang Penglong Jiao Zhenjiang Jin Zhikai Lei Jiaxing Li Jingwen Li Linyang Li Shuaibin Li Wei Li Yining Li Hongwei Liu Jiangning Liu Jiawei Hong Kaiwen Liu Kuikun Liu Xiaoran Liu Chengqi Lv Haijun Lv Kai Lv Li Ma Runyuan Ma Zerun Ma Wenchang Ning Linke Ouyang Jiantao Qiu Yuan Qu Fukai Shang Yunfan Shao Demin Song Zifan Song Zhihao Sui Peng Sun Yu Sun Huanze Tang Bin Wang Guoteng Wang Jiaqi Wang Jiayu Wang Rui Wang Yudong Wang Ziyi Wang Xingjian Wei Qizhen Weng Fan Wu Yingtong Xiong Chao Xu Ruiliang Xu Hang Yan Yirong Yan Xiaogui Yang Haochen Ye Huaiyuan Ying Jia Yu Jing Yu Yuhang Zang Chuyu Zhang Li Zhang Pan Zhang Peng Zhang Ruijie Zhang Shuo Zhang Songyang Zhang Wenjian Zhang Wenwei Zhang Xingcheng Zhang Xinyue Zhang Hui Zhao Qian Zhao Xiaomeng Zhao Fengzhe Zhou Zaida Zhou Jingming Zhuo Yicheng Zou Xipeng Qiu Yu Qiao and Dahua Lin. 2024. InternLM2 Technical Report. arXiv:2403.17297 [cs.CL] https:\/\/arxiv.org\/abs\/2403.17297"},{"key":"e_1_3_2_2_7_1","volume-title":"Dhillon","author":"Chang Wei-Cheng","year":"2021","unstructured":"Wei-Cheng Chang, Daniel Jiang, Hsiang-Fu Yu, Choon-Hui Teo, Jiong Zhang, Kai Zhong, Kedarnath Kolluri, Qie Hu, Nikhil Shandilya, Vyacheslav Ievgrafov, Japinder Singh, and Inderjit S. Dhillon. 2021. Extreme Multi-label Learning for Semantic Matching in Product Search. arXiv:2106.12657 [cs.IR] https:\/\/arxiv.org\/abs\/2106.12657"},{"key":"e_1_3_2_2_8_1","volume-title":"BLEUBERI: BLEU is a surprisingly effective reward for instruction following. arXiv:2505.11080 [cs.CL] https:\/\/arxiv.org\/abs\/2505.11080","author":"Chang Yapei","year":"2025","unstructured":"Yapei Chang, Yekyung Kim, Michael Krumdick, Amir Zadeh, Chuan Li, Chris Tanner, and Mohit Iyyer. 2025. BLEUBERI: BLEU is a surprisingly effective reward for instruction following. arXiv:2505.11080 [cs.CL] https:\/\/arxiv.org\/abs\/2505.11080"},{"key":"e_1_3_2_2_9_1","doi-asserted-by":"crossref","unstructured":"Lin Chen Jinsong Li Xiaoyi Dong Pan Zhang Yuhang Zang Zehui Chen Haodong Duan Jiaqi Wang Yu Qiao Dahua Lin and Feng Zhao. 2024a. Are We on the Right Way for Evaluating Large Vision-Language Models? arXiv:2403.20330 [cs.CV] https:\/\/arxiv.org\/abs\/2403.20330","DOI":"10.52202\/079017-0850"},{"key":"e_1_3_2_2_10_1","unstructured":"Zhe Chen Weiyun Wang Yue Cao Yangzhou Liu Zhangwei Gao Erfei Cui Jinguo Zhu Shenglong Ye Hao Tian Zhaoyang Liu et al. 2024b. Expanding Performance Boundaries of Open-Source Multimodal Models with Model Data and Test-Time Scaling. arXiv preprint arXiv:2412.05271 (2024)."},{"key":"e_1_3_2_2_11_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11432-024-4231-5"},{"key":"e_1_3_2_2_12_1","volume-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition. 24185-24198","author":"Chen Zhe","year":"2024","unstructured":"Zhe Chen, Jiannan Wu, Wenhai Wang, Weijie Su, Guo Chen, Sen Xing, Muyan Zhong, Qinglong Zhang, Xizhou Zhu, Lewei Lu, et al., 2024d. Internvl: Scaling up vision foundation models and aligning for generic visual-linguistic tasks. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition. 24185-24198."},{"key":"e_1_3_2_2_13_1","volume-title":"Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, and Steven Hoi.","author":"Dai Wenliang","year":"2023","unstructured":"Wenliang Dai, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Junqi Zhao, Weisheng Wang, Boyang Li, Pascale Fung, and Steven Hoi. 2023. InstructBLIP: Towards General-purpose Vision-Language Models with Instruction Tuning. arXiv:2305.06500 [cs.CV] https:\/\/arxiv.org\/abs\/2305.06500"},{"key":"e_1_3_2_2_14_1","unstructured":"DeepSeek-AI. 2024. DeepSeek-V2: A Strong Economical and Efficient Mixture-of-Experts Language Model. arXiv:2405.04434 [cs.CL] https:\/\/arxiv.org\/abs\/2405.04434"},{"key":"e_1_3_2_2_15_1","unstructured":"DeepSeek-AI. 2025. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948 [cs.CL] https:\/\/arxiv.org\/abs\/2501.12948"},{"key":"e_1_3_2_2_16_1","doi-asserted-by":"crossref","unstructured":"Xingning Dong Zipeng Feng Chunluan Zhou Xuzheng Yu Ming Yang and Qingpei Guo. 2024. M2-RAAP: A Multi-Modal Recipe for Advancing Adaptation-based Pre-training towards Effective and Efficient Zero-shot Video-text Retrieval. arXiv:2401.17797 [cs.CV] https:\/\/arxiv.org\/abs\/2401.17797","DOI":"10.1145\/3626772.3657833"},{"key":"e_1_3_2_2_17_1","unstructured":"Kaituo Feng Kaixiong Gong Bohao Li Zonghao Guo Yibing Wang Tianshuo Peng Benyou Wang and Xiangyu Yue. 2025b. Video-R1: Reinforcing Video Reasoning in MLLMs. arXiv:2503.21776 [cs.CV] https:\/\/arxiv.org\/abs\/2503.21776"},{"key":"e_1_3_2_2_18_1","doi-asserted-by":"crossref","unstructured":"Zhaopeng Feng Shaosheng Cao Jiahan Ren Jiayuan Su Ruizhe Chen Yan Zhang Zhe Xu Yao Hu Jian Wu and Zuozhu Liu. 2025a. MT-R1-Zero: Advancing LLM-based Machine Translation via R1-Zero-like Reinforcement Learning. arXiv:2504.10160 [cs.CL] https:\/\/arxiv.org\/abs\/2504.10160","DOI":"10.18653\/v1\/2025.findings-emnlp.1015"},{"key":"e_1_3_2_2_19_1","volume-title":"HCMRM: A High-Consistency Multimodal Relevance Model for Search Ads. arXiv:2502.05822 [cs.IR] https:\/\/arxiv.org\/abs\/2502.05822","author":"Gan Guobing","year":"2025","unstructured":"Guobing Gan, Kaiming Gao, Li Wang, Shen Jiang, and Peng Jiang. 2025. HCMRM: A High-Consistency Multimodal Relevance Model for Search Ads. arXiv:2502.05822 [cs.IR] https:\/\/arxiv.org\/abs\/2502.05822"},{"key":"e_1_3_2_2_20_1","unstructured":"Team GLM: Aohan Zeng Bin Xu Bowen Wang Chenhui Zhang Da Yin Dan Zhang Diego Rojas Guanyu Feng Hanlin Zhao Hanyu Lai Hao Yu Hongning Wang Jiadai Sun Jiajie Zhang Jiale Cheng Jiayi Gui Jie Tang Jing Zhang Jingyu Sun Juanzi Li Lei Zhao Lindong Wu Lucen Zhong Mingdao Liu Minlie Huang Peng Zhang Qinkai Zheng Rui Lu Shuaiqi Duan Shudan Zhang Shulin Cao Shuxun Yang Weng Lam Tam Wenyi Zhao Xiao Liu Xiao Xia Xiaohan Zhang Xiaotao Gu Xin Lv Xinghan Liu Xinyi Liu Xinyue Yang Xixuan Song Xunkai Zhang Yifan An Yifan Xu Yilin Niu Yuantao Yang Yueyan Li Yushi Bai Yuxiao Dong Zehan Qi Zhaoyu Wang Zhen Yang Zhengxiao Du Zhenyu Hou and Zihan Wang. 2024. ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools. arXiv:2406.12793 [cs.CL] https:\/\/arxiv.org\/abs\/2406.12793"},{"key":"e_1_3_2_2_21_1","doi-asserted-by":"crossref","unstructured":"Taian Guo Taolin Zhang Haoqian Wu Hanjun Li Ruizhi Qiao and Xing Sun. 2024. Multimodal Label Relevance Ranking via Reinforcement Learning. arXiv:2407.13221 [cs.CV] https:\/\/arxiv.org\/abs\/2407.13221","DOI":"10.1007\/978-3-031-72848-8_23"},{"key":"e_1_3_2_2_22_1","unstructured":"Wenxuan Huang Bohan Jia Zijie Zhai Shaosheng Cao Zheyu Ye Fei Zhao Zhe Xu Yao Hu and Shaohui Lin. 2025. Vision-R1: Incentivizing Reasoning Capability in Multimodal Large Language Models. arXiv:2503.06749 [cs.CV] https:\/\/arxiv.org\/abs\/2503.06749"},{"key":"e_1_3_2_2_23_1","unstructured":"Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu Pham Quoc V. Le Yunhsuan Sung Zhen Li and Tom Duerig. 2021. Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision. arXiv:2102.05918 [cs.CV] https:\/\/arxiv.org\/abs\/2102.05918"},{"key":"e_1_3_2_2_24_1","unstructured":"Junnan Li Dongxu Li Silvio Savarese and Steven Hoi. 2023. BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. arXiv:2301.12597 [cs.CV] https:\/\/arxiv.org\/abs\/2301.12597"},{"key":"e_1_3_2_2_25_1","volume-title":"BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation. arXiv:2201.12086 [cs.CV] https:\/\/arxiv.org\/abs\/2201.12086","author":"Li Junnan","year":"2022","unstructured":"Junnan Li, Dongxu Li, Caiming Xiong, and Steven Hoi. 2022a. BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation. arXiv:2201.12086 [cs.CV] https:\/\/arxiv.org\/abs\/2201.12086"},{"key":"e_1_3_2_2_26_1","volume-title":"Shafiq Joty, Caiming Xiong, and Steven Hoi.","author":"Li Junnan","year":"2021","unstructured":"Junnan Li, Ramprasaath R. Selvaraju, Akhilesh Deepak Gotmare, Shafiq Joty, Caiming Xiong, and Steven Hoi. 2021. Align before Fuse: Vision and Language Representation Learning with Momentum Distillation. arXiv:2107.07651 [cs.CV] https:\/\/arxiv.org\/abs\/2107.07651"},{"key":"e_1_3_2_2_27_1","unstructured":"KunChang Li Yinan He Yi Wang Yizhuo Li Wenhai Wang Ping Luo Yali Wang Limin Wang and Yu Qiao. 2024. VideoChat: Chat-Centric Video Understanding. arXiv:2305.06355 [cs.CV] https:\/\/arxiv.org\/abs\/2305.06355"},{"key":"e_1_3_2_2_28_1","doi-asserted-by":"crossref","unstructured":"Liunian Harold Li Pengchuan Zhang Haotian Zhang Jianwei Yang Chunyuan Li Yiwu Zhong Lijuan Wang Lu Yuan Lei Zhang Jenq-Neng Hwang Kai-Wei Chang and Jianfeng Gao. 2022c. Grounded Language-Image Pre-training. arXiv:2112.03857 [cs.CV] https:\/\/arxiv.org\/abs\/2112.03857","DOI":"10.1109\/CVPR52688.2022.01069"},{"key":"e_1_3_2_2_29_1","unstructured":"Yangguang Li Feng Liang Lichen Zhao Yufeng Cui Wanli Ouyang Jing Shao Fengwei Yu and Junjie Yan. 2022b. Supervision Exists Everywhere: A Data Efficient Contrastive Language-Image Pre-training Paradigm. arXiv:2110.05208 [cs.CV] https:\/\/arxiv.org\/abs\/2110.05208"},{"key":"e_1_3_2_2_30_1","unstructured":"Haotian Liu Chunyuan Li Yuheng Li Bo Li Yuanhan Zhang Sheng Shen and Yong Jae Lee. 2024b. LLaVA-NeXT: Improved reasoning OCR and world knowledge. https:\/\/llava-vl.github.io\/blog\/2024-01-30-llava-next\/"},{"key":"e_1_3_2_2_31_1","unstructured":"Haotian Liu Chunyuan Li Qingyang Wu and Yong Jae Lee. 2023b. Visual Instruction Tuning. arXiv:2304.08485 [cs.CV] https:\/\/arxiv.org\/abs\/2304.08485"},{"key":"e_1_3_2_2_32_1","volume-title":"Li","author":"Liu Ruyang","year":"2023","unstructured":"Ruyang Liu, Jingjia Huang, Ge Li, Jiashi Feng, Xinglong Wu, and Thomas H. Li. 2023a. Revisiting Temporal Modeling for CLIP-based Image-to-Video Knowledge Transferring. arXiv:2301.11116 [cs.CV] https:\/\/arxiv.org\/abs\/2301.11116"},{"key":"e_1_3_2_2_33_1","doi-asserted-by":"crossref","unstructured":"Yuan Liu Haodong Duan Yuanhan Zhang Bo Li Songyang Zhang Wangbo Zhao Yike Yuan Jiaqi Wang Conghui He Ziwei Liu Kai Chen and Dahua Lin. 2024a. MMBench: Is Your Multi-modal Model an All-around Player? arXiv:2307.06281 [cs.CV] https:\/\/arxiv.org\/abs\/2307.06281","DOI":"10.1007\/978-3-031-72658-3_13"},{"key":"e_1_3_2_2_34_1","doi-asserted-by":"publisher","DOI":"10.1145\/3447548.3467127"},{"key":"e_1_3_2_2_35_1","unstructured":"Ziyu Liu Zeyi Sun Yuhang Zang Xiaoyi Dong Yuhang Cao Haodong Duan Dahua Lin and Jiaqi Wang. 2025. Visual-RFT: Visual Reinforcement Fine-Tuning. arXiv:2503.01785 [cs.CV] https:\/\/arxiv.org\/abs\/2503.01785"},{"key":"e_1_3_2_2_36_1","unstructured":"Haoyu Lu Wen Liu Bo Zhang Bingxuan Wang Kai Dong Bo Liu Jingxiang Sun Tongzheng Ren Zhuoshu Li Hao Yang Yaofeng Sun Chengqi Deng Hanwei Xu Zhenda Xie and Chong Ruan. 2024. DeepSeek-VL: Towards Real-World Vision-Language Understanding. arXiv:2403.05525 [cs.AI] https:\/\/arxiv.org\/abs\/2403.05525"},{"key":"e_1_3_2_2_37_1","unstructured":"Muhammad Maaz Hanoona Rasheed Salman Khan and Fahad Shahbaz Khan. 2024. Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and Language Models. arXiv:2306.05424 [cs.CV] https:\/\/arxiv.org\/abs\/2306.05424"},{"key":"e_1_3_2_2_38_1","volume-title":"Jia Qing Tan, Shafiq Joty, and Enamul Hoque.","author":"Masry Ahmed","year":"2022","unstructured":"Ahmed Masry, Do Xuan Long, Jia Qing Tan, Shafiq Joty, and Enamul Hoque. 2022. ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning. arXiv:2203.10244 [cs.CL] https:\/\/arxiv.org\/abs\/2203.10244"},{"key":"e_1_3_2_2_39_1","doi-asserted-by":"crossref","unstructured":"Minesh Mathew Dimosthenis Karatzas and C. V. Jawahar. 2021. DocVQA: A Dataset for VQA on Document Images. arXiv:2007.00398 [cs.CV] https:\/\/arxiv.org\/abs\/2007.00398","DOI":"10.1109\/WACV48630.2021.00225"},{"key":"e_1_3_2_2_40_1","unstructured":"Yuxiang Nie Han Wang Yanjie Wang Can Huang Liang Lin and Guanbin Li. [n.d.]. Video Q-Former: Multimodal Large Language Model with Spatio-Temporal Querying Transformer Towards Video Understanding. ([n.d.])."},{"key":"e_1_3_2_2_41_1","unstructured":"OpenAI. 2024a. GPT-4 Technical Report. arXiv:2303.08774 [cs.CL] https:\/\/arxiv.org\/abs\/2303.08774"},{"key":"e_1_3_2_2_42_1","unstructured":"OpenAI. 2024b. Introducing OpenAI o1. https:\/\/openai.com\/o1\/"},{"key":"e_1_3_2_2_43_1","unstructured":"Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright Pamela Mishkin Chong Zhang Sandhini Agarwal Katarina Slama Alex Ray John Schulman Jacob Hilton Fraser Kelton Luke Miller Maddie Simens Amanda Askell Peter Welinder Paul Christiano Jan Leike and Ryan Lowe. 2022. Training language models to follow instructions with human feedback. arXiv:2203.02155 [cs.CL] https:\/\/arxiv.org\/abs\/2203.02155"},{"key":"e_1_3_2_2_44_1","doi-asserted-by":"crossref","unstructured":"Roni Paiss Ariel Ephrat Omer Tov Shiran Zada Inbar Mosseri Michal Irani and Tali Dekel. 2023. Teaching CLIP to Count to Ten. arXiv:2302.12066 [cs.CV] https:\/\/arxiv.org\/abs\/2302.12066","DOI":"10.1109\/ICCV51070.2023.00294"},{"key":"e_1_3_2_2_45_1","volume-title":"Proceedings of the 40th annual meeting of the Association for Computational Linguistics. 311-318","author":"Papineni Kishore","year":"2002","unstructured":"Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 2002. Bleu: a method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics. 311-318."},{"key":"e_1_3_2_2_46_1","unstructured":"Yi Peng Chris Xiaokun Wang Yichen Wei Jiangbo Pei Weijie Qiu Ai Jian Yunzhuo Hao Jiachun Pan Tianyidan Xie Li Ge Rongxian Zhuang Xuchen Song Yang Liu and Yahui Zhou. 2025. Skywork R1V: Pioneering Multimodal Reasoning with Chain-of-Thought. arXiv:2504.05599 [cs.CV] https:\/\/arxiv.org\/abs\/2504.05599"},{"key":"e_1_3_2_2_47_1","unstructured":"Qwen: An Yang Baosong Yang Beichen Zhang Binyuan Hui Bo Zheng Bowen Yu Chengyuan Li Dayiheng Liu Fei Huang Haoran Wei Huan Lin Jian Yang Jianhong Tu Jianwei Zhang Jianxin Yang Jiaxi Yang Jingren Zhou Junyang Lin Kai Dang Keming Lu Keqin Bao Kexin Yang Le Yu Mei Li Mingfeng Xue Pei Zhang Qin Zhu Rui Men Runji Lin Tianhao Li Tianyi Tang Tingyu Xia Xingzhang Ren Xuancheng Ren Yang Fan Yang Su Yichang Zhang Yu Wan Yuqiong Liu Zeyu Cui Zhenru Zhang and Zihan Qiu. 2025. Qwen2.5 Technical Report. arXiv:2412.15115 [cs.CL] https:\/\/arxiv.org\/abs\/2412.15115"},{"key":"e_1_3_2_2_48_1","volume-title":"Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever.","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. arXiv:2103.00020 [cs.CV] https:\/\/arxiv.org\/abs\/2103.00020"},{"key":"e_1_3_2_2_49_1","unstructured":"John Schulman Filip Wolski Prafulla Dhariwal Alec Radford and Oleg Klimov. 2017. Proximal Policy Optimization Algorithms. arXiv:1707.06347 [cs.LG] https:\/\/arxiv.org\/abs\/1707.06347"},{"key":"e_1_3_2_2_50_1","unstructured":"Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Junxiao Song Xiao Bi Haowei Zhang Mingchuan Zhang Y. K. Li Y. Wu and Daya Guo. 2024. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300 [cs.CL] https:\/\/arxiv.org\/abs\/2402.03300"},{"key":"e_1_3_2_2_51_1","volume-title":"HybridFlow: A Flexible and Efficient RLHF Framework. arXiv preprint arXiv: 2409.19256","author":"Sheng Guangming","year":"2024","unstructured":"Guangming Sheng, Chi Zhang, Zilingfeng Ye, Xibin Wu, Wang Zhang, Ru Zhang, Yanghua Peng, Haibin Lin, and Chuan Wu. 2024. HybridFlow: A Flexible and Efficient RLHF Framework. arXiv preprint arXiv: 2409.19256 (2024)."},{"key":"e_1_3_2_2_52_1","unstructured":"Kimi Team Angang Du Bohong Yin Bowei Xing Bowen Qu Bowen Wang Cheng Chen Chenlin Zhang Chenzhuang Du Chu Wei Congcong Wang Dehao Zhang Dikang Du Dongliang Wang Enming Yuan Enzhe Lu Fang Li Flood Sung Guangda Wei Guokun Lai Han Zhu Hao Ding Hao Hu Hao Yang Hao Zhang Haoning Wu Haotian Yao Haoyu Lu Heng Wang Hongcheng Gao Huabin Zheng Jiaming Li Jianlin Su Jianzhou Wang Jiaqi Deng Jiezhong Qiu Jin Xie Jinhong Wang Jingyuan Liu Junjie Yan Kun Ouyang Liang Chen Lin Sui Longhui Yu Mengfan Dong Mengnan Dong Nuo Xu Pengyu Cheng Qizheng Gu Runjie Zhou Shaowei Liu Sihan Cao Tao Yu Tianhui Song Tongtong Bai Wei Song Weiran He Weixiao Huang Weixin Xu Xiaokun Yuan Xingcheng Yao Xingzhe Wu Xinxing Zu Xinyu Zhou Xinyuan Wang Y. Charles Yan Zhong Yang Li Yangyang Hu Yanru Chen Yejie Wang Yibo Liu Yibo Miao Yidao Qin Yimin Chen Yiping Bao Yiqin Wang Yongsheng Kang Yuanxin Liu Yulun Du Yuxin Wu Yuzhi Wang Yuzi Yan Zaida Zhou Zhaowei Li Zhejun Jiang Zheng Zhang Zhilin Yang Zhiqi Huang Zihao Huang Zijia Zhao Ziwei Chen and Zongyu Lin. 2025. Kimi-VL Technical Report. arXiv:2504.07491 [cs.CV] https:\/\/arxiv.org\/abs\/2504.07491"},{"key":"e_1_3_2_2_53_1","unstructured":"Hugo Touvron Louis Martin Kevin Stone Peter Albert Amjad Almahairi Yasmine Babaei Nikolay Bashlykov Soumya Batra Prajjwal Bhargava Shruti Bhosale Dan Bikel Lukas Blecher Cristian Canton Ferrer Moya Chen Guillem Cucurull David Esiobu Jude Fernandes Jeremy Fu Wenyin Fu Brian Fuller Cynthia Gao Vedanuj Goswami Naman Goyal Anthony Hartshorn Saghar Hosseini Rui Hou Hakan Inan Marcin Kardas Viktor Kerkez Madian Khabsa Isabel Kloumann Artem Korenev Punit Singh Koura Marie-Anne Lachaux Thibaut Lavril Jenya Lee Diana Liskovich Yinghai Lu Yuning Mao Xavier Martinet Todor Mihaylov Pushkar Mishra Igor Molybog Yixin Nie Andrew Poulton Jeremy Reizenstein Rashi Rungta Kalyan Saladi Alan Schelten Ruan Silva Eric Michael Smith Ranjan Subramanian Xiaoqing Ellen Tan Binh Tang Ross Taylor Adina Williams Jian Xiang Kuan Puxin Xu Zheng Yan Iliyan Zarov Yuchen Zhang Angela Fan Melanie Kambadur Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov and Thomas Scialom. 2023. Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv:2307.09288 [cs.CL] https:\/\/arxiv.org\/abs\/2307.09288"},{"key":"e_1_3_2_2_54_1","volume-title":"Dynamic-vlm: Simple dynamic visual token compression for videollm. arXiv preprint arXiv:2412.09530","author":"Wang Han","year":"2024","unstructured":"Han Wang, Yuxiang Nie, Yongjie Ye, Deng GuanYu, Yanjie Wang, Shuai Li, Haiyang Yu, Jinghui Lu, and Can Huang. 2024c. Dynamic-vlm: Simple dynamic visual token compression for videollm. arXiv preprint arXiv:2412.09530 (2024)."},{"key":"e_1_3_2_2_55_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20074-8_42"},{"volume-title":"GLOMA: Global Video Text Spotting with Morphological Association. In The Thirteenth International Conference on Learning Representations.","author":"Wang Han","key":"e_1_3_2_2_56_1","unstructured":"Han Wang, Yanjie Wang, Yang Li, and Can Huang. [n.d.]. GLOMA: Global Video Text Spotting with Morphological Association. In The Thirteenth International Conference on Learning Representations."},{"key":"e_1_3_2_2_57_1","volume-title":"Vision as lora. arXiv preprint arXiv:2503.20680","author":"Wang Han","year":"2025","unstructured":"Han Wang, Yongjie Ye, Bingru Li, Yuxiang Nie, Jinghui Lu, Jingqun Tang, Yanjie Wang, and Can Huang. 2025b. Vision as lora. arXiv preprint arXiv:2503.20680 (2025)."},{"key":"e_1_3_2_2_58_1","volume-title":"European Conference on Computer Vision. Springer, 166-185","author":"Wang Han","year":"2024","unstructured":"Han Wang, Yongjie Ye, Yanjie Wang, Yuxiang Nie, and Can Huang. 2024d. Elysium: Exploring object-level perception in videos via mllm. In European Conference on Computer Vision. Springer, 166-185."},{"key":"e_1_3_2_2_59_1","unstructured":"Peng Wang Shuai Bai Sinan Tan Shijie Wang Zhihao Fan Jinze Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Yang Fan Kai Dang Mengfei Du Xuancheng Ren Rui Men Dayiheng Liu Chang Zhou Jingren Zhou and Junyang Lin. 2024a. Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution. arXiv:2409.12191 [cs.CV] https:\/\/arxiv.org\/abs\/2409.12191"},{"key":"e_1_3_2_2_60_1","doi-asserted-by":"crossref","unstructured":"Yi Wang Kunchang Li Xinhao Li Jiashuo Yu Yinan He Chenting Wang Guo Chen Baoqi Pei Ziang Yan Rongkun Zheng Jilan Xu Zun Wang Yansong Shi Tianxiang Jiang Songze Li Hongjie Zhang Yifei Huang Yu Qiao Yali Wang and Limin Wang. 2024b. InternVideo2: Scaling Foundation Models for Multimodal Video Understanding. arXiv:2403.15377 [cs.CV] https:\/\/arxiv.org\/abs\/2403.15377","DOI":"10.1007\/978-3-031-73013-9_23"},{"key":"e_1_3_2_2_61_1","unstructured":"Yi Wang Kunchang Li Yizhuo Li Yinan He Bingkun Huang Zhiyu Zhao Hongjie Zhang Jilan Xu Yi Liu Zun Wang Sen Xing Guo Chen Junting Pan Jiashuo Yu Yali Wang Limin Wang and Yu Qiao. 2022a. InternVideo: General Video Foundation Models via Generative and Discriminative Learning. arXiv:2212.03191 [cs.CV] https:\/\/arxiv.org\/abs\/2212.03191"},{"key":"e_1_3_2_2_62_1","unstructured":"Yi Wang Xinhao Li Ziang Yan Yinan He Jiashuo Yu Xiangyu Zeng Chenting Wang Changlian Ma Haian Huang Jianfei Gao Min Dou Kai Chen Wenhai Wang Yu Qiao Yali Wang and Limin Wang. 2025a. InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling. arXiv:2501.12386 [cs.CV] https:\/\/arxiv.org\/abs\/2501.12386"},{"key":"e_1_3_2_2_63_1","doi-asserted-by":"publisher","DOI":"10.1145\/3626772.3657727"},{"key":"e_1_3_2_2_64_1","unstructured":"Zhoufutu Wen Xinyu Zhao Zhipeng Jin Yi Yang Wei Jia Xiaodong Chen Shuanglong Li and Lin Liu. 2023. Enhancing Dynamic Image Advertising with Vision-Language Pre-training. arXiv:2306.14112 [cs.IR] https:\/\/arxiv.org\/abs\/2306.14112"},{"key":"e_1_3_2_2_65_1","unstructured":"Zhiyu Wu Xiaokang Chen Zizheng Pan Xingchao Liu Wen Liu Damai Dai Huazuo Gao Yiyang Ma Chengyue Wu Bingxuan Wang Zhenda Xie Yu Wu Kai Hu Jiawei Wang Yaofeng Sun Yukun Li Yishi Piao Kang Guan Aixin Liu Xin Xie Yuxiang You Kai Dong Xingkai Yu Haowei Zhang Liang Zhao Yisong Wang and Chong Ruan. 2024. DeepSeek-VL2: Mixture-of-Experts Vision-Language Models for Advanced Multimodal Understanding. arXiv:2412.10302 [cs.CV] https:\/\/arxiv.org\/abs\/2412.10302"},{"key":"e_1_3_2_2_66_1","unstructured":"Enqiang Xu Xinhui Li Zhigong Zhou Jiahao Ji Jinyuan Zhao Dadong Miao Songlin Wang Lin Liu and Sulong Xu. 2024. Advancing Re-Ranking with Multimodal Fusion and Target-Oriented Auxiliary Tasks in E-Commerce Search. arXiv:2408.05751 [cs.IR] https:\/\/arxiv.org\/abs\/2408.05751"},{"key":"e_1_3_2_2_67_1","unstructured":"Aiyuan Yang Bin Xiao Bingning Wang Borong Zhang Ce Bian Chao Yin Chenxu Lv Da Pan Dian Wang Dong Yan Fan Yang Fei Deng Feng Wang Feng Liu Guangwei Ai Guosheng Dong Haizhou Zhao Hang Xu Haoze Sun Hongda Zhang Hui Liu Jiaming Ji Jian Xie JunTao Dai Kun Fang Lei Su Liang Song Lifeng Liu Liyun Ru Luyao Ma Mang Wang Mickel Liu MingAn Lin Nuolan Nie Peidong Guo Ruiyang Sun Tao Zhang Tianpeng Li Tianyu Li Wei Cheng Weipeng Chen Xiangrong Zeng Xiaochuan Wang Xiaoxi Chen Xin Men Xin Yu Xuehai Pan Yanjun Shen Yiding Wang Yiyu Li Youxin Jiang Yuchen Gao Yupeng Zhang Zenan Zhou and Zhiying Wu. 2025. Baichuan 2: Open Large-scale Language Models. arXiv:2309.10305 [cs.CL] https:\/\/arxiv.org\/abs\/2309.10305"},{"key":"e_1_3_2_2_68_1","doi-asserted-by":"publisher","DOI":"10.1145\/3626772.3657740"},{"key":"e_1_3_2_2_69_1","doi-asserted-by":"publisher","DOI":"10.1145\/3442381.3450129"},{"key":"e_1_3_2_2_70_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-industry.31"},{"key":"e_1_3_2_2_71_1","doi-asserted-by":"crossref","unstructured":"Chao Zhang Haoxin Zhang Shiwei Wu Di Wu Tong Xu Xiangyu Zhao Yan Gao Yao Hu and Enhong Chen. 2025. NoteLLM-2: Multimodal Large Representation Models for Recommendation. arXiv:2405.16789 [cs.IR] https:\/\/arxiv.org\/abs\/2405.16789","DOI":"10.1145\/3690624.3709440"},{"key":"e_1_3_2_2_72_1","doi-asserted-by":"crossref","unstructured":"Hang Zhang Xin Li and Lidong Bing. 2023. Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding. arXiv:2306.02858 [cs.CL] https:\/\/arxiv.org\/abs\/2306.02858","DOI":"10.18653\/v1\/2023.emnlp-demo.49"},{"key":"e_1_3_2_2_73_1","unstructured":"Deyao Zhu Jun Chen Xiaoqian Shen Xiang Li and Mohamed Elhoseiny. 2023. MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models. arXiv:2304.10592 [cs.CV] https:\/\/arxiv.org\/abs\/2304.10592"},{"key":"e_1_3_2_2_74_1","doi-asserted-by":"crossref","unstructured":"Lixin Zou Shengqiang Zhang Hengyi Cai Dehong Ma Suqi Cheng Daiting Shi Zhifan Zhu Weiyue Su Shuaiqiang Wang Zhicong Cheng and Dawei Yin. 2021. Pre-trained Language Model based Ranking in Baidu Search. arXiv:2105.11108 [cs.IR] https:\/\/arxiv.org\/abs\/2105.11108","DOI":"10.1145\/3447548.3467147"}],"event":{"name":"CIKM '25: The 34th ACM International Conference on Information and Knowledge Management","sponsor":["SIGIR ACM Special Interest Group on Information Retrieval","SIGWEB ACM Special Interest Group on Hypertext, Hypermedia, and Web"],"location":"Seoul Republic of Korea","acronym":"CIKM '25"},"container-title":["Proceedings of the 34th ACM International Conference on Information and Knowledge Management"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746252.3761393","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,12]],"date-time":"2025-12-12T01:52:43Z","timestamp":1765504363000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746252.3761393"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,10]]},"references-count":74,"alternative-id":["10.1145\/3746252.3761393","10.1145\/3746252"],"URL":"https:\/\/doi.org\/10.1145\/3746252.3761393","relation":{},"subject":[],"published":{"date-parts":[[2025,11,10]]},"assertion":[{"value":"2025-11-10","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}