{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:57:51Z","timestamp":1781539071734,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":61,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810736","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"40-49","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Frozen LVLMs for Micro-Video Recommendation: A Systematic Study of Feature Extraction and Fusion"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0005-5181-640X","authenticated-orcid":false,"given":"Huatuan","family":"Sun","sequence":"first","affiliation":[{"name":"Nanjing University of Science and Technology, Nanjing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3038-5389","authenticated-orcid":false,"given":"Yunshan","family":"Ma","sequence":"additional","affiliation":[{"name":"Singapore Management University, Singapore, Singapore"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-1813-8897","authenticated-orcid":false,"given":"Changguang","family":"Wu","sequence":"additional","affiliation":[{"name":"Nanjing University of Science and Technology, Nanjing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-2307-901X","authenticated-orcid":false,"given":"Yanxin","family":"Zhang","sequence":"additional","affiliation":[{"name":"University of Wisconsin-Madison, Madison, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-5723-2538","authenticated-orcid":false,"given":"Pengfei","family":"Wang","sequence":"additional","affiliation":[{"name":"GienTech Technology Co.,Ltd., Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4641-1994","authenticated-orcid":false,"given":"Xiaoyu","family":"Du","sequence":"additional","affiliation":[{"name":"Nanjing University of Science and Technology, Nanjing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.emnlp-main.339"},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"publisher","DOI":"10.1145\/3077136.3080797"},{"key":"e_1_3_3_1_4_2","unstructured":"Zeyu Cui Jianxin Ma Chang Zhou Jingren Zhou and Hongxia Yang. 2022. M6-Rec: Generative Pretrained Language Models are Open-Ended Recommender Systems. CoRR abs\/2205.08084 (2022)."},{"key":"e_1_3_3_1_5_2","unstructured":"DeepSeek-AI. 2024. DeepSeek-V3 Technical Report. CoRR abs\/2412.19437 (2024)."},{"key":"e_1_3_3_1_6_2","first-page":"4171","volume-title":"NAACL-HLT (1)","author":"Devlin Jacob","year":"2019","unstructured":"Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In NAACL-HLT (1). Association for Computational Linguistics, 4171\u20134186."},{"key":"e_1_3_3_1_7_2","doi-asserted-by":"publisher","DOI":"10.1145\/3460426.3463638"},{"key":"e_1_3_3_1_8_2","doi-asserted-by":"crossref","unstructured":"Xiaoyu Du Shuangqing Li Yanxin Zhang Boying Li Tailai Zhou Yibing Chen Lizi Liao and Jinhui Tang. 2026. From Uncertainty to Decision: Enhancing Goal-Oriented Dialogue Planning Under Hesitation. IEEE Transactions on Audio Speech and Language Processing 34 (2026) 1648\u20131658.","DOI":"10.1109\/TASLPRO.2026.3671073"},{"key":"e_1_3_3_1_9_2","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548405"},{"key":"e_1_3_3_1_10_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00630"},{"key":"e_1_3_3_1_11_2","first-page":"2037","volume-title":"WWW","author":"Fu Shunliang","year":"2026","unstructured":"Shunliang Fu, Yanxin Zhang, Yixin Xiang, Xiaoyu Du, and Jinhui Tang. 2026. DMAP: Human-Aligned Structural Document Map for Multimodal Document Understanding. In WWW. ACM, 2037\u20132048."},{"key":"e_1_3_3_1_12_2","doi-asserted-by":"publisher","DOI":"10.1145\/3523227.3546767"},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"publisher","DOI":"10.1145\/3511808.3557065"},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"publisher","DOI":"10.1145\/3511808.3557403"},{"key":"e_1_3_3_1_15_2","volume-title":"ICLR","author":"He Pengcheng","year":"2021","unstructured":"Pengcheng He, Xiaodong Liu, Jianfeng Gao, and Weizhu Chen. 2021. Deberta: decoding-Enhanced Bert with Disentangled Attention. In ICLR. OpenReview.net."},{"key":"e_1_3_3_1_16_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v30i1.9973"},{"key":"e_1_3_3_1_17_2","doi-asserted-by":"publisher","DOI":"10.1145\/3397271.3401063"},{"key":"e_1_3_3_1_18_2","first-page":"173","volume-title":"WWW","author":"He Xiangnan","year":"2017","unstructured":"Xiangnan He, Lizi Liao, Hanwang Zhang, Liqiang Nie, Xia Hu, and Tat-Seng Chua. 2017. Neural Collaborative Filtering. In WWW. ACM, 173\u2013182."},{"key":"e_1_3_3_1_19_2","doi-asserted-by":"publisher","DOI":"10.1145\/3711896.3737029"},{"key":"e_1_3_3_1_20_2","doi-asserted-by":"crossref","unstructured":"Ying He Gongqing Wu Desheng Cai and Xuegang Hu. 2023. Meta-path based graph contrastive learning for micro-video recommendation. Expert Syst. Appl. 222 (2023) 119713.","DOI":"10.1016\/j.eswa.2023.119713"},{"key":"e_1_3_3_1_21_2","volume-title":"ICLR (Poster)","author":"Hidasi Bal\u00e1zs","year":"2016","unstructured":"Bal\u00e1zs Hidasi, Alexandros Karatzoglou, Linas Baltrunas, and Domonkos Tikk. 2016. Session-based Recommendations with Recurrent Neural Networks. In ICLR (Poster)."},{"key":"e_1_3_3_1_22_2","first-page":"1162","volume-title":"WWW","author":"Hou Yupeng","year":"2023","unstructured":"Yupeng Hou, Zhankui He, Julian\u00a0J. McAuley, and Wayne\u00a0Xin Zhao. 2023. Learning Vector-Quantized Item Representation for Transferable Sequential Recommenders. In WWW. ACM, 1162\u20131171."},{"key":"e_1_3_3_1_23_2","doi-asserted-by":"publisher","DOI":"10.1145\/3534678.3539381"},{"key":"e_1_3_3_1_24_2","doi-asserted-by":"publisher","DOI":"10.1145\/3726302.3729894"},{"key":"e_1_3_3_1_25_2","unstructured":"Chengkai Huang Tong Yu Kaige Xie Shuai Zhang Lina Yao and Julian\u00a0J. McAuley. 2024. Foundation Models for Recommender Systems: A Survey and New Perspectives. CoRR abs\/2402.11143 (2024)."},{"key":"e_1_3_3_1_26_2","doi-asserted-by":"crossref","unstructured":"Kalervo J\u00e4rvelin and Jaana Kek\u00e4l\u00e4inen. 2002. Cumulated gain-based evaluation of IR techniques. ACM Trans. Inf. Syst. 20 4 (2002) 422\u2013446.","DOI":"10.1145\/582415.582418"},{"key":"e_1_3_3_1_27_2","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413653"},{"key":"e_1_3_3_1_28_2","series-title":"(Proceedings of Machine Learning Research)","first-page":"22185","volume-title":"ICML","author":"Jin Yang","year":"2024","unstructured":"Yang Jin, Zhicheng Sun, Kun Xu, Kun Xu, Liwei Chen, Hao Jiang, Quzhe Huang, Chengru Song, Yuliang Liu, Di Zhang, Yang Song, Kun Gai, and Yadong Mu. 2024. Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization. In ICML(Proceedings of Machine Learning Research). PMLR \/ OpenReview.net, 22185\u201322209."},{"key":"e_1_3_3_1_29_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICDM.2018.00035"},{"key":"e_1_3_3_1_30_2","series-title":"(Proceedings of Machine Learning Research)","first-page":"5583","volume-title":"ICML","author":"Kim Wonjae","year":"2021","unstructured":"Wonjae Kim, Bokyung Son, and Ildoo Kim. 2021. ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision. In ICML(Proceedings of Machine Learning Research). PMLR, 5583\u20135594."},{"key":"e_1_3_3_1_31_2","volume-title":"NeurIPS","author":"Lepori Michael\u00a0A.","year":"2024","unstructured":"Michael\u00a0A. Lepori, Alexa\u00a0R. Tartaglini, Wai\u00a0Keen Vong, Thomas Serre, Brenden\u00a0M. Lake, and Ellie Pavlick. 2024. Beyond the Doors of Perception: Vision Transformers Represent Relations Between Objects. In NeurIPS."},{"key":"e_1_3_3_1_32_2","doi-asserted-by":"publisher","DOI":"10.1145\/3580305.3599519"},{"key":"e_1_3_3_1_33_2","doi-asserted-by":"crossref","unstructured":"Jianghao Lin Xinyi Dai Yunjia Xi Weiwen Liu Bo Chen Hao Zhang Yong Liu Chuhan Wu Xiangyang Li Chenxu Zhu Huifeng Guo Yong Yu Ruiming Tang and Weinan Zhang. 2025. How Can Recommender Systems Benefit from Large Language Models: A Survey. ACM Trans. Inf. Syst. 43 2 (2025) 28:1\u201328:47.","DOI":"10.1145\/3678004"},{"key":"e_1_3_3_1_34_2","unstructured":"Yinhan Liu Myle Ott Naman Goyal Jingfei Du Mandar Joshi Danqi Chen Omer Levy Mike Lewis Luke Zettlemoyer and Veselin Stoyanov. 2019. RoBERTa: A Robustly Optimized BERT Pretraining Approach. CoRR abs\/1907.11692 (2019)."},{"key":"e_1_3_3_1_35_2","unstructured":"Yuqing Liu Yu Wang Lichao Sun and Philip\u00a0S. Yu. 2024. Rec-GPT4V: Multimodal Recommendation with Large Vision-Language Models. CoRR abs\/2402.08670 (2024)."},{"key":"e_1_3_3_1_36_2","volume-title":"ICLR (Poster)","author":"Loshchilov Ilya","year":"2019","unstructured":"Ilya Loshchilov and Frank Hutter. 2019. Decoupled Weight Decay Regularization. In ICLR (Poster). OpenReview.net."},{"key":"e_1_3_3_1_37_2","doi-asserted-by":"publisher","DOI":"10.1145\/3705328.3759303"},{"key":"e_1_3_3_1_38_2","doi-asserted-by":"publisher","DOI":"10.1145\/3746252.3761655"},{"key":"e_1_3_3_1_39_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N18-1202"},{"key":"e_1_3_3_1_40_2","series-title":"(Proceedings of Machine Learning Research)","first-page":"8748","volume-title":"ICML","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong\u00a0Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. In ICML(Proceedings of Machine Learning Research). PMLR, 8748\u20138763."},{"key":"e_1_3_3_1_41_2","doi-asserted-by":"publisher","DOI":"10.1145\/371920.372071"},{"key":"e_1_3_3_1_42_2","doi-asserted-by":"publisher","DOI":"10.1145\/3539618.3591713"},{"key":"e_1_3_3_1_43_2","volume-title":"ICLR","author":"Sheng Leheng","year":"2025","unstructured":"Leheng Sheng, An Zhang, Yi Zhang, Yuxin Chen, Xiang Wang, and Tat-Seng Chua. 2025. Language Representations Can be What Recommenders Need: Findings and Potentials. In ICLR. OpenReview.net."},{"key":"e_1_3_3_1_44_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00756"},{"key":"e_1_3_3_1_45_2","unstructured":"Llama Team. 2024. The Llama 3 Herd of Models. CoRR abs\/2407.21783 (2024)."},{"key":"e_1_3_3_1_46_2","unstructured":"Qwen Team. 2025. Qwen3 Technical Report. CoRR abs\/2505.09388 (2025)."},{"key":"e_1_3_3_1_47_2","unstructured":"The Kuaishou\u00a0OneRec team. 2025. OneRec-V2 Technical Report. CoRR abs\/2508.20900 (2025)."},{"key":"e_1_3_3_1_48_2","volume-title":"NeurIPS","author":"Tong Zhan","year":"2022","unstructured":"Zhan Tong, Yibing Song, Jue Wang, and Limin Wang. 2022. VideoMAE: Masked Autoencoders are Data-Efficient Learners for Self-Supervised Video Pre-Training. In NeurIPS."},{"key":"e_1_3_3_1_49_2","doi-asserted-by":"publisher","DOI":"10.1145\/3331184.3331267"},{"key":"e_1_3_3_1_50_2","doi-asserted-by":"publisher","DOI":"10.1145\/3343031.3351034"},{"key":"e_1_3_3_1_51_2","volume-title":"ACL (1)","author":"Xiang Yixin","year":"2026","unstructured":"Yixin Xiang, Yunshan Ma, Xiaoyu Du, Yibing Chen, Yanxin Zhang, and Jinhui Tang. 2026. MAB-DQA: Addressing Query Aspect Importance in Document Question Answering with Multi-Armed Bandits. In ACL (1). Association for Computational Linguistics."},{"key":"e_1_3_3_1_52_2","unstructured":"Yuan Yao Tianyu Yu Ao Zhang Chongyi Wang Junbo Cui Hongji Zhu Tianchi Cai Haoyu Li Weilin Zhao Zhihui He Qianyu Chen Huarong Zhou Zhensheng Zou Haoye Zhang Shengding Hu Zhi Zheng Jie Zhou Jie Cai Xu Han Guoyang Zeng Dahai Li Zhiyuan Liu and Maosong Sun. 2024. MiniCPM-V: A GPT-4V Level MLLM on Your Phone. CoRR abs\/2408.01800 (2024)."},{"key":"e_1_3_3_1_53_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i12.33426"},{"key":"e_1_3_3_1_54_2","doi-asserted-by":"publisher","DOI":"10.1145\/3477495.3532027"},{"key":"e_1_3_3_1_55_2","unstructured":"Tianyu Yu Zefan Wang Chongyi Wang Fuwei Huang Wenshuo Ma Zhihui He Tianchi Cai Weize Chen Yuxiang Huang Yuanqian Zhao Bokai Xu Junbo Cui Yingjing Xu Liqing Ruan Luoyuan Zhang Hanyu Liu Jingkun Tang Hongyuan Liu Qining Guo Wenhao Hu Bingxiang He Jie Zhou Jie Cai Ji Qi Zonghao Guo Chi Chen Guoyang Zeng Yuxuan Li Ganqu Cui Ning Ding Xu Han Yuan Yao Zhiyuan Liu and Maosong Sun. 2025. MiniCPM-V 4.5: Cooking Efficient MLLMs via Architecture Data and Training Recipe. CoRR abs\/2509.18154 (2025)."},{"key":"e_1_3_3_1_56_2","series-title":"(Lecture Notes in Computer Science)","first-page":"508","volume-title":"ECML\/PKDD (1)","author":"Yu Yisong","year":"2022","unstructured":"Yisong Yu, Beihong Jin, Jiageng Song, Beibei Li, Yiyuan Zheng, and Wei Zhuo. 2022. Improving Micro-video Recommendation by Controlling Position Bias. In ECML\/PKDD (1)(Lecture Notes in Computer Science). Springer, 508\u2013523."},{"key":"e_1_3_3_1_57_2","doi-asserted-by":"publisher","DOI":"10.1145\/3289600.3290975"},{"key":"e_1_3_3_1_58_2","doi-asserted-by":"publisher","DOI":"10.1145\/3539618.3591932"},{"key":"e_1_3_3_1_59_2","doi-asserted-by":"publisher","DOI":"10.1145\/3690624.3709440"},{"key":"e_1_3_3_1_60_2","doi-asserted-by":"crossref","unstructured":"Jiaqi Zhang Yu Cheng Yongxin Ni Yunzhu Pan Zheng Yuan Junchen Fu Youhua Li Jie Wang and Fajie Yuan. 2025. NineRec: A Benchmark Dataset Suite for Evaluating Transferable Recommendation. IEEE Trans. Pattern Anal. Mach. Intell. 47 7 (2025) 5256\u20135267.","DOI":"10.1109\/TPAMI.2024.3373868"},{"key":"e_1_3_3_1_61_2","doi-asserted-by":"publisher","DOI":"10.1145\/3705328.3748075"},{"key":"e_1_3_3_1_62_2","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548428"}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:47:08Z","timestamp":1781538428000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810736"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":61,"alternative-id":["10.1145\/3805622.3810736","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810736","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}