{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:55:36Z","timestamp":1781538936536,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":68,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"Guangdong Science and Technology Program","award":["2024TQ08X365"],"award-info":[{"award-number":["2024TQ08X365"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810709","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"1432-1441","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["VideoTG-R1: Boosting Video Temporal Grounding via Curriculum Reinforcement Learning on Reflected Boundary Annotations"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0005-7510-364X","authenticated-orcid":false,"given":"Lu","family":"Dong","sequence":"first","affiliation":[{"name":"University of Science and Technology of China, Hefei, China and Shanghai Artificial Intelligence Laboratory, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-6433-144X","authenticated-orcid":false,"given":"Haiyu","family":"Zhang","sequence":"additional","affiliation":[{"name":"Beihang University, Beijing, China and Shanghai Artificial Intelligence Laboratory, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-2078-7050","authenticated-orcid":false,"given":"Han","family":"Lin","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China and Shanghai Artificial Intelligence Laboratory, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-7456-0595","authenticated-orcid":false,"given":"Ziang","family":"Yan","sequence":"additional","affiliation":[{"name":"Zhejiang University, Hangzhou, China and Shanghai Artificial Intelligence Laboratory, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6956-5040","authenticated-orcid":false,"given":"Xiangyu","family":"Zeng","sequence":"additional","affiliation":[{"name":"Nanjing University, Nanjing, China and Shanghai Artificial Intelligence Laboratory, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5085-0765","authenticated-orcid":false,"given":"Hongjie","family":"Zhang","sequence":"additional","affiliation":[{"name":"Shanghai Artificial Intelligence Laboratory, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3077-0175","authenticated-orcid":false,"given":"Yifei","family":"Huang","sequence":"additional","affiliation":[{"name":"Shanghai Artificial Intelligence Laboratory, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9134-1203","authenticated-orcid":false,"given":"Yi","family":"Wang","sequence":"additional","affiliation":[{"name":"Shanghai Artificial Intelligence Laboratory, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7853-5273","authenticated-orcid":false,"given":"Zhen-Hua","family":"Ling","sequence":"additional","affiliation":[{"name":"University of Science and Technology of China, Hefei, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3674-7718","authenticated-orcid":false,"given":"Limin","family":"Wang","sequence":"additional","affiliation":[{"name":"Nanjing University, Nanjing, China and Shanghai Artificial Intelligence Laboratory, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2999-7428","authenticated-orcid":false,"given":"Yali","family":"Wang","sequence":"additional","affiliation":[{"name":"Shenzhen Institute of Advanced Technology, Chinese Academy of Sciences, Shenzhen, China and Shanghai Artificial Intelligence Laboratory, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.618"},{"key":"e_1_3_3_1_3_2","unstructured":"Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang et\u00a0al. 2025. Qwen2. 5-vl technical report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2502.13923 (2025)."},{"key":"e_1_3_3_1_4_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298698"},{"key":"e_1_3_3_1_5_2","doi-asserted-by":"crossref","unstructured":"Jr-Jen Chen Yu-Chien Liao Hsi-Che Lin Yu-Chu Yu Yen-Chun Chen and Frank Wang. 2024. Rextime: A benchmark suite for reasoning-across-time in videos. Advances in Neural Information Processing Systems 37 (2024) 28662\u201328673.","DOI":"10.52202\/079017-0900"},{"key":"e_1_3_3_1_6_2","unstructured":"Gheorghe Comanici Eric Bieber Mike Schaekermann Ice Pasupat Noveen Sachdeva Inderjit Dhillon Marcel Blistein Ori Ram Dan Zhang Evan Rosen et\u00a0al. 2025. Gemini 2.5: Pushing the Frontier with Advanced Reasoning Multimodality Long Context and Next Generation Agentic Capabilities. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2507.06261 (2025)."},{"key":"e_1_3_3_1_7_2","doi-asserted-by":"crossref","unstructured":"Lu Dong Haiyu Zhang Hongjie Zhang Yifei Huang Zhen-Hua Ling Yu Qiao Limin Wang and Yali Wang. 2025. Weakly Supervised Temporal Sentence Grounding via Positive Sample Mining. IEEE Transactions on Circuits and Systems for Video Technology (2025).","DOI":"10.1109\/TCSVT.2025.3562249"},{"key":"e_1_3_3_1_8_2","doi-asserted-by":"crossref","unstructured":"Samir\u00a0Yitzhak Gadre Gabriel Ilharco Alex Fang Jonathan Hayase Georgios Smyrnis Thao Nguyen Ryan Marten Mitchell Wortsman Dhruba Ghosh Jieyu Zhang et\u00a0al. 2023. Datacomp: In search of the next generation of multimodal datasets. Advances in Neural Information Processing Systems 36 (2023) 27092\u201327112.","DOI":"10.52202\/075280-1179"},{"key":"e_1_3_3_1_9_2","doi-asserted-by":"crossref","unstructured":"Adrien Gaidon Zaid Harchaoui and Cordelia Schmid. 2013. Temporal localization of actions with actoms. IEEE Transactions on Pattern Analysis and Machine Intelligence 35 11 (2013) 2782\u20132795.","DOI":"10.1109\/TPAMI.2013.65"},{"key":"e_1_3_3_1_10_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.563"},{"key":"e_1_3_3_1_11_2","unstructured":"Daya Guo Dejian Yang Haowei Zhang Junxiao Song Ruoyu Zhang Runxin Xu Qihao Zhu Shirong Ma Peiyi Wang Xiao Bi et\u00a0al. 2025. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2501.12948 (2025)."},{"key":"e_1_3_3_1_12_2","unstructured":"Yongxin Guo Jingyu Liu Mingda Li Qingbin Liu Xi Chen and Xiaoying Tang. 2024. Trace: Temporal grounding video llm via causal event modeling. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2410.05643 (2024)."},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"publisher","DOI":"10.1145\/3652583.3658088"},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01353"},{"key":"e_1_3_3_1_15_2","first-page":"202","volume-title":"European Conference on Computer Vision","author":"Huang De-An","year":"2024","unstructured":"De-An Huang, Shijia Liao, Subhashree Radhakrishnan, Hongxu Yin, Pavlo Molchanov, Zhiding Yu, and Jan Kautz. 2024. Lita: Language instructed temporal-localization assistant. In European Conference on Computer Vision. Springer, 202\u2013218."},{"key":"e_1_3_3_1_16_2","doi-asserted-by":"crossref","unstructured":"Yifei Huang Minjie Cai Zhenqiang Li Feng Lu and Yoichi Sato. 2020. Mutual context network for jointly estimating egocentric gaze and action. IEEE Transactions on Image Processing 29 (2020) 7795\u20137806.","DOI":"10.1109\/TIP.2020.3007841"},{"key":"e_1_3_3_1_17_2","unstructured":"Aaron Jaech Adam Kalai Adam Lerer Adam Richardson Ahmed El-Kishky Aiden Low Alec Helyar Aleksander Madry Alex Beutel Alex Carney et\u00a0al. 2024. Openai o1 system card. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2412.16720 (2024)."},{"key":"e_1_3_3_1_18_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01273"},{"key":"e_1_3_3_1_19_2","unstructured":"Kumara Kahatapitiya Kanchana Ranasinghe Jongwoo Park and Michael\u00a0S Ryoo. 2024. Language repository for long video understanding. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2403.14622 (2024)."},{"key":"e_1_3_3_1_20_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.83"},{"key":"e_1_3_3_1_21_2","unstructured":"Jaewoo Lee Boyang Li and Sung\u00a0Ju Hwang. 2024. Concept-skill transferability-based data selection for large vision-language models. EMNLP 2024-2024 Conference on Empirical Methods in Natural Language Processing Proceedings of the Conference (2024)."},{"key":"e_1_3_3_1_22_2","unstructured":"Jie Lei Tamara\u00a0L Berg and Mohit Bansal. 2021. Detecting moments and highlights in videos via natural language queries. Advances in Neural Information Processing Systems 34 (2021) 11846\u201311858."},{"key":"e_1_3_3_1_23_2","unstructured":"Jiahua Li Kun Wei Zhe Xu Zibo Su Xu Yang and Cheng Deng. 2025. Perceive Reflect and Understand Long Video: Progressive Multi-Granular Clue Exploration with Interactive Agents. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2509.24943 (2025)."},{"key":"e_1_3_3_1_24_2","unstructured":"Jiahua Li Kun Wei Zhe Xu Liejun Wang and Cheng Deng. 2025. Robust Temporal Action Localization With Meta Boundary Refinement. IEEE Transactions on Multimedia (2025)."},{"key":"e_1_3_3_1_25_2","unstructured":"KunChang Li Yinan He Yi Wang Yizhuo Li Wenhai Wang Ping Luo Yali Wang Limin Wang and Yu Qiao. 2023. Videochat: Chat-centric video understanding. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2305.06355 (2023)."},{"key":"e_1_3_3_1_26_2","unstructured":"Xinhao Li Ziang Yan Desen Meng Lu Dong Xiangyu Zeng Yinan He Yali Wang Yu Qiao Yi Wang and Limin Wang. 2025. Videochat-r1: Enhancing spatio-temporal perception via reinforcement fine-tuning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2504.06958 (2025)."},{"key":"e_1_3_3_1_27_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00262"},{"key":"e_1_3_3_1_28_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i2.20058"},{"key":"e_1_3_3_1_29_2","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3547969"},{"key":"e_1_3_3_1_30_2","unstructured":"Hongmin Liu Xueli Li Bin Fan and Jinglin Xu. 2025. BRTAL: Boundary Refinement Temporal Action Localization via Offset-Driven Diffusion Models. IEEE Transactions on Circuits and Systems for Video Technology (2025)."},{"key":"e_1_3_3_1_31_2","first-page":"421","volume-title":"European Conference on Computer Vision","author":"Liu Ye","year":"2024","unstructured":"Ye Liu, Jixuan He, Wanhua Li, Junsik Kim, Donglai Wei, Hanspeter Pfister, and Chang\u00a0Wen Chen. 2024. R2 Tuning: Efficient Image-to-Video Transfer Learning for Video Temporal Grounding. In European Conference on Computer Vision. Springer, 421\u2013438."},{"key":"e_1_3_3_1_32_2","unstructured":"Ye Liu Kevin\u00a0Qinghong Lin Chang\u00a0Wen Chen and Mike\u00a0Zheng Shou. 2025. VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2503.13444 (2025)."},{"key":"e_1_3_3_1_33_2","doi-asserted-by":"crossref","unstructured":"Ye Liu Zongyang Ma Zhongang Qi Yang Wu Ying Shan and Chang\u00a0W Chen. 2024. Et bench: Towards open-ended event-level video-language understanding. Advances in Neural Information Processing Systems 37 (2024) 32076\u201332110.","DOI":"10.52202\/079017-1009"},{"key":"e_1_3_3_1_34_2","doi-asserted-by":"crossref","unstructured":"Ziyu Liu Zeyi Sun Yuhang Zang Xiaoyi Dong Yuhang Cao Haodong Duan Dahua Lin and Jiaqi Wang. 2025. Visual-rft: Visual reinforcement fine-tuning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2503.01785 (2025).","DOI":"10.1109\/ICCV51701.2025.00197"},{"key":"e_1_3_3_1_35_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02207"},{"key":"e_1_3_3_1_36_2","unstructured":"Yiwei Ma Guohai Xu Xiaoshuai Sun Jiayi Ji Jie Lou Debing Zhang and Rongrong Ji. 2025. Mllm-selector: Necessity and diversity-driven high-value data selection for enhanced visual instruction tuning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2503.20502 (2025)."},{"key":"e_1_3_3_1_37_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i6.32659"},{"key":"e_1_3_3_1_38_2","doi-asserted-by":"publisher","DOI":"10.1145\/3652583.3658096"},{"key":"e_1_3_3_1_39_2","doi-asserted-by":"publisher","DOI":"10.1145\/3731715.3733293"},{"key":"e_1_3_3_1_40_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414640"},{"key":"e_1_3_3_1_41_2","unstructured":"Jinyoung Park Jeehye Na Jinyoung Kim and Hyunwoo\u00a0J Kim. 2025. DeepVideo-R1: Video Reinforcement Fine-Tuning via Difficulty-aware Regressive GRPO. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2506.07464 (2025)."},{"key":"e_1_3_3_1_42_2","unstructured":"Long Qian Juncheng Li Yu Wu Yaobo Ye Hao Fei Tat-Seng Chua Yueting Zhuang and Siliang Tang. 2024. Momentor: Advancing video large language model with fine-grained temporal reasoning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2402.11435 (2024)."},{"key":"e_1_3_3_1_43_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW63382.2024.00191"},{"key":"e_1_3_3_1_44_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01357"},{"key":"e_1_3_3_1_45_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01329"},{"key":"e_1_3_3_1_46_2","unstructured":"Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Junxiao Song Xiao Bi Haowei Zhang Mingchuan Zhang YK Li Yang Wu et\u00a0al. 2024. Deepseekmath: Pushing the limits of mathematical reasoning in open language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2402.03300 (2024)."},{"key":"e_1_3_3_1_47_2","doi-asserted-by":"crossref","unstructured":"Xin Sun Jialin Gao Yizhe Zhu Xuan Wang and Xi Zhou. 2023. Video moment retrieval via comprehensive relation-aware network. IEEE Transactions on Circuits and Systems for Video Technology 33 9 (2023) 5281\u20135295.","DOI":"10.1109\/TCSVT.2023.3250518"},{"key":"e_1_3_3_1_48_2","unstructured":"Peng Wang Shuai Bai Sinan Tan Shijie Wang Zhihao Fan Jinze Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge et\u00a0al. 2024. Qwen2-vl: Enhancing vision-language model\u2019s perception of the world at any resolution. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2409.12191 (2024)."},{"key":"e_1_3_3_1_49_2","unstructured":"Xiyao Wang Zhengyuan Yang Chao Feng Hongjin Lu Linjie Li Chung-Ching Lin Kevin Lin Furong Huang and Lijuan Wang. 2025. Sota with less: Mcts-guided sample selection for data-efficient visual reasoning self-improvement. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2504.07934 (2025)."},{"key":"e_1_3_3_1_50_2","unstructured":"Yueqian Wang Xiaojun Meng Jianxin Liang Yuxuan Wang Qun Liu and Dongyan Zhao. 2024. Hawkeye: Training video-text llms for grounding text in videos. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2403.10228 (2024)."},{"key":"e_1_3_3_1_51_2","volume-title":"Advances in Neural Information Processing Systems","author":"Wang Ye","year":"2025","unstructured":"Ye Wang, Ziheng Wang, Boshen Xu, Yang Du, Kejun Lin, Zihan Xiao, Zihao Yue, Jianzhong Ju, Liang Zhang, Dingyi Yang, et\u00a0al. 2025. Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding. In Advances in Neural Information Processing Systems."},{"key":"e_1_3_3_1_52_2","doi-asserted-by":"publisher","DOI":"10.1145\/3731715.3733330"},{"key":"e_1_3_3_1_53_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i3.20163"},{"key":"e_1_3_3_1_54_2","doi-asserted-by":"publisher","DOI":"10.1145\/3652583.3658113"},{"key":"e_1_3_3_1_55_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01284"},{"key":"e_1_3_3_1_56_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01254"},{"key":"e_1_3_3_1_57_2","unstructured":"Wenyi Xiao Leilei Gan Weilong Dai Wanggui He Ziwei Huang Haoyuan Li Fangxun Shu Zhelun Yu Peng Zhang Hao Jiang et\u00a0al. 2025. Fast-slow thinking for large vision-language model reasoning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2504.18458 (2025)."},{"key":"e_1_3_3_1_58_2","unstructured":"LCT Xiaomi and Core Team. 2025. Mimo-vl technical report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2506.03569 1 2 (2025) 5."},{"key":"e_1_3_3_1_59_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02781"},{"key":"e_1_3_3_1_60_2","doi-asserted-by":"crossref","unstructured":"Antoine Yang Antoine Miech Josef Sivic Ivan Laptev and Cordelia Schmid. 2022. Zero-shot video question answering via frozen bidirectional language models. Advances in Neural Information Processing Systems 35 (2022) 124\u2013141.","DOI":"10.52202\/068431-0010"},{"key":"e_1_3_3_1_61_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02690"},{"key":"e_1_3_3_1_62_2","doi-asserted-by":"crossref","unstructured":"Shoubin Yu Jaemin Cho Prateek Yadav and Mohit Bansal. 2023. Self-chained image-language model for video localization and question answering. Advances in Neural Information Processing Systems 36 (2023) 76749\u201376771.","DOI":"10.52202\/075280-3354"},{"key":"e_1_3_3_1_63_2","doi-asserted-by":"publisher","DOI":"10.1145\/3591106.3592239"},{"key":"e_1_3_3_1_64_2","unstructured":"Xiangyu Zeng Kunchang Li Chenting Wang Xinhao Li Tianxiang Jiang Ziang Yan Songze Li Yansong Shi Zhengrong Yue Yi Wang et\u00a0al. 2024. Timesuite: Improving mllms for long video understanding via grounded tuning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2410.19702 (2024)."},{"key":"e_1_3_3_1_65_2","unstructured":"Ce Zhang Taixi Lu Md\u00a0Mohaiminul Islam Ziyang Wang Shoubin Yu Mohit Bansal and Gedas Bertasius. 2023. A simple llm framework for long-range video question-answering. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2312.17235 (2023)."},{"key":"e_1_3_3_1_66_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6984"},{"key":"e_1_3_3_1_67_2","doi-asserted-by":"crossref","unstructured":"Xuemei Zhang Peng Zhao Jinsheng Ji Xiankai Lu and Yilong Yin. 2023. Video corpus moment retrieval via deformable multi granularity feature fusion and adversarial training. IEEE Transactions on Circuits and Systems for Video Technology (2023).","DOI":"10.1109\/TCSVT.2023.3294567"},{"key":"e_1_3_3_1_68_2","doi-asserted-by":"crossref","unstructured":"Zixuan Zhao Shuming Liu Chengze Zhao and Xu Zhao. 2025. Constructing Semantical Structure by Segmentation Integrated Video Embedding for Temporal Action Detection. IEEE Transactions on Circuits and Systems for Video Technology (2025).","DOI":"10.1109\/TCSVT.2025.3532636"},{"key":"e_1_3_3_1_69_2","unstructured":"Jinguo Zhu Weiyun Wang Zhe Chen Zhaoyang Liu Shenglong Ye Lixin Gu Hao Tian Yuchen Duan Weijie Su Jie Shao et\u00a0al. 2025. Internvl3: Exploring advanced training and test-time recipes for open-source multimodal models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2504.10479 (2025)."}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:23:53Z","timestamp":1781537033000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810709"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":68,"alternative-id":["10.1145\/3805622.3810709","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810709","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}