{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:57:20Z","timestamp":1781539040370,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":73,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/legalcode"}],"funder":[{"name":"National High-Level Young Talent Program","award":["2025HY00260104"],"award-info":[{"award-number":["2025HY00260104"]}]},{"name":"Fundamental Research Funds for Higher Education Institutions allocated to Sun Yat-sen University","award":["25hytd007"],"award-info":[{"award-number":["25hytd007"]}]},{"name":"Guangdong Provincial High-Level Young Talent Program","award":["2025HYSPT0707"],"award-info":[{"award-number":["2025HYSPT0707"]}]},{"name":"Tuoyuan","award":["HT-99982025-0564"],"award-info":[{"award-number":["HT-99982025-0564"]}]},{"name":"Faculty Start-up Research Fund","award":["67000-12255002"],"award-info":[{"award-number":["67000-12255002"]}]},{"name":"Huawei Strategic Research Institute Talent Fund"},{"name":"Key Development Project of the Artificial Intelligence Institute of Sun Yat-sen University","award":["2025RGZN009"],"award-info":[{"award-number":["2025RGZN009"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810752","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"758-767","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Learning Physics from Pretrained Video Models: A Multimodal Continuous and Sequential World Interaction Models for Robotic Manipulation"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-0627-753X","authenticated-orcid":false,"given":"Zijian","family":"Song","sequence":"first","affiliation":[{"name":"Sun Yat-sen University, Guangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-5131-9286","authenticated-orcid":false,"given":"Qichang","family":"Li","sequence":"additional","affiliation":[{"name":"Sun Yat-sen University, Guangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-8162-7802","authenticated-orcid":false,"given":"Sihan","family":"Qin","sequence":"additional","affiliation":[{"name":"Sun Yat-sen University, Guangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-4799-638X","authenticated-orcid":false,"given":"Yuhao","family":"Chen","sequence":"additional","affiliation":[{"name":"Sun Yat-sen University, Guangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5848-5624","authenticated-orcid":false,"given":"Tianshui","family":"Chen","sequence":"additional","affiliation":[{"name":"Guangdong University of Technology, Guangzhou, China and X-Era AI Lab, Guangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2248-3755","authenticated-orcid":false,"given":"Liang","family":"Lin","sequence":"additional","affiliation":[{"name":"Sun Yat-sen University, Guangzhou, China and X-Era AI Lab, Guangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7760-1339","authenticated-orcid":false,"given":"Guangrun","family":"Wang","sequence":"additional","affiliation":[{"name":"Sun Yat-sen University, Guangzhou, China and X-Era AI Lab, Guangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","unstructured":"Johan Bjorck Fernando Casta\u00f1eda Nikita Cherniadev Xingye Da Runyu Ding Linxi Fan Yu Fang Dieter Fox Fengyuan Hu Spencer Huang et\u00a0al. 2025. Gr00t n1: An open foundation model for generalist humanoid robots. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2503.14734 (2025)."},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"crossref","unstructured":"Kevin Black Noah Brown Danny Driess Adnan Esmail Michael Equi Chelsea Finn Niccolo Fusai Lachy Groom Karol Hausman Brian Ichter Szymon Jakubczak Tim Jones Liyiming Ke Sergey Levine Adrian Li-Bell Mohith Mothukuri Suraj Nair Karl Pertsch Lucy\u00a0Xiaoyang Shi James Tanner Quan Vuong Anna Walling Haohuan Wang and Ury Zhilinsky. 2024. \u03c00: A Vision-Language-Action Flow Model for General Robot Control. arxiv:https:\/\/arXiv.org\/abs\/2410.24164\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2410.24164","DOI":"10.15607\/RSS.2025.XXI.010"},{"key":"e_1_3_3_1_4_2","unstructured":"Tom Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared\u00a0D Kaplan Prafulla Dhariwal Arvind Neelakantan Pranav Shyam Girish Sastry Amanda Askell et\u00a0al. 2020. Language models are few-shot learners. Advances in neural information processing systems 33 (2020) 1877\u20131901."},{"key":"e_1_3_3_1_5_2","unstructured":"Qingwen Bu Jisong Cai Li Chen Xiuqi Cui Yan Ding Siyuan Feng Shenyuan Gao Xindong He Xuan Hu Xu Huang et\u00a0al. 2025. Agibot world colosseo: A large-scale manipulation platform for scalable and intelligent embodied systems. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2503.06669 (2025)."},{"key":"e_1_3_3_1_6_2","unstructured":"Qingwen Bu Yanting Yang Jisong Cai Shenyuan Gao Guanghui Ren Maoqing Yao Ping Luo and Hongyang Li. 2025. Univla: Learning to act anywhere with task-centric latent actions. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2505.06111 (2025)."},{"key":"e_1_3_3_1_7_2","unstructured":"Jun Cen Chaohui Yu Hangjie Yuan Yuming Jiang Siteng Huang Jiayan Guo Xin Li Yibing Song Hao Luo Fan Wang et\u00a0al. 2025. WorldVLA: Towards Autoregressive Action World Model. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2506.21539 (2025)."},{"key":"e_1_3_3_1_8_2","unstructured":"Chi-Lam Cheang Guangzeng Chen Ya Jing Tao Kong Hang Li Yifeng Li Yuxiao Liu Hongtao Wu Jiafeng Xu Yichu Yang et\u00a0al. 2024. Gr-2: A generative video-language-action model with web-scale knowledge for robot manipulation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2410.06158 (2024)."},{"key":"e_1_3_3_1_9_2","doi-asserted-by":"crossref","unstructured":"Beiqi Chen Shuai Shao Haitang Feng Jianhuang Lai Jianlou Si and Guangcong Wang. 2025. Style4D-Bench: A Benchmark Suite for 4D Stylization. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2508.19243 (2025).","DOI":"10.1609\/aaai.v40i4.37266"},{"key":"e_1_3_3_1_10_2","doi-asserted-by":"publisher","DOI":"10.1145\/3757377.3763966"},{"key":"e_1_3_3_1_11_2","unstructured":"Hongyu Chen and Guangrun Wang. 2025. UML-CoT: Structured Reasoning and Planning with Unified Modeling Language for Robotic Room Cleaning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2509.22628 (2025)."},{"key":"e_1_3_3_1_12_2","unstructured":"Xiaoyu Chen Hangxing Wei Pushi Zhang Chuheng Zhang Kaixin Wang Yanjiang Guo Rushuai Yang Yucen Wang Xinquan Xiao Li Zhao et\u00a0al. 2025. Villa-x: enhancing latent action modeling in vision-language-action models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2507.23682 (2025)."},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"crossref","unstructured":"Cheng Chi Zhenjia Xu Siyuan Feng Eric Cousineau Yilun Du Benjamin Burchfiel Russ Tedrake and Shuran Song. 2023. Diffusion policy: Visuomotor policy learning via action diffusion. The International Journal of Robotics Research (2023) 02783649241273668.","DOI":"10.15607\/RSS.2023.XIX.026"},{"key":"e_1_3_3_1_14_2","unstructured":"Haoge Deng Ting Pan Haiwen Diao Zhengxiong Luo Yufeng Cui Huchuan Lu Shiguang Shan Yonggang Qi and Xinlong Wang. 2024. Autoregressive video generation without vector quantization. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2412.14169 (2024)."},{"key":"e_1_3_3_1_15_2","unstructured":"Letian Fu Huang Huang Gaurav Datta Lawrence\u00a0Yunliang Chen William Chung-Ho Panitch Fangchen Liu Hui Li and Ken Goldberg. 2024. In-context imitation learning via next-token prediction. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2408.15980 (2024)."},{"key":"e_1_3_3_1_16_2","unstructured":"Kaifeng Gao Jiaxin Shi Hanwang Zhang Chunping Wang and Jun Xiao. 2024. Vid-gpt: Introducing gpt-style autoregressive generation in video diffusion models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2406.10981 (2024)."},{"key":"e_1_3_3_1_17_2","unstructured":"Fabian Gloeckle Badr\u00a0Youbi Idrissi Baptiste Rozi\u00e8re David Lopez-Paz and Gabriel Synnaeve. 2024. Better & faster large language models via multi-token prediction. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2404.19737 (2024)."},{"key":"e_1_3_3_1_18_2","unstructured":"Daya Guo Dejian Yang Haowei Zhang Junxiao Song Ruoyu Zhang Runxin Xu Qihao Zhu Shirong Ma Peiyi Wang Xiao Bi et\u00a0al. 2025. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2501.12948 (2025)."},{"key":"e_1_3_3_1_19_2","unstructured":"Jonathan Ho Ajay Jain and Pieter Abbeel. 2020. Denoising diffusion probabilistic models. Advances in neural information processing systems 33 (2020) 6840\u20136851."},{"key":"e_1_3_3_1_20_2","unstructured":"Chi-Pin Huang Yueh-Hua Wu Min-Hung Chen Yu-Chiang\u00a0Frank Wang and Fu-En Yang. 2025. Thinkact: Vision-language-action reasoning via reinforced visual latent planning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2507.16815 (2025)."},{"key":"e_1_3_3_1_21_2","unstructured":"Physical Intelligence Kevin Black Noah Brown James Darpinian Karan Dhabalia Danny Driess Adnan Esmail Michael Equi Chelsea Finn Niccolo Fusai Manuel\u00a0Y. Galliker Dibya Ghosh Lachy Groom Karol Hausman Brian Ichter Szymon Jakubczak Tim Jones Liyiming Ke Devin LeBlanc Sergey Levine Adrian Li-Bell Mohith Mothukuri Suraj Nair Karl Pertsch Allen\u00a0Z. Ren Lucy\u00a0Xiaoyang Shi Laura Smith Jost\u00a0Tobias Springenberg Kyle Stachowicz James Tanner Quan Vuong Homer Walke Anna Walling Haohuan Wang Lili Yu and Ury Zhilinsky. 2025. \u03c00.5: a Vision-Language-Action Model with Open-World Generalization. arxiv:https:\/\/arXiv.org\/abs\/2504.16054\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2504.16054"},{"key":"e_1_3_3_1_22_2","unstructured":"Mojan Javaheripi S\u00e9bastien Bubeck Marah Abdin Jyoti Aneja Sebastien Bubeck Caio C\u00e9sar\u00a0Teodoro Mendes Weizhu Chen Allie Del\u00a0Giorno Ronen Eldan Sivakanth Gopi et\u00a0al. 2023. Phi-2: The surprising power of small language models. Microsoft Research Blog 1 3 (2023) 3."},{"key":"e_1_3_3_1_23_2","unstructured":"Moo\u00a0Jin Kim Chelsea Finn and Percy Liang. 2025. Fine-tuning vision-language-action models: Optimizing speed and success. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2502.19645 (2025)."},{"key":"e_1_3_3_1_24_2","unstructured":"Moo\u00a0Jin Kim Karl Pertsch Siddharth Karamcheti Ted Xiao Ashwin Balakrishna Suraj Nair Rafael Rafailov Ethan Foster Grace Lam Pannag Sanketi et\u00a0al. 2024. Openvla: An open-source vision-language-action model. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2406.09246 (2024)."},{"key":"e_1_3_3_1_25_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"e_1_3_3_1_26_2","unstructured":"Jason Lee Jiafei Duan Haoquan Fang Yuquan Deng Shuo Liu Boyang Li Bohan Fang Jieyu Zhang Yi\u00a0Ru Wang Sangho Lee et\u00a0al. 2025. Molmoact: Action reasoning models that can reason in space. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2508.07917 (2025)."},{"key":"e_1_3_3_1_27_2","unstructured":"Shuang Li Yihuai Gao Dorsa Sadigh and Shuran Song. 2025. Unified video action model. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2503.00200 (2025)."},{"key":"e_1_3_3_1_28_2","doi-asserted-by":"crossref","unstructured":"Tianhong Li Yonglong Tian He Li Mingyang Deng and Kaiming He. 2024. Autoregressive image generation without vector quantization. Advances in Neural Information Processing Systems 37 (2024) 56424\u201356445.","DOI":"10.52202\/079017-1797"},{"key":"e_1_3_3_1_29_2","unstructured":"Weiqi Li Quande Zhang Ruifeng Zhai Liang Lin and Guangrun Wang. 2025. VLA Models Are More Generalizable Than You Think: Revisiting Physical and Spatial Modeling. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2512.02902 (2025)."},{"key":"e_1_3_3_1_30_2","unstructured":"Xiao Li Jiaqi Zhang Shuxiang Zhang Tianshui Chen Liang Lin and Guangrun Wang. 2025. In-Situ Tweedie Discrete Diffusion Models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2510.01047 (2025)."},{"key":"e_1_3_3_1_31_2","unstructured":"Junbang Liang Pavel Tokmakov Ruoshi Liu Sruthi Sudhakar Paarth Shah Rares Ambrus and Carl Vondrick. 2025. Video generators are robot policies. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2508.00795 (2025)."},{"key":"e_1_3_3_1_32_2","unstructured":"Aixin Liu Bei Feng Bing Xue Bingxuan Wang Bochao Wu Chengda Lu Chenggang Zhao Chengqi Deng Chenyu Zhang Chong Ruan et\u00a0al. 2024. Deepseek-v3 technical report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2412.19437 (2024)."},{"key":"e_1_3_3_1_33_2","doi-asserted-by":"crossref","unstructured":"Bo Liu Yifeng Zhu Chongkai Gao Yihao Feng Qiang Liu Yuke Zhu and Peter Stone. 2023. Libero: Benchmarking knowledge transfer for lifelong robot learning. Advances in Neural Information Processing Systems 36 (2023) 44776\u201344791.","DOI":"10.52202\/075280-1939"},{"key":"e_1_3_3_1_34_2","unstructured":"Jiaming Liu Hao Chen Pengju An Zhuoyang Liu Renrui Zhang Chenyang Gu Xiaoqi Li Ziyu Guo Sixiang Chen Mengzhen Liu et\u00a0al. 2025. Hybridvla: Collaborative diffusion and autoregression in a unified vision-language-action model. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2503.10631 (2025)."},{"key":"e_1_3_3_1_35_2","volume-title":"The Thirteenth International Conference on Learning Representations","author":"Liu Songming","year":"2024","unstructured":"Songming Liu, Lingxuan Wu, Bangguo Li, Hengkai Tan, Huayu Chen, Zhengyi Wang, Ke Xu, Hang Su, and Jun Zhu. 2024. RDT-1B: a Diffusion Foundation Model for Bimanual Manipulation. In The Thirteenth International Conference on Learning Representations."},{"key":"e_1_3_3_1_36_2","unstructured":"Hao Luo Yicheng Feng Wanpeng Zhang Sipeng Zheng Ye Wang Haoqi Yuan Jiazheng Liu Chaoyi Xu Qin Jin and Zongqing Lu. 2025. Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2507.15597 (2025)."},{"key":"e_1_3_3_1_37_2","unstructured":"Ajay Mandlekar Danfei Xu Josiah Wong Soroush Nasiriany Chen Wang Rohun Kulkarni Li Fei-Fei Silvio Savarese Yuke Zhu and Roberto Mart\u00edn-Mart\u00edn. 2021. What matters in learning from offline human demonstrations for robot manipulation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2108.03298 (2021)."},{"key":"e_1_3_3_1_38_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01327"},{"key":"e_1_3_3_1_39_2","unstructured":"NVIDIA Developer Team. 2023. Mastering LLM Techniques: Inference Optimization. https:\/\/developer.nvidia.com\/blog\/mastering-llm-techniques-inference-optimization\/"},{"key":"e_1_3_3_1_40_2","doi-asserted-by":"crossref","unstructured":"Karl Pertsch Kyle Stachowicz Brian Ichter Danny Driess Suraj Nair Quan Vuong Oier Mees Chelsea Finn and Sergey Levine. 2025. Fast: Efficient action tokenization for vision-language-action models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2501.09747 (2025).","DOI":"10.15607\/RSS.2025.XXI.012"},{"key":"e_1_3_3_1_41_2","unstructured":"Delin Qu Haoming Song Qizhi Chen Yuanqi Yao Xinyi Ye Yan Ding Zhigang Wang JiaYuan Gu Bin Zhao Dong Wang et\u00a0al. 2025. Spatialvla: Exploring spatial representations for visual-language-action model. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2501.15830 (2025)."},{"key":"e_1_3_3_1_42_2","unstructured":"Yichao Shen Fangyun Wei Zhiying Du Yaobo Liang Yan Lu Jiaolong Yang Nanning Zheng and Baining Guo. 2025. VideoVLA: Video Generators Can Be Generalizable Robot Manipulators. Advances in neural information processing systems (2025)."},{"key":"e_1_3_3_1_43_2","unstructured":"Zijian Song Qichang Li Jiawei Zhou Zhenlong Yuan Tianshui Chen Liang Lin and Guangrun Wang. 2026. Robotic Manipulation is Vision-to-Geometry Mapping (f(v) \u2192 G): Vision-Geometry Backbones over Language and Video Models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2604.12908 (2026)."},{"key":"e_1_3_3_1_44_2","unstructured":"Zijian Song Xiaoxin Lin Tao Pu Zhenlong Yuan Guangrun Wang and Liang Lin. 2025. Human-Centric Open-Future Task Discovery: Formulation Benchmark and Scalable Tree-Based Search. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2511.18929 (2025)."},{"key":"e_1_3_3_1_45_2","doi-asserted-by":"crossref","unstructured":"Jianlin Su Murtadha Ahmed Yu Lu Shengfeng Pan Wen Bo and Yunfeng Liu. 2024. Roformer: Enhanced transformer with rotary position embedding. Neurocomputing 568 (2024) 127063.","DOI":"10.1016\/j.neucom.2023.127063"},{"key":"e_1_3_3_1_46_2","doi-asserted-by":"crossref","unstructured":"Stone Tao Fanbo Xiang Arth Shukla Yuzhe Qin Xander Hinrichsen Xiaodi Yuan Chen Bao Xinsong Lin Yulin Liu Tse kai Chan Yuan Gao Xuanlin Li Tongzhou Mu Nan Xiao Arnav Gurha Viswesh\u00a0Nagaswamy Rajesh Yong\u00a0Woo Choi Yen-Ru Chen Zhiao Huang Roberto Calandra Rui Chen Shan Luo and Hao Su. 2025. ManiSkill3: GPU Parallelized Robotics Simulation and Rendering for Generalizable Embodied AI. Robotics: Science and Systems (2025).","DOI":"10.15607\/RSS.2025.XXI.021"},{"key":"e_1_3_3_1_47_2","unstructured":"Octo\u00a0Model Team Dibya Ghosh Homer Walke Karl Pertsch Kevin Black Oier Mees Sudeep Dasari Joey Hejna Tobias Kreiman Charles Xu et\u00a0al. 2024. Octo: An open-source generalist robot policy. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2405.12213 (2024)."},{"key":"e_1_3_3_1_48_2","doi-asserted-by":"crossref","unstructured":"Keyu Tian Yi Jiang Zehuan Yuan Bingyue Peng and Liwei Wang. 2024. Visual autoregressive modeling: Scalable image generation via next-scale prediction. Advances in neural information processing systems 37 (2024) 84839\u201384865.","DOI":"10.52202\/079017-2694"},{"key":"e_1_3_3_1_49_2","doi-asserted-by":"crossref","unstructured":"An\u00a0Dinh Vuong Minh\u00a0Nhat Vu Dong An and Ian Reid. 2025. Action Tokenizer Matters in In-Context Imitation Learning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2503.01206 (2025).","DOI":"10.1109\/IROS60139.2025.11246836"},{"key":"e_1_3_3_1_50_2","unstructured":"Yihao Wang Pengxiang Ding Lingxiao Li Can Cui Zirui Ge Xinyang Tong Wenxuan Song Han Zhao Wei Zhao Pengxu Hou et\u00a0al. 2025. Vla-adapter: An effective paradigm for tiny-scale vision-language-action model. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2509.09372 (2025)."},{"key":"e_1_3_3_1_51_2","unstructured":"Yuqi Wang Xinghang Li Wenxuan Wang Junbo Zhang Yingyan Li Yuntao Chen Xinlong Wang and Zhaoxiang Zhang. 2025. Unified Vision-Language-Action Model. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2506.19850 (2025)."},{"key":"e_1_3_3_1_52_2","unstructured":"Junjie Wen Yichen Zhu Jinming Li Zhibin Tang Chaomin Shen and Feifei Feng. 2025. Dexvla: Vision-language model with plug-in diffusion expert for general robot control. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2502.05855 (2025)."},{"key":"e_1_3_3_1_53_2","unstructured":"Junjie Wen Yichen Zhu Jinming Li Minjie Zhu Zhibin Tang Kun Wu Zhiyuan Xu Ning Liu Ran Cheng Chaomin Shen et\u00a0al. 2025. Tinyvla: Towards fast data-efficient vision-language-action models for robotic manipulation. IEEE Robotics and Automation Letters (2025)."},{"key":"e_1_3_3_1_54_2","unstructured":"Hongtao Wu Ya Jing Chilam Cheang Guangzeng Chen Jiafeng Xu Xinghang Li Minghuan Liu Hang Li and Tao Kong. 2023. Unleashing large-scale video generative pre-training for visual robot manipulation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2312.13139 (2023)."},{"key":"e_1_3_3_1_55_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW67362.2025.00628"},{"key":"e_1_3_3_1_56_2","unstructured":"Rongtao Xu Jian Zhang Minghao Guo Youpeng Wen Haoting Yang Min Lin Jianzheng Huang Zhe Li Kaidong Zhang Liqiong Wang et\u00a0al. 2025. A0: An affordance-aware hierarchical model for general robotic manipulation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2504.12636 (2025)."},{"key":"e_1_3_3_1_57_2","unstructured":"Yuanfeng Xu Yuhao Chen Liang Lin and Guangrun Wang. 2026. Bridging the Discrete-Continuous Gap: Unified Multimodal Generation via Coupled Manifold Discrete Absorbing Diffusion. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2601.04056 (2026)."},{"key":"e_1_3_3_1_58_2","unstructured":"An Yang Anfeng Li Baosong Yang Beichen Zhang Binyuan Hui Bo Zheng Bowen Yu Chang Gao Chengen Huang Chenxu Lv et\u00a0al. 2025. Qwen3 technical report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2505.09388 (2025)."},{"key":"e_1_3_3_1_59_2","volume-title":"The Thirteenth International Conference on Learning Representations","author":"Ye Seonghyeon","year":"2025","unstructured":"Seonghyeon Ye, Joel Jang, Byeongguk Jeon, Se\u00a0June Joo, Jianwei Yang, Baolin Peng, Ajay Mandlekar, Reuben Tan, Yu-Wei Chao, Bill\u00a0Yuchen Lin, et\u00a0al. 2025. Latent Action Pretraining from Videos. In The Thirteenth International Conference on Learning Representations."},{"key":"e_1_3_3_1_60_2","unstructured":"Lijun Yu Jos\u00e9 Lezama Nitesh\u00a0B Gundavarapu Luca Versari Kihyuk Sohn David Minnen Yong Cheng Vighnesh Birodkar Agrim Gupta Xiuye Gu et\u00a0al. 2023. Language Model Beats Diffusion\u2013Tokenizer is Key to Visual Generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2310.05737 (2023)."},{"key":"e_1_3_3_1_61_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i7.28512"},{"key":"e_1_3_3_1_62_2","unstructured":"Zhenlong Yuan Chengxuan Qian Jing Tang Rui Chen Zijian Song Lei Sun Xiangxiang Chu Yujun Cai Dapeng Zhang and Shuo Li. 2025. AutoDrive-R2: Incentivizing Reasoning and Self-Reflection Capacity for VLA Model in Autonomous Driving. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2509.01944 (2025)."},{"key":"e_1_3_3_1_63_2","unstructured":"Zhihao Zhan Yuhao Chen Jiaying Zhou Qinhan Lv Hao Liu Keze Wang Liang Lin and Guangrun Wang. 2026. Stable Language Guidance for Vision-Language-Action Models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2601.04052 (2026)."},{"key":"e_1_3_3_1_64_2","unstructured":"Zhihao Zhan Jiaying Zhou Likui Zhang Qinhan Lv Hao Liu Jusheng Zhang Weizheng Li Ziliang Chen Tianshui Chen Keze Wang et\u00a0al. 2025. \\(\\mathcal {E}_0\\): Enhancing Generalization and Fine-Grained Control in VLA Models via Continuized Discrete Diffusion. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2511.21542 (2025)."},{"key":"e_1_3_3_1_65_2","unstructured":"Dapeng Zhang Zhenlong Yuan Zhangquan Chen Chih-Ting Liao Yinda Chen Fei Shen Qingguo Zhou and Tat-Seng Chua. 2025. Reasoning-VLA: A fast and general vision-language-action reasoning model for autonomous driving. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2511.19912 (2025)."},{"key":"e_1_3_3_1_66_2","unstructured":"Wenbo Zhang Tianrun Hu Yanyuan Qiao Hanbo Zhang Yuchu Qin Yang Li Jiajun Liu Tao Kong Lingqiao Liu and Xiao Ma. 2025. Chain-of-Action: Trajectory Autoregressive Modeling for Robotic Manipulation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2506.09990 (2025)."},{"key":"e_1_3_3_1_67_2","unstructured":"Wenyao Zhang Hongsi Liu Zekun Qi Yunnan Wang Xinqiang Yu Jiazhao Zhang Runpei Dong Jiawei He Fan Lu He Wang et\u00a0al. 2025. Dreamvla: a vision-language-action model dreamed with comprehensive world knowledge. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2507.04447 (2025)."},{"key":"e_1_3_3_1_68_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00166"},{"key":"e_1_3_3_1_69_2","doi-asserted-by":"crossref","unstructured":"Tony\u00a0Z Zhao Vikash Kumar Sergey Levine and Chelsea Finn. 2023. Learning fine-grained bimanual manipulation with low-cost hardware. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2304.13705 (2023).","DOI":"10.15607\/RSS.2023.XIX.016"},{"key":"e_1_3_3_1_70_2","unstructured":"Ruijie Zheng Yongyuan Liang Shuaiyi Huang Jianfeng Gao Hal Daum\u00e9\u00a0III Andrey Kolobov Furong Huang and Jianwei Yang. 2024. Tracevla: Visual trace prompting enhances spatial-temporal awareness for generalist robotic policies. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2412.10345 (2024)."},{"key":"e_1_3_3_1_71_2","unstructured":"Zangwei Zheng Xiangyu Peng Tianji Yang Chenhui Shen Shenggui Li Hongxin Liu Yukun Zhou Tianyi Li and Yang You. 2024. Open-sora: Democratizing efficient video production for all. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2412.20404 (2024)."},{"key":"e_1_3_3_1_72_2","unstructured":"Yifan Zhong Xuchuan Huang Ruochong Li Ceyao Zhang Yitao Liang Yaodong Yang and Yuanpei Chen. 2025. Dexgraspvla: A vision-language-action framework towards general dexterous grasping. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2502.20900 (2025)."},{"key":"e_1_3_3_1_73_2","unstructured":"Chuning Zhu Raymond Yu Siyuan Feng Benjamin Burchfiel Paarth Shah and Abhishek Gupta. 2025. Unified world models: Coupling video and action diffusion for pretraining on large robotic datasets. Robotics: Science and Systems (2025)."},{"key":"e_1_3_3_1_74_2","first-page":"2165","volume-title":"Conference on Robot Learning","author":"Zitkovich Brianna","year":"2023","unstructured":"Brianna Zitkovich, Tianhe Yu, Sichun Xu, Peng Xu, Ted Xiao, Fei Xia, Jialin Wu, Paul Wohlhart, Stefan Welker, Ayzaan Wahid, et\u00a0al. 2023. Rt-2: Vision-language-action models transfer web knowledge to robotic control. In Conference on Robot Learning. PMLR, 2165\u20132183."}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:32:47Z","timestamp":1781537567000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810752"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":73,"alternative-id":["10.1145\/3805622.3810752","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810752","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}