{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T04:05:16Z","timestamp":1765339516388,"version":"3.46.0"},"publisher-location":"New York, NY, USA","reference-count":72,"publisher":"ACM","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,27]]},"DOI":"10.1145\/3746027.3754880","type":"proceedings-article","created":{"date-parts":[[2025,10,25]],"date-time":"2025-10-25T06:55:00Z","timestamp":1761375300000},"page":"3280-3289","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Building Embodied EvoAgent: A Brain-inspired Paradigm for Bridging Multimodal Large Models and World Models"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-8105-5497","authenticated-orcid":false,"given":"Junyu","family":"Gao","sequence":"first","affiliation":[{"name":"State Key Laboratory of Multimodal Artificial Intelligence Systems (MAIS), Institute of Automation, Chinese Academy of Sciences, Beijing, China and School of Artificial Intelligence, University of Chinese Academy of Sciences (UCAS), Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-8115-3954","authenticated-orcid":false,"given":"Xuan","family":"Yao","sequence":"additional","affiliation":[{"name":"State Key Laboratory of Multimodal Artificial Intelligence Systems (MAIS), Institute of Automation, Chinese Academy of Sciences, Beijing, China and School of Artificial Intelligence, University of Chinese Academy of Sciences (UCAS), Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9142-5914","authenticated-orcid":false,"given":"Yong","family":"Rui","sequence":"additional","affiliation":[{"name":"Lenovo Research, Lenovo Group Ltd., Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8343-9665","authenticated-orcid":false,"given":"Changsheng","family":"Xu","sequence":"additional","affiliation":[{"name":"Institute of Automation, Chinese Academy of Sciences, Beijing, China, School of Artificial Intelligence, University of Chinese Academy of Sciences (UCAS), Beijing, China, and Peng Cheng Laboratory, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,10,27]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al.","author":"Achiam Josh","year":"2023","unstructured":"Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al., 2023. Gpt-4 technical report. arXiv preprint arXiv:2303.08774 (2023)."},{"key":"e_1_3_2_1_2_1","volume-title":"Bevbert: Multimodal map pre-training for language-guided navigation. arXiv preprint arXiv:2212.04385","author":"An Dong","year":"2022","unstructured":"Dong An, Yuankai Qi, Yangguang Li, Yan Huang, Liang Wang, Tieniu Tan, and Jing Shao. 2022. Bevbert: Multimodal map pre-training for language-guided navigation. arXiv preprint arXiv:2212.04385 (2022)."},{"key":"e_1_3_2_1_3_1","first-page":"3674","article-title":"Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments","author":"Anderson Peter","year":"2018","unstructured":"Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko S\u00fcnderhauf, Ian Reid, Stephen Gould, and Anton Van Den Hengel. 2018. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR. 3674-3683.","journal-title":"CVPR."},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"crossref","unstructured":"Mahmoud Assran Quentin Duval Ishan Misra Piotr Bojanowski Pascal Vincent Michael Rabbat Yann LeCun and Nicolas Ballas. 2023. Self-supervised learning from images with a joint-embedding predictive architecture. In CVPR.","DOI":"10.1109\/CVPR52729.2023.01499"},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"crossref","unstructured":"Daichi Azuma Taiki Miyanishi Shuhei Kurita and Motoaki Kawanabe. 2022. Scanqa: 3d question answering for spatial scene understanding. In CVPR.","DOI":"10.1109\/CVPR52688.2022.01854"},{"key":"e_1_3_2_1_6_1","volume-title":"Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966","author":"Bai Jinze","year":"2023","unstructured":"Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. 2023. Qwen-vl: A frontier large vision-language model with versatile abilities. arXiv preprint arXiv:2308.12966 (2023)."},{"key":"e_1_3_2_1_7_1","unstructured":"Yuntao Bai Saurav Kadavath Sandipan Kundu Amanda Askell Jackson Kernion Andy Jones Anna Chen Anna Goldie Azalia Mirhoseini Cameron McKinnon et al. 2022. Constitutional ai: Harmlessness from ai feedback. arXiv preprint arXiv:2212.08073 (2022)."},{"key":"e_1_3_2_1_8_1","volume-title":"Mc-jepa: A joint-embedding predictive architecture for self-supervised learning of motion and content features. arXiv preprint arXiv:2307.12698","author":"Bardes Adrien","year":"2023","unstructured":"Adrien Bardes, Jean Ponce, and Yann LeCun. 2023. Mc-jepa: A joint-embedding predictive architecture for self-supervised learning of motion and content features. arXiv preprint arXiv:2307.12698 (2023)."},{"key":"e_1_3_2_1_9_1","unstructured":"Anthony Brohan Noah Brown Justice Carbajal Yevgen Chebotar Xi Chen Krzysztof Choromanski Tianli Ding Danny Driess Avinava Dubey Chelsea Finn et al. 2023. Rt-2: Vision-language-action models transfer web knowledge to robotic control. arXiv preprint arXiv:2307.15818 (2023)."},{"key":"e_1_3_2_1_10_1","unstructured":"Tom Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared D Kaplan Prafulla Dhariwal Arvind Neelakantan Pranav Shyam Girish Sastry Amanda Askell et al. 2020. Language models are few-shot learners. NeurIPS (2020)."},{"key":"e_1_3_2_1_11_1","volume-title":"Genie: Generative interactive environments. In ICML.","author":"Bruce Jake","year":"2024","unstructured":"Jake Bruce, Michael D Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, et al., 2024. Genie: Generative interactive environments. In ICML."},{"key":"e_1_3_2_1_12_1","volume-title":"History aware multimodal transformer for vision-and-language navigation. NeurIPS","author":"Chen Shizhe","year":"2021","unstructured":"Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, and Ivan Laptev. 2021. History aware multimodal transformer for vision-and-language navigation. NeurIPS (2021)."},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"crossref","unstructured":"Shizhe Chen Pierre-Louis Guhur Makarand Tapaswi Cordelia Schmid and Ivan Laptev. 2022. Think global act local: Dual-scale graph transformer for vision-and-language navigation. In CVPR.","DOI":"10.1109\/CVPR52688.2022.01604"},{"key":"e_1_3_2_1_14_1","volume-title":"Fei Richard Yu, and Qingquan Li","author":"Chen Shoubin","year":"2025","unstructured":"Shoubin Chen, Zehao Wu, Kai Zhang, Chunyu Li, Baiyang Zhang, Fei Ma, Fei Richard Yu, and Qingquan Li. 2025. Exploring Embodied Multimodal Large Models: Development, Datasets, and Future Directions. arXiv preprint arXiv:2502.15336 (2025)."},{"key":"e_1_3_2_1_15_1","volume-title":"Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, et al.","author":"Driess Danny","year":"2023","unstructured":"Danny Driess, Fei Xia, Mehdi SM Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid, Jonathan Tompson, Quan Vuong, Tianhe Yu, et al., 2023. PaLM-E: An Embodied Multimodal Language Model. In ICML."},{"key":"e_1_3_2_1_16_1","volume-title":"Joshua B Julian, and Hugo J Spiers.","author":"Epstein Russell A","year":"2017","unstructured":"Russell A Epstein, Eva Zita Patai, Joshua B Julian, and Hugo J Spiers. 2017. The cognitive map in humans: spatial navigation and beyond. Nature neuroscience, Vol. 20, 11 (2017), 1504-1513."},{"key":"e_1_3_2_1_17_1","volume-title":"World model learning and inference. Neural Networks","author":"Friston Karl","year":"2021","unstructured":"Karl Friston, Rosalyn J Moran, Yukie Nagai, Tadahiro Taniguchi, Hiroaki Gomi, and Josh Tenenbaum. 2021. World model learning and inference. Neural Networks (2021)."},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2025.3546312"},{"key":"e_1_3_2_1_19_1","unstructured":"Junyu Gao Xuan Yao and Changsheng Xu. 2024. Fast-Slow Test-Time Adaptation for Online Vision-and-Language Navigation. In ICML."},{"key":"e_1_3_2_1_20_1","volume-title":"Learning and leveraging world models in visual representation learning. arXiv preprint arXiv:2403.00504","author":"Garrido Quentin","year":"2024","unstructured":"Quentin Garrido, Mahmoud Assran, Nicolas Ballas, Adrien Bardes, Laurent Najman, and Yann LeCun. 2024. Learning and leveraging world models in visual representation learning. arXiv preprint arXiv:2403.00504 (2024)."},{"key":"e_1_3_2_1_21_1","volume-title":"Brain lateralization: a comparative perspective. Physiological reviews","author":"G\u00fcnt\u00fcrk\u00fcn Onur","year":"2020","unstructured":"Onur G\u00fcnt\u00fcrk\u00fcn, Felix Str\u00f6ckens, and Sebastian Ocklenburg. 2020. Brain lateralization: a comparative perspective. Physiological reviews (2020)."},{"key":"e_1_3_2_1_22_1","volume-title":"Embodied intelligence via learning and evolution. Nature communications","author":"Gupta Agrim","year":"2021","unstructured":"Agrim Gupta, Silvio Savarese, Surya Ganguli, and Li Fei-Fei. 2021. Embodied intelligence via learning and evolution. Nature communications, Vol. 12, 1 (2021), 5721."},{"key":"e_1_3_2_1_23_1","volume-title":"Recurrent world models facilitate policy evolution. NeurIPS","author":"Ha David","year":"2018","unstructured":"David Ha and J\u00fcrgen Schmidhuber. 2018a. Recurrent world models facilitate policy evolution. NeurIPS (2018)."},{"key":"e_1_3_2_1_24_1","volume-title":"World models. arXiv preprint arXiv:1803.10122","author":"Ha David","year":"2018","unstructured":"David Ha and J\u00fcrgen Schmidhuber. 2018b. World models. arXiv preprint arXiv:1803.10122 (2018)."},{"key":"e_1_3_2_1_25_1","unstructured":"Danijar Hafner Timothy Lillicrap Jimmy Ba and Mohammad Norouzi. 2020. Dream to Control: Learning Behaviors by Latent Imagination. In ICLR."},{"key":"e_1_3_2_1_26_1","volume-title":"Mastering diverse domains through world models. arXiv preprint arXiv:2301.04104","author":"Hafner Danijar","year":"2023","unstructured":"Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, and Timothy Lillicrap. 2023. Mastering diverse domains through world models. arXiv preprint arXiv:2301.04104 (2023)."},{"key":"e_1_3_2_1_27_1","volume-title":"RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation. arXiv preprint arXiv:2412.08591","author":"Han Mingfei","year":"2024","unstructured":"Mingfei Han, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, and Ivan Laptev. 2024. RoomTour3D: Geometry-Aware Video-Instruction Tuning for Embodied Navigation. arXiv preprint arXiv:2412.08591 (2024)."},{"key":"e_1_3_2_1_28_1","volume-title":"3d-llm: Injecting the 3d world into large language models. NeurIPS","author":"Hong Yining","year":"2023","unstructured":"Yining Hong, Haoyu Zhen, Peihao Chen, Shuhong Zheng, Yilun Du, Zhenfang Chen, and Chuang Gan. 2023. 3d-llm: Injecting the 3d world into large language models. NeurIPS (2023)."},{"key":"e_1_3_2_1_29_1","volume-title":"Multiply: A multisensory object-centric embodied large language model in 3d world. In CVPR.","author":"Hong Yining","year":"2024","unstructured":"Yining Hong, Zishuo Zheng, Peihao Chen, Yian Wang, Junyan Li, and Chuang Gan. 2024. Multiply: A multisensory object-centric embodied large language model in 3d world. In CVPR."},{"key":"e_1_3_2_1_30_1","volume-title":"Gaia-1: A generative world model for autonomous driving. arXiv preprint arXiv:2309.17080","author":"Hu Anthony","year":"2023","unstructured":"Anthony Hu, Lloyd Russell, Hudson Yeo, Zak Murez, George Fedoseev, Alex Kendall, Jamie Shotton, and Gianluca Corrado. 2023b. Gaia-1: A generative world model for autonomous driving. arXiv preprint arXiv:2309.17080 (2023)."},{"key":"e_1_3_2_1_31_1","volume-title":"Look before you leap: Unveiling the power of gpt-4v in robotic vision-language planning. arXiv preprint arXiv:2311.17842","author":"Hu Yingdong","year":"2023","unstructured":"Yingdong Hu, Fanqi Lin, Tong Zhang, Li Yi, and Yang Gao. 2023a. Look before you leap: Unveiling the power of gpt-4v in robotic vision-language planning. arXiv preprint arXiv:2311.17842 (2023)."},{"key":"e_1_3_2_1_32_1","first-page":"232","volume-title":"Nature","volume":"498","author":"Hunt Karen A","year":"2013","unstructured":"Karen A Hunt, Vanisha Mistry, Nicholas A Bockett, Tariq Ahmad, Maria Ban, Jonathan N Barker, Jeffrey C Barrett, Hannah Blackburn, Oliver Brand, Oliver Burren, et al., 2013. Negligible impact of rare autoimmune-locus coding-region variants on missing heritability. Nature, Vol. 498, 7453 (2013), 232-235."},{"key":"e_1_3_2_1_33_1","volume-title":"The architecture of functional lateralisation and its relationship to callosal connectivity in the human brain. Nature communications","author":"Karolis Vyacheslav R","year":"2019","unstructured":"Vyacheslav R Karolis, Maurizio Corbetta, and Michel Thiebaut de Schotten. 2019. The architecture of functional lateralisation and its relationship to callosal connectivity in the human brain. Nature communications, Vol. 10, 1 (2019), 1417."},{"key":"e_1_3_2_1_34_1","volume-title":"OpenVLA: An Open-Source Vision-Language-Action Model. In 8th Annual Conference on Robot Learning.","author":"Kim Moo Jin","year":"2024","unstructured":"Moo Jin Kim, Karl Pertsch, Siddharth Karamcheti, Ted Xiao, Ashwin Balakrishna, Suraj Nair, Rafael Rafailov, Ethan P Foster, Pannag R Sanketi, Quan Vuong, et al., 2024. OpenVLA: An Open-Source Vision-Language-Action Model. In 8th Annual Conference on Robot Learning."},{"key":"e_1_3_2_1_35_1","unstructured":"Diederik P Kingma Max Welling et al. 2013. Auto-encoding variational bayes."},{"key":"e_1_3_2_1_36_1","volume-title":"Llava-onevision: Easy visual task transfer. arXiv preprint arXiv:2408.03326","author":"Li Bo","year":"2024","unstructured":"Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Peiyuan Zhang, Yanwei Li, Ziwei Liu, et al., 2024. Llava-onevision: Easy visual task transfer. arXiv preprint arXiv:2408.03326 (2024)."},{"key":"e_1_3_2_1_37_1","volume-title":"Aligning cyber space with physical world: A comprehensive survey on embodied ai. arXiv preprint arXiv:2407.06886","author":"Liu Yang","year":"2024","unstructured":"Yang Liu, Weixing Chen, Yongjie Bai, Xiaodan Liang, Guanbin Li, Wen Gao, and Liang Lin. 2024. Aligning cyber space with physical world: A comprehensive survey on embodied ai. arXiv preprint arXiv:2407.06886 (2024)."},{"key":"e_1_3_2_1_38_1","unstructured":"Haoyu Lu Wen Liu Bo Zhang Bingxuan Wang Kai Dong Bo Liu Jingxiang Sun Tongzheng Ren Zhuoshu Li Hao Yang et al. 2024. Deepseek-vl: towards real-world vision-language understanding. arXiv preprint arXiv:2403.05525 (2024)."},{"key":"e_1_3_2_1_39_1","volume-title":"A survey on vision-language-action models for embodied ai. arXiv preprint arXiv:2405.14093","author":"Ma Yueen","year":"2024","unstructured":"Yueen Ma, Zixing Song, Yuzheng Zhuang, Jianye Hao, and Irwin King. 2024. A survey on vision-language-action models for embodied ai. arXiv preprint arXiv:2405.14093 (2024)."},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.1109\/IROS47612.2022.9981405"},{"key":"e_1_3_2_1_41_1","unstructured":"Abby O'Neill Abdul Rehman Abhiram Maddukuri Abhishek Gupta Abhishek Padalkar Abraham Lee Acorn Pooley Agrim Gupta Ajay Mandlekar Ajinkya Jain et al. 2024. Open x-embodiment: Robotic learning datasets and rt-x models: Open x-embodiment collaboration 0. In ICRA."},{"key":"e_1_3_2_1_42_1","volume-title":"Instruction tuning with gpt-4. arXiv preprint arXiv:2304.03277","author":"Peng Baolin","year":"2023","unstructured":"Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, and Jianfeng Gao. 2023. Instruction tuning with gpt-4. arXiv preprint arXiv:2304.03277 (2023)."},{"key":"e_1_3_2_1_43_1","volume-title":"The corpus callosum and the visual cortex: plasticity is a game for two. Neural plasticity","author":"Pietrasanta Marta","year":"2012","unstructured":"Marta Pietrasanta, Laura Restani, and Matteo Caleo. 2012. The corpus callosum and the visual cortex: plasticity is a game for two. Neural plasticity, Vol. 2012, 1 (2012), 838672."},{"key":"e_1_3_2_1_44_1","first-page":"9982","article-title":"Reverie: Remote embodied visual referring expression in real indoor environments","author":"Qi Yuankai","year":"2020","unstructured":"Yuankai Qi, Qi Wu, Peter Anderson, Xin Wang, William Yang Wang, Chunhua Shen, and Anton van den Hengel. 2020. Reverie: Remote embodied visual referring expression in real indoor environments. In CVPR. 9982-9991.","journal-title":"CVPR."},{"key":"e_1_3_2_1_45_1","doi-asserted-by":"crossref","unstructured":"Yanyuan Qiao Zheng Yu and Qi Wu. 2023. VLN-PETL: parameter-efficient transfer learning for vision-and-language navigation. In ICCV.","DOI":"10.1109\/ICCV51070.2023.01416"},{"key":"e_1_3_2_1_46_1","volume-title":"Transformer-based world models are happy with 100k interactions. arXiv preprint arXiv:2303.07109","author":"Robine Jan","year":"2023","unstructured":"Jan Robine, Marc H\u00f6ftmann, Tobias Uelwer, and Stefan Harmeling. 2023. Transformer-based world models are happy with 100k interactions. arXiv preprint arXiv:2303.07109 (2023)."},{"key":"e_1_3_2_1_47_1","volume-title":"Gnm: A general navigation model to drive any robot. In ICRA.","author":"Shah Dhruv","year":"2023","unstructured":"Dhruv Shah, Ajay Sridhar, Arjun Bhorkar, Noriaki Hirose, and Sergey Levine. 2023. Gnm: A general navigation model to drive any robot. In ICRA."},{"volume-title":"Embodied cognition","author":"Shapiro Lawrence","key":"e_1_3_2_1_48_1","unstructured":"Lawrence Shapiro. 2019. Embodied cognition. Routledge."},{"key":"e_1_3_2_1_49_1","unstructured":"Gautam Singh Skand Peri Junghyun Kim Hyunseok Kim and Sungjin Ahn. 2021. Structured world belief for reinforcement learning in pomdp. In ICML."},{"key":"e_1_3_2_1_50_1","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-141-3.50030-4"},{"key":"e_1_3_2_1_51_1","unstructured":"Gemini Team Rohan Anil Sebastian Borgeaud Jean-Baptiste Alayrac Jiahui Yu Radu Soricut Johan Schalkwyk Andrew M Dai Anja Hauth Katie Millican et al. 2023. Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805 (2023)."},{"key":"e_1_3_2_1_52_1","volume-title":"Conference on Robot Learning. 394-406","author":"Thomason Jesse","year":"2020","unstructured":"Jesse Thomason, Michael Murray, Maya Cakmak, and Luke Zettlemoyer. 2020. Vision-and-dialog navigation. In Conference on Robot Learning. 394-406."},{"key":"e_1_3_2_1_53_1","volume-title":"Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971","author":"Touvron Hugo","year":"2023","unstructured":"Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timoth\u00e9e Lacroix, Baptiste Rozi\u00e8re, Naman Goyal, Eric Hambro, Faisal Azhar, et al., 2023. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971 (2023)."},{"key":"e_1_3_2_1_54_1","volume-title":"Repvit: Revisiting mobile cnn from vit perspective. In CVPR.","author":"Wang Ao","year":"2024","unstructured":"Ao Wang, Hui Chen, Zijia Lin, Jungong Han, and Guiguang Ding. 2024a. Repvit: Revisiting mobile cnn from vit perspective. In CVPR."},{"key":"e_1_3_2_1_55_1","volume-title":"Luc Van Gool, and Wenguan Wang","author":"Wang Hanqing","year":"2023","unstructured":"Hanqing Wang, Wei Liang, Luc Van Gool, and Wenguan Wang. 2023. Dreamwalker: Mental planning for continuous vision-language navigation. In ICCV."},{"key":"e_1_3_2_1_56_1","volume-title":"Large language models for robotics: Opportunities, challenges, and perspectives. Journal of Automation and Intelligence","author":"Wang Jiaqi","year":"2024","unstructured":"Jiaqi Wang, Enze Shi, Huawen Hu, Chong Ma, Yiheng Liu, Xuhui Wang, Yincheng Yao, Xuan Liu, Bao Ge, and Shu Zhang. 2024d. Large language models for robotics: Opportunities, challenges, and perspectives. Journal of Automation and Intelligence (2024)."},{"key":"e_1_3_2_1_57_1","volume-title":"Cogvlm: Visual expert for pretrained language models. NeurIPS","author":"Wang Weihan","year":"2024","unstructured":"Weihan Wang, Qingsong Lv, Wenmeng Yu, Wenyi Hong, Ji Qi, Yan Wang, Junhui Ji, Zhuoyi Yang, Lei Zhao, Song XiXuan, et al., 2024c. Cogvlm: Visual expert for pretrained language models. NeurIPS (2024)."},{"key":"e_1_3_2_1_58_1","doi-asserted-by":"crossref","unstructured":"Yuqi Wang Jiawei He Lue Fan Hongxin Li Yuntao Chen and Zhaoxiang Zhang. 2024b. Driving into the future: Multiview visual forecasting and planning with world model for autonomous driving. In CVPR.","DOI":"10.1109\/CVPR52733.2024.01397"},{"key":"e_1_3_2_1_59_1","volume-title":"NeurIPS","volume":"37","author":"Wu Jialong","year":"2024","unstructured":"Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye Hao, and Mingsheng Long. 2024. ivideogpt: Interactive videogpts are scalable world models. NeurIPS, Vol. 37 (2024)."},{"key":"e_1_3_2_1_60_1","volume-title":"Conference on robot learning.","author":"Wu Philipp","year":"2023","unstructured":"Philipp Wu, Alejandro Escontrela, Danijar Hafner, Pieter Abbeel, and Ken Goldberg. 2023. Daydreamer: World models for physical robot learning. In Conference on robot learning."},{"key":"e_1_3_2_1_61_1","volume-title":"A survey on robotics with foundation models: toward embodied ai. arXiv preprint arXiv:2402.02385","author":"Xu Zhiyuan","year":"2024","unstructured":"Zhiyuan Xu, Kun Wu, Junjie Wen, Jinming Li, Ning Liu, Zhengping Che, and Jian Tang. 2024. A survey on robotics with foundation models: toward embodied ai. arXiv preprint arXiv:2402.02385 (2024)."},{"key":"e_1_3_2_1_62_1","volume-title":"Octopus: Embodied vision-language programmer from environmental feedback. In ECCV.","author":"Yang Jingkang","year":"2024","unstructured":"Jingkang Yang, Yuhao Dong, Shuai Liu, Bo Li, Ziyue Wang, Haoran Tan, Chencheng Jiang, Jiamu Kang, Yuanhan Zhang, Kaiyang Zhou, et al., 2024a. Octopus: Embodied vision-language programmer from environmental feedback. In ECCV."},{"key":"e_1_3_2_1_63_1","volume-title":"Thinking in space: How multimodal large language models see, remember, and recall spaces. arXiv preprint arXiv:2412.14171","author":"Yang Jihan","year":"2024","unstructured":"Jihan Yang, Shusheng Yang, Anjali W Gupta, Rilyn Han, Li Fei-Fei, and Saining Xie. 2024b. Thinking in space: How multimodal large language models see, remember, and recall spaces. arXiv preprint arXiv:2412.14171 (2024)."},{"key":"e_1_3_2_1_64_1","volume-title":"Marziyeh Movahedi, Manling Li, et al.","author":"Yang Rui","year":"2025","unstructured":"Rui Yang, Hanyang Chen, Junyu Zhang, Mark Zhao, Cheng Qian, Kangrui Wang, Qineng Wang, Teja Venkat Koripella, Marziyeh Movahedi, Manling Li, et al., 2025. EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents. arXiv preprint arXiv:2502.09560 (2025)."},{"key":"e_1_3_2_1_65_1","volume-title":"Uni-NaVid: A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks. arXiv preprint arXiv:2412.06224","author":"Zhang Jiazhao","year":"2024","unstructured":"Jiazhao Zhang, Kunyu Wang, Shaoan Wang, Minghan Li, Haoran Liu, Songlin Wei, Zhongyuan Wang, Zhizheng Zhang, and He Wang. 2024b. Uni-NaVid: A Video-based Vision-Language-Action Model for Unifying Embodied Navigation Tasks. arXiv preprint arXiv:2412.06224 (2024)."},{"key":"e_1_3_2_1_66_1","unstructured":"Pan Zhang Xiaoyi Dong Yuhang Zang Yuhang Cao Rui Qian Lin Chen Qipeng Guo Haodong Duan Bin Wang Linke Ouyang et al. 2024a. Internlm-xcomposer-2.5: A versatile large vision language model supporting long-contextual input and output. arXiv preprint arXiv:2407.03320 (2024)."},{"key":"e_1_3_2_1_67_1","volume-title":"Storm: Efficient stochastic transformer based world models for reinforcement learning. NeurIPS","author":"Zhang Weipu","year":"2023","unstructured":"Weipu Zhang, Gang Wang, Jian Sun, Yetian Yuan, and Gao Huang. 2023. Storm: Efficient stochastic transformer based world models for reinforcement learning. NeurIPS (2023)."},{"key":"e_1_3_2_1_68_1","unstructured":"Haoyu Zhen Xiaowen Qiu Peihao Chen Jincheng Yang Xin Yan Yilun Du Yining Hong and Chuang Gan. 2024. 3D-VLA: A 3D Vision-Language-Action Generative World Model. In ICML."},{"key":"e_1_3_2_1_69_1","doi-asserted-by":"crossref","unstructured":"Duo Zheng Shijia Huang Lin Zhao Yiwu Zhong and Liwei Wang. 2024b. Towards learning a generalist model for embodied navigation. In CVPR.","DOI":"10.1109\/CVPR52733.2024.01293"},{"key":"e_1_3_2_1_70_1","volume-title":"Occworld: Learning a 3d occupancy world model for autonomous driving. In ECCV.","author":"Zheng Wenzhao","year":"2024","unstructured":"Wenzhao Zheng, Weiliang Chen, Yuanhui Huang, Borui Zhang, Yueqi Duan, and Jiwen Lu. 2024a. Occworld: Learning a 3d occupancy world model for autonomous driving. In ECCV."},{"key":"e_1_3_2_1_71_1","doi-asserted-by":"crossref","unstructured":"Zikang Zhou Jianping Wang Yung-Hui Li and Yu-Kai Huang. 2023. Query-centric trajectory prediction. In CVPR.","DOI":"10.1109\/CVPR52729.2023.01713"},{"key":"e_1_3_2_1_72_1","first-page":"12689","article-title":"Soon: Scenario oriented object navigation with graph-based exploration","author":"Zhu Fengda","year":"2021","unstructured":"Fengda Zhu, Xiwen Liang, Yi Zhu, Qizhi Yu, Xiaojun Chang, and Xiaodan Liang. 2021. Soon: Scenario oriented object navigation with graph-based exploration. In CVPR. 12689-12699.","journal-title":"CVPR."}],"event":{"name":"MM '25: The 33rd ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Dublin Ireland","acronym":"MM '25"},"container-title":["Proceedings of the 33rd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746027.3754880","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T04:02:19Z","timestamp":1765339339000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746027.3754880"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,27]]},"references-count":72,"alternative-id":["10.1145\/3746027.3754880","10.1145\/3746027"],"URL":"https:\/\/doi.org\/10.1145\/3746027.3754880","relation":{},"subject":[],"published":{"date-parts":[[2025,10,27]]},"assertion":[{"value":"2025-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}