{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,24]],"date-time":"2026-01-24T02:36:16Z","timestamp":1769222176908,"version":"3.49.0"},"publisher-location":"New York, NY, USA","reference-count":54,"publisher":"ACM","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,12,9]]},"DOI":"10.1145\/3769748.3773345","type":"proceedings-article","created":{"date-parts":[[2025,12,8]],"date-time":"2025-12-08T10:33:15Z","timestamp":1765189995000},"page":"1-8","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["A Survey on Future Physical World Generation for Autonomous Driving"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0007-7073-4113","authenticated-orcid":false,"given":"Jianling","family":"Chu","sequence":"first","affiliation":[{"name":"Hefei University of Technology, Hefei, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-4493-6025","authenticated-orcid":false,"given":"Zerun","family":"Liu","sequence":"additional","affiliation":[{"name":"Hefei University of Technology, Hefei, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-9208-1895","authenticated-orcid":false,"given":"Huanran","family":"Huo","sequence":"additional","affiliation":[{"name":"Hefei University of Technology, Hefei, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-0672-397X","authenticated-orcid":false,"given":"Jinyuan","family":"Qin","sequence":"additional","affiliation":[{"name":"Hefei University of Technology, Hefei, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1968-601X","authenticated-orcid":false,"given":"Yantao","family":"Pan","sequence":"additional","affiliation":[{"name":"Chery, Hefei, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7546-9052","authenticated-orcid":false,"given":"Lechao","family":"Cheng","sequence":"additional","affiliation":[{"name":"Hefei University of Technology, Hefei, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,12,8]]},"reference":[{"key":"e_1_3_3_1_2_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01373"},{"key":"e_1_3_3_1_3_2","volume-title":"ICLR","author":"Bian Hengwei","year":"2025","unstructured":"Hengwei Bian, Lingdong Kong, Haozhe Xie, Liang Pan, Yu Qiao, and Ziwei Liu. 2025. Dynamiccity: Large-scale 4d occupancy generation from dynamic scenes. In ICLR."},{"key":"e_1_3_3_1_4_2","doi-asserted-by":"publisher","DOI":"10.1109\/IROS40897.2019.8968535"},{"key":"e_1_3_3_1_5_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01164"},{"key":"e_1_3_3_1_6_2","unstructured":"Junliang Chen Huaiyuan Xu Yi Wang and Lap-Pui Chau. 2025. Occprophet: Pushing efficiency frontier of camera-only 4d occupancy forecasting with observer-forecaster-refiner framework. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2502.15180 (2025)."},{"key":"e_1_3_3_1_7_2","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2010.5652494"},{"key":"e_1_3_3_1_8_2","unstructured":"Tuo Feng Wenguan Wang and Yi Yang. 2025. A survey of world models for autonomous driving. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2501.11260 (2025)."},{"key":"e_1_3_3_1_9_2","doi-asserted-by":"crossref","unstructured":"Shenyuan Gao Jiazhi Yang Li Chen Kashyap Chitta Yihang Qiu Andreas Geiger Jun Zhang and Hongyang Li. 2024. Vista: A generalizable driving world model with high fidelity and versatile controllability. Advances in Neural Information Processing Systems 37 (2024) 91560\u201391596.","DOI":"10.52202\/079017-2906"},{"key":"e_1_3_3_1_10_2","unstructured":"Songen Gu Wei Yin Bu Jin Xiaoyang Guo Junming Wang Haodong Li Qian Zhang and Xiaoxiao Long. 2024. Dome: Taming diffusion model into high-fidelity controllable occupancy world model. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2410.10429 (2024)."},{"key":"e_1_3_3_1_11_2","doi-asserted-by":"crossref","unstructured":"Yulan Guo Hanyun Wang Qingyong Hu Hao Liu Li Liu and Mohammed Bennamoun. 2020. Deep learning for 3d point clouds: A survey. IEEE transactions on pattern analysis and machine intelligence 43 12 (2020) 4338\u20134364.","DOI":"10.1109\/TPAMI.2020.3005434"},{"key":"e_1_3_3_1_12_2","first-page":"177","volume-title":"European Conference on Computer Vision","author":"Hamdan Shadi","year":"2024","unstructured":"Shadi Hamdan and Fatma G\u00fcney. 2024. Carformer: Self-driving with learned object-centric representations. In European Conference on Computer Vision. Springer, 177\u2013193."},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02087"},{"key":"e_1_3_3_1_14_2","unstructured":"Anthony Hu Lloyd Russell Hudson Yeo Zak Murez George Fedoseev Alex Kendall Jamie Shotton and Gianluca Corrado. 2023. Gaia-1: A generative world model for autonomous driving. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2309.17080 (2023)."},{"key":"e_1_3_3_1_15_2","first-page":"115","volume-title":"European Conference on Computer Vision","author":"Hu Qianjiang","year":"2024","unstructured":"Qianjiang Hu, Zhimin Zhang, and Wei Hu. 2024. Rangeldm: Fast realistic lidar point cloud generation. In European Conference on Computer Vision. Springer, 115\u2013135."},{"key":"e_1_3_3_1_16_2","unstructured":"Junjie Huang Guan Huang Zheng Zhu Yun Ye and Dalong Du. 2021. Bevdet: High-performance multi-camera 3d object detection in bird-eye-view. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2112.11790 (2021)."},{"key":"e_1_3_3_1_17_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01672"},{"key":"e_1_3_3_1_18_2","first-page":"376","volume-title":"European Conference on Computer Vision","author":"Huang Yuanhui","year":"2024","unstructured":"Yuanhui Huang, Wenzhao Zheng, Yunpeng Zhang, Jie Zhou, and Jiwen Lu. 2024. Gaussianformer: Scene as gaussians for vision-based 3d semantic occupancy prediction. In European Conference on Computer Vision. Springer, 376\u2013393."},{"key":"e_1_3_3_1_19_2","first-page":"195","volume-title":"European Conference on Computer Vision","author":"Huang Zanming","year":"2024","unstructured":"Zanming Huang, Jimuyang Zhang, and Eshed Ohn-Bar. 2024. Neural volumetric world models for autonomous driving. In European Conference on Computer Vision. Springer, 195\u2013213."},{"key":"e_1_3_3_1_20_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00359"},{"key":"e_1_3_3_1_21_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00114"},{"key":"e_1_3_3_1_22_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01118"},{"key":"e_1_3_3_1_23_2","unstructured":"Xiang Li Pengfei Li Yupeng Zheng Wei Sun Yan Wang and Yilun Chen. 2025. Semi-supervised vision-centric 3d occupancy world model for autonomous driving. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2502.07309 (2025)."},{"key":"e_1_3_3_1_24_2","unstructured":"Xiaofan Li Chenming Wu Zhao Yang Zhihao Xu Dingkang Liang Yumeng Zhang Ji Wan and Jun Wang. 2025. DriVerse: Navigation World Model for Driving Simulation via Multimodal Trajectory Prompting and Motion Alignment. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2504.18576 (2025)."},{"key":"e_1_3_3_1_25_2","first-page":"469","volume-title":"European Conference on Computer Vision","author":"Li Xiaofan","year":"2024","unstructured":"Xiaofan Li, Yifu Zhang, and Xiaoqing Ye. 2024. DrivingDiffusion: layout-guided multi-view driving scenarios video generation with latent diffusion model. In European Conference on Computer Vision. Springer, 469\u2013485."},{"key":"e_1_3_3_1_26_2","doi-asserted-by":"publisher","DOI":"10.1109\/IROS58592.2024.10801302"},{"key":"e_1_3_3_1_27_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02030"},{"key":"e_1_3_3_1_28_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01118"},{"key":"e_1_3_3_1_29_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01470"},{"key":"e_1_3_3_1_30_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00153"},{"key":"e_1_3_3_1_31_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02085"},{"key":"e_1_3_3_1_32_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00387"},{"key":"e_1_3_3_1_33_2","unstructured":"Tim Salimans Ian Goodfellow Wojciech Zaremba Vicki Cheung Alec Radford and Xi Chen. 2016. Improved techniques for training gans. Advances in neural information processing systems 29 (2016)."},{"key":"e_1_3_3_1_34_2","unstructured":"Ahmad\u00a0El Sallab Ibrahim Sobh Mohamed Zahran and Nader Essam. 2019. Lidar sensor modeling and data augmentation with gans for autonomous driving. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/1905.07290 (2019)."},{"key":"e_1_3_3_1_35_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00252"},{"key":"e_1_3_3_1_36_2","doi-asserted-by":"crossref","unstructured":"Alexander Swerdlow Runsheng Xu and Bolei Zhou. 2024. Street-view image generation from a bird\u2019s-eye view layout. IEEE Robotics and Automation Letters 9 4 (2024) 3578\u20133585.","DOI":"10.1109\/LRA.2024.3368234"},{"key":"e_1_3_3_1_37_2","unstructured":"Aaron Van Den\u00a0Oord Oriol Vinyals et\u00a0al. 2017. Neural discrete representation learning. Advances in neural information processing systems 30 (2017)."},{"key":"e_1_3_3_1_38_2","unstructured":"Lening Wang Wenzhao Zheng Yilong Ren Han Jiang Zhiyong Cui Haiyang Yu and Jiwen Lu. 2024. Occsora: 4d occupancy generation models as world simulators for autonomous driving. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2405.20337 (2024)."},{"key":"e_1_3_3_1_39_2","first-page":"55","volume-title":"European conference on computer vision","author":"Wang Xiaofeng","year":"2024","unstructured":"Xiaofeng Wang, Zheng Zhu, Guan Huang, Xinze Chen, Jiagang Zhu, and Jiwen Lu. 2024. Drivedreamer: Towards real-world-drive world models for autonomous driving. In European conference on computer vision. Springer, 55\u201372."},{"key":"e_1_3_3_1_40_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01397"},{"key":"e_1_3_3_1_41_2","unstructured":"Julong Wei Shanshuai Yuan Pengfei Li Qingda Hu Zhongxue Gan and Wenchao Ding. 2024. Occllama: An occupancy-language-action generative world model for autonomous driving. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2409.03272 (2024)."},{"key":"e_1_3_3_1_42_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19812-0_32"},{"key":"e_1_3_3_1_43_2","first-page":"11","volume-title":"Conference on robot learning","author":"Weng Xinshuo","year":"2021","unstructured":"Xinshuo Weng, Jianren Wang, Sergey Levine, Kris Kitani, and Nicholas Rhinehart. 2021. Inverting the pose forecasting pipeline with SPF2: Sequential pointcloud forecasting for sequential pose forecasting. In Conference on robot learning. PMLR, 11\u201320."},{"key":"e_1_3_3_1_44_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00110"},{"key":"e_1_3_3_1_45_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i9.33010"},{"key":"e_1_3_3_1_46_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01390"},{"key":"e_1_3_3_1_47_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i7.28546"},{"key":"e_1_3_3_1_48_2","unstructured":"Lunjun Zhang Yuwen Xiong Ze Yang Sergio Casas Rui Hu and Raquel Urtasun. 2023. Copilot4d: Learning unsupervised world models for autonomous driving via discrete diffusion. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2311.01017 (2023)."},{"key":"e_1_3_3_1_49_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01122"},{"key":"e_1_3_3_1_50_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i10.33130"},{"key":"e_1_3_3_1_51_2","first-page":"55","volume-title":"European conference on computer vision","author":"Zheng Wenzhao","year":"2024","unstructured":"Wenzhao Zheng, Weiliang Chen, Yuanhui Huang, Borui Zhang, Yueqi Duan, and Jiwen Lu. 2024. Occworld: Learning a 3d occupancy world model for autonomous driving. In European conference on computer vision. Springer, 55\u201372."},{"key":"e_1_3_3_1_52_2","first-page":"87","volume-title":"European Conference on Computer Vision","author":"Zheng Wenzhao","year":"2024","unstructured":"Wenzhao Zheng, Ruiqi Song, Xianda Guo, Chenming Zhang, and Long Chen. 2024. Genad: Generative end-to-end autonomous driving. In European Conference on Computer Vision. Springer, 87\u2013104."},{"key":"e_1_3_3_1_53_2","unstructured":"Xin Zhou Dingkang Liang Sifan Tu Xiwu Chen Yikang Ding Dingyuan Zhang Feiyang Tan Hengshuang Zhao and Xiang Bai. 2025. Hermes: A unified self-driving world model for simultaneous 3d scene understanding and generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2501.14729 (2025)."},{"key":"e_1_3_3_1_54_2","doi-asserted-by":"crossref","unstructured":"Yunsong Zhou Michael Simon Zhenghao Peng Sicheng Mo Hongzi Zhu Minyi Guo and Bolei Zhou. 2024. Simgen: Simulator-conditioned driving scene generation. Advances in Neural Information Processing Systems 37 (2024) 48838\u201348874.","DOI":"10.52202\/079017-1548"},{"key":"e_1_3_3_1_55_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00635"}],"event":{"name":"MMAsia '25 Workshops: ACM Multimedia Asia Workshops","location":"Kuala Lumpur Malaysia","acronym":"MMAsia '25 Workshops","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 7th ACM International Conference on Multimedia in Asia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3769748.3773345","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,23]],"date-time":"2026-01-23T22:03:53Z","timestamp":1769205833000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3769748.3773345"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,8]]},"references-count":54,"alternative-id":["10.1145\/3769748.3773345","10.1145\/3769748"],"URL":"https:\/\/doi.org\/10.1145\/3769748.3773345","relation":{},"subject":[],"published":{"date-parts":[[2025,12,8]]},"assertion":[{"value":"2025-12-08","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}