{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T05:09:50Z","timestamp":1765343390854,"version":"3.46.0"},"publisher-location":"New York, NY, USA","reference-count":54,"publisher":"ACM","funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62276222"],"award-info":[{"award-number":["62276222"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,27]]},"DOI":"10.1145\/3746027.3755647","type":"proceedings-article","created":{"date-parts":[[2025,10,25]],"date-time":"2025-10-25T07:26:55Z","timestamp":1761377215000},"page":"10398-10407","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Phys4DGen: Physics-Compliant 4D Generation with Multi-Material Composition Perception"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-6004-5398","authenticated-orcid":false,"given":"Jiajing","family":"Lin","sequence":"first","affiliation":[{"name":"School of Informatics, Xiamen University, Xiamen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2816-853X","authenticated-orcid":false,"given":"Zhenzhong","family":"Wang","sequence":"additional","affiliation":[{"name":"School of Informatics, Xiamen University, Xiamen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6272-0941","authenticated-orcid":false,"given":"Dejun","family":"Xu","sequence":"additional","affiliation":[{"name":"School of Informatics, Xiamen University, Xiamen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-7973-6718","authenticated-orcid":false,"given":"Shu","family":"Jiang","sequence":"additional","affiliation":[{"name":"Institute of Artificial Intelligence, Xiamen University, Xiamen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6498-2555","authenticated-orcid":false,"given":"Yunpeng","family":"Gong","sequence":"additional","affiliation":[{"name":"School of Informatics, Xiamen University, Xiamen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2946-6974","authenticated-orcid":false,"given":"Min","family":"Jiang","sequence":"additional","affiliation":[{"name":"School of Informatics, Xiamen University, Xiamen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,10,27]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al.","author":"Achiam Josh","year":"2023","unstructured":"Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al., 2023. Gpt-4 technical report. arXiv preprint arXiv:2303.08774 (2023)."},{"key":"e_1_3_2_1_2_1","volume-title":"European Conference on Computer Vision. Springer, 53-72","author":"Bahmani Sherwin","year":"2024","unstructured":"Sherwin Bahmani, Xian Liu, Wang Yifan, Ivan Skorokhodov, Victor Rong, Ziwei Liu, Xihui Liu, Jeong Joon Park, Sergey Tulyakov, Gordon Wetzstein, et al., 2024a. Tc4d: Trajectory-conditioned text-to-4d generation. In European Conference on Computer Vision. Springer, 53-72."},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00764"},{"key":"e_1_3_2_1_4_1","first-page":"1","article-title":"The tools of generative art, from flash to neural networks","volume":"8","author":"Bailey Jason","year":"2020","unstructured":"Jason Bailey. 2020. The tools of generative art, from flash to neural networks. Art in America, Vol. 8 (2020), 1.","journal-title":"Art in America"},{"key":"e_1_3_2_1_5_1","unstructured":"Andreas Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian Dominik Lorenz Yam Levi Zion English Vikram Voleti Adam Letts et al. 2023. Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127 (2023)."},{"key":"e_1_3_2_1_6_1","volume-title":"GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation. arXiv preprint arXiv:2406.14927","author":"Cai Junhao","year":"2024","unstructured":"Junhao Cai, Yuji Yang, Weihao Yuan, Yisheng He, Zilong Dong, Liefeng Bo, Hui Cheng, and Qifeng Chen. 2024. GIC: Gaussian-Informed Continuum for Physical Property Identification and Simulation. arXiv preprint arXiv:2406.14927 (2024)."},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00021"},{"key":"e_1_3_2_1_8_1","volume-title":"Dreamscene4d: Dynamic multi-object scene generation from monocular videos. arXiv preprint arXiv:2405.02280","author":"Chu Wen-Hsuan","year":"2024","unstructured":"Wen-Hsuan Chu, Lei Ke, and Katerina Fragkiadaki. 2024. Dreamscene4d: Dynamic multi-object scene generation from monocular videos. arXiv preprint arXiv:2405.02280 (2024)."},{"key":"e_1_3_2_1_9_1","volume-title":"The mahalanobis distance. Chemometrics and intelligent laboratory systems","author":"Maesschalck Roy De","year":"2000","unstructured":"Roy De Maesschalck, Delphine Jouan-Rimbaud, and D\u00e9sir\u00e9 L Massart. 2000. The mahalanobis distance. Chemometrics and intelligent laboratory systems, Vol. 50, 1 (2000), 1-18."},{"key":"e_1_3_2_1_10_1","unstructured":"Yutao Feng Xiang Feng Yintong Shang Ying Jiang Chang Yu Zeshun Zong Tianjia Shao Hongzhi Wu Kun Zhou Chenfanfu Jiang et al. 2024. Gaussian splashing: Dynamic fluid synthesis with gaussian splatting. arXiv preprint arXiv:2401.15318 (2024)."},{"key":"e_1_3_2_1_11_1","volume-title":"Gaussianflow: Splatting gaussian dynamics for 4d content creation. arXiv preprint arXiv:2403.12365","author":"Gao Quankai","year":"2024","unstructured":"Quankai Gao, Qiangeng Xu, Zhe Cao, Ben Mildenhall, Wenchao Ma, Le Chen, Danhang Tang, and Ulrich Neumann. 2024. Gaussianflow: Splatting gaussian dynamics for 4d content creation. arXiv preprint arXiv:2403.12365 (2024)."},{"key":"e_1_3_2_1_12_1","volume-title":"DreamPhysics: Learning Physical Properties of Dynamic 3D Gaussians with Video Diffusion Priors. AAAI","author":"Huang Tianyu","year":"2025","unstructured":"Tianyu Huang, Yihan Zeng, Hui Li, Wangmeng Zuo, and Rynson WH Lau. 2025. DreamPhysics: Learning Physical Properties of Dynamic 3D Gaussians with Video Diffusion Priors. AAAI (2025)."},{"key":"e_1_3_2_1_13_1","volume-title":"Int. Conf. Learn. Represent.","author":"Jiang Yanqin","year":"2024","unstructured":"Yanqin Jiang, Li Zhang, Jin Gao, Weimin Hu, and Yao Yao. 2024. Consistent4D: Consistent 360textdegree Dynamic Object Generation from Monocular Video. Int. Conf. Learn. Represent. (2024)."},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1145\/3592433"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"e_1_3_2_1_16_1","volume-title":"Int. Conf. Learn. Represent.","author":"Li Jiahao","year":"2024","unstructured":"Jiahao Li, Hao Tan, Kai Zhang, Zexiang Xu, Fujun Luan, Yinghao Xu, Yicong Hong, Kalyan Sunkavalli, Greg Shakhnarovich, and Sai Bi. 2024. Instant3d: Fast text-to-3d with sparse-view generation and large reconstruction model. Int. Conf. Learn. Represent. (2024)."},{"key":"e_1_3_2_1_17_1","volume-title":"Int. Conf. Learn. Represent.","author":"Li Xuan","year":"2023","unstructured":"Xuan Li, Yi-Ling Qiao, Peter Yichen Chen, Krishna Murthy Jatavallabhula, Ming Lin, Chenfanfu Jiang, and Chuang Gan. 2023. Pac-nerf: Physics augmented continuum neural radiance fields for geometry-agnostic system identification. Int. Conf. Learn. Represent. (2023)."},{"key":"e_1_3_2_1_18_1","volume-title":"Phy124: Fast physics-driven 4d content generation from a single image. arXiv preprint arXiv:2409.07179","author":"Lin Jiajing","year":"2024","unstructured":"Jiajing Lin, Zhenzhong Wang, Yongjie Hou, Yuzhou Tang, and Min Jiang. 2024. Phy124: Fast physics-driven 4d content generation from a single image. arXiv preprint arXiv:2409.07179 (2024)."},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00819"},{"key":"e_1_3_2_1_20_1","volume-title":"European Conference on Computer Vision. Springer, 389-406","author":"Liu Fangfu","year":"2024","unstructured":"Fangfu Liu, Hanyang Wang, Weiliang Chen, Haowen Sun, and Yueqi Duan. 2024b. Make-your-3d: Fast and consistent subject-driven 3d content generation. In European Conference on Computer Vision. Springer, 389-406."},{"key":"e_1_3_2_1_21_1","volume-title":"Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion. arXiv preprint arXiv:2406.04338","author":"Liu Fangfu","year":"2024","unstructured":"Fangfu Liu, Hanyang Wang, Shunyu Yao, Shengjun Zhang, Jie Zhou, and Yueqi Duan. 2024c. Physics3D: Learning Physical Properties of 3D Gaussians via Video Diffusion. arXiv preprint arXiv:2406.04338 (2024)."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00853"},{"key":"e_1_3_2_1_23_1","volume-title":"European Conference on Computer Vision. Springer, 360-378","author":"Liu Shaowei","year":"2024","unstructured":"Shaowei Liu, Zhongzheng Ren, Saurabh Gupta, and Shenlong Wang. 2024a. Physgen: Rigid-body physics-grounded image-to-video generation. In European Conference on Computer Vision. Springer, 360-378."},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00218"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00615"},{"key":"e_1_3_2_1_26_1","volume-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition. 8446-8455","author":"Melas-Kyriazi Luke","year":"2023","unstructured":"Luke Melas-Kyriazi, Iro Laina, Christian Rupprecht, and Andrea Vedaldi. 2023. Realfusion: 360deg reconstruction of any object from a single image. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition. 8446-8455."},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.1145\/3503250"},{"key":"e_1_3_2_1_28_1","volume-title":"Fast dynamic 3d object generation from a single-view video. arXiv preprint arXiv:2401.08742","author":"Pan Zijie","year":"2024","unstructured":"Zijie Pan, Zeyu Yang, Xiatian Zhu, and Li Zhang. 2024. Fast dynamic 3d object generation from a single-view video. arXiv preprint arXiv:2401.08742 (2024)."},{"key":"e_1_3_2_1_29_1","volume-title":"Int. Conf. Learn. Represent.","author":"Poole Ben","year":"2023","unstructured":"Ben Poole, Ajay Jain, Jonathan T Barron, and Ben Mildenhall. 2023. Dreamfusion: Text-to-3d using 2d diffusion. Int. Conf. Learn. Represent. (2023)."},{"key":"e_1_3_2_1_30_1","volume-title":"Int. Conf. Learn. Represent.","author":"Qian Guocheng","year":"2024","unstructured":"Guocheng Qian, Jinjie Mai, Abdullah Hamdi, Jian Ren, Aliaksandr Siarohin, Bing Li, Hsin-Ying Lee, Ivan Skorokhodov, Peter Wonka, Sergey Tulyakov, et al., 2024. Magic123: One image to high-quality 3d object generation using both 2d and 3d diffusion priors. Int. Conf. Learn. Represent. (2024)."},{"key":"e_1_3_2_1_31_1","unstructured":"Nikhila Ravi Valentin Gabeur Yuan-Ting Hu Ronghang Hu Chaitanya Ryali Tengyu Ma Haitham Khedr Roman R\u00e4dle Chloe Rolland Laura Gustafson et al. 2024. Sam 2: Segment anything in images and videos. arXiv preprint arXiv:2408.00714 (2024)."},{"key":"e_1_3_2_1_32_1","volume-title":"Dreamgaussian4d: Generative 4d gaussian splatting. arXiv preprint arXiv:2312.17142","author":"Ren Jiawei","year":"2023","unstructured":"Jiawei Ren, Liang Pan, Jiaxiang Tang, Chi Zhang, Ang Cao, Gang Zeng, and Ziwei Liu. 2023. Dreamgaussian4d: Generative 4d gaussian splatting. arXiv preprint arXiv:2312.17142 (2023)."},{"key":"e_1_3_2_1_33_1","first-page":"56828","article-title":"L4gm: Large 4d gaussian reconstruction model","volume":"37","author":"Ren Jiawei","year":"2024","unstructured":"Jiawei Ren, Cheng Xie, Ashkan Mirzaei, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling, et al., 2024. L4gm: Large 4d gaussian reconstruction model. Advances in Neural Information Processing Systems, Vol. 37 (2024), 56828-56858.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"e_1_3_2_1_35_1","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Singer Uriel","year":"2023","unstructured":"Uriel Singer, Shelly Sheynin, Adam Polyak, Oron Ashual, Iurii Makarov, Filippos Kokkinos, Naman Goyal, Andrea Vedaldi, Devi Parikh, Justin Johnson, et al., 2023. Text-to-4d dynamic scene generation. Proc. Int. Conf. Mach. Learn. (2023)."},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.1145\/2461912.2461948"},{"key":"e_1_3_2_1_37_1","volume-title":"Eur. Conf. Comput. Vis.","author":"Sun Qi","year":"2024","unstructured":"Qi Sun, Zhiyang Guo, Ziyu Wan, Jing Nathan Yan, Shengming Yin, Wengang Zhou, Jing Liao, and Houqiang Li. 2024. EG4D: Explicit Generation of 4D Object without Score Distillation. Eur. Conf. Comput. Vis. (2024)."},{"key":"e_1_3_2_1_38_1","volume-title":"Eur. Conf. Comput. Vis.","author":"Tang Jiaxiang","year":"2024","unstructured":"Jiaxiang Tang, Zhaoxi Chen, Xiaokang Chen, Tengfei Wang, Gang Zeng, and Ziwei Liu. 2024a. Lgm: Large multi-view gaussian model for high-resolution 3d content creation. Eur. Conf. Comput. Vis. (2024)."},{"key":"e_1_3_2_1_39_1","volume-title":"Int. Conf. Learn. Represent.","author":"Tang Jiaxiang","year":"2024","unstructured":"Jiaxiang Tang, Jiawei Ren, Hang Zhou, Ziwei Liu, and Gang Zeng. 2024b. Dreamgaussian: Generative gaussian splatting for efficient 3d content creation. Int. Conf. Learn. Represent. (2024)."},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02086"},{"key":"e_1_3_2_1_41_1","volume-title":"Lavie: High-quality video generation with cascaded latent diffusion models. Int. J. Comput. Vis.","author":"Wang Yaohui","year":"2024","unstructured":"Yaohui Wang, Xinyuan Chen, Xin Ma, Shangchen Zhou, Ziqi Huang, Yi Wang, Ceyuan Yang, Yinan He, Jiashuo Yu, Peiqing Yang, et al., 2024. Lavie: High-quality video generation with cascaded latent diffusion models. Int. J. Comput. Vis. (2024)."},{"key":"e_1_3_2_1_42_1","volume-title":"The Thirty-eighth Annual Conference on Neural Information Processing Systems.","author":"Wu Kailu","year":"2024","unstructured":"Kailu Wu, Fangfu Liu, Zhihan Cai, Runjie Yan, Hanyang Wang, Yating Hu, Yueqi Duan, and Kaisheng Ma. 2024. Unique3d: High-quality and efficient 3d mesh generation from a single image. In The Thirty-eighth Annual Conference on Neural Information Processing Systems."},{"key":"e_1_3_2_1_43_1","volume-title":"TextSplat: Text-Guided Semantic Fusion for Generalizable Gaussian Splatting. arXiv preprint arXiv:2504.09588","author":"Wu Zhicong","year":"2025","unstructured":"Zhicong Wu, Hongbin Xu, Gang Xu, Ping Nie, Zhixin Yan, Jinkai Zheng, Liangqiong Qu, Ming Li, and Liqiang Nie. 2025. TextSplat: Text-Guided Semantic Fusion for Generalizable Gaussian Splatting. arXiv preprint arXiv:2504.09588 (2025)."},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00420"},{"key":"e_1_3_2_1_45_1","volume-title":"Sv4d: Dynamic 3d content generation with multi-frame and multi-view consistency. arXiv preprint arXiv:2407.17470","author":"Xie Yiming","year":"2024","unstructured":"Yiming Xie, Chun-Han Yao, Vikram Voleti, Huaizu Jiang, and Varun Jampani. 2024a. Sv4d: Dynamic 3d content generation with multi-frame and multi-view consistency. arXiv preprint arXiv:2407.17470 (2024)."},{"key":"e_1_3_2_1_46_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-97-0487-3"},{"key":"e_1_3_2_1_47_1","volume-title":"4dgen: Grounded 4d content generation with spatial-temporal consistency. arXiv preprint arXiv:2312.17225","author":"Yin Yuyang","year":"2023","unstructured":"Yuyang Yin, Dejia Xu, Zhangyang Wang, Yao Zhao, and Yunchao Wei. 2023. 4dgen: Grounded 4d content generation with spatial-temporal consistency. arXiv preprint arXiv:2312.17225 (2023)."},{"key":"e_1_3_2_1_48_1","volume-title":"Eur. Conf. Comput. Vis.","author":"Zeng Yifei","year":"2024","unstructured":"Yifei Zeng, Yanqin Jiang, Siyu Zhu, Yuanxun Lu, Youtian Lin, Hao Zhu, Weiming Hu, Xun Cao, and Yao Yao. 2024. Stag4d: Spatial-temporal anchored generative 4d gaussians. Eur. Conf. Comput. Vis. (2024)."},{"key":"e_1_3_2_1_49_1","first-page":"15272","article-title":"4diffusion: Multi-view video diffusion model for 4d generation","volume":"37","author":"Zhang Haiyu","year":"2024","unstructured":"Haiyu Zhang, Xinyuan Chen, Yaohui Wang, Xihui Liu, Yunhong Wang, and Yu Qiao. 2024a. 4diffusion: Multi-view video diffusion model for 4d generation. Advances in Neural Information Processing Systems, Vol. 37 (2024), 15272-15295.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_1_50_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00355"},{"key":"e_1_3_2_1_51_1","volume-title":"Eur. Conf. Comput. Vis.","author":"Zhang Tianyuan","year":"2024","unstructured":"Tianyuan Zhang, Hong-Xing Yu, Rundi Wu, Brandon Y Feng, Changxi Zheng, Noah Snavely, Jiajun Wu, and William T Freeman. 2024b. Physdreamer: Physics-based interaction with 3d objects via video generation. Eur. Conf. Comput. Vis. (2024)."},{"key":"e_1_3_2_1_52_1","volume-title":"Animate124: Animating one image to 4d dynamic scene. arXiv preprint arXiv:2311.14603","author":"Zhao Yuyang","year":"2023","unstructured":"Yuyang Zhao, Zhiwen Yan, Enze Xie, Lanqing Hong, Zhenguo Li, and Gim Hee Lee. 2023. Animate124: Animating one image to 4d dynamic scene. arXiv preprint arXiv:2311.14603 (2023)."},{"key":"e_1_3_2_1_53_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00697"},{"key":"e_1_3_2_1_54_1","volume-title":"Eur. Conf. Comput. Vis.","author":"Zhong Licheng","year":"2024","unstructured":"Licheng Zhong, Hong-Xing Yu, Jiajun Wu, and Yunzhu Li. 2024. Reconstruction and Simulation of Elastic Objects with Spring-Mass 3D Gaussians. Eur. Conf. Comput. Vis. (2024)."}],"event":{"name":"MM '25: The 33rd ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Dublin Ireland","acronym":"MM '25"},"container-title":["Proceedings of the 33rd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746027.3755647","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T05:05:53Z","timestamp":1765343153000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746027.3755647"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,27]]},"references-count":54,"alternative-id":["10.1145\/3746027.3755647","10.1145\/3746027"],"URL":"https:\/\/doi.org\/10.1145\/3746027.3755647","relation":{},"subject":[],"published":{"date-parts":[[2025,10,27]]},"assertion":[{"value":"2025-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}