{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,28]],"date-time":"2026-05-28T06:01:49Z","timestamp":1779948109696,"version":"3.53.1"},"reference-count":115,"publisher":"IEEE","license":[{"start":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T00:00:00Z","timestamp":1773964800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T00:00:00Z","timestamp":1773964800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026,3,20]]},"DOI":"10.1109\/3dv69130.2026.00082","type":"proceedings-article","created":{"date-parts":[[2026,5,27]],"date-time":"2026-05-27T19:40:49Z","timestamp":1779910849000},"page":"806-818","source":"Crossref","is-referenced-by-count":0,"title":["PhysMotion: Physics-Grounded Dynamics From a Single Image"],"prefix":"10.1109","author":[{"given":"Xiyang","family":"Tan","sequence":"first","affiliation":[{"name":"University of California,Los Angeles"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ying","family":"Jiang","sequence":"additional","affiliation":[{"name":"University of California,Los Angeles"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xuan","family":"Li","sequence":"additional","affiliation":[{"name":"University of California,Los Angeles"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zeshun","family":"Zong","sequence":"additional","affiliation":[{"name":"University of California,Los Angeles"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Tianyi","family":"Xie","sequence":"additional","affiliation":[{"name":"University of California,Los Angeles"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yin","family":"Yang","sequence":"additional","affiliation":[{"name":"University of Utah"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Chenfanfu","family":"Jiang","sequence":"additional","affiliation":[{"name":"University of California,Los Angeles"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","author":"Achiam","year":"2023","journal-title":"Gpt-4 technical report"},{"key":"ref2","author":"Amit","year":"2021","journal-title":"Segdiff: Image segmentation with diffusion probabilistic models"},{"key":"ref3","author":"Balaji","year":"2022","journal-title":"ediff-i: Text-to-image diffusion models with an ensemble of expert denoisers"},{"key":"ref4","author":"Bansal","year":"2024","journal-title":"Videophy: Evaluating physical commonsense for video generation"},{"key":"ref5","article-title":"Victor Blomqvist","volume-title":"Pymunk","year":"2023"},{"key":"ref6","author":"Cai","year":"2024","journal-title":"Gaussian-informed continuum for physical property identification and simulation"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02121"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02106"},{"key":"ref9","article-title":"How i warped your noise: a temporallycorrelated noise prior for diffusion models","volume-title":"The Twelfth International Conference on Learning Representations","author":"Chang","year":"2024"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01840"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00579"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00511"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00698"},{"key":"ref14","article-title":"Hierarchical fine-grained preference optimization for physically plausible video generation","author":"Haodong Chen","year":"2025","journal-title":"arXiv preprint"},{"key":"ref15","author":"Chen","year":"2023","journal-title":"Control-avideo: Controllable text-to-video generation with diffusion models"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72664-4_21"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1177\/02783649241273668"},{"key":"ref18","author":"Cohen","year":"2024","journal-title":"Slicedit: Zero-shot video editing with text-to-image diffusion models using spatio-temporal slices"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01254"},{"key":"ref20","first-page":"8780","article-title":"Diffusion models beat gans on image synthesis","volume":"34","author":"Dhariwal","year":"2021","journal-title":"Advances in neural information processing systems"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.52202\/079017-2403"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/TVCG.2015.2459687"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00694"},{"key":"ref24","author":"Geyer","year":"2023","journal-title":"Tokenflow: Consistent diffusion features for consistent video editing"},{"key":"ref25","article-title":"Force prompting: Video generation models can learn and generalize physics-based control signals","author":"Gillman","year":"2025","journal-title":"arXiv preprint"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00728"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72946-1_19"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW63382.2024.00751"},{"key":"ref29","author":"He","year":"2023","journal-title":"Animate-a-story: Storytelling with retrieval-augmented video generation"},{"key":"ref30","article-title":"LoRA: Low-rank adaptation of large language models","volume-title":"International Conference on Learning Representations","author":"Hu","year":"2022"},{"key":"ref31","author":"Huang","year":"2024","journal-title":"Lau. Dreamphysics: Learning physical properties of dynamic 3d gaussians with video diffusion priors"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00583"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00880"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1145\/2897826.2927348"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1145\/3641519.3657448"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00582"},{"key":"ref37","author":"Ke","year":"2024","journal-title":"3d diffuser actor: Policy diffusion with 3d scene representations"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1145\/3592433"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01029"},{"key":"ref41","author":"Ku","year":"2024","journal-title":"Anyv2v: A tuning-free framework for any video-tovideo editing tasks"},{"key":"ref42","author":"Li","year":"2023","journal-title":"Instant3d: Fast text-to-3d with sparse-view generation and large reconstruction model"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01963"},{"key":"ref44","author":"Li","year":"2024","journal-title":"PhysicsBased Simulation"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72848-8_24"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1145\/3528223.3530072"},{"key":"ref47","author":"Li","year":"2023","journal-title":"Pac-nerf: Physics augmented continuum neural radiance fields for geometry-agnostic system identification"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02279"},{"key":"ref49","author":"Liew","year":"2023","journal-title":"Magicedit: High-fidelity and temporally coherent video editing"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00037"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/mind67540.2025.11351917"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/iccv51070.2023.00853"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00821"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73007-8_21"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00951"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01117"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1145\/2994258.2994272"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00672"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01374"},{"key":"ref60","author":"Meng","year":"2024","journal-title":"Towards world simulator: Crafting physical commonsense-based benchmark for video generation"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1145\/3503250"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01769"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00540"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73404-5_2"},{"key":"ref65","first-page":"7198","article-title":"Swapping autoencoder for deep image manipulation","volume":"33","author":"Park","year":"2020","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref66","author":"Podell","year":"2023","journal-title":"Sdxl: Improving latent diffusion models for high-resolution image synthesis"},{"key":"ref67","author":"Poole","year":"2022","journal-title":"Dreamfusion: Text-to-3d using 2d diffusion"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01460"},{"key":"ref69","author":"Ren","year":"2023","journal-title":"Dreamgaussian4d: Generative 4d gaussian splatting"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52729.2023.02155"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1145\/3641519.3657497"},{"key":"ref74","author":"Shi","year":"2023","journal-title":"Mvdream: Multi-view diffusion for 3d generation"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00844"},{"key":"ref76","first-page":"2256","article-title":"Deep unsupervised learning using nonequilibrium thermodynamics","volume-title":"International conference on machine learning","author":"Sohl-Dickstein","year":"2015"},{"key":"ref77","author":"Ben","year":"2023","journal-title":"Ldm3d: Latent diffusion model for 3d"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1145\/2461912.2461948"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00972"},{"key":"ref80","author":"Tang","year":"2023","journal-title":"Dreamgaussian: Generative gaussian splatting for efficient 3d content creation"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73235-5_1"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00191"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00832"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1145\/3641519.3657518"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00625"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73021-4_27"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01920"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02036"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-024-02306-1"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72670-5_19"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.00420"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72952-2_23"},{"key":"ref94","author":"Xiong","year":"2023","journal-title":"Sparsegs: Realtime 360\u00b0 sparse view synthesis using gaussian splatting"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00798"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1145\/3610548.3618160"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.1145\/3641519.3657481"},{"key":"ref98","author":"Yang","year":"2024","journal-title":"Cogvideox: Text-to-video diffusion models with an expert transformer"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00809"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00406"},{"key":"ref101","author":"Yin","year":"2023","journal-title":"Dragnuwa: Fine-grained control in video generation by integrating text, image, and trajectory"},{"key":"ref102","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00455"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00555"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01467"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.067"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00355"},{"key":"ref107","volume-title":"I2vgen-xl: High-quality image-to-video syn-thesis via cascaded diffusion models","author":"Zhang","year":"2023"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72627-9_22"},{"key":"ref109","author":"Zhang","year":"2024","journal-title":"Mimicmotion: High-quality human motion video generation with confidence-aware pose guidance"},{"key":"ref110","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00198"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72992-8_16"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72627-9_23"},{"key":"ref113","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72933-1_9"},{"key":"ref114","doi-asserted-by":"publisher","DOI":"10.1145\/3610548.3618207"},{"key":"ref115","doi-asserted-by":"publisher","DOI":"10.1109\/IROS58592.2024.10801598"}],"event":{"name":"2026 International Conference on 3D Vision (3DV)","location":"Vancouver, BC, Canada","start":{"date-parts":[[2026,3,20]]},"end":{"date-parts":[[2026,3,23]]}},"container-title":["2026 International Conference on 3D Vision (3DV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11533157\/11533158\/11533261.pdf?arnumber=11533261","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,28]],"date-time":"2026-05-28T05:02:12Z","timestamp":1779944532000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11533261\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,3,20]]},"references-count":115,"URL":"https:\/\/doi.org\/10.1109\/3dv69130.2026.00082","relation":{},"subject":[],"published":{"date-parts":[[2026,3,20]]}}}