{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,28]],"date-time":"2026-02-28T18:21:11Z","timestamp":1772302871885,"version":"3.50.1"},"reference-count":51,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"5","license":[{"start":{"date-parts":[[2025,5,1]],"date-time":"2025-05-01T00:00:00Z","timestamp":1746057600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62250062"],"award-info":[{"award-number":["62250062"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62106144"],"award-info":[{"award-number":["62106144"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Shanghai Municipal Science and Technology Major Project","award":["2021SHZDZX0102"],"award-info":[{"award-number":["2021SHZDZX0102"]}]},{"DOI":"10.13039\/501100012226","name":"Fundamental Research Funds for the Central Universities","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100012226","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Pattern Anal. Mach. Intell."],"published-print":{"date-parts":[[2025,5]]},"DOI":"10.1109\/tpami.2025.3539866","type":"journal-article","created":{"date-parts":[[2025,2,6]],"date-time":"2025-02-06T18:41:58Z","timestamp":1738867318000},"page":"4215-4231","source":"Crossref","is-referenced-by-count":5,"title":["Dynamic Scene Understanding Through Object-Centric Voxelization and Neural Rendering"],"prefix":"10.1109","volume":"47","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-1498-383X","authenticated-orcid":false,"given":"Yanpeng","family":"Zhao","sequence":"first","affiliation":[{"name":"MoE Key Lab of Artificial Intelligence, AI Institute, Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-5995-2770","authenticated-orcid":false,"given":"Yiwei","family":"Hao","sequence":"additional","affiliation":[{"name":"MoE Key Lab of Artificial Intelligence, AI Institute, Shanghai Jiao Tong University, Shanghai, China"}]},{"given":"Siyu","family":"Gao","sequence":"additional","affiliation":[{"name":"MoE Key Lab of Artificial Intelligence, AI Institute, Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6224-2481","authenticated-orcid":false,"given":"Yunbo","family":"Wang","sequence":"additional","affiliation":[{"name":"MoE Key Lab of Artificial Intelligence, AI Institute, Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4029-3322","authenticated-orcid":false,"given":"Xiaokang","family":"Yang","sequence":"additional","affiliation":[{"name":"MoE Key Lab of Artificial Intelligence, AI Institute, Shanghai Jiao Tong University, Shanghai, China"}]}],"member":"263","reference":[{"key":"ref1","first-page":"127","article-title":"Galileo: Perceiving physical object properties by integrating a physics engine with deep learning","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Wu"},{"key":"ref2","first-page":"4967","article-title":"A simple neural network module for relational reasoning","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Santoro"},{"key":"ref3","article-title":"On the binding problem in artificial neural networks","author":"Greff","year":"2020","journal-title":"arXiv:2012.05208"},{"key":"ref4","first-page":"20146","article-title":"SIMONe: View-invariant, temporally-abstracted object representations via unsupervised video decomposition","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Kabra"},{"key":"ref5","article-title":"SAVi++: Towards end-to-end object-centric learning from real-world videos","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Elsayed"},{"key":"ref6","first-page":"18181","article-title":"Simple unsupervised object-centric learning for complex and naturalistic videos","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Singh"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1145\/3550469.3555383"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1145\/3478513.3480487"},{"key":"ref9","article-title":"D2NeRF: Self-supervised decoupling of dynamic and static objects from a monocular video","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Wu"},{"key":"ref10","article-title":"DynaVol: Unsupervised learning for dynamic scenes through object-centric voxelization","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Zhao"},{"key":"ref11","article-title":"Conditional object-centric learning from video","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Kipf"},{"key":"ref12","article-title":"Unsupervised discovery of object radiance fields","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Yu"},{"key":"ref13","article-title":"MovingParts: Motion-based 3D part discovery in dynamic radiance field","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Yang"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/3DV53792.2021.00099"},{"key":"ref15","first-page":"28023","article-title":"Segmenting moving objects via an object-centric layered representation","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Xie"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00695"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01018"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/2945.468400"},{"key":"ref19","article-title":"DINOv2: Learning robust visual features without supervision","author":"Oquab","year":"2023","journal-title":"arXiv:2304.07193"},{"key":"ref20","article-title":"DeVRF: Fast deformable voxel radiance fields for dynamic scenes","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Liu"},{"key":"ref21","article-title":"FeatUp: A model-agnostic framework for features at any resolution","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Fu"},{"key":"ref22","first-page":"11525","article-title":"Object-centric learning with slot attention","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Locatello"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00538"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00411"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00373"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00801"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2003.819861"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.2307\/2284239"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1007\/BF01908075"},{"key":"ref30","article-title":"Segment and track anything","author":"Cheng","year":"2023","journal-title":"arXiv:2305.06558"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00951"},{"key":"ref33","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01058"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2010.11929"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02059"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01201"},{"key":"ref38","first-page":"4484","article-title":"Tagger: Deep unsupervised perceptual grouping","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Greff"},{"key":"ref39","first-page":"2424","article-title":"Multi-object representation learning with iterative variational inference","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Greff"},{"key":"ref40","article-title":"MONet: Unsupervised scene decomposition and representation","author":"Burgess"},{"key":"ref41","article-title":"GENESIS: Generative scene inference and sampling with object-centric latent representations","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Engelcke"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1406.1078"},{"key":"ref43","first-page":"1","article-title":"ROOTS: Object-centric representation and rendering of 3D scenes","volume":"22","author":"Chen","year":"2021","journal-title":"J. Mach. Learn. Res."},{"key":"ref44","article-title":"Decomposing 3D scenes into objects via unsupervised volume segmentation","author":"Stelzner","year":"2021","journal-title":"arXiv:2104.01148"},{"key":"ref45","article-title":"Object scene representation transformer","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Sajjadi"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58452-8_24"},{"key":"ref47","first-page":"7919","article-title":"NeuroFluid: Fluid dynamics grounding with particle-driven neural radiance fields","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Guan"},{"key":"ref48","article-title":"Learning multi-object dynamics with compositional neural radiance fields","author":"Driess","year":"2022","journal-title":"arXiv:2202.11855"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00643"},{"key":"ref50","first-page":"450","article-title":"Neural deformable voxel grid for fast optimization of dynamic view synthesis","volume-title":"Proc. Asian Conf. Comput. Vis.","author":"Guo"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00416"}],"container-title":["IEEE Transactions on Pattern Analysis and Machine Intelligence"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/34\/10958761\/10877772.pdf?arnumber=10877772","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,4,14]],"date-time":"2025-04-14T18:18:56Z","timestamp":1744654736000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10877772\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5]]},"references-count":51,"journal-issue":{"issue":"5"},"URL":"https:\/\/doi.org\/10.1109\/tpami.2025.3539866","relation":{},"ISSN":["0162-8828","2160-9292","1939-3539"],"issn-type":[{"value":"0162-8828","type":"print"},{"value":"2160-9292","type":"electronic"},{"value":"1939-3539","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,5]]}}}