{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,4]],"date-time":"2026-05-04T10:21:19Z","timestamp":1777890079417,"version":"3.51.4"},"reference-count":130,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccv51701.2025.00096","type":"proceedings-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:45:49Z","timestamp":1777491949000},"page":"945-959","source":"Crossref","is-referenced-by-count":0,"title":["Towards Scalable Spatial Intelligence Via 2D-To-3D Data Lifting"],"prefix":"10.1109","author":[{"given":"Xingyu","family":"Miao","sequence":"first","affiliation":[{"name":"Durham University"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Haoran","family":"Duan","sequence":"additional","affiliation":[{"name":"Tsinghua University"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Quanhao","family":"Qian","sequence":"additional","affiliation":[{"name":"DAMO Academy, Alibaba Group"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiuniu","family":"Wang","sequence":"additional","affiliation":[{"name":"DAMO Academy, Alibaba Group"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yang","family":"Long","sequence":"additional","affiliation":[{"name":"Durham University"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ling","family":"Shao","sequence":"additional","affiliation":[{"name":"UCAS-Terminus AI Lab, UCAS"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Deli","family":"Zhao","sequence":"additional","affiliation":[{"name":"DAMO Academy, Alibaba Group"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ran","family":"Xu","sequence":"additional","affiliation":[{"name":"DAMO Academy, Alibaba Group"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Gongjie","family":"Zhang","sequence":"additional","affiliation":[{"name":"DAMO Academy, Alibaba Group"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58452-8_25"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58452-8_25"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-76424-0_61"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.52202\/079017-0036"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.7146\/ece.v1i6.21221"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.170"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01854"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01854"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72952-2_4"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00400"},{"key":"ref11","article-title":"Zoedepth: Zeroshot transfer by combining relative and metric depth","author":"Farooq Bhat","year":"2023","journal-title":"arXiv preprint"},{"key":"ref12","article-title":"Dynamiccity: Largescale lidar generation from dynamic scenes","author":"Bian","year":"2024","journal-title":"arXiv preprint"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2025.xxi.010"},{"key":"ref14","article-title":"Rt-2: Vision-language-action models transfer web knowledge to robotic control","author":"Brohan","year":"2023","journal-title":"arXiv preprint"},{"key":"ref15","article-title":"Spatialbot: Precise spatial understanding with vision language models","author":"Cai","year":"2024","journal-title":"arXiv preprint"},{"key":"ref16","article-title":"Avatargo: Zero-shot 4 d human-object interaction generation and animation","author":"Cao","year":"2024","journal-title":"arXiv preprint"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/3DV.2017.00081"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.01370"},{"key":"ref19","article-title":"Scanrefer: 3d object localization in rgb-d scans using natural language","volume-title":"16th European Conference on Computer Vision (ECCV)","author":"Zhenyu Chen","year":"2020"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.02496"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.02496"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.52202\/079017-3080"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00321"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.52202\/079017-4293"},{"key":"ref25","article-title":"Luciddreamer: Domain-free generation of 3d gaussian splatting scenes","author":"Chung","year":"2023","journal-title":"arXiv preprint"},{"key":"ref26","article-title":"Luciddreamer: Domain-free generation of 3d gaussian splatting scenes","author":"Chung","year":"2023","journal-title":"arXiv preprint"},{"key":"ref27","article-title":"Pointcept Contributors","volume-title":"Pointcept: A codebase for point cloud perception research","year":"2023"},{"key":"ref28","article-title":"Spconv Contributors","volume-title":"Spconv: Spatially sparse convolution library","year":"2022"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.261"},{"key":"ref30","article-title":"Bert: Pre-training of deep bidirectional transformers for language understanding","author":"Devlin","year":"2018","journal-title":"arXiv preprint"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2022.3233482"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/TETCI.2022.3141105"},{"key":"ref33","article-title":"Depth map prediction from a single image using a multi-scale deep network","author":"Eigen","year":"2014","journal-title":"Advances in Neural Information Processing Systems"},{"issue":"4","key":"ref34","first-page":"215","article-title":"Integrating artificial intelligence with slam technology for robotic navigation and localization in unknown environments","volume":"29","author":"Fan","year":"2024","journal-title":"International Journal of Robotics and Automation"},{"key":"ref35","article-title":"Scene-llm: Extending language model for 3d visual understanding and reasoning","author":"Fu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1177\/0278364913491297"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.52202\/075280-0339"},{"key":"ref38","article-title":"Viewrefer: Grasp the multi-view knowledge for 3d visual grounding with gpt and prototype guidance","author":"Guo","year":"2023","journal-title":"arXiv preprint"},{"key":"ref39","article-title":"Point-bind & point-llm: Aligning point cloud with multi-modality for 3d understanding, generation, and instruction following","author":"Guo","year":"2023","journal-title":"arXiv preprint"},{"key":"ref40","article-title":"Taming transformers for realistic lidar point cloud generation","author":"Haghighi","year":"2024","journal-title":"arXiv preprint"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73242-3_26"},{"key":"ref42","article-title":"3dtopia: Large text-to-3d generation model with hybrid diffusion priors","author":"Hong","year":"2024","journal-title":"arXiv preprint"},{"key":"ref43","article-title":"Lrm: Large reconstruction model for single image to 3d","author":"Hong","year":"2023","journal-title":"arXiv preprint"},{"key":"ref44","article-title":"3d-11m: Injecting the 3d world into large language models","author":"Hong","year":"2023","journal-title":"NeurIPS"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2024.3444912"},{"key":"ref46","article-title":"Attention in diffusion model: A survey","author":"Hua","year":"2025","journal-title":"arXiv preprint"},{"key":"ref47","article-title":"Chat-3d v2: Bridging 3d scene and large language models with object identifiers","author":"Huang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.52202\/079017-3620"},{"key":"ref49","article-title":"An embodied generalist agent in 3d world","author":"Huang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i2.16253"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73033-7_10"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01660"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00907"},{"key":"ref54","article-title":"Openvla: An opensource vision-language-action model","author":"Jin Kim","year":"2024","journal-title":"arXiv preprint"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-020-01316-z"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00342"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73235-5_7"},{"key":"ref59","article-title":"Llava-onevision: Easy visual task transfer","author":"Li","year":"2024","journal-title":"arXiv preprint"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72904-1_13"},{"key":"ref61","first-page":"19730","article-title":"Blip-2: Bootstrapping language-image pretraining with frozen image encoders and large language models","volume-title":"International conference on machine learning","author":"Li","year":"2023"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02095"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00711"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00682"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2024.3416065"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01392"},{"key":"ref67","article-title":"Diffsplat: Repurposing image diffusion models for scalable 3d gaussian splat generation","volume-title":"International Conference on Learning Representations (ICLR)","author":"Lin","year":"2025"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.52202\/079017-4473"},{"key":"ref70","article-title":"3daxiesprompts: Unleashing the 3d spatial task capabilities of gpt-4v","author":"Liu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01697"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00874"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/WACV56688.2023.00421"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i5.28196"},{"key":"ref75","article-title":"Isaac gym: High performance gpubased physics simulation for robot learning","author":"Makoviychuk","year":"2021","journal-title":"arXiv preprint"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01298"},{"key":"ref77","article-title":"Rethinking score distilling sampling for 3d editing and generation","author":"Miao","year":"2025","journal-title":"arXiv preprint"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.splurobonlp-1.1"},{"key":"ref79","article-title":"Indoor segmentation and support inference from rgbd images","author":"Kohli","year":"2012","journal-title":"ECCV"},{"key":"ref80","author":"Omotuyi","year":"2024","journal-title":"Closing the sim-to-real gap: Training spot quadruped locomotion with nvidia isaac lab"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460528"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00963"},{"key":"ref83","article-title":"Dreamfusion: Text-to-3d using 2d diffusion","author":"Poole","year":"2022","journal-title":"arXiv preprint"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72775-7_13"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.02495"},{"key":"ref86","article-title":"Gpt4scene: Understand 3d scenes from videos with vision-language models","author":"Qi","year":"2024","journal-title":"arXiv preprint"},{"key":"ref87","first-page":"56828","article-title":"L4gm: Large 4d gaussian reconstruction model","volume":"37","author":"Ren","year":"2025","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19827-4_8"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160590"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00852"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01850"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3681257"},{"key":"ref93","article-title":"Octo: An open-source generalist robot policy","author":"Model Team","year":"2024","journal-title":"arXiv preprint"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2017.8202133"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3611767"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00496"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.52202\/068431-2415"},{"key":"ref98","article-title":"Instantmesh: Efficient 3d mesh generation from a single image with sparse-view large reconstruction models","author":"Xu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72698-9_8"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72633-0_1"},{"key":"ref101","article-title":"Qwen2 technical report","author":"Yang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref102","doi-asserted-by":"publisher","DOI":"10.1109\/icra57147.2024.10610443"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00994"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00987"},{"key":"ref105","article-title":"Depth anything v2","author":"Yang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref106","article-title":"Lidarllm: Exploring the potential of large language mod-els for 3d lidar understanding","author":"Yang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.26599\/cvm.2025.9450383"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00830"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00317"},{"key":"ref110","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00555"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46475-6_5"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00644"},{"key":"ref113","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01949"},{"key":"ref114","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00102"},{"key":"ref115","doi-asserted-by":"publisher","DOI":"10.52202\/075280-1382"},{"key":"ref116","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2022.3195735"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-024-02005-x"},{"key":"ref118","volume":"3","author":"Zhang","year":"2022","journal-title":"Opt: Open pre-trained transformer language models"},{"key":"ref119","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01397"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00841"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58545-7_30"},{"key":"ref122","doi-asserted-by":"publisher","DOI":"10.52202\/075280-2020"},{"key":"ref123","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00697"},{"key":"ref124","article-title":"Holodreamer: Holistic 3d panoramic world generation from text descriptions","author":"Zhou","year":"2024","journal-title":"arXiv preprint"},{"key":"ref125","article-title":"Uni3d: Exploring unified 3d representation at scale","author":"Zhou","year":"2023","journal-title":"arXiv preprint"},{"key":"ref126","first-page":"37535","article-title":"Diffgs: Functional gaussian splatting diffusion","volume":"37","author":"Zhou","year":"2025","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref127","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72658-3_19"},{"key":"ref128","article-title":"Llava-3d: A simple yet effective pathway to empowering 1 mms with 3dawareness","author":"Zhu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref129","article-title":"Tame a wild camera: In-the-wild monocular camera calibration","author":"Zhu","year":"2023","journal-title":"NeurIPS"},{"key":"ref130","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00272"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision (ICCV)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,25]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision (ICCV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11443115\/11443287\/11443962.pdf?arnumber=11443962","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T05:28:50Z","timestamp":1777613330000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11443962\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":130,"URL":"https:\/\/doi.org\/10.1109\/iccv51701.2025.00096","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}