{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,28]],"date-time":"2026-05-28T06:01:55Z","timestamp":1779948115505,"version":"3.53.1"},"reference-count":97,"publisher":"IEEE","license":[{"start":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T00:00:00Z","timestamp":1773964800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T00:00:00Z","timestamp":1773964800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026,3,20]]},"DOI":"10.1109\/3dv69130.2026.00165","type":"proceedings-article","created":{"date-parts":[[2026,5,27]],"date-time":"2026-05-27T19:40:49Z","timestamp":1779910849000},"page":"1738-1749","source":"Crossref","is-referenced-by-count":0,"title":["SCENIC: Scene-Aware Semantic Navigation with Instruction-Guided Control"],"prefix":"10.1109","author":[{"given":"Xiaohan","family":"Zhang","sequence":"first","affiliation":[{"name":"T&#x00FC;bingen AI Center, University of T&#x00FC;bingen"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Sebastian","family":"Starke","sequence":"additional","affiliation":[{"name":"Meta Reality Labs Research"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Vladimir","family":"Guzov","sequence":"additional","affiliation":[{"name":"T&#x00FC;bingen AI Center, University of T&#x00FC;bingen"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zhensong","family":"Zhang","sequence":"additional","affiliation":[{"name":"Huawei Noah&#x0027;s Ark Lab"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Eduardo","family":"P\u00e9rez-Pellitero","sequence":"additional","affiliation":[{"name":"Huawei Noah&#x0027;s Ark Lab"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Gerard","family":"Pons-Moll","sequence":"additional","affiliation":[{"name":"T&#x00FC;bingen AI Center, University of T&#x00FC;bingen"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02032"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00051"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01547"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/3DV62453.2024.00109"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/3DV62453.2024.00109"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00182"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/3DV.2017.00081"},{"key":"ref8","author":"Chen","year":"2024","journal-title":"Motionclr: Motion generation and training-free editing via understanding attention mechanisms"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1145\/3641519.3657440"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01726"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01992"},{"key":"ref12","author":"Cong","year":"2024","journal-title":"Laserhuman: Language-guided scene-aware human motion generation in free environment"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00087"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00941"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01880"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00094"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72764-1_24"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413635"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00509"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00430"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01118"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1145\/3588432.3591525"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i3.27988"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1145\/2897824.2925975"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1145\/3072959.3073663"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73397-0_11"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00859"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687595"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00171"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.00133"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00205"},{"key":"ref32","volume-title":"Flame: Freeform language-based motion synthesis & editing. arXiv preprint","author":"Kim","year":"2022"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00176"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01360"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.00096"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/iccv51070.2023.00886"},{"key":"ref37","author":"Li","year":"2024","journal-title":"Unimotion: Unifying 3d human motion synthesis and understanding. arXiv preprint"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72940-9_4"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1145\/3618333"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72940-9_4"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/WACV57701.2024.00301"},{"key":"ref42","article-title":"Duolando: Follower gpt with off-policy reinforcement learning for dance accompaniment","author":"Li","year":"2024","journal-title":"ICLR"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-024-02042-6"},{"key":"ref44","article-title":"Geneoh diffusion: Towards generalizable hand-object interaction denoising via denoising diffusion","volume-title":"The Twelfth International Conference on Learning Representations","author":"Liu"},{"key":"ref45","author":"Liu","year":"2023","journal-title":"Revisit human-scene interaction via space occupancy. arXiv preprint"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1145\/2816795.2818013"},{"key":"ref47","author":"Lu","year":"2023","journal-title":"Humantomato: Text-aligned whole-body motion generation"},{"key":"ref48","article-title":"Universal humanoid motion representations for physics-based control","volume-title":"The Twelfth International Conference on Learning Representations","author":"Luo"},{"key":"ref49","author":"Ma","year":"2024","journal-title":"Contact-aware human motion generation from textual descriptions. arXiv preprint"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00554"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1145\/3386569.3392474"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/3DV62453.2024.00061"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/3dv62453.2024.00149"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/cvprw67362.2025.00271"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW63382.2024.00197"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01383"},{"key":"ref57","author":"Pi","year":"2025","journal-title":"Coda: Coordinated diffusion noise optimization for wholebody manipulation of articulated objects. arXiv preprint"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00443"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00078"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01322"},{"key":"ref61","author":"Ron","year":"2025","journal-title":"Hoidini: Human-object interaction through diffusion noise optimization. arXiv preprint"},{"key":"ref62","author":"Shafir","year":"2023","journal-title":"Human motion diffusion as a generative prior. arXiv preprint"},{"key":"ref63","article-title":"Human motion diffusion as a generative prior","volume-title":"The Twelfth International Conference on Learning Representations","author":"Shafir"},{"key":"ref64","author":"Song","year":"2020","journal-title":"Denoising diffusion implicit models"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1145\/3355089.3356505"},{"key":"ref66","author":"Straub","year":"2019","journal-title":"The Replica dataset: A digital replica of indoor spaces. arXiv preprint"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01291"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/3DV62453.2024.00064"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01466"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02029"},{"key":"ref71","article-title":"Human motion diffusion model","volume-title":"The Eleventh International Conference on Learning Representations","author":"Tevet"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72913-3_3"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.52202\/068431-1088"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00049"},{"key":"ref75","article-title":"THOR: text to human-object interaction diffusion via relation intervention","volume":"abs\/2403.11208","author":"Wu","year":"2024","journal-title":"CoRR"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51701.2025.01040"},{"key":"ref77","article-title":"Omnicontrol: Control any joint at any time for human motion generation","volume-title":"The Twelfth International Conference on Learning Representations","author":"Xie"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01371"},{"key":"ref79","author":"Xu","year":"2024","journal-title":"Interdreamer: Zero-shot text to 3d dynamic human-object interaction. arXiv preprint"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.12328"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72913-3_6"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52729.2023.01246"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73235-5_14"},{"key":"ref84","author":"Zhang","year":"2024","journal-title":"Core4d: A 4d human-object-human interaction dataset for collaborative object rearrangement. arXiv preprint"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1145\/3450626.3459830"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00056"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00040"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2024.3355414\/mm2"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/3dv62453.2024.00130"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20065-6_30"},{"key":"ref91","article-title":"Force: Dataset and method for intuitive physics guided human-object interaction","author":"Zhang","year":"2024","journal-title":"Arxiv"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1145\/3641519.3657515"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01354"},{"key":"ref94","article-title":"A diffusion-based autoregressive motion model for real-time text-driven motion control","author":"Zhao","year":"2024","journal-title":"Arxiv"},{"key":"ref95","article-title":"DartControl: A diffusion-based autoregressive motion model for real-time text-driven motion control","volume-title":"The Thirteenth International Conference on Learning Representations (ICLR)","author":"Zhao"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72627-9_2"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00589"}],"event":{"name":"2026 International Conference on 3D Vision (3DV)","location":"Vancouver, BC, Canada","start":{"date-parts":[[2026,3,20]]},"end":{"date-parts":[[2026,3,23]]}},"container-title":["2026 International Conference on 3D Vision (3DV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11533157\/11533158\/11533349.pdf?arnumber=11533349","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,28]],"date-time":"2026-05-28T05:03:16Z","timestamp":1779944596000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11533349\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,3,20]]},"references-count":97,"URL":"https:\/\/doi.org\/10.1109\/3dv69130.2026.00165","relation":{},"subject":[],"published":{"date-parts":[[2026,3,20]]}}}