{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,28]],"date-time":"2026-05-28T06:01:55Z","timestamp":1779948115557,"version":"3.53.1"},"reference-count":80,"publisher":"IEEE","license":[{"start":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T00:00:00Z","timestamp":1773964800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T00:00:00Z","timestamp":1773964800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026,3,20]]},"DOI":"10.1109\/3dv69130.2026.00064","type":"proceedings-article","created":{"date-parts":[[2026,5,27]],"date-time":"2026-05-27T19:40:49Z","timestamp":1779910849000},"page":"608-619","source":"Crossref","is-referenced-by-count":0,"title":["ACT-R: Adaptive Camera Trajectories for Single-View 3D Reconstruction"],"prefix":"10.1109","author":[{"given":"Yizhi","family":"Wang","sequence":"first","affiliation":[{"name":"Simon Fraser University"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Mingrui","family":"Zhao","sequence":"additional","affiliation":[{"name":"Simon Fraser University"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Hao","family":"Zhang","sequence":"additional","affiliation":[{"name":"Simon Fraser University"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Vd3d: Taming large video diffusion transformers for 3d camera control","author":"Bahmani","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687614"},{"key":"ref3","article-title":"Stable video diffusion: Scaling latent video diffusion models to large datasets","author":"Blattmann","year":"2023","journal-title":"arXiv preprint arXiv"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02161"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1111\/1467-8659.00669"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/TSMCB.2005.846907"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01555"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ROBOT.1985.1087372"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA46639.2022.9811809"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1016\/j.robot.2013.09.004"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02096"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73033-7_12"},{"key":"ref13","article-title":"Animatediff: Animate your personalized text-to-image diffusion models without specific tuning","author":"Guo","year":"2023","journal-title":"arXiv preprint arXiv"},{"key":"ref14","article-title":"Cameractrl: Enabling camera control for text-to-video generation","author":"He","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref15","article-title":"Imagen video: High definition video generation with diffusion models","author":"Ho","year":"2022","journal-title":"arXiv preprint arXiv"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.52202\/068431-0628"},{"key":"ref17","article-title":"Large language models are frame-level directors for zero-shot text-to-video generation","volume-title":"First Workshop on Controllable Video Generation@ ICML24","author":"Hong"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1145\/3641519.3657428"},{"key":"ref19","article-title":"Free-bloom: Zero-shot text-to-video generator with 11 m director and 1 dm animator","volume":"36","author":"Huang","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/IROS55552.2023.10342226"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.3390\/vehicles3030027"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1145\/3592433"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2011.5979947"},{"key":"ref24","article-title":"Instant3d: Fast text-to-3d with sparse-view generation and large reconstruction model","author":"Li","year":"2023","journal-title":"arXiv preprint arXiv"},{"key":"ref25","article-title":"Craftsman: High-fidelity\\\\ mesh generation with 3d native generation and interactive geometry refiner","author":"Li","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref26","article-title":"Videogen: A reference-guided latent diffusion approach for high definition text-to-video generation","author":"Li","year":"2023","journal-title":"arXiv preprint arXiv"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00817"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00960"},{"key":"ref29","article-title":"One-2\u20133-45: Any single image to 3 d mesh in 45 seconds without per-shape optimization","volume":"36","author":"Liu","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref30","article-title":"Meshformer: High-quality mesh generation with 3d-guided reconstruction model","author":"Liu","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/iccv51070.2023.00853"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1145\/3550454.3555433"},{"key":"ref33","article-title":"Syncdreamer: Generating multiview-consistent images from a single-view image","author":"Liu","year":"2023","journal-title":"arXiv preprint arXiv"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19824-3_13"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00951"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1145\/3414685.3417772"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.5244\/C.30.65"},{"key":"ref38","article-title":"A best next view selection algorithm incorporating a quality criterion","author":"Nikolaos","year":"1998","journal-title":"Citeseer"},{"key":"ref39","article-title":"Im-3d: Iterative multiview diffusion and reconstruction for high-quality 3d generation","author":"Melas-Kyriazi","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58452-8_24"},{"key":"ref41","article-title":"Dinov2: Learning robust visual features without supervision","author":"Oquab","year":"2023","journal-title":"arXiv preprint arXiv"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-66823-5_33"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/34.799908"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2020.107404"},{"key":"ref45","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"International conference on machine learning","author":"Radford"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1145\/2897824.2925980"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.569"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref50","article-title":"Zero123++: a single image to consistent multi-view diffusion base model","author":"Shi","year":"2023","journal-title":"arXiv preprint arXiv"},{"key":"ref51","article-title":"Very deep convolutional networks for large-scale image recognition","author":"Simonyan","year":"2014","journal-title":"arXiv preprint arXiv"},{"key":"ref52","article-title":"Make-a-video: Text-to-video generation without text-video data","author":"Singer","year":"2022","journal-title":"arXiv preprint arXiv"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73235-5_1"},{"key":"ref54","author":"Tang","year":"2023","journal-title":"Mvdiffusion: Enabling holistic multiview image generation with correspondence-aware diffusion"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72640-8_10"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00352"},{"key":"ref57","year":"2025","journal-title":"Tencent Hunyuan3D Team. Hunyuan3d 2.0: Scaling diffusion models for high resolution textured 3d assets generation"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.5772\/58759"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73232-4_25"},{"key":"ref60","article-title":"DiViNet: Artistic typography via discriminated and stylized diffusion","volume-title":"Proc. of NeurIPS","author":"Vora"},{"key":"ref61","article-title":"NeUS: Learning neural implicit surfaces by volume rendering for multi-view reconstruction","author":"Wang","year":"2021","journal-title":"arXiv preprint arXiv"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.00804"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00943"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2003.819861"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72751-1_4"},{"key":"ref66","article-title":"Novel view synthesis with diffusion models","author":"Watson","year":"2023","journal-title":"ICLR"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00701"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1145\/2661229.2661242"},{"key":"ref69","article-title":"Direct3d: Scalable image-to-3d generation via 3d latent diffusion transformer","author":"Wu","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02000"},{"key":"ref71","article-title":"Camco: Cameracontrollable 3d-consistent image-to-video generation","author":"Xu","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref72","article-title":"Instantmesh: Efficient 3d mesh generation from a single image with sparse-view large reconstruction models","author":"Xu","year":"2024","journal-title":"arXiv preprint arXiv"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00942"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2025.3613256"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.00845"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1145\/3658146"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00068"},{"key":"ref78","article-title":"I2vgen-xl: High-quality image-to-video synthesis via cascaded diffusion models","author":"Zhang","year":"2023","journal-title":"arXiv preprint arXiv"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.52202\/075280-3236"},{"key":"ref80","article-title":"Magicvideo: Efficient video generation with latent diffusion models","author":"Zhou","year":"2022","journal-title":"arXiv preprint arXiv"}],"event":{"name":"2026 International Conference on 3D Vision (3DV)","location":"Vancouver, BC, Canada","start":{"date-parts":[[2026,3,20]]},"end":{"date-parts":[[2026,3,23]]}},"container-title":["2026 International Conference on 3D Vision (3DV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11533157\/11533158\/11533362.pdf?arnumber=11533362","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,28]],"date-time":"2026-05-28T05:03:30Z","timestamp":1779944610000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11533362\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,3,20]]},"references-count":80,"URL":"https:\/\/doi.org\/10.1109\/3dv69130.2026.00064","relation":{},"subject":[],"published":{"date-parts":[[2026,3,20]]}}}