{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,10,29]],"date-time":"2024-10-29T14:43:20Z","timestamp":1730213000650,"version":"3.28.0"},"reference-count":83,"publisher":"IEEE","license":[{"start":{"date-parts":[[2024,6,16]],"date-time":"2024-06-16T00:00:00Z","timestamp":1718496000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,6,16]],"date-time":"2024-06-16T00:00:00Z","timestamp":1718496000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100000038","name":"Natural Sciences and Engineering Research Council of Canada (NSERC) Discovery","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100000038","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100004326","name":"Simon Fraser University","doi-asserted-by":"publisher","award":["W911NF-21-2-0104"],"id":[{"id":"10.13039\/501100004326","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000183","name":"ARO","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100000183","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000001","name":"NSF","doi-asserted-by":"publisher","award":["1839974"],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,6,16]]},"DOI":"10.1109\/cvpr52733.2024.00764","type":"proceedings-article","created":{"date-parts":[[2024,9,16]],"date-time":"2024-09-16T17:34:53Z","timestamp":1726508093000},"page":"7996-8006","source":"Crossref","is-referenced-by-count":2,"title":["4D-fy: Text-to-4D Generation Using Hybrid Score Distillation Sampling"],"prefix":"10.1109","author":[{"given":"Sherwin","family":"Bahmani","sequence":"first","affiliation":[{"name":"University of Toronto"}]},{"given":"Ivan","family":"Skorokhodov","sequence":"additional","affiliation":[{"name":"KAUST"}]},{"given":"Victor","family":"Rong","sequence":"additional","affiliation":[{"name":"University of Toronto"}]},{"given":"Gordon","family":"Wetzstein","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Leonidas","family":"Guibas","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Peter","family":"Wonka","sequence":"additional","affiliation":[{"name":"KAUST"}]},{"given":"Sergey","family":"Tulyakov","sequence":"additional","affiliation":[{"name":"Snap Inc."}]},{"given":"Jeong Joon","family":"Park","sequence":"additional","affiliation":[{"name":"University of Michigan"}]},{"given":"Andrea","family":"Tagliasacchi","sequence":"additional","affiliation":[{"name":"University of Toronto"}]},{"given":"David B.","family":"Lindell","sequence":"additional","affiliation":[{"name":"University of Toronto"}]}],"member":"263","reference":[{"volume-title":"Stable Diffusion version 2","year":"2023","key":"ref1"},{"volume-title":"Threestudio Github page","year":"2023","key":"ref2"},{"volume-title":"Zeroscope text-to-video model","year":"2023","key":"ref3"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.3115\/980092.980121"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00175"},{"journal-title":"arXiv preprint","article-title":"eDiff-I: Text-to-image diffusion models with an ensemble of expert denoisers","year":"2022","author":"Balaji","key":"ref6"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02161"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00021"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00389"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1217"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-20893-6_7"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1145\/383259.383316"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01201"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1145\/3588432.3591552"},{"article-title":"Nerfdiff: Single-image view synthesis with Nerf-guided distillation from 3d-aware diffusion","volume-title":"Proc. ICML","year":"2023","author":"Gu","key":"ref15"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01043"},{"journal-title":"arXiv preprint","article-title":"Animatediff: Animate your personalized text-to-image diffusion models without specific tuning","year":"2023","author":"Guo","key":"ref17"},{"journal-title":"arXiv preprint","article-title":"Latent video diffusion models for high-fidelity video generation with arbitrary lengths","year":"2022","author":"He","key":"ref18"},{"article-title":"Classifier-free diffusion guidance","volume-title":"Proc. NeurIPS Workshop on Deep Generative Models","year":"2021","author":"Ho","key":"ref19"},{"article-title":"Denoising diffusion probabilistic models","volume-title":"Proc. NeurIPS","year":"2020","author":"Ho","key":"ref20"},{"journal-title":"arXiv preprint","article-title":"Imagen video: High definition video generation with diffusion models","year":"2022","author":"Ho","key":"ref21"},{"issue":"1","key":"ref22","first-page":"2249","article-title":"Cascaded diffusion models for high fidelity image generation","volume":"23","author":"Ho","year":"2022","journal-title":"The Journal of Machine Learning Research"},{"journal-title":"arXiv preprint","article-title":"Lrm: Large reconstruction model for single image to 3D","year":"2023","author":"Hong","key":"ref23"},{"article-title":"Lora: Low-rank adaptation of large language models","volume-title":"Proc. ICLR","year":"2021","author":"Hu","key":"ref24"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00094"},{"journal-title":"arXiv preprint","article-title":"Clipmatrix: Text-controlled creation of 3D textured meshes","year":"2021","author":"Jetchev","key":"ref26"},{"journal-title":"arXiv preprint","article-title":"Consistent4D: Consistent 360\u00b0 dynamic object generation from monocular video","year":"2023","author":"Jiang","key":"ref27"},{"journal-title":"arXiv preprint","article-title":"Instant3D: Fast text-to-3D with sparse-view generation and large reconstruction model","year":"2023","author":"Li","key":"ref28"},{"journal-title":"arXiv preprint","article-title":"Sweet-dreamer: Aligning geometric priors in 2D diffusion for con-sistent text-to-3D","year":"2023","author":"Li","key":"ref29"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00037"},{"journal-title":"arXiv preprint","article-title":"Consistent123: One image to highly consistent 3D asset using case-aware diffusion priors","year":"2023","author":"Lin","key":"ref31"},{"journal-title":"arXiv preprint","article-title":"Align your gaussians: Text-to-4D with dynamic 4D gaussians and composed diffusion models","year":"2023","author":"Ling","key":"ref32"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00853"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2006.04.045"},{"journal-title":"arXiv preprint","article-title":"Syncdreamer: Generating multiview-consistent images from a single-view image","year":"2023","author":"Liu","key":"ref35"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1145\/3306346.3323020"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/3dv62453.2024.00044"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1145\/3503250"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1145\/3528223.3530127"},{"article-title":"GLIDE: Towards photorealistic image generation and editing with text-guided diffusion models","volume-title":"Proc. ICML","year":"2022","author":"Nichol","key":"ref40"},{"journal-title":"arXiv preprint","article-title":"Fast dynamic 3D object generation from a single-view video","year":"2024","author":"Pan","key":"ref41"},{"article-title":"Benchmark for compositional text-to-image synthesis","volume-title":"Proc. NeurIPS","year":"2021","author":"Park","key":"ref42"},{"journal-title":"arXiv preprint","article-title":"State of the art on diffusion models for visual computing","year":"2023","author":"Po","key":"ref43"},{"article-title":"DreamFusion: Text-to-3D using 2D diffusion","volume-title":"Proc. ICLR","year":"2023","author":"Poole","key":"ref44"},{"journal-title":"arXiv preprint","article-title":"Magic123: One image to high-quality 3D object generation using both 2D and 3D diffusion priors","year":"2023","author":"Qian","key":"ref45"},{"article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. ICML","year":"2021","author":"Radford","key":"ref46"},{"article-title":"Zero-shot text-to-image generation","volume-title":"Proc. ICML","year":"2021","author":"Ramesh","key":"ref47"},{"journal-title":"arXiv preprint","article-title":"Hierarchical text-conditional image generation with CLIP latents","year":"2022","author":"Ramesh","key":"ref48"},{"article-title":"Generative adversarial text to image synthesis","volume-title":"Proc. ICML","year":"2016","author":"Reed","key":"ref49"},{"journal-title":"arXiv preprint","article-title":"DreamGaussian4D: Generative 4D Gaussian splatting","year":"2023","author":"Ren","key":"ref50"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"article-title":"Photorealistic text-to-image diffusion models with deep language understanding","volume-title":"Proc. NeurIPS","year":"2022","author":"Saharia","key":"ref52"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01805"},{"article-title":"Laion-5b: An open large-scale dataset for training next generation image-text models","volume-title":"Proc. NeurIPS","year":"2022","author":"Schuhmann","key":"ref54"},{"journal-title":"arXiv preprint","article-title":"MVDream: Multi-view diffusion for 3d generation","year":"2023","author":"Shi","key":"ref55"},{"journal-title":"arXiv preprint","article-title":"Make-a-video: Text-to-video generation without text-video data","year":"2022","author":"Singer","key":"ref56"},{"article-title":"Text-to-4d dynamic scene generation","volume-title":"Proc. ICML","year":"2023","author":"Singer","key":"ref57"},{"article-title":"Deep unsupervised learning using nonequilibrium thermodynamics","volume-title":"Proc. ICML","year":"2015","author":"Sohl-Dickstein","key":"ref58"},{"article-title":"Denoising diffusion implicit models","volume-title":"Proc. ICLR","year":"2021","author":"Song","key":"ref59"},{"article-title":"Score-based generative modeling through stochastic differential equations","volume-title":"Proc. ICLR","year":"2021","author":"Song","key":"ref60"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2022.3148210"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02086"},{"journal-title":"arXiv preprint","article-title":"Diffusion with forward models: Solving stochastic inverse problems without direct supervision","year":"2023","author":"Tewari","key":"ref63"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01191"},{"journal-title":"arXiv preprint","article-title":"Phenaki: Variable length video generation from open domain textual description","year":"2022","author":"Villegas","key":"ref65"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00381"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01214"},{"journal-title":"arXiv preprint","article-title":"Modelscope text-to-video technical report","year":"2023","author":"Wang","key":"ref68"},{"journal-title":"arXiv preprint","article-title":"Videofactory: Swap attention in spatiotemporal diffusions for text-to-video generation","year":"2023","author":"Wang","key":"ref69"},{"journal-title":"arXiv preprint","article-title":"Videocomposer: Compositional video synthesis with motion controllability","year":"2023","author":"Wang","key":"ref70"},{"article-title":"Prolificdreamer: High-fidelity and diverse text-to-3D generation with variational score distillation","volume-title":"Proc. NeurIPS","year":"2023","author":"Wang","key":"ref71"},{"journal-title":"arXiv preprint","article-title":"Lamp: Learn a motion pattern for few-shot-based video generation","year":"2023","author":"Wu","key":"ref72"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00143"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00498"},{"journal-title":"arXiv preprint","article-title":"4DGen: Grounded 4D content generation with spatial-temporal consistency","year":"2023","author":"Yin","key":"ref75"},{"journal-title":"arXiv preprint","article-title":"Dreamsparse: Escaping from platos cave with 2d diffusion model given sparse views","year":"2023","author":"Yoo","key":"ref76"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.503"},{"journal-title":"arXiv preprint","article-title":"Scaling autoregressive models for content-rich text-to-image generation","year":"2022","author":"Yu","key":"ref78"},{"journal-title":"arXiv preprint","article-title":"Scaling autoregressive multi-modal models: Pretraining and instruction tuning","year":"2023","author":"Yu","key":"ref79"},{"article-title":"Stack-GAN: Text to photo-realistic image synthesis with stacked generative adversarial networks","volume-title":"Proc. ICCV","year":"2017","author":"Zhang","key":"ref80"},{"journal-title":"arXiv preprint","article-title":"Animate124: Animating one image to 4D dynamic scene","year":"2023","author":"Zhao","key":"ref81"},{"journal-title":"arXiv preprint","article-title":"A unified approach for text-and image-guided 4D scene generation","year":"2023","author":"Zheng","key":"ref82"},{"journal-title":"arXiv preprint","article-title":"Magicvideo: Efficient video generation with latent diffusion models","year":"2022","author":"Zhou","key":"ref83"}],"event":{"name":"2024 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","start":{"date-parts":[[2024,6,16]]},"location":"Seattle, WA, USA","end":{"date-parts":[[2024,6,22]]}},"container-title":["2024 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10654794\/10654797\/10656060.pdf?arnumber=10656060","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,9,19]],"date-time":"2024-09-19T06:42:33Z","timestamp":1726728153000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10656060\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,6,16]]},"references-count":83,"URL":"http:\/\/dx.doi.org\/10.1109\/cvpr52733.2024.00764","relation":{},"subject":[],"published":{"date-parts":[[2024,6,16]]}}}