{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,7]],"date-time":"2026-04-07T16:13:38Z","timestamp":1775578418435,"version":"3.50.1"},"reference-count":60,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"2","license":[{"start":{"date-parts":[[2025,2,1]],"date-time":"2025-02-01T00:00:00Z","timestamp":1738368000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Visual. Comput. Graphics"],"published-print":{"date-parts":[[2025,2]]},"DOI":"10.1109\/tvcg.2024.3365804","type":"journal-article","created":{"date-parts":[[2024,2,14]],"date-time":"2024-02-14T18:44:02Z","timestamp":1707936242000},"page":"1526-1541","source":"Crossref","is-referenced-by-count":44,"title":["Make-Your-Video: Customized Video Generation Using Textual and Structural Guidance"],"prefix":"10.1109","volume":"31","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-2181-1879","authenticated-orcid":false,"given":"Jinbo","family":"Xing","sequence":"first","affiliation":[{"name":"The Chinese University of Hong Kong, Hong Kong"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9664-4967","authenticated-orcid":false,"given":"Menghan","family":"Xia","sequence":"additional","affiliation":[{"name":"Tencent AI Lab., Shenzhen, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-5658-7360","authenticated-orcid":false,"given":"Yuxin","family":"Liu","sequence":"additional","affiliation":[{"name":"The Chinese University of Hong Kong, Hong Kong"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-9112-0216","authenticated-orcid":false,"given":"Yuechen","family":"Zhang","sequence":"additional","affiliation":[{"name":"The Chinese University of Hong Kong, Hong Kong"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0066-3448","authenticated-orcid":false,"given":"Yong","family":"Zhang","sequence":"additional","affiliation":[{"name":"Tencent AI Lab., Shenzhen, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0134-8220","authenticated-orcid":false,"given":"Yingqing","family":"He","sequence":"additional","affiliation":[{"name":"The Hong Kong University of Science and Technology, Hong Kong"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-3336-0686","authenticated-orcid":false,"given":"Hanyuan","family":"Liu","sequence":"additional","affiliation":[{"name":"The Chinese University of Hong Kong, Hong Kong"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-6085-2107","authenticated-orcid":false,"given":"Haoxin","family":"Chen","sequence":"additional","affiliation":[{"name":"Tencent AI Lab., Shenzhen, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3607-2236","authenticated-orcid":false,"given":"Xiaodong","family":"Cun","sequence":"additional","affiliation":[{"name":"Tencent AI Lab., Shenzhen, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6585-8604","authenticated-orcid":false,"given":"Xintao","family":"Wang","sequence":"additional","affiliation":[{"name":"Tencent AI Lab., Shenzhen, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7673-8325","authenticated-orcid":false,"given":"Ying","family":"Shan","sequence":"additional","affiliation":[{"name":"Tencent AI Lab., Shenzhen, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7792-9307","authenticated-orcid":false,"given":"Tien-Tsin","family":"Wong","sequence":"additional","affiliation":[{"name":"The Chinese University of Hong Kong, Hong Kong"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Imagen video: High definition video generation with diffusion models","author":"Ho","year":"2022"},{"key":"ref2","article-title":"Make-a-video: Text-to-video generation without text-video data","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Singer"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref4","first-page":"2256","article-title":"Deep unsupervised learning using nonequilibrium thermodynamics","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Sohl-Dickstein"},{"key":"ref5","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume-title":"Proc. Conf. Neural Inf. Process. Syst.","author":"Ho"},{"key":"ref6","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford"},{"key":"ref7","article-title":"Hierarchical text-conditional image generation with clip latents","author":"Ramesh","year":"2022"},{"key":"ref8","first-page":"36479","article-title":"Photorealistic text-to-image diffusion models with deep language understanding","volume-title":"Proc. Conf. Neural Inf. Process. Syst.","author":"Saharia"},{"key":"ref9","first-page":"16784","article-title":"Glide: Towards photorealistic image generation and editing with text-guided diffusion models","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Nichol"},{"key":"ref10","first-page":"217","article-title":"Classifier-free diffusion guidance","volume-title":"Proc. Conf. Neural Inf. Process. Syst. Workshop","author":"Ho"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02156"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00355"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i5.28226"},{"key":"ref14","article-title":"Video diffusion models","volume-title":"Proc. Conf. Neural Inf. Process. Syst.","author":"Ho"},{"key":"ref15","article-title":"MagicVideo: Efficient video generation with latent diffusion models","author":"Zhou","year":"2022"},{"key":"ref16","article-title":"Latent video diffusion models for high-fidelity video generation with arbitrary lengths","author":"He","year":"2022"},{"key":"ref17","article-title":"CogVideo: Large-scale pretraining for text-to-video generation via transformers","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Hong"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00984"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01462"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00675"},{"key":"ref21","article-title":"Follow your pose: Pose-guided text-to-video generation using pose-free videos","author":"Ma","year":"2023"},{"key":"ref22","article-title":"ControlVideo: Training-free controllable text-to-video generation","author":"Zhang","year":"2023"},{"key":"ref23","article-title":"VideoComposer: Compositional video synthesis with motion controllability","author":"Wang","year":"2023"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02161"},{"key":"ref25","article-title":"Seer: Language instructed video prediction with latent diffusion models","author":"Gu","year":"2023"},{"key":"ref26","article-title":"Prompt-to-prompt image editing with cross attention control","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Hertz"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00582"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19784-0_41"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01376"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1145\/3478513.3480546"},{"key":"ref31","article-title":"Dreamix: Video diffusion models are general video editors","author":"Molad","year":"2023"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00585"},{"key":"ref33","article-title":"Denoising diffusion implicit models","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Song"},{"key":"ref34","article-title":"ControlVideo: Adding conditional control for one shot text-to-video editing","author":"Zhao","year":"2023"},{"key":"ref35","article-title":"Tune-a-video: One-shot tuning of image diffusion models for text-to-video generation","author":"Wu","year":"2022"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01460"},{"key":"ref37","article-title":"Video-P2P: Video editing with cross-attention control","author":"Liu","year":"2023"},{"key":"ref38","article-title":"Tokenflow: Consistent diffusion features for consistent video editing","author":"Geyer","year":"2023"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1145\/3610548.3618160"},{"key":"ref40","article-title":"Score-based generative modeling through stochastic differential equations","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Song"},{"issue":"4","key":"ref41","article-title":"Estimation of non-normalized statistical models by score matching","volume":"6","author":"Hyv\u00e4rinen","year":"2005","journal-title":"J. Mach. Learn. Res."},{"key":"ref42","article-title":"Interpretation and generalization of score matching","author":"Lyu","year":"2012"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-24574-4_28"},{"key":"ref44","article-title":"Laion-400M: Open dataset of clip-filtered 400 million image-text pairs","volume-title":"Proc. Conf. Neural Inf. Process. Syst. Workshop","author":"Schuhmann"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2020.3019967"},{"key":"ref46","article-title":"Einops: Clear and reliable tensor manipulations with einstein-like notation","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Rogozhnikov"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N18-2074"},{"key":"ref48","article-title":"Attention is all you need","volume-title":"Proc. Conf. Neural Inf. Process. Syst.","author":"Vaswani"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19790-1_7"},{"key":"ref50","article-title":"Phenaki: Variable length video generation from open domain textual description","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Villegas"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.findings-naacl.89"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2020.10.004"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1145\/3394486.3406703"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00175"},{"key":"ref55","article-title":"FVD: A new metric for video generation","volume-title":"Proc. Int. Conf. Learn. Representations Workshop","author":"Unterthiner"},{"key":"ref56","article-title":"Ucf101: A dataset of 101 human actions classes from videos in the wild","author":"Soomro","year":"2012"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.571"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00498"},{"key":"ref59","article-title":"Gen-L-Video: Multi-text to long video generation via temporal co-denoising","author":"Wang","year":"2023"},{"key":"ref60","article-title":"The 2017 davis challenge on video object segmentation","author":"Pont-Tuset","year":"2017"}],"container-title":["IEEE Transactions on Visualization and Computer Graphics"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/2945\/10829748\/10436391.pdf?arnumber=10436391","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,1,15]],"date-time":"2025-01-15T19:53:05Z","timestamp":1736970785000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10436391\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,2]]},"references-count":60,"journal-issue":{"issue":"2"},"URL":"https:\/\/doi.org\/10.1109\/tvcg.2024.3365804","relation":{},"ISSN":["1077-2626","1941-0506","2160-9306"],"issn-type":[{"value":"1077-2626","type":"print"},{"value":"1941-0506","type":"electronic"},{"value":"2160-9306","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,2]]}}}