{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,21]],"date-time":"2025-08-21T16:26:22Z","timestamp":1755793582343,"version":"3.44.0"},"reference-count":65,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,6,10]],"date-time":"2025-06-10T00:00:00Z","timestamp":1749513600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,6,10]],"date-time":"2025-06-10T00:00:00Z","timestamp":1749513600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,6,10]]},"DOI":"10.1109\/cvpr52734.2025.00681","type":"proceedings-article","created":{"date-parts":[[2025,8,13]],"date-time":"2025-08-13T17:26:42Z","timestamp":1755106002000},"page":"7265-7275","source":"Crossref","is-referenced-by-count":0,"title":["IM-Zero: Instance-level Motion Controllable Video Generation in a Zero-shot Manner"],"prefix":"10.1109","author":[{"given":"Yuyang","family":"Huang","sequence":"first","affiliation":[{"name":"Shanghai Jiao Tong University,Shanghai,China"}]},{"given":"Yabo","family":"Chen","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,Shanghai,China"}]},{"given":"Li","family":"Ding","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,Shanghai,China"}]},{"given":"Xiaopeng","family":"Zhang","sequence":"additional","affiliation":[{"name":"Huawei Inc.,Shenzhen,China"}]},{"given":"Wenrui","family":"Dai","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,Shanghai,China"}]},{"given":"Junni","family":"Zou","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,Shanghai,China"}]},{"given":"Hongkai","family":"Xiong","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,Shanghai,China"}]},{"given":"Qi","family":"Tian","sequence":"additional","affiliation":[{"name":"Huawei Inc.,Shenzhen,China"}]}],"member":"263","reference":[{"key":"ref1","first-page":"1737","article-title":"MultiDiffusion: Fusing diffusion paths for controlled image generation","volume-title":"Proceedings of the 40th International Conference on Machine Learning","author":"Bar-Tal"},{"article-title":"Demystifying MMD GANs","volume-title":"The Sixth International Conference on Learning Representations","author":"Bi\u0144kowski","key":"ref2"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02161"},{"key":"ref4","article-title":"Video generation models as world simulators","author":"Brooks","year":"2024","journal-title":"OpenAI Blog"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02062"},{"article-title":"VideoCrafter1: Open diffusion models for high-quality video generation","year":"2023","author":"Chen","key":"ref6"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00698"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/WACV57701.2024.00526"},{"article-title":"Control-A-Video: Controllable text-to-video generation with diffusion models","year":"2023","author":"Chen","key":"ref9"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72940-9_18"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72992-8_11"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72946-1_19"},{"article-title":"AnimateDiff: Animate your personalized textto-image diffusion models without specific tuning","volume-title":"The Twelfth International Conference on Learning Representations","author":"Guo","key":"ref13"},{"article-title":"Imagen video: High definition video generation with diffusion models","year":"2022","author":"Ho","key":"ref14"},{"key":"ref15","first-page":"8633","article-title":"Video diffusion models","author":"Ho","year":"2022","journal-title":"Advances in Neural Information Processing Systems 35"},{"article-title":"VideoControlNet: A motion-guided video-to-video translation framework by using diffusion model with ControlNet","year":"2023","author":"Hu","key":"ref16"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2019.2957464"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72940-9_27"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02060"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00772"},{"key":"ref21","first-page":"18","article-title":"Co-Tracker: It is better to track together","volume-title":"Proceedings of the 18th European Conference on Computer Vision","author":"Karaev"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01462"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160588"},{"key":"ref24","first-page":"19730","article-title":"BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models","volume-title":"Proceedings of the 40th International Conference on Machine Learning","author":"Li"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02156"},{"article-title":"MotionClone: Training-free motion cloning for controllable video generation","volume-title":"The Thirteenth International Conference on Learning Representations","author":"Ling","key":"ref26"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00853"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72970-6_3"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687652"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00585"},{"article-title":"The 2017 DAVIS challenge on video object segmentation","year":"2017","author":"Pont-Tuset","key":"ref31"},{"article-title":"FreeTraj: Tuning-free trajectory control in video diffusion models","year":"2024","author":"Qiu","key":"ref32"},{"key":"ref33","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proceedings of the 38th International Conference on Machine Learning","author":"Radford"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"article-title":"Towards accurate generative models of video: A new metric & challenges","year":"2018","author":"Unterthiner","key":"ref35"},{"article-title":"EasyControl: Transfer ControlNet to video diffusion for controllable generation and interpolation","year":"2024","author":"Wang","key":"ref36"},{"article-title":"ModelScope text-to-video technical report","year":"2023","author":"Wang","key":"ref37"},{"article-title":"MagicVideo-V2: Multi-stage high-aesthetic video generation","year":"2024","author":"Wang","key":"ref38"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00596"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-024-02295-1"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1145\/3641519.3657518"},{"key":"ref42","first-page":"34322","article-title":"MotionBooth: Motion-aware customized text-to-video generation","volume":"37","author":"Wu","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"article-title":"TraDiffusion: Trajectory-based training-free image generation","year":"2024","author":"Wu","key":"ref43"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72670-5_19"},{"article-title":"SANA: Efficient high-resolution image synthesis with linear diffusion transformers","volume-title":"The Thirteenth International Conference on Learning Representations","author":"Xie","key":"ref45"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00685"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1007\/s44267-024-00057-8"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02091"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52729.2023.01369"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00809"},{"article-title":"IP-Adapter: Text compatible image prompt adapter for text-toimage diffusion models","year":"2023","author":"Ye","key":"ref51"},{"article-title":"DragNUWA: Fine-grained control in video generation by integrating text, image, and trajectory","year":"2023","author":"Yin","key":"ref52"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.00845"},{"key":"ref54","first-page":"45533","article-title":"A tale of two features: Stable diffusion complements DINO for zero-shot semantic correspondence","volume":"36","author":"Zhang","year":"2023","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00355"},{"article-title":"ControlVideo: Training-free controllable text-to-video generation","volume-title":"The Twelfth International Conference on Learning Representations","author":"Zhang","key":"ref56"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i10.33114"},{"article-title":"Tora: Trajectory-oriented diffusion transformer for video generation","year":"2024","author":"Zhang","key":"ref58"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72992-8_16"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00527"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72980-5_1"},{"article-title":"MagicVideo: Efficient video generation with latent diffusion models","year":"2022","author":"Zhou","key":"ref62"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00651"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2024.3510752"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i10.33167"}],"event":{"name":"2025 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","start":{"date-parts":[[2025,6,10]]},"location":"Nashville, TN, USA","end":{"date-parts":[[2025,6,17]]}},"container-title":["2025 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11091818\/11091608\/11094435.pdf?arnumber=11094435","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,15]],"date-time":"2025-08-15T04:50:21Z","timestamp":1755233421000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11094435\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6,10]]},"references-count":65,"URL":"https:\/\/doi.org\/10.1109\/cvpr52734.2025.00681","relation":{},"subject":[],"published":{"date-parts":[[2025,6,10]]}}}