{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T16:53:30Z","timestamp":1777654410155,"version":"3.51.4"},"publisher-location":"New York, NY, USA","reference-count":57,"publisher":"ACM","funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62441615, 62201484, 624B2124"],"award-info":[{"award-number":["62441615, 62201484, 624B2124"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,8,10]]},"DOI":"10.1145\/3721238.3730647","type":"proceedings-article","created":{"date-parts":[[2025,7,23]],"date-time":"2025-07-23T08:42:43Z","timestamp":1753260163000},"page":"1-11","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":4,"title":["VideoAnydoor: High-fidelity Video Object Insertion with Precise Motion Control"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0006-2978-666X","authenticated-orcid":false,"given":"Yuanpeng","family":"Tu","sequence":"first","affiliation":[{"name":"The University of Hong Kong, Hong Kong, Hong Kong"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6405-4011","authenticated-orcid":false,"given":"Hao","family":"Luo","sequence":"additional","affiliation":[{"name":"DAMO Academy, Alibaba Group, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-5008-4720","authenticated-orcid":false,"given":"Xi","family":"Chen","sequence":"additional","affiliation":[{"name":"The University of Hong Kong, Hong Kong, Hong Kong"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-8552-4985","authenticated-orcid":false,"given":"Sihui","family":"Ji","sequence":"additional","affiliation":[{"name":"The University of Hong Kong, Hong Kong, Hong Kong"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3449-5940","authenticated-orcid":false,"given":"Xiang","family":"Bai","sequence":"additional","affiliation":[{"name":"Huazhong University of Science and Technology, Wuhan, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8277-2706","authenticated-orcid":false,"given":"Hengshuang","family":"Zhao","sequence":"additional","affiliation":[{"name":"The University of Hong Kong, Hong Kong, Hong Kong"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,7,27]]},"reference":[{"key":"e_1_3_3_2_2_1","unstructured":"Chen Bai Zeman Shao Guoxiang Zhang Di Liang Jie Yang Zhuorui Zhang Yujian Guo Chengzhang Zhong Yiqiao Qiu Zhendong Wang Yichen Guan Xiaoyin Zheng Tao Wang and Cheng Lu. 2024. Anything in Any Scene: Photorealistic Video Object Insertion. abs: 2401.17509 abs: 2401.17509 (2024)."},{"key":"e_1_3_3_2_3_1","unstructured":"Tim Brooks Bill Peebles Connor Holmes Will DePue Yufei Guo Li Jing David Schnurr Joe Taylor Troy Luhman Eric Luhman Clarence Ng Ricky Wang and Aditya Ramesh. 2024. Video generation models as world simulators. Report (2024)."},{"key":"e_1_3_3_2_4_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02121"},{"key":"e_1_3_3_2_5_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00698"},{"key":"e_1_3_3_2_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00630"},{"key":"e_1_3_3_2_7_1","volume-title":"NeurIPS","author":"Dhariwal Prafulla","year":"2021","unstructured":"Prafulla Dhariwal and Alexander\u00a0Quinn Nichol. 2021. Diffusion Models Beat GANs on Image Synthesis. In NeurIPS."},{"key":"e_1_3_3_2_8_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01850"},{"key":"e_1_3_3_2_9_1","unstructured":"Yuming Du Wen Guo Yang Xiao and Vincent Lepetit. 2021. 1st Place Solution for the UVO Challenge on Video-based Open-World Segmentation 2021. arXiv:https:\/\/arXiv.org\/abs\/2110.11661 (2021)."},{"key":"e_1_3_3_2_10_1","unstructured":"Zixun Fang Wei Zhai Aimin Su Hongliang Song Kai Zhu Mao Wang Yu Chen Zhiheng Liu Yang Cao and Zheng-Jun Zha. 2024. ViViD: Video Virtual Try-on using Diffusion Models. arXiv:https:\/\/arXiv.org\/abs\/2405.11794 (2024)."},{"key":"e_1_3_3_2_11_1","volume-title":"ICLR","author":"Geyer Michal","year":"2024","unstructured":"Michal Geyer, Omer Bar-Tal, Shai Bagon, and Tali Dekel. 2024. TokenFlow: Consistent Diffusion Features for Consistent Video Editing. In ICLR."},{"key":"e_1_3_3_2_12_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00728"},{"key":"e_1_3_3_2_13_1","volume-title":"ICLR","author":"Guo Yuwei","year":"2024","unstructured":"Yuwei Guo, Ceyuan Yang, Anyi Rao, Zhengyang Liang, Yaohui Wang, Yu Qiao, Maneesh Agrawala, Dahua Lin, and Bo Dai. 2024. AnimateDiff: Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning. In ICLR."},{"key":"e_1_3_3_2_14_1","unstructured":"Wenyi Hong Ming Ding Wendi Zheng Xinghan Liu and Jie Tang. 2022. CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers. arXiv:https:\/\/arXiv.org\/abs\/2205.15868 (2022)."},{"key":"e_1_3_3_2_15_1","volume-title":"ICLR","author":"Jeong Hyeonho","year":"2024","unstructured":"Hyeonho Jeong and Jong\u00a0Chul Ye. 2024. Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models. In ICLR."},{"key":"e_1_3_3_2_16_1","unstructured":"Johanna Aleksander Karras Ting-Chun Holynski Ira Wang and Kemelmacher-Shlizerman. 2023. DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion. arXiv:https:\/\/arXiv.org\/abs\/2304.06025 (2023)."},{"key":"e_1_3_3_2_17_1","unstructured":"Nikita Karaev Ignacio Rocco Benjamin Graham Natalia Neverova Andrea Vedaldi and Christian Rupprecht. 2023. CoTracker: It is Better to Track Together. arXiv:https:\/\/arXiv.org\/abs\/2307.07635 (2023)."},{"key":"e_1_3_3_2_18_1","doi-asserted-by":"crossref","unstructured":"Alexander Kirillov Eric Mintun Nikhila Ravi Hanzi Mao Chloe Rolland Laura Gustafson Tete Xiao Spencer Whitehead Alexander\u00a0C. Berg Wan-Yen Lo Piotr Doll\u00e1r and Ross Girshick. 2023. Segment Anything. arXiv:https:\/\/arXiv.org\/abs\/2304.02643 (2023).","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"e_1_3_3_2_19_1","unstructured":"Max Ku Cong Wei Weiming Ren Harry Yang and Wenhu Chen. 2024. AnyV2V: A Tuning-Free Framework For Any Video-to-Video Editing Tasks. arXiv:https:\/\/arXiv.org\/abs\/2403.14468 (2024)."},{"key":"e_1_3_3_2_20_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00192"},{"key":"e_1_3_3_2_21_1","volume-title":"ICML","author":"Li Junnan","year":"2023","unstructured":"Junnan Li, Dongxu Li, Silvio Savarese, and Steven Hoi. 2023. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In ICML."},{"key":"e_1_3_3_2_22_1","unstructured":"Gongye Liu Menghan Xia Yong Zhang Haoxin Chen Jinbo Xing Xintao Wang Yujiu Yang and Ying Shan. 2023. StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter. arXiv:https:\/\/arXiv.org\/abs\/2312.00330 (2023)."},{"key":"e_1_3_3_2_23_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00821"},{"key":"e_1_3_3_2_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.02036"},{"key":"e_1_3_3_2_25_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00412"},{"key":"e_1_3_3_2_26_1","unstructured":"Chong Mou Mingdeng Cao Xintao Wang Zhaoyang Zhang Ying Shan and Jian Zhang. 2024. ReVideo: Remake a Video with Motion and Content Control. arXiv:https:\/\/arXiv.org\/abs\/2405.13865 (2024)."},{"key":"e_1_3_3_2_27_1","unstructured":"Maxime Oquab Timoth\u00e9e Darcet Theo Moutakanni Huy\u00a0V. Vo Marc Szafraniec Vasil Khalidov Pierre Fernandez Daniel Haziza Francisco Massa Alaaeldin El-Nouby Russell Howes Po-Yao Huang Hu Xu Vasu Sharma Shang-Wen Li Wojciech Galuba Mike Rabbat Mido Assran Nicolas Ballas Gabriel Synnaeve Ishan Misra Herve Jegou Julien Mairal Patrick Labatut Armand Joulin and Piotr Bojanowski. 2023. DINOv2: Learning Robust Visual Features without Supervision. TMLR (2023)."},{"key":"e_1_3_3_2_28_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00773"},{"key":"e_1_3_3_2_29_1","volume-title":"ICML","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong\u00a0Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. In ICML."},{"key":"e_1_3_3_2_30_1","unstructured":"Nikhila Ravi Valentin Gabeur Yuan-Ting Hu Ronghang Hu Chaitanya Ryali Tengyu Ma Haitham Khedr Roman R\u00e4dle Chloe Rolland Laura Gustafson Eric Mintun Junting Pan Kalyan\u00a0Vasudev Alwala Nicolas Carion Chao-Yuan Wu Ross Girshick Piotr Doll\u00e1r and Christoph Feichtenhofer. 2024. SAM 2: Segment Anything in Images and Videos. arXiv:https:\/\/arXiv.org\/abs\/2408.00714 (2024)."},{"key":"e_1_3_3_2_31_1","unstructured":"Weiming Ren Harry Yang Ge Zhang Cong Wei Xinrun Du Stephen Huang and Wenhu Chen. 2024. ConsistI2V: Enhancing Visual Consistency for Image-to-Video Generation. TMLR (2024)."},{"key":"e_1_3_3_2_32_1","volume-title":"NeurIPS","author":"Saharia Chitwan","year":"2022","unstructured":"Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily\u00a0L. Denton, Seyed Kamyar\u00a0Seyed Ghasemipour, Raphael\u00a0Gontijo Lopes, Burcu\u00a0Karagol Ayan, Tim Salimans, Jonathan Ho, David\u00a0J. Fleet, and Mohammad Norouzi. 2022. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. In NeurIPS."},{"key":"e_1_3_3_2_33_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00581"},{"key":"e_1_3_3_2_34_1","unstructured":"Yizhi Song Zhifei Zhang Zhe Lin Scott Cohen Brian\u00a0L. Price Jianming Zhang Soo\u00a0Ye Kim and Daniel\u00a0G. Aliaga. 2022. ObjectStitch: Generative Object Compositing. arXiv.2212.00932 (2022)."},{"key":"e_1_3_3_2_35_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00769"},{"key":"e_1_3_3_2_36_1","doi-asserted-by":"crossref","unstructured":"Yule Sun Ang Lu and Lu Yu. 2017. Weighted-to-Spherically-Uniform Quality Evaluation for Omnidirectional Video. Signal Processing Letters (2017).","DOI":"10.1109\/LSP.2017.2720693"},{"key":"e_1_3_3_2_37_1","unstructured":"Kolors Team. 2024. Kolors: Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis. arXiv preprint (2024)."},{"key":"e_1_3_3_2_38_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00753"},{"key":"e_1_3_3_2_39_1","volume-title":"arxiv","author":"Wang Wei","year":"2024","unstructured":"Wei Wang, Yaosen Chen, Yuegen Liu, Qi Yuan, Shubin Yang, and Yanru Zhang. 2024a. MVOC: a training-free multiple video object composition method with diffusion models. In arxiv."},{"key":"e_1_3_3_2_40_1","volume-title":"NeurIPS","author":"Wang Xiang","year":"2024","unstructured":"Xiang Wang, Hangjie Yuan, Shiwei Zhang, Dayou Chen, Jiuniu Wang, Yingya Zhang, Yujun Shen, Deli Zhao, and Jingren Zhou. 2024b. Videocomposer: Compositional video synthesis with motion controllability. In NeurIPS."},{"key":"e_1_3_3_2_41_1","volume-title":"CVPR","author":"Wei Yujie","year":"2024","unstructured":"Yujie Wei, Shiwei Zhang, Zhiwu Qing, Hangjie Yuan, Zhiheng Liu, Yu Liu, Yingya Zhang, Jingren Zhou, and Hongming Shan. 2024a. Dreamvideo: Composing your dream videos with customized subject and motion. In CVPR."},{"key":"e_1_3_3_2_42_1","unstructured":"Yujie Wei Shiwei Zhang Hangjie Yuan Xiang Wang Haonan Qiu Rui Zhao Yutong Feng Feng Liu Zhizhong Huang Jiaxin Ye Yingya Zhang and Hongming Shan. 2024b. DreamVideo-2: Zero-Shot Subject-Driven Video Customization with Precise Motion Control. arXiv:https:\/\/arXiv.org\/abs\/2410.13830 (2024)."},{"key":"e_1_3_3_2_43_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00701"},{"key":"e_1_3_3_2_44_1","unstructured":"Tao Wu Yong Zhang Xintao Wang Xianpan Zhou Guangcong Zheng Zhongang Qi Ying Shan and Xi Li. 2024. CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities. arXiv:https:\/\/arXiv.org\/abs\/2408.13239 (2024)."},{"key":"e_1_3_3_2_45_1","volume-title":"SIGGRAPH","year":"2024","unstructured":"Xun, Mingwu Guo, Liang Zheng, Yuan Hou, Yufan Gao, Pengfei Deng, Di Wan, Yufan Zhang, Weiming Liu, Zhengjun Hu, Haibin Zha, Chongyang Huang, and Ma. 2024. I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models. In SIGGRAPH."},{"key":"e_1_3_3_2_46_1","unstructured":"Binxin Yang Shuyang Gu Bo Zhang Ting Zhang Xuejin Chen Xiaoyan Sun Dong Chen and Fang Wen. 2022. Paint by Example: Exemplar-based Image Editing with Diffusion Models. arXiv:https:\/\/arXiv.org\/abs\/2211.13227 (2022)."},{"key":"e_1_3_3_2_47_1","volume-title":"ECCV","author":"Yang Jie","year":"2024","unstructured":"Jie Yang, Ailing Zeng, Ruimao Zhang, and Lei Zhang. 2024b. X-Pose: Detection Any Keypoints. In ECCV."},{"key":"e_1_3_3_2_48_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00529"},{"key":"e_1_3_3_2_49_1","unstructured":"Xiangpeng Yang Linchao Zhu Hehe Fan and Yi Yang. 2024c. EVA: Zero-shot Accurate Attributes and Multi-Object Video Editing. arXiv:https:\/\/arXiv.org\/abs\/2403.16111 (2024)."},{"key":"e_1_3_3_2_50_1","unstructured":"Zhuoyi Yang Jiayan Teng Wendi Zheng Ming Ding Shiyu Huang Jiazheng Xu Yuanming Yang Wenyi Hong Xiaohan Zhang Guanyu Feng et\u00a0al. 2024a. CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer. arXiv:https:\/\/arXiv.org\/abs\/2408.06072 (2024)."},{"key":"e_1_3_3_2_51_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00883"},{"key":"e_1_3_3_2_52_1","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3681396"},{"key":"e_1_3_3_2_53_1","unstructured":"Bo Zhang Yuxuan Duan Jun Lan Yan Hong Huijia Zhu Weiqiang Wang and Li Niu. 2023a. Controlcom: Controllable image composition using diffusion model. arXiv:https:\/\/arXiv.org\/abs\/2308.10040 (2023)."},{"key":"e_1_3_3_2_54_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00355"},{"key":"e_1_3_3_2_55_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00355"},{"key":"e_1_3_3_2_56_1","unstructured":"Yuang Zhang Jiaxi Gu Li-Wen Wang Han Wang Junqi Cheng Yuefeng Zhu and Fangyuan Zou. 2024. MimicMotion: High-Quality Human Motion Video Generation with Confidence-aware Pose Guidance. arXiv:https:\/\/arXiv.org\/abs\/2406.19680 (2024)."},{"key":"e_1_3_3_2_57_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00366"},{"key":"e_1_3_3_2_58_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20071-7_38"}],"event":{"name":"SIGGRAPH Conference Papers '25: Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers","location":"Vancouver BC Canada","acronym":"SIGGRAPH Conference Papers '25","sponsor":["SIGGRAPH ACM Special Interest Group on Computer Graphics and Interactive Techniques"]},"container-title":["Proceedings of the Special Interest Group on Computer Graphics and Interactive Techniques Conference Conference Papers"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3721238.3730647","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T15:04:09Z","timestamp":1774019049000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3721238.3730647"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,7,27]]},"references-count":57,"alternative-id":["10.1145\/3721238.3730647","10.1145\/3721238"],"URL":"https:\/\/doi.org\/10.1145\/3721238.3730647","relation":{},"subject":[],"published":{"date-parts":[[2025,7,27]]},"assertion":[{"value":"2025-07-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}