{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T04:09:49Z","timestamp":1765339789907,"version":"3.46.0"},"publisher-location":"New York, NY, USA","reference-count":41,"publisher":"ACM","funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62372014, 62525201, 62132001, 62432001, 62201014"],"award-info":[{"award-number":["62372014, 62525201, 62132001, 62432001, 62201014"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100005090","name":"Beijing Nova Program","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100005090","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Beijing Natural Science Foundation","award":["4252040, L247006"],"award-info":[{"award-number":["4252040, L247006"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,27]]},"DOI":"10.1145\/3746027.3761989","type":"proceedings-article","created":{"date-parts":[[2025,10,25]],"date-time":"2025-10-25T07:26:51Z","timestamp":1761377211000},"page":"13751-13757","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Identity-Preserving Text-to-Video Generation via Training-Free Prompt, Image, and Guidance Enhancement"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-6315-5884","authenticated-orcid":false,"given":"Jiayi","family":"Gao","sequence":"first","affiliation":[{"name":"Wangxuan Institute of Computer Technology, Peking University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-4187-7923","authenticated-orcid":false,"given":"Changcheng","family":"Hua","sequence":"additional","affiliation":[{"name":"Wangxuan Institute of Computer Technology, Peking University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1216-5609","authenticated-orcid":false,"given":"Qingchao","family":"Chen","sequence":"additional","affiliation":[{"name":"National Institute of Health Data Science, Peking University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7658-3845","authenticated-orcid":false,"given":"Yuxin","family":"Peng","sequence":"additional","affiliation":[{"name":"Wangxuan Institute of Computer Technology, Peking University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4259-3882","authenticated-orcid":false,"given":"Yang","family":"Liu","sequence":"additional","affiliation":[{"name":"Wangxuan Institute of Computer Technology, Peking University, Beijing, China"}]}],"member":"320","published-online":{"date-parts":[[2025,10,27]]},"reference":[{"key":"e_1_3_2_1_1_1","unstructured":"Fan Bao Chendong Xiang Gang Yue Guande He Hongzhou Zhu Kaiwen Zheng Min Zhao Shilong Liu Yaole Wang and Jun Zhu. 2024. Vidu: a highly consistent dynamic and skilled text-to-video generator with diffusion models. arXiv:2405.04233 [cs.CV] https:\/\/arxiv.org\/abs\/2405.04233"},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1145\/3687945"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00572"},{"key":"e_1_3_2_1_4_1","first-page":"4690","article-title":"Arcface: Additive angular margin loss for deep face recognition","author":"Deng Jiankang","year":"2019","unstructured":"Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos Zafeiriou. 2019. Arcface: Additive angular margin loss for deep face recognition. In CVPR. 4690-4699.","journal-title":"CVPR."},{"key":"e_1_3_2_1_5_1","volume-title":"Forty-first international conference on machine learning.","author":"Esser Patrick","year":"2024","unstructured":"Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas M\u00fcller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, et al., 2024. Scaling rectified flow transformers for high-resolution image synthesis. In Forty-first international conference on machine learning."},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00674"},{"key":"e_1_3_2_1_7_1","unstructured":"Xuanhua He Quande Liu Shengju Qian Xin Wang Tao Hu Ke Cao Keyu Yan Man Zhou and Jie Zhang. 2024. ID-Animator: Zero-Shot Identity-Preserving Human Video Generation. arXiv:2404.15275 [cs.CV] https:\/\/arxiv.org\/abs\/2404.15275"},{"key":"e_1_3_2_1_8_1","volume-title":"GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium. NeurIPS (Jan","author":"Heusel Martin","year":"2017","unstructured":"Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. 2017. GANs Trained by a Two Time-Scale Update Rule Converge to a Local Nash Equilibrium. NeurIPS (Jan 2017)."},{"key":"e_1_3_2_1_9_1","unstructured":"Jonathan Ho and Tim Salimans. 2022. Classifier-free diffusion guidance. arXiv:2207.12598 [cs.CV] https:\/\/arxiv.org\/abs\/2207.12598"},{"key":"e_1_3_2_1_10_1","first-page":"5901","article-title":"Curricularface: adaptive curriculum learning loss for deep face recognition","author":"Huang Yuge","year":"2020","unstructured":"Yuge Huang, Yuhan Wang, Ying Tai, Xiaoming Liu, Pengcheng Shen, Shaoxin Li, Jilin Li, and Feiyue Huang. 2020. Curricularface: adaptive curriculum learning loss for deep face recognition. In CVPR. 5901-5910.","journal-title":"CVPR."},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02060"},{"key":"e_1_3_2_1_12_1","unstructured":"Aaron Hurst Adam Lerer Adam P Goucher Adam Perelman Aditya Ramesh Aidan Clark AJ Ostrow Akila Welihinda Alan Hayes Alec Radford et al. 2024. Gpt-4o system card. arXiv:2410.21276 [cs.CL] https:\/\/arxiv.org\/abs\/2410.21276"},{"key":"e_1_3_2_1_13_1","volume-title":"Vace: All-in-one video creation and editing. arXiv:2503.07598 [cs.CV] https:\/\/arxiv.org\/abs\/2503.07598","author":"Jiang Zeyinzi","year":"2025","unstructured":"Zeyinzi Jiang, Zhen Han, Chaojie Mao, Jingfeng Zhang, Yulin Pan, and Yu Liu. 2025. Vace: All-in-one video creation and editing. arXiv:2503.07598 [cs.CV] https:\/\/arxiv.org\/abs\/2503.07598"},{"key":"e_1_3_2_1_14_1","volume-title":"Hunyuanvideo: A systematic framework for large video generative models. arXiv:2412.03603 [cs.CV] https:\/\/arxiv.org\/abs\/2412.03603","author":"Kong Weijie","year":"2024","unstructured":"Weijie Kong, Qi Tian, Zijian Zhang, Rox Min, Zuozhuo Dai, Jin Zhou, Jiangfeng Xiong, Xin Li, Bo Wu, Jianwei Zhang, et al., 2024. Hunyuanvideo: A systematic framework for large video generative models. arXiv:2412.03603 [cs.CV] https:\/\/arxiv.org\/abs\/2412.03603"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02582"},{"key":"e_1_3_2_1_16_1","first-page":"8640","article-title":"Photomaker: Customizing realistic human photos via stacked id embedding","author":"Li Zhen","year":"2024","unstructured":"Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, and Ying Shan. 2024a. Photomaker: Customizing realistic human photos via stacked id embedding. In CVPR. 8640-8650.","journal-title":"CVPR."},{"key":"e_1_3_2_1_17_1","unstructured":"Zhuoying Li Zhu Xu Yuxin Peng and Yang Liu. 2025. Balancing Preservation and Modification: A Region and Semantic Aware Metric for Instruction-Based Image Editing. arXiv:2506.13827 [cs.CV] https:\/\/arxiv.org\/abs\/2506.13827"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00945"},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01227"},{"key":"e_1_3_2_1_20_1","volume-title":"Phantom: Subject-consistent video generation via cross-modal alignment. arXiv:2502.11079 [cs.CV] https:\/\/arxiv.org\/abs\/2502.11079","author":"Liu Lijie","year":"2025","unstructured":"Lijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Gen Li, Siyu Zhou, Qian He, and Xinglong Wu. 2025. Phantom: Subject-consistent video generation via cross-modal alignment. arXiv:2502.11079 [cs.CV] https:\/\/arxiv.org\/abs\/2502.11079"},{"key":"e_1_3_2_1_21_1","unstructured":"Dezhao Luo Shaogang Gong Jiabo Huang Hailin Jin and Yang Liu. 2024. Generative video diffusion for unseen cross-domain video moment retrieval. arXiv:2401.13329 [cs.CV] https:\/\/arxiv.org\/abs\/2401.13329"},{"key":"e_1_3_2_1_22_1","volume-title":"European Conference on Computer Vision. Springer, 19-37","author":"Ma Ze","year":"2024","unstructured":"Ze Ma, Daquan Zhou, Xue-She Wang, Chun-Hsiao Yeh, Xiuyu Li, Huanrui Yang, Zhen Dong, Kurt Keutzer, and Jiashi Feng. 2024. Magic-me: Identity-specific video customized diffusion. In European Conference on Computer Vision. Springer, 19-37."},{"key":"e_1_3_2_1_23_1","volume-title":"Ace: Instruction-based image creation and editing via context-aware content filling. arXiv:2501.02487 [cs.CV] https:\/\/arxiv.org\/abs\/2501.02487","author":"Mao Chaojie","year":"2025","unstructured":"Chaojie Mao, Jingfeng Zhang, Yulin Pan, Zeyinzi Jiang, Zhen Han, Yu Liu, and Jingren Zhou. 2025. Ace: Instruction-based image creation and editing via context-aware content filling. arXiv:2501.02487 [cs.CV] https:\/\/arxiv.org\/abs\/2501.02487"},{"key":"e_1_3_2_1_24_1","unstructured":"MiniMax. 2024. Hailuo s2v-01. https:\/\/www.minimaxi.com\/en\/news\/s2v-01-release\/."},{"key":"e_1_3_2_1_25_1","volume-title":"International conference on machine learning. PmLR, 8748-8763","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al., 2021. Learning transferable visual models from natural language supervision. In International conference on machine learning. PmLR, 8748-8763."},{"key":"e_1_3_2_1_26_1","volume-title":"Hanshu Yan, Vincent YF Tan, and Jiashi Feng.","author":"Shi Yujun","year":"2024","unstructured":"Yujun Shi, Jun Hao Liew, Hanshu Yan, Vincent YF Tan, and Jiashi Feng. 2024. InstaDrag: Lightning Fast and Accurate Drag-based Image Editing Emerging from Videos. arXiv:2405.13722 [cs.CV] https:\/\/arxiv.org\/abs\/2405.13722"},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i7.32787"},{"key":"e_1_3_2_1_28_1","unstructured":"Peng Wang Shuai Bai Sinan Tan Shijie Wang Zhihao Fan Jinze Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Yang Fan Kai Dang Mengfei Du Xuancheng Ren Rui Men Dayiheng Liu Chang Zhou Jingren Zhou and Junyang Lin. 2024a. Qwen2-vl: Enhancing vision-language model's perception of the world at any resolution. arXiv:2409.12191 [cs.CV] https:\/\/arxiv.org\/abs\/2409.12191"},{"key":"e_1_3_2_1_29_1","volume-title":"Customvideo: Customizing text-to-video generation with multiple subjects. arXiv:2401.09962 [cs.CV] https:\/\/arxiv.org\/abs\/2401.09962","author":"Wang Zhao","year":"2024","unstructured":"Zhao Wang, Aoxue Li, Enze Xie, Lingting Zhu, Yong Guo, Qi Dou, and Zhenguo Li. 2024b. Customvideo: Customizing text-to-video generation with multiple subjects. arXiv:2401.09962 [cs.CV] https:\/\/arxiv.org\/abs\/2401.09962"},{"key":"e_1_3_2_1_30_1","first-page":"6537","article-title":"Dreamvideo: Composing your dream videos with customized subject and motion","author":"Wei Yujie","year":"2024","unstructured":"Yujie Wei, Shiwei Zhang, Zhiwu Qing, Hangjie Yuan, Zhiheng Liu, Yu Liu, Yingya Zhang, Jingren Zhou, and Hongming Shan. 2024. Dreamvideo: Composing your dream videos with customized subject and motion. In CVPR. 6537-6549.","journal-title":"CVPR."},{"key":"e_1_3_2_1_31_1","first-page":"34322","article-title":"Motionbooth: Motion-aware customized text-to-video generation","volume":"37","author":"Wu Jianzong","year":"2024","unstructured":"Jianzong Wu, Xiangtai Li, Yanhong Zeng, Jiangning Zhang, Qianyu Zhou, Yining Li, Yunhai Tong, and Kai Chen. 2024. Motionbooth: Motion-aware customized text-to-video generation. Advances in Neural Information Processing Systems, Vol. 37 (2024), 34322-34348.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_1_32_1","volume-title":"Forty-first International Conference on Machine Learning.","author":"Xu Zhu","year":"2024","unstructured":"Zhu Xu, Qingchao Chen, Yuxin Peng, and Yang Liu. 2024. Semantic-aware human object interaction image generation. In Forty-first International Conference on Machine Learning."},{"key":"e_1_3_2_1_33_1","volume-title":"Proceedings of the ACM International Conference on Multimedia (ACM-MM).","author":"Xu Zhu","year":"2025","unstructured":"Zhu Xu, Zhaowen Wang, Yuxin Peng, and Yang Liu. 2025. Customized Human Object Interaction Image Generation. In Proceedings of the ACM International Conference on Multimedia (ACM-MM)."},{"key":"e_1_3_2_1_34_1","volume-title":"Cogvideox: Text-to-video diffusion models with an expert transformer. arXiv:2408.06072 [cs.CV] https:\/\/arxiv.org\/abs\/2408.06072","author":"Yang Zhuoyi","year":"2024","unstructured":"Zhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, et al., 2024. Cogvideox: Text-to-video diffusion models with an expert transformer. arXiv:2408.06072 [cs.CV] https:\/\/arxiv.org\/abs\/2408.06072"},{"key":"e_1_3_2_1_35_1","unstructured":"Wangbo Yu Chaoran Feng Jiye Tang Xu Jia Li Yuan and Yonghong Tian. 2024a. EvaGaussians: Event Stream Assisted Gaussian Splatting from Blurry Images. arXiv:2405.20224 [cs.CV] https:\/\/arxiv.org\/pdf\/2405.20224"},{"key":"e_1_3_2_1_36_1","unstructured":"Wangbo Yu Jinbo Xing Li Yuan Wenbo Hu Xiaoyu Li Zhipeng Huang Xiangjun Gao Tien-Tsin Wong Ying Shan and Yonghong Tian. 2024b. ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis. arXiv:2409.02048 [cs.CV] https:\/\/arxiv.org\/abs\/2409.02048"},{"key":"e_1_3_2_1_37_1","unstructured":"Shenghai Yuan Xianyi He Yufan Deng Yang Ye Jinfa Huang Bin Lin Chongyang Ma Jiebo Luo and Li Yuan. 2025a. OpenS2V-Nexus: A Detailed Benchmark and Million-Scale Dataset for Subject-to-Video Generation. arXiv:2505.20292 [cs.CV] https:\/\/arxiv.org\/abs\/2505.20292"},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01211"},{"key":"e_1_3_2_1_39_1","unstructured":"Shenghai Yuan Jinfa Huang Yujun Shi Yongqi Xu Ruijie Zhu Bin Lin Xinhua Cheng Li Yuan and Jiebo Luo. 2024. MagicTime: Time-lapse Video Generation Models as Metamorphic Simulators. arXiv:2404.05014 [cs.CV] https:\/\/arxiv.org\/abs\/2404.05014"},{"key":"e_1_3_2_1_40_1","first-page":"3836","article-title":"Adding conditional control to text-to-image diffusion models","author":"Zhang Lvmin","year":"2023","unstructured":"Lvmin Zhang, Anyi Rao, and Maneesh Agrawala. 2023. Adding conditional control to text-to-image diffusion models. In ICCV. 3836-3847.","journal-title":"ICCV."},{"key":"e_1_3_2_1_41_1","volume-title":"GME: Improving Universal Multimodal Retrieval by Multimodal LLMs. arXiv:2412.16855 [cs.CV] https:\/\/arxiv.org\/abs\/2412.16855","author":"Zhang Xin","year":"2024","unstructured":"Xin Zhang, Yanzhao Zhang, Wen Xie, Mingxin Li, Ziqi Dai, Dingkun Long, Pengjun Xie, Meishan Zhang, Wenjie Li, and Min Zhang. 2024. GME: Improving Universal Multimodal Retrieval by Multimodal LLMs. arXiv:2412.16855 [cs.CV] https:\/\/arxiv.org\/abs\/2412.16855"}],"event":{"name":"MM '25: The 33rd ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Dublin Ireland","acronym":"MM '25"},"container-title":["Proceedings of the 33rd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746027.3761989","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T04:06:40Z","timestamp":1765339600000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746027.3761989"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,27]]},"references-count":41,"alternative-id":["10.1145\/3746027.3761989","10.1145\/3746027"],"URL":"https:\/\/doi.org\/10.1145\/3746027.3761989","relation":{},"subject":[],"published":{"date-parts":[[2025,10,27]]},"assertion":[{"value":"2025-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}