{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,20]],"date-time":"2026-02-20T16:15:31Z","timestamp":1771604131874,"version":"3.50.1"},"reference-count":79,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2025,12,26]],"date-time":"2025-12-26T00:00:00Z","timestamp":1766707200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,12,26]],"date-time":"2025-12-26T00:00:00Z","timestamp":1766707200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100012166","name":"National Key R&D Program of China","doi-asserted-by":"crossref","award":["62206244"],"award-info":[{"award-number":["62206244"]}],"id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2026,1]]},"DOI":"10.1007\/s11263-025-02623-z","type":"journal-article","created":{"date-parts":[[2025,12,26]],"date-time":"2025-12-26T06:48:23Z","timestamp":1766731703000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["FreerCustom: Training-Free Multi-Concept Customization for Image and Video Generation"],"prefix":"10.1007","volume":"134","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-4142-6844","authenticated-orcid":false,"given":"Canyu","family":"Zhao","sequence":"first","affiliation":[]},{"given":"Ganggui","family":"Ding","sequence":"additional","affiliation":[]},{"given":"Wen","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Zhen","family":"Yang","sequence":"additional","affiliation":[]},{"given":"Zide","family":"Liu","sequence":"additional","affiliation":[]},{"given":"Hao","family":"Chen","sequence":"additional","affiliation":[]},{"given":"Chunhua","family":"Shen","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,12,26]]},"reference":[{"key":"2623_CR1","doi-asserted-by":"publisher","unstructured":"Alaluf, Y., Richardson, E., Metzer, G., & Cohen-Or, D. A neural space-time representation for text-to-image personalization. ACM Trans. Graph. 42(6) (2023). https:\/\/doi.org\/10.1145\/3618322","DOI":"10.1145\/3618322"},{"key":"2623_CR2","unstructured":"Balaji, Y., Nah, S., Huang, X., Vahdat, A., Song, J., Kreis, K., Aittala, M., Aila, T., Laine, S., Catanzaro, B., & et\u00a0al. ediff-i: Text-to-image diffusion models with an ensemble of expert denoisers. corr, vol. abs\/2211.01324 (2022) (2022)"},{"key":"2623_CR3","unstructured":"Blattmann, A., Dockhorn, T., Kulal, S., Mendelevitch, D., Kilian, M., Lorenz, D., Levi, Y., English, Z., Voleti, V., & et\u00a0al. Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127 (2023)"},{"key":"2623_CR4","doi-asserted-by":"crossref","unstructured":"Blattmann, A., Rombach, R., Ling, H., Dockhorn, T., Kim, S.W., Fidler, S., & Kreis, K. Align your latents: High-resolution video synthesis with latent diffusion models. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 22,563\u201322,575 (2023)","DOI":"10.1109\/CVPR52729.2023.02161"},{"key":"2623_CR5","doi-asserted-by":"crossref","unstructured":"Cao, M., Wang, X., Qi, Z., Shan, Y., Qie, X., & Zheng, Y. Masactrl: Tuning-free mutual self-attention control for consistent image synthesis and editing. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 22,560\u201322,570 (2023)","DOI":"10.1109\/ICCV51070.2023.02062"},{"key":"2623_CR6","unstructured":"Chen, H., Wang, X., Zeng, G., Zhang, Y., Zhou, Y., Han, F., & Zhu, W. Videodreamer: Customized multi-subject text-to-video generation with disen-mix finetuning (2023). arxiv:2311.00990"},{"key":"2623_CR7","doi-asserted-by":"crossref","unstructured":"Chen, H., Wang, X., Zhang, Y., Zhou, Y., Zhang, Z., Tang, S., & Zhu, W. Disenstudio: Customized multi-subject text-to-video generation with disentangled spatial control. In: Proceedings of the 32nd ACM International Conference on Multimedia, pp. 3637\u20133646 (2024)","DOI":"10.1145\/3664647.3680637"},{"key":"2623_CR8","unstructured":"Chen, H., Xia, M., He, Y., Zhang, Y., Cun, X., Yang, S., Xing, J., Liu, Y., Chen, Q., Wang, X., Weng, C., & Shan, Y. Videocrafter1: Open diffusion models for high-quality video generation (2023). arxiv:2310.19512"},{"key":"2623_CR9","doi-asserted-by":"crossref","unstructured":"Chen, H., Zhang, Y., Cun, X., Xia, M., Wang, X., Weng, C., & Shan, Y. Videocrafter2: Overcoming data limitations for high-quality video diffusion models. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7310\u20137320 (2024)","DOI":"10.1109\/CVPR52733.2024.00698"},{"key":"2623_CR10","doi-asserted-by":"crossref","unstructured":"Chen, K., Song, J., Liu, S., Yu, N., Feng, Z., Han, G., & Song, M. Distribution knowledge embedding for graph pooling (2022)","DOI":"10.1109\/TKDE.2022.3208063"},{"key":"2623_CR11","unstructured":"Chen, W., Hu, H., Li, Y., Ruiz, N., Jia, X., Chang, M.W., & Cohen, W.W. Subject-driven text-to-image generation via apprenticeship learning. In: A.\u00a0Oh, T.\u00a0Naumann, A.\u00a0Globerson, K.\u00a0Saenko, M.\u00a0Hardt, S.\u00a0Levine (eds.) Advances in Neural Information Processing Systems, vol.\u00a036, pp. 30,286\u201330,305. Curran Associates, Inc. (2023). https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2023\/file\/6091bf1542b118287db4088bc16be8d9-Paper-Conference.pdf"},{"key":"2623_CR12","unstructured":"Couairon, G., Verbeek, J., Schwenk, H., & Cord, M. Diffedit: Diffusion-based semantic image editing with mask guidance. arXiv preprint arXiv:2210.11427 (2022)"},{"key":"2623_CR13","unstructured":"Darcet, T., Oquab, M., Mairal, J., & Bojanowski, P. Vision transformers need registers (2023)"},{"key":"2623_CR14","unstructured":"Dhariwal, P., & Nichol, A. (2021). Diffusion models beat gans on image synthesis. Advances in neural information processing systems, 34, 8780\u20138794."},{"key":"2623_CR15","doi-asserted-by":"crossref","unstructured":"Ding, G., Zhao, C., Wang, W., Yang, Z., Liu, Z., Chen, H., & Shen, C. Freecustom: Tuning-free customized image generation for multi-concept composition. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (2024)","DOI":"10.1109\/CVPR52733.2024.00868"},{"key":"2623_CR16","doi-asserted-by":"crossref","unstructured":"Esser, P., Chiu, J., Atighehchian, P., Granskog, J., & Germanidis, A. Structure and content-guided video synthesis with diffusion models. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 7346\u20137356 (2023)","DOI":"10.1109\/ICCV51070.2023.00675"},{"key":"2623_CR17","unstructured":"Gal, R., Alaluf, Y., Atzmon, Y., Patashnik, O., Bermano, A.H., Chechik, G., & Cohen-Or, D: An image is worth one word: Personalizing text-to-image generation using textual inversion. arXiv preprint arXiv:2208.01618 (2022)"},{"key":"2623_CR18","doi-asserted-by":"crossref","unstructured":"Gandikota, R., Materzynska, J., Fiotto-Kaufman, J., & Bau, D. Erasing concepts from diffusion models. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 2426\u20132436 (2023)","DOI":"10.1109\/ICCV51070.2023.00230"},{"key":"2623_CR19","unstructured":"Geyer, M., Bar-Tal, O., Bagon, S., & Dekel, T. Tokenflow: Consistent diffusion features for consistent video editing. arXiv preprint arXiv:2307.10373 (2023)"},{"key":"2623_CR20","unstructured":"Gu, Y., Wang, X., Wu, J.Z., Shi, Y., Chen, Y., Fan, Z., Xiao, W., Zhao, R., Chang, S., Wu, W., & et\u00a0al. Mix-of-show: Decentralized low-rank adaptation for multi-concept customization of diffusion models. Advances in Neural Information Processing Systems 36 (2024)"},{"key":"2623_CR21","doi-asserted-by":"crossref","unstructured":"Guo, X., Zheng, M., Hou, L., Gao, Y., Deng, Y., Wan, P., Zhang, D., Liu, Y., Hu, W., Zha, Z., Huang, H., & Ma, C. I2v-adapter: A general image-to-video adapter for diffusion models (2024). arxiv:2312.16693","DOI":"10.1145\/3641519.3657407"},{"key":"2623_CR22","doi-asserted-by":"crossref","unstructured":"Guo, Y., Yang, C., Rao, A., Agrawala, M., Lin, D., & Dai, B. Sparsectrl: Adding sparse controls to text-to-video diffusion models (2023). arxiv:2311.16933","DOI":"10.1007\/978-3-031-72946-1_19"},{"key":"2623_CR23","unstructured":"Guo, Y., Yang, C., Rao, A., Liang, Z., Wang, Y., Qiao, Y., Agrawala, M., Lin, D., & Dai, B. Animatediff: Animate your personalized text-to-image diffusion models without specific tuning. arXiv preprint arXiv:2307.04725 (2023)"},{"key":"2623_CR24","unstructured":"He, H., Xu, Y., Guo, Y., Wetzstein, G., Dai, B., Li, H., & Yang, C. Cameractrl: Enabling camera control for text-to-video generation. arXiv preprint arXiv:2404.02101 (2024)"},{"key":"2623_CR25","unstructured":"Hertz, A., Mokady, R., Tenenbaum, J., Aberman, K., Pritch, Y., & Cohen-Or, D. Prompt-to-prompt image editing with cross attention control. arXiv preprint arXiv:2208.01626 (2022)"},{"key":"2623_CR26","first-page":"6840","volume":"33","author":"J Ho","year":"2020","unstructured":"Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in neural information processing systems, 33, 6840\u20136851.","journal-title":"Advances in neural information processing systems"},{"key":"2623_CR27","first-page":"8633","volume":"35","author":"J Ho","year":"2022","unstructured":"Ho, J., Salimans, T., Gritsenko, A., Chan, W., Norouzi, M., & Fleet, D. J. (2022). Video diffusion models. Advances in Neural Information Processing Systems, 35, 8633\u20138646.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"2623_CR28","unstructured":"Hu, E.J., Shen, Y., Wallis, P., Allen-Zhu, Z., Li, Y., Wang, S., Wang, L., & Chen, W. LoRA: Low-rank adaptation of large language models. In: International Conference on Learning Representations (2022). https:\/\/openreview.net\/forum?id=nZeVKeeFYf9"},{"key":"2623_CR29","doi-asserted-by":"crossref","unstructured":"Hu, L. Animate anyone: Consistent and controllable image-to-video synthesis for character animation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8153\u20138163 (2024)","DOI":"10.1109\/CVPR52733.2024.00779"},{"key":"2623_CR30","unstructured":"Huang, Z., He, Y., Yu, J., Zhang, F., Si, C., Jiang, Y., Zhang, Y., Wu, T., Jin, Q., Chanpaisit, N., & et\u00a0al. Vbench: Comprehensive benchmark suite for video generative models. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 21,807\u201321,818 (2024)"},{"key":"2623_CR31","doi-asserted-by":"crossref","unstructured":"Jiang, Y., Wu, T., Yang, S., Si, C., Lin, D., Qiao, Y., Loy, C.C., & Liu, Z. Videobooth: Diffusion-based video generation with image prompts. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6689\u20136700 (2024)","DOI":"10.1109\/CVPR52733.2024.00639"},{"key":"2623_CR32","doi-asserted-by":"crossref","unstructured":"Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A.C., Lo, W.Y., Doll\u00e1r, P., & Girshick, R. Segment anything. arXiv:2304.02643 (2023)","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"2623_CR33","doi-asserted-by":"crossref","unstructured":"Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, A.C., Lo, W.Y., & et\u00a0al. Segment anything. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 4015\u20134026 (2023)","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"2623_CR34","unstructured":"Ku, M., Wei, C., Ren, W., Yang, H., & Chen, W. Anyv2v: A tuning-free framework for any video-to-video editing tasks (2024). arxiv:2403.14468"},{"key":"2623_CR35","doi-asserted-by":"crossref","unstructured":"Kumari, N., Zhang, B., Zhang, R., Shechtman, E., & Zhu, J.Y. Multi-concept customization of text-to-image diffusion. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 1931\u20131941 (2023)","DOI":"10.1109\/CVPR52729.2023.00192"},{"key":"2623_CR36","unstructured":"Labs, B.F. Flux. https:\/\/github.com\/black-forest-labs\/flux (2024)"},{"key":"2623_CR37","unstructured":"Labs, B.F., Batifol, S., Blattmann, A., Boesel, F., Consul, S., Diagne, C., Dockhorn, T., English, J., English, Z., Esser, P., Kulal, S., Lacey, K., Levi, Y., Li, C., Lorenz, D., M\u00fcller, J., Podell, D., Rombach, R., Saini, H., Sauer, A., & Smith, L. Flux.1 kontext: Flow matching for in-context image generation and editing in latent space (2025). arxiv: 2506.15742"},{"key":"2623_CR38","unstructured":"Li, D., Li, J., & Hoi, S. Blip-diffusion: Pre-trained subject representation for controllable text-to-image generation and editing. Advances in Neural Information Processing Systems 36 (2024)"},{"key":"2623_CR39","unstructured":"Li, J., Li, D., Savarese, S., & Hoi, S. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In: International conference on machine learning, pp. 19,730\u201319,742. PMLR (2023)"},{"key":"2623_CR40","doi-asserted-by":"crossref","unstructured":"Li, Z., Cao, M., Wang, X., Qi, Z., Cheng, M.M., & Shan, Y. Photomaker: Customizing realistic human photos via stacked id embedding. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8640\u20138650 (2024)","DOI":"10.1109\/CVPR52733.2024.00825"},{"key":"2623_CR41","doi-asserted-by":"crossref","unstructured":"Liu, S., Zeng, Z., Ren, T., Li, F., Zhang, H., Yang, J., Li, C., Yang, J., Su, H., Zhu, J., & et\u00a0al. Grounding dino: Marrying dino with grounded pre-training for open-set object detection. arXiv preprint arXiv:2303.05499 (2023)","DOI":"10.1007\/978-3-031-72970-6_3"},{"key":"2623_CR42","unstructured":"Liu, Z., Feng, R., Zhu, K., Zhang, Y., Zheng, K., Liu, Y., Zhao, D., Zhou, J., & Cao, Y. Cones: Concept neurons in diffusion models for customized generation. In: International Conference on Machine Learning (2023). https:\/\/api.semanticscholar.org\/CorpusID:257427549"},{"key":"2623_CR43","unstructured":"Liu, Z., Zhang, Y., Shen, Y., Zheng, K., Zhu, K., Feng, R., Liu, Y., Zhao, D., Zhou, J., & Cao, Y. Cones 2: Customizable image synthesis with multiple subjects. arXiv preprint arXiv:2305.19327 (2023)"},{"key":"2623_CR44","doi-asserted-by":"crossref","unstructured":"Long, S., Qin, S., Panteleev, D., Bissacco, A., Fujii, Y., & Raptis, M. Towards end-to-end unified scene text detection and layout analysis. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (2022)","DOI":"10.1109\/CVPR52688.2022.00112"},{"key":"2623_CR45","doi-asserted-by":"crossref","unstructured":"Long, S., Qin, S., Panteleev, D., Bissacco, A., Fujii, Y., & Raptis, M. Icdar 2023 competition on hierarchical text detection and recognition. arXiv preprint arXiv:2305.09750 (2023)","DOI":"10.1007\/978-3-031-41679-8_28"},{"key":"2623_CR46","doi-asserted-by":"crossref","unstructured":"Mokady, R., Hertz, A., Aberman, K., Pritch, Y., & Cohen-Or, D. Null-text inversion for editing real images using guided diffusion models. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6038\u20136047 (2023)","DOI":"10.1109\/CVPR52729.2023.00585"},{"key":"2623_CR47","unstructured":"Mou, C., Cao, M., Wang, X., Zhang, Z., Shan, Y., & Zhang, J. Revideo: Remake a video with motion and content control (2024). arxiv: 2405.13865"},{"key":"2623_CR48","unstructured":"Nichol, A.Q., & Dhariwal, P. Improved denoising diffusion probabilistic models. In: International Conference on Machine Learning, pp. 8162\u20138171. PMLR (2021)"},{"key":"2623_CR49","unstructured":"Nichol, A.Q., Dhariwal, P., Ramesh, A., Shyam, P., Mishkin, P., McGrew, B., Sutskever, I., & Chen, M. GLIDE: towards photorealistic image generation and editing with text-guided diffusion models. In: K.\u00a0Chaudhuri, S.\u00a0Jegelka, L.\u00a0Song, C.\u00a0Szepesv\u00e1ri, G.\u00a0Niu, S.\u00a0Sabato (eds.) International Conference on Machine Learning, ICML 2022, 17-23 July 2022, Baltimore, Maryland, USA, Proceedings of Machine Learning Research, vol. 162, pp. 16,784\u201316,804. PMLR (2022). https:\/\/proceedings.mlr.press\/v162\/nichol22a.html"},{"key":"2623_CR50","unstructured":"Oquab, M., Darcet, T., Moutakanni, T., Vo, H.V., Szafraniec, M., Khalidov, V., Fernandez, P., Haziza, D., Massa, F., El-Nouby, A., Howes, R., Huang, P.Y., Xu, H., Sharma, V., Li, S.W., Galuba, W., Rabbat, M., Assran, M., Ballas, N., Synnaeve, G., Misra, I., Jegou, H., Mairal, J., Labatut, P., Joulin, A., & Bojanowski, P. Dinov2: Learning robust visual features without supervision (2023)"},{"key":"2623_CR51","unstructured":"Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., & et\u00a0al. Learning transferable visual models from natural language supervision. In: International conference on machine learning, pp. 8748\u20138763. PMLR (2021)"},{"key":"2623_CR52","unstructured":"Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., & Chen, M. Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.061251(2), 3 (2022)"},{"key":"2623_CR53","doi-asserted-by":"crossref","unstructured":"Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. High-resolution image synthesis with latent diffusion models. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 10,684\u201310,695 (2022)","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"2623_CR54","doi-asserted-by":"crossref","unstructured":"Ruiz, N., Li, Y., Jampani, V., Pritch, Y., Rubinstein, M., & Aberman, K. Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 22,500\u201322,510 (2023)","DOI":"10.1109\/CVPR52729.2023.02155"},{"key":"2623_CR55","doi-asserted-by":"crossref","unstructured":"Ruiz, N., Li, Y., Jampani, V., Wei, W., Hou, T., Pritch, Y., Wadhwa, N., Rubinstein, M., & Aberman, K. Hyperdreambooth: Hypernetworks for fast personalization of text-to-image models. arXiv preprint arXiv:2307.06949 (2023)","DOI":"10.1109\/CVPR52733.2024.00624"},{"key":"2623_CR56","doi-asserted-by":"publisher","unstructured":"Shi, X., Huang, Z., Wang, F.Y., Bian, W., Li, D., Zhang, Y., Zhang, M., Cheung, K.C., See, S., Qin, H., Dai, J., & Li, H. Motion-i2v: Consistent and controllable image-to-video generation with explicit motion modeling. In: ACM SIGGRAPH 2024 Conference Papers, SIGGRAPH \u201924. Association for Computing Machinery, New York, NY, USA (2024). https:\/\/doi.org\/10.1145\/3641519.3657497","DOI":"10.1145\/3641519.3657497"},{"key":"2623_CR57","unstructured":"Song, J., Meng, C., & Ermon, S. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502 (2020)"},{"key":"2623_CR58","doi-asserted-by":"crossref","unstructured":"Tewel, Y., Gal, R., Chechik, G., & Atzmon, Y. Key-locked rank one editing for text-to-image personalization. In: ACM SIGGRAPH 2023 Conference Proceedings, SIGGRAPH \u201923 (2023)","DOI":"10.1145\/3588432.3591506"},{"key":"2623_CR59","doi-asserted-by":"crossref","unstructured":"Tumanyan, N., Geyer, M., Bagon, S., & Dekel, T. Plug-and-play diffusion features for text-driven image-to-image translation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1921\u20131930 (2023)","DOI":"10.1109\/CVPR52729.2023.00191"},{"key":"2623_CR60","doi-asserted-by":"crossref","unstructured":"Tumanyan, N., Geyer, M., Bagon, S., & Dekel, T. Plug-and-play diffusion features for text-driven image-to-image translation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 1921\u20131930 (2023)","DOI":"10.1109\/CVPR52729.2023.00191"},{"key":"2623_CR61","unstructured":"Voynov, A., Chu, Q., Cohen-Or, D., & Aberman, K. $$ p+ $$: Extended textual conditioning in text-to-image generation. arXiv preprint arXiv:2303.09522 (2023)"},{"key":"2623_CR62","unstructured":"Wan, T., Wang, A., Ai, B., Wen, B., Mao, C., Xie, C.W., Chen, D., Yu, F., Zhao, H., Yang, J., & et\u00a0al. Wan: Open and advanced large-scale video generative models. arXiv preprint arXiv:2503.20314 (2025)"},{"key":"2623_CR63","doi-asserted-by":"crossref","unstructured":"Wang, J., Chan, K.C., & Loy, C.C. Exploring clip for assessing the look and feel of images. In: AAAI (2023)","DOI":"10.1609\/aaai.v37i2.25353"},{"key":"2623_CR64","unstructured":"Wang, Q., Bai, X., Wang, H., Qin, Z., Chen, A., Li, H., Tang, X., & Hu, Y. Instantid: Zero-shot identity-preserving generation in seconds (2024). arxiv: 2401.07519"},{"key":"2623_CR65","unstructured":"Wang, W., Jiang, Y., Xie, K., Liu, Z., Chen, H., Cao, Y., Wang, X., & Shen, C. Zero-shot video editing using off-the-shelf image diffusion models (2024). arxiv: 2303.17599"},{"key":"2623_CR66","unstructured":"Wang, W., Xie, k., Liu, Z., Chen, H., Cao, Y., Wang, X., & Shen, C. Zero-shot video editing using off-the-shelf image diffusion models. arXiv preprint arXiv:2303.17599 (2023)"},{"key":"2623_CR67","doi-asserted-by":"crossref","unstructured":"Wang, Z., Yuan, Z., Wang, X., Chen, T., Xia, M., Luo, P., & Shan, Y. Motionctrl: A unified and flexible motion controller for video generation (2024). arxiv: 2312.03641","DOI":"10.1145\/3641519.3657518"},{"key":"2623_CR68","doi-asserted-by":"crossref","unstructured":"Wei, Y., Zhang, S., Qing, Z., Yuan, H., Liu, Z., Liu, Y., Zhang, Y., Zhou, J., & Shan, H. Dreamvideo: Composing your dream videos with customized subject and motion. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6537\u20136549 (2024)","DOI":"10.1109\/CVPR52733.2024.00625"},{"key":"2623_CR69","doi-asserted-by":"crossref","unstructured":"Wei, Y., Zhang, S., Qing, Z., Yuan, H., Liu, Z., Liu, Y., Zhang, Y., Zhou, J., & Shan, H. Dreamvideo: Composing your dream videos with customized subject and motion. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6537\u20136549 (2024)","DOI":"10.1109\/CVPR52733.2024.00625"},{"key":"2623_CR70","doi-asserted-by":"crossref","unstructured":"Wu, J.Z., Ge, Y., Wang, X., Lei, S.W., Gu, Y., Shi, Y., Hsu, W., Shan, Y., Qie, X., & Shou, M.Z. Tune-a-video: One-shot tuning of image diffusion models for text-to-video generation. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 7623\u20137633 (2023)","DOI":"10.1109\/ICCV51070.2023.00701"},{"key":"2623_CR71","doi-asserted-by":"crossref","unstructured":"Wu, T., Zhang, Y., Wang, X., Zhou, X., Zheng, G., Qi, Z., Shan, Y., & Li, X. Customcrafter: Customized video generation with preserving motion and concept composition abilities. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a039, pp. 8469\u20138477 (2025)","DOI":"10.1609\/aaai.v39i8.32914"},{"key":"2623_CR72","doi-asserted-by":"crossref","unstructured":"Wu, W., Li, Z., Gu, Y., Zhao, R., He, Y., Zhang, D.J., Shou, M.Z., Li, Y., Gao, T., & Zhang, D. Draganything: Motion control for anything using entity representation (2024). arxiv:2403.07420","DOI":"10.1007\/978-3-031-72670-5_19"},{"key":"2623_CR73","doi-asserted-by":"crossref","unstructured":"Xing, J., Xia, M., Zhang, Y., Chen, H., Wang, X., Wong, T.T., & Shan, Y. Dynamicrafter: Animating open-domain images with video diffusion priors. arXiv preprint arXiv:2310.12190 (2023)","DOI":"10.1007\/978-3-031-72952-2_23"},{"key":"2623_CR74","unstructured":"Yang, B., Gu, S., Zhang, B., Zhang, T., Chen, X., Sun, X., Chen, D., & Wen, F. Paint by example: Exemplar-based image editing with diffusion models. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 18,381\u201318,391 (2023)"},{"key":"2623_CR75","unstructured":"Yang, Z., Ding, G., Wang, W., Chen, H., Zhuang, B., & Shen, C. Object-aware inversion and reassembly for image editing (2023)"},{"key":"2623_CR76","doi-asserted-by":"crossref","unstructured":"Zhang, L., Rao, A., & Agrawala, M. Adding conditional control to text-to-image diffusion models (2023)","DOI":"10.1109\/ICCV51070.2023.00355"},{"key":"2623_CR77","unstructured":"Zhang, S., Wang, J., Zhang, Y., Zhao, K., Yuan, H., Qin, Z., Wang, X., Zhao, D., & Zhou, J. I2vgen-xl: High-quality image-to-video synthesis via cascaded diffusion models (2023). arxiv:2311.04145"},{"key":"2623_CR78","unstructured":"Zhang, Y., Huang, N., Tang, F., Huang, H., Ma, C., Dong, W., & Xu, C. Inversion-based style transfer with diffusion models. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 10,146\u201310,156 (2023)"},{"key":"2623_CR79","unstructured":"Zhang, Y., Wei, Y., Jiang, D., Zhang, X., Zuo, W., & Tian, Q. Controlvideo: Training-free controllable text-to-video generation (2023). arxiv: 2305.13077"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-025-02623-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11263-025-02623-z","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-025-02623-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,20]],"date-time":"2026-02-20T15:37:27Z","timestamp":1771601847000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11263-025-02623-z"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,26]]},"references-count":79,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2026,1]]}},"alternative-id":["2623"],"URL":"https:\/\/doi.org\/10.1007\/s11263-025-02623-z","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,12,26]]},"assertion":[{"value":"5 September 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"6 November 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"26 December 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare that they have no conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing Interests"}}],"article-number":"17"}}