{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,4]],"date-time":"2026-03-04T17:06:12Z","timestamp":1772643972411,"version":"3.50.1"},"reference-count":102,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2025,12,12]],"date-time":"2025-12-12T00:00:00Z","timestamp":1765497600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,12,12]],"date-time":"2025-12-12T00:00:00Z","timestamp":1765497600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100003725","name":"National Research Foundation of Korea","doi-asserted-by":"publisher","award":["RS-2023-00218176"],"award-info":[{"award-number":["RS-2023-00218176"]}],"id":[{"id":"10.13039\/501100003725","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100003725","name":"National Research Foundation of Korea","doi-asserted-by":"publisher","award":["RS-2023-00218176"],"award-info":[{"award-number":["RS-2023-00218176"]}],"id":[{"id":"10.13039\/501100003725","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100003725","name":"National Research Foundation of Korea","doi-asserted-by":"publisher","award":["RS-2023-00218176"],"award-info":[{"award-number":["RS-2023-00218176"]}],"id":[{"id":"10.13039\/501100003725","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Vis Comput"],"published-print":{"date-parts":[[2026,1]]},"DOI":"10.1007\/s00371-025-04208-w","type":"journal-article","created":{"date-parts":[[2025,12,12]],"date-time":"2025-12-12T12:31:24Z","timestamp":1765542684000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["VideoTimeTravel: high-fidelity face re-aging diffusion models for production video"],"prefix":"10.1007","volume":"42","author":[{"given":"Bumsoo","family":"Kim","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yunyoung","family":"Nam","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sanghyun","family":"Seo","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,12,12]]},"reference":[{"key":"4208_CR1","doi-asserted-by":"crossref","unstructured":"Richardson, E., Alaluf, Y., Patashnik, O., Nitzan, Y., Azar, Y., Shapiro, S., Cohen-Or, D.: Encoding in style: a stylegan encoder for image-to-image translation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 2287\u20132296 (2021)","DOI":"10.1109\/CVPR46437.2021.00232"},{"key":"4208_CR2","doi-asserted-by":"crossref","unstructured":"Yang, S., Jiang, L., Liu, Z., Loy, C.C.: Styleganex: Stylegan-based manipulation beyond cropped aligned faces. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 21000\u201321010 (2023)","DOI":"10.1109\/ICCV51070.2023.01920"},{"key":"4208_CR3","doi-asserted-by":"crossref","unstructured":"Wang, Z., Tang, X., Luo, W., Gao, S.: Face aging with identity-preserved conditional generative adversarial networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7939\u20137947 (2018)","DOI":"10.1109\/CVPR.2018.00828"},{"key":"4208_CR4","doi-asserted-by":"crossref","unstructured":"Yang, H., Huang, D., Wang, Y., Jain, A.K.: Learning face age progression: A pyramid architecture of gans. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 31\u201339 (2018)","DOI":"10.1109\/CVPR.2018.00011"},{"key":"4208_CR5","doi-asserted-by":"crossref","unstructured":"Song, J., Zhang, J., Gao, L., Liu, X., Shen, H.T.: Dual conditional gans for face aging and rejuvenation. In: IJCAI, pp. 899\u2013905 (2018)","DOI":"10.24963\/ijcai.2018\/125"},{"issue":"11","key":"4208_CR6","doi-asserted-by":"publisher","first-page":"139","DOI":"10.1145\/3422622","volume":"63","author":"I Goodfellow","year":"2020","unstructured":"Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., Bengio, Y.: Generative adversarial networks. Commun. ACM 63(11), 139\u2013144 (2020)","journal-title":"Commun. ACM"},{"key":"4208_CR7","doi-asserted-by":"crossref","unstructured":"Karras, T., Laine, S., Aila, T.: A style-based generator architecture for generative adversarial networks. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 4401\u20134410 (2019)","DOI":"10.1109\/CVPR.2019.00453"},{"key":"4208_CR8","doi-asserted-by":"crossref","unstructured":"Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J., Aila, T.: Analyzing and improving the image quality of stylegan. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8110\u20138119 (2020)","DOI":"10.1109\/CVPR42600.2020.00813"},{"key":"4208_CR9","first-page":"852","volume":"34","author":"T Karras","year":"2021","unstructured":"Karras, T., Aittala, M., Laine, S., H\u00e4rk\u00f6nen, E., Hellsten, J., Lehtinen, J., Aila, T.: Alias-free generative adversarial networks. Adv. Neural. Inf. Process. Syst. 34, 852\u2013863 (2021)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"issue":"4","key":"4208_CR10","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3450626.3459838","volume":"40","author":"O Tov","year":"2021","unstructured":"Tov, O., Alaluf, Y., Nitzan, Y., Patashnik, O., Cohen-Or, D.: Designing an encoder for Stylegan image manipulation. ACM Trans. Graphics (TOG) 40(4), 1\u201314 (2021)","journal-title":"ACM Trans. Graphics (TOG)"},{"key":"4208_CR11","doi-asserted-by":"crossref","unstructured":"Niu, X., Zhou, Y., Gong, Z.: Real image improvement study based on pivotal tuning inversion. In: Fourth International Conference on Signal Processing and Machine Learning (CONF-SPML 2024), vol. 13077, pp. 127\u2013134 (2024). SPIE","DOI":"10.1117\/12.3027128"},{"key":"4208_CR12","doi-asserted-by":"crossref","unstructured":"Alaluf, Y., Patashnik, O., Cohen-Or, D.: Restyle: A residual-based stylegan encoder via iterative refinement. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 6711\u20136720 (2021)","DOI":"10.1109\/ICCV48922.2021.00664"},{"issue":"4","key":"4208_CR13","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3450626.3459805","volume":"40","author":"Y Alaluf","year":"2021","unstructured":"Alaluf, Y., Patashnik, O., Cohen-Or, D.: Only a matter of style: age transformation using a style-based regression model. ACM Trans. Graphics (TOG) 40(4), 1\u201312 (2021)","journal-title":"ACM Trans. Graphics (TOG)"},{"key":"4208_CR14","doi-asserted-by":"crossref","unstructured":"Gomez-Trenado, G., Lathuili\u00e8re, S., Mesejo, P., Cord\u00f3n, \u00d3.: Custom structure preservation in face aging. In: European Conference on Computer Vision, pp. 565\u2013580 (2022). Springer","DOI":"10.1007\/978-3-031-19787-1_32"},{"key":"4208_CR15","doi-asserted-by":"crossref","unstructured":"Maeng, J., Oh, K., Suk, H.-I.: Age-aware guidance via masking-based attention in face aging. In: Proceedings of the 32nd ACM International Conference on Information and Knowledge Management, pp. 4165\u20134169 (2023)","DOI":"10.1145\/3583780.3615183"},{"key":"4208_CR16","doi-asserted-by":"crossref","unstructured":"Abdal, R., Qin, Y., Wonka, P.: Image2stylegan: How to embed images into the stylegan latent space? In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 4432\u20134441 (2019)","DOI":"10.1109\/ICCV.2019.00453"},{"key":"4208_CR17","doi-asserted-by":"crossref","unstructured":"Wu, Z., Lischinski, D., Shechtman, E.: Stylespace analysis: Disentangled controls for stylegan image generation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 12863\u201312872 (2021)","DOI":"10.1109\/CVPR46437.2021.01267"},{"key":"4208_CR18","unstructured":"Chen, X., Lathuili\u00e8re, S.: Face aging via diffusion-based editing. arXiv preprint arXiv:2309.11321 (2023)"},{"key":"4208_CR19","doi-asserted-by":"crossref","unstructured":"Li, P., Wang, R., Huang, H., He, R., He, Z.: Pluralistic aging diffusion autoencoder. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 22613\u201322623 (2023)","DOI":"10.1109\/ICCV51070.2023.02067"},{"key":"4208_CR20","unstructured":"Wahid, J., Zhan, F., Rao, P., Theobalt, C.: Diffage3d: Diffusion-based 3d-aware face aging. arXiv preprint arXiv:2408.15922 (2024)"},{"key":"4208_CR21","unstructured":"Muqeet, A., Lee, K., Kim, B., Hong, Y., Lee, H., Kim, W., Lee, K.: Video face re-aging: Toward temporally consistent face re-aging. arXiv preprint arXiv:2311.11642 (2023)"},{"issue":"6","key":"4208_CR22","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3550454.3555520","volume":"41","author":"G Zoss","year":"2022","unstructured":"Zoss, G., Chandran, P., Sifakis, E., Gross, M., Gotardo, P., Bradley, D.: Production-ready face re-aging for visual effects. ACM Trans. Graphics (TOG) 41(6), 1\u201312 (2022)","journal-title":"ACM Trans. Graphics (TOG)"},{"key":"4208_CR23","doi-asserted-by":"crossref","unstructured":"Liu, S., Zhang, Y., Li, W., Lin, Z., Jia, J.: Video-p2p: Video editing with cross-attention control. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8599\u20138608 (2024)","DOI":"10.1109\/CVPR52733.2024.00821"},{"key":"4208_CR24","doi-asserted-by":"crossref","unstructured":"Tzaban, R., Mokady, R., Gal, R., Bermano, A., Cohen-Or, D.: Stitch it in time: gan-based facial editing of real videos. In: SIGGRAPH Asia 2022 Conference Papers, pp. 1\u20139 (2022)","DOI":"10.1145\/3550469.3555382"},{"key":"4208_CR25","doi-asserted-by":"crossref","unstructured":"Yang, S., Zhou, Y., Liu, Z., Loy, C.C.: Rerender a video: Zero-shot text-guided video-to-video translation. In: SIGGRAPH Asia 2023 Conference Papers, pp. 1\u201311 (2023)","DOI":"10.1145\/3610548.3618160"},{"key":"4208_CR26","unstructured":"Geyer, M., Bar-Tal, O., Bagon, S., Dekel, T.: Tokenflow: Consistent diffusion features for consistent video editing. arXiv preprint arXiv:2307.10373 (2023)"},{"key":"4208_CR27","doi-asserted-by":"crossref","unstructured":"Wu, J.Z., Ge, Y., Wang, X., Lei, S.W., Gu, Y., Shi, Y., Hsu, W., Shan, Y., Qie, X., Shou, M.Z.: Tune-a-video: One-shot tuning of image diffusion models for text-to-video generation. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 7623\u20137633 (2023)","DOI":"10.1109\/ICCV51070.2023.00701"},{"key":"4208_CR28","unstructured":"Ku, M., Wei, C., Ren, W., Yang, H., Chen, W.: Anyv2v: A plug-and-play framework for any video-to-video editing tasks. arXiv preprint arXiv:2403.14468 (2024)"},{"key":"4208_CR29","doi-asserted-by":"crossref","unstructured":"Hsu, G.-S., Xie, R.-C., Chen, Z.-T., Lin, Y.-H.: Agetransgan for facial age transformation with rectified performance metrics. In: European Conference on Computer Vision, pp. 580\u2013595 (2022). Springer","DOI":"10.1007\/978-3-031-19775-8_34"},{"key":"4208_CR30","unstructured":"Guo, Y., Yang, C., Rao, A., Liang, Z., Wang, Y., Qiao, Y., Agrawala, M., Lin, D., Dai, B.: Animatediff: Animate your personalized text-to-image diffusion models without specific tuning. arXiv preprint arXiv:2307.04725 (2023)"},{"key":"4208_CR31","doi-asserted-by":"crossref","unstructured":"Hu, L.: Animate anyone: Consistent and controllable image-to-video synthesis for character animation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8153\u20138163 (2024)","DOI":"10.1109\/CVPR52733.2024.00779"},{"key":"4208_CR32","doi-asserted-by":"crossref","unstructured":"Rothe, R., Timofte, R., Van\u00a0Gool, L.: Dex: Deep expectation of apparent age from a single image. In: Proceedings of the IEEE International Conference on Computer Vision Workshops, pp. 10\u201315 (2015)","DOI":"10.1109\/ICCVW.2015.41"},{"key":"4208_CR33","doi-asserted-by":"crossref","unstructured":"Yao, X., Puy, G., Newson, A., Gousseau, Y., Hellier, P.: High resolution face age editing. In: 2020 25th International Conference on Pattern Recognition (ICPR), pp. 8624\u20138631 (2021). IEEE","DOI":"10.1109\/ICPR48806.2021.9412383"},{"key":"4208_CR34","doi-asserted-by":"crossref","unstructured":"Or-El, R., Sengupta, S., Fried, O., Shechtman, E., Kemelmacher-Shlizerman, I.: Lifespan age transformation synthesis. In: Computer Vision\u2013ECCV 2020: 16th European Conference, Glasgow, UK, 23\u201328, 2020, Proceedings, Part VI 16, pp. 739\u2013755 (2020). Springer","DOI":"10.1007\/978-3-030-58539-6_44"},{"key":"4208_CR35","doi-asserted-by":"crossref","unstructured":"Makhmudkhujaev, F., Hong, S., Park, I.K.: Re-aging gan: Toward personalized face age transformation. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 3908\u20133917 (2021)","DOI":"10.1109\/ICCV48922.2021.00388"},{"key":"4208_CR36","unstructured":"Xie, J.-C., Yang, J., Wang, W., Xu, F., Gao, H.: Diverse and lifespan facial age transformation synthesis with identity variation rationality metric. arXiv preprint arXiv:2401.14036 (2024)"},{"key":"4208_CR37","doi-asserted-by":"publisher","first-page":"137377","DOI":"10.1109\/ACCESS.2023.3338864","volume":"11","author":"F Makhmudkhujaev","year":"2023","unstructured":"Makhmudkhujaev, F., Hong, S., Park, I.K.: Re-aging gan++: temporally consistent transformation of faces in videos. IEEE Access 11, 137377\u2013137386 (2023)","journal-title":"IEEE Access"},{"issue":"8","key":"4208_CR38","doi-asserted-by":"publisher","first-page":"3221","DOI":"10.1007\/s00371-023-03000-y","volume":"39","author":"T Ito","year":"2023","unstructured":"Ito, T., Endo, Y., Kanamori, Y.: Age-dependent face diversification via latent space analysis. Vis. Comput. 39(8), 3221\u20133233 (2023)","journal-title":"Vis. Comput."},{"key":"4208_CR39","doi-asserted-by":"publisher","unstructured":"Qi, L., Wu, J., Gong, B., Wang, A.N., Jacobs, D.W., Sengupta, R.: Mytimemachine: Personalized facial age transformation. ACM Trans. Graph. 44(4) (2025) https:\/\/doi.org\/10.1145\/3731172","DOI":"10.1145\/3731172"},{"key":"4208_CR40","doi-asserted-by":"crossref","unstructured":"Kang, K., Kim, S., Cho, S.: Gan inversion for out-of-range images with geometric transformations. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 13941\u201313949 (2021)","DOI":"10.1109\/ICCV48922.2021.01368"},{"key":"4208_CR41","doi-asserted-by":"crossref","unstructured":"Abdal, R., Qin, Y., Wonka, P.: Image2stylegan++: How to edit the embedded images? In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8296\u20138305 (2020)","DOI":"10.1109\/CVPR42600.2020.00832"},{"key":"4208_CR42","first-page":"6840","volume":"33","author":"J Ho","year":"2020","unstructured":"Ho, J., Jain, A., Abbeel, P.: Denoising diffusion probabilistic models. Adv. Neural. Inf. Process. Syst. 33, 6840\u20136851 (2020)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"4208_CR43","unstructured":"Nichol, A.Q., Dhariwal, P.: Improved denoising diffusion probabilistic models. In: International Conference on Machine Learning, pp. 8162\u20138171 (2021). PMLR"},{"key":"4208_CR44","doi-asserted-by":"crossref","unstructured":"Choi, J., Kim, S., Jeong, Y., Gwon, Y., Yoon, S.: Ilvr: Conditioning method for denoising diffusion probabilistic models. arXiv preprint arXiv:2108.02938 (2021)","DOI":"10.1109\/ICCV48922.2021.01410"},{"key":"4208_CR45","first-page":"8780","volume":"34","author":"P Dhariwal","year":"2021","unstructured":"Dhariwal, P., Nichol, A.: Diffusion models beat Gans on image synthesis. Adv. Neural. Inf. Process. Syst. 34, 8780\u20138794 (2021)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"4208_CR46","unstructured":"Ho, J., Salimans, T.: Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598 (2022)"},{"key":"4208_CR47","doi-asserted-by":"publisher","first-page":"9117","DOI":"10.1609\/aaai.v37i8.26094","volume":"37","author":"K Mei","year":"2023","unstructured":"Mei, K., Patel, V.: Vidm: Video implicit diffusion models. Proceedings of the AAAI Conference on Artificial Intelligence 37, 9117\u20139125 (2023)","journal-title":"Proceedings of the AAAI Conference on Artificial Intelligence"},{"key":"4208_CR48","first-page":"8633","volume":"35","author":"J Ho","year":"2022","unstructured":"Ho, J., Salimans, T., Gritsenko, A., Chan, W., Norouzi, M., Fleet, D.J.: Video diffusion models. Adv. Neural. Inf. Process. Syst. 35, 8633\u20138646 (2022)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"4208_CR49","doi-asserted-by":"crossref","unstructured":"Ho, J., Chan, W., Saharia, C., Whang, J., Gao, R., Gritsenko, A., Kingma, D.P., Poole, B., Norouzi, M., Fleet, D.J., et al.: Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303 (2022)","DOI":"10.52202\/068431-0628"},{"key":"4208_CR50","unstructured":"He, Y., Yang, T., Zhang, Y., Shan, Y., Chen, Q.: Latent video diffusion models for high-fidelity video generation with arbitrary lengths. arXiv preprint arXiv:2211.13221 2(3), 4 (2022)"},{"issue":"10","key":"4208_CR51","doi-asserted-by":"publisher","first-page":"1469","DOI":"10.3390\/e25101469","volume":"25","author":"R Yang","year":"2023","unstructured":"Yang, R., Srivastava, P., Mandt, S.: Diffusion probabilistic modeling for video generation. Entropy 25(10), 1469 (2023)","journal-title":"Entropy"},{"key":"4208_CR52","doi-asserted-by":"crossref","unstructured":"Mokady, R., Hertz, A., Aberman, K., Pritch, Y., Cohen-Or, D.: Null-text inversion for editing real images using guided diffusion models. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6038\u20136047 (2023)","DOI":"10.1109\/CVPR52729.2023.00585"},{"key":"4208_CR53","unstructured":"Hertz, A., Mokady, R., Tenenbaum, J., Aberman, K., Pritch, Y., Cohen-Or, D.: Prompt-to-prompt image editing with cross attention control. arXiv preprint arXiv:2208.01626 (2022)"},{"key":"4208_CR54","doi-asserted-by":"crossref","unstructured":"Zhu, J., Shen, Y., Xu, Y., Zhao, D., Chen, Q., Zhou, B.: In-domain gan inversion for faithful reconstruction and editability. IEEE Transactions on Pattern Analysis and Machine Intelligence (2024)","DOI":"10.1109\/TPAMI.2023.3310872"},{"key":"4208_CR55","doi-asserted-by":"crossref","unstructured":"Ronneberger, O., Fischer, P., Brox, T.: U-net: Convolutional networks for biomedical image segmentation. In: Medical Image Computing and Computer-assisted intervention\u2013MICCAI 2015: 18th International Conference, Munich, Germany, October 5-9, 2015, Proceedings, Part III 18, pp. 234\u2013241 (2015). Springer","DOI":"10.1007\/978-3-319-24574-4_28"},{"key":"4208_CR56","unstructured":"Jamriska, O.: Ebsynth: Fast example-based image synthesis and style transfer (2018)"},{"key":"4208_CR57","unstructured":"Molad, E., Horwitz, E., Valevski, D., Acha, A.R., Matias, Y., Pritch, Y., Leviathan, Y., Hoshen, Y.: Dreamix: Video diffusion models are general video editors. arXiv preprint arXiv:2302.01329 (2023)"},{"key":"4208_CR58","doi-asserted-by":"crossref","unstructured":"Yang, S., Zhou, Y., Liu, Z., Loy, C.C.: Fresco: Spatial-temporal correspondence for zero-shot video translation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8703\u20138712 (2024)","DOI":"10.1109\/CVPR52733.2024.00831"},{"key":"4208_CR59","doi-asserted-by":"crossref","unstructured":"Ouyang, W., Dong, Y., Yang, L., Si, J., Pan, X.: I2vedit: First-frame-guided video editing via image-to-video diffusion models. arXiv preprint arXiv:2405.16537 (2024)","DOI":"10.1145\/3680528.3687656"},{"key":"4208_CR60","doi-asserted-by":"crossref","unstructured":"Chai, W., Guo, X., Wang, G., Lu, Y.: Stablevideo: Text-driven consistency-aware diffusion video editing. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 23040\u201323050 (2023)","DOI":"10.1109\/ICCV51070.2023.02106"},{"key":"4208_CR61","doi-asserted-by":"crossref","unstructured":"Bar-Tal, O., Ofri-Amar, D., Fridman, R., Kasten, Y., Dekel, T.: Text2live: Text-driven layered image and video editing. In: European Conference on Computer Vision, pp. 707\u2013723 (2022). Springer","DOI":"10.1007\/978-3-031-19784-0_41"},{"issue":"6","key":"4208_CR62","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3478513.3480546","volume":"40","author":"Y Kasten","year":"2021","unstructured":"Kasten, Y., Ofri, D., Wang, O., Dekel, T.: Layered neural atlases for consistent video editing. ACM Trans. Graphics (TOG) 40(6), 1\u201312 (2021)","journal-title":"ACM Trans. Graphics (TOG)"},{"key":"4208_CR63","doi-asserted-by":"crossref","unstructured":"Kandala, H., Gao, J., Yang, J.: Pix2Gif: Motion-Guided Diffusion for GIF Generation (2024)","DOI":"10.1007\/978-3-031-73013-9_3"},{"key":"4208_CR64","doi-asserted-by":"crossref","unstructured":"Qi, C., Cun, X., Zhang, Y., Lei, C., Wang, X., Shan, Y., Chen, Q.: Fatezero: Fusing attentions for zero-shot text-based video editing. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 15932\u201315942 (2023)","DOI":"10.1109\/ICCV51070.2023.01460"},{"key":"4208_CR65","doi-asserted-by":"crossref","unstructured":"Ceylan, D., Huang, C.-H.P., Mitra, N.J.: Pix2video: Video editing using image diffusion. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 23206\u201323217 (2023)","DOI":"10.1109\/ICCV51070.2023.02121"},{"key":"4208_CR66","unstructured":"Jeong, H., Ye, J.C.: Ground-a-video: Zero-shot grounded video editing using text-to-image diffusion models. arXiv preprint arXiv:2310.01107 (2023)"},{"key":"4208_CR67","doi-asserted-by":"crossref","unstructured":"Feng, R., Weng, W., Wang, Y., Yuan, Y., Bao, J., Luo, C., Chen, Z., Guo, B.: Ccedit: Creative and controllable video editing via diffusion models. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6712\u20136722 (2024)","DOI":"10.1109\/CVPR52733.2024.00641"},{"key":"4208_CR68","unstructured":"Zhang, Z., Li, B., Nie, X., Han, C., Guo, T., Liu, L.: Towards consistent video editing with text-to-image diffusion models. Advances in Neural Information Processing Systems 36 (2024)"},{"key":"4208_CR69","doi-asserted-by":"crossref","unstructured":"Lee, Y.-C., Jang, J.-Z.G., Chen, Y.-T., Qiu, E., Huang, J.-B.: Shape-aware text-driven layered video editing. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 14317\u201314326 (2023)","DOI":"10.1109\/CVPR52729.2023.01376"},{"key":"4208_CR70","unstructured":"Huang, J., Sigal, L., Yi, K.M., Wang, O., Lee, J.-Y.: Inve: Interactive neural video editing. arXiv preprint arXiv:2307.07663 (2023)"},{"key":"4208_CR71","doi-asserted-by":"crossref","unstructured":"Lei, C., Ren, X., Zhang, Z., Chen, Q.: Blind video deflickering by neural filtering with a flawed atlas. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 10439\u201310448 (2023)","DOI":"10.1109\/CVPR52729.2023.01006"},{"key":"4208_CR72","unstructured":"Duan, Z., Wang, C., Chen, C., Qian, W., Huang, J., Jin, M.: Fastblend: a powerful model-free toolkit making video stylization easier. arXiv preprint arXiv:2311.09265 (2023)"},{"key":"4208_CR73","doi-asserted-by":"crossref","unstructured":"Ouyang, H., Wang, Q., Xiao, Y., Bai, Q., Zhang, J., Zheng, K., Zhou, X., Chen, Q., Shen, Y.: Codef: Content deformation fields for temporally consistent video processing. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8089\u20138099 (2024)","DOI":"10.1109\/CVPR52733.2024.00773"},{"key":"4208_CR74","unstructured":"Meng, C., He, Y., Song, Y., Song, J., Wu, J., Zhu, J.-Y., Ermon, S.: Sdedit: Guided image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073 (2021)"},{"key":"4208_CR75","unstructured":"Song, J., Meng, C., Ermon, S.: Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502 (2020)"},{"key":"4208_CR76","unstructured":"Couairon, G., Verbeek, J., Schwenk, H., Cord, M.: Diffedit: Diffusion-based semantic image editing with mask guidance. In: The Eleventh International Conference on Learning Representations (2023)"},{"key":"4208_CR77","doi-asserted-by":"crossref","unstructured":"Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B.: High-resolution image synthesis with latent diffusion models. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 10684\u201310695 (2022)","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"4208_CR78","unstructured":"Tsaban, L., Passos, A.: Ledits: Real image editing with ddpm inversion and semantic guidance. arXiv preprint arXiv:2307.00522 (2023)"},{"key":"4208_CR79","doi-asserted-by":"crossref","unstructured":"Brack, M., Friedrich, F., Kornmeier, K., Tsaban, L., Schramowski, P., Kersting, K., Passos, A.: Ledits++: Limitless image editing using text-to-image models. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8861\u20138870 (2024)","DOI":"10.1109\/CVPR52733.2024.00846"},{"key":"4208_CR80","unstructured":"Ho, J., Salimans, T.: Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598 (2022)"},{"key":"4208_CR81","unstructured":"Hu, Z., Xu, D.: Videocontrolnet: A motion-guided video-to-video translation framework by using diffusion model with controlnet. arXiv preprint arXiv:2307.14073 (2023)"},{"key":"4208_CR82","unstructured":"Chu, E., Lin, S.-Y., Chen, J.-C.: Video controlnet: towards temporally consistent synthetic-to-real video translation using conditional image diffusion models. arXiv preprint arXiv:2305.19193 (2023)"},{"key":"4208_CR83","doi-asserted-by":"crossref","unstructured":"Chae, D., Choi, J.S., Kim, J., Lee, K.: Diffexp: Efficient exploration in reward fine-tuning for text-to-image diffusion models. arXiv preprint arXiv:2502.14070 (2025)","DOI":"10.1609\/aaai.v39i15.33723"},{"key":"4208_CR84","unstructured":"Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., : Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning, pp. 8748\u20138763 (2021). PMLR"},{"key":"4208_CR85","doi-asserted-by":"crossref","unstructured":"Xu, H., Zhang, J., Cai, J., Rezatofighi, H., Tao, D.: Gmflow: Learning optical flow via global matching. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8121\u20138130 (2022)","DOI":"10.1109\/CVPR52688.2022.00795"},{"key":"4208_CR86","doi-asserted-by":"crossref","unstructured":"Sauer, A., Lorenz, D., Blattmann, A., Rombach, R.: Adversarial diffusion distillation. In: European Conference on Computer Vision, pp. 87\u2013103 (2024). Springer","DOI":"10.1007\/978-3-031-73016-0_6"},{"key":"4208_CR87","unstructured":"Luo, S., Tan, Y., Huang, L., Li, J., Zhao, H.: Latent consistency models: Synthesizing high-resolution images with few-step inference. arXiv preprint arXiv:2310.04378 (2023)"},{"key":"4208_CR88","doi-asserted-by":"crossref","unstructured":"Zhu, H., Wu, W., Zhu, W., Jiang, L., Tang, S., Zhang, L., Liu, Z., Loy, C.C.: Celebv-hq: A large-scale video facial attributes dataset. In: European Conference on Computer Vision, pp. 650\u2013667 (2022). Springer","DOI":"10.1007\/978-3-031-20071-7_38"},{"key":"4208_CR89","doi-asserted-by":"crossref","unstructured":"Xie, L., Wang, X., Zhang, H., Dong, C., Shan, Y.: Vfhq: A high-quality dataset and benchmark for video face super-resolution. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 657\u2013666 (2022)","DOI":"10.1109\/CVPRW56347.2022.00081"},{"key":"4208_CR90","doi-asserted-by":"crossref","unstructured":"Kara, O., Kurtkaya, B., Yesiltepe, H., Rehg, J.M., Yanardag, P.: Rave: Randomized noise shuffling for fast and consistent video editing with diffusion models. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6507\u20136516 (2024)","DOI":"10.1109\/CVPR52733.2024.00622"},{"key":"4208_CR91","doi-asserted-by":"crossref","unstructured":"Li, X., Ma, C., Yang, X., Yang, M.-H.: Vidtome: Video token merging for zero-shot video editing. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7486\u20137495 (2024)","DOI":"10.1109\/CVPR52733.2024.00715"},{"key":"4208_CR92","doi-asserted-by":"crossref","unstructured":"Shi, F., Gu, J., Xu, H., Xu, S., Zhang, W., Wang, L.: Bivdiff: A training-free framework for general-purpose video synthesis via bridging image and video diffusion models. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7393\u20137402 (2024)","DOI":"10.1109\/CVPR52733.2024.00706"},{"key":"4208_CR93","doi-asserted-by":"crossref","unstructured":"Khachatryan, L., Movsisyan, A., Tadevosyan, V., Henschel, R., Wang, Z., Navasardyan, S., Shi, H.: Text2video-zero: Text-to-image diffusion models are zero-shot video generators. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 15954\u201315964 (2023)","DOI":"10.1109\/ICCV51070.2023.01462"},{"key":"4208_CR94","doi-asserted-by":"crossref","unstructured":"Fr\u00fchst\u00fcck, A., Sarafianos, N., Xu, Y., Wonka, P., Tung, T.: Vive3d: Viewpoint-independent video editing using 3d-aware gans. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 4446\u20134455 (2023)","DOI":"10.1109\/CVPR52729.2023.00432"},{"key":"4208_CR95","doi-asserted-by":"crossref","unstructured":"Kim, G., Shim, H., Kim, H., Choi, Y., Kim, J., Yang, E.: Diffusion video autoencoders: Toward temporally consistent face video editing via disentangled video encoding. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6091\u20136100 (2023)","DOI":"10.1109\/CVPR52729.2023.00590"},{"key":"4208_CR96","unstructured":"Karras, T.: Progressive growing of gans for improved quality, stability, and variation. arXiv preprint arXiv:1710.10196 (2017)"},{"key":"4208_CR97","doi-asserted-by":"crossref","unstructured":"Zhang, R., Isola, P., Efros, A.A., Shechtman, E., Wang, O.: The unreasonable effectiveness of deep features as a perceptual metric. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 586\u2013595 (2018)","DOI":"10.1109\/CVPR.2018.00068"},{"issue":"2","key":"4208_CR98","doi-asserted-by":"publisher","first-page":"375","DOI":"10.1007\/s41095-023-0342-8","volume":"10","author":"Y Liu","year":"2024","unstructured":"Liu, Y., Zhao, H., Chan, K.C., Wang, X., Loy, C.C., Qiao, Y., Dong, C.: Temporally consistent video colorization with deep feature propagation and self-regularization learning. Comput. Visual Med. 10(2), 375\u2013395 (2024)","journal-title":"Comput. Visual Med."},{"key":"4208_CR99","doi-asserted-by":"publisher","first-page":"3051","DOI":"10.1007\/s11263-021-01515-2","volume":"129","author":"C Yu","year":"2021","unstructured":"Yu, C., Gao, C., Wang, J., Yu, G., Shen, C., Sang, N.: Bisenet v2: bilateral network with guided aggregation for real-time semantic segmentation. Int. J. Comput. Vision 129, 3051\u20133068 (2021)","journal-title":"Int. J. Comput. Vision"},{"key":"4208_CR100","doi-asserted-by":"crossref","unstructured":"Barron, J.T.: Convolutional color constancy. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 379\u2013387 (2015)","DOI":"10.1109\/ICCV.2015.51"},{"key":"4208_CR101","doi-asserted-by":"crossref","unstructured":"Afifi, M., Price, B., Cohen, S., Brown, M.S.: When color constancy goes wrong: Correcting improperly white-balanced images. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 1535\u20131544 (2019)","DOI":"10.1109\/CVPR.2019.00163"},{"key":"4208_CR102","doi-asserted-by":"crossref","unstructured":"Afifi, M., Brubaker, M.A., Brown, M.S.: Histogan: Controlling colors of gan-generated and real images via color histograms. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7941\u20137950 (2021)","DOI":"10.1109\/CVPR46437.2021.00785"}],"container-title":["The Visual Computer"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00371-025-04208-w.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00371-025-04208-w","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00371-025-04208-w.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,4]],"date-time":"2026-03-04T13:01:34Z","timestamp":1772629294000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00371-025-04208-w"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,12]]},"references-count":102,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2026,1]]}},"alternative-id":["4208"],"URL":"https:\/\/doi.org\/10.1007\/s00371-025-04208-w","relation":{},"ISSN":["0178-2789","1432-2315"],"issn-type":[{"value":"0178-2789","type":"print"},{"value":"1432-2315","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,12,12]]},"assertion":[{"value":"22 September 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"15 November 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"12 December 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}},{"value":"Not applicable.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethics approval"}}],"article-number":"49"}}