{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T17:49:40Z","timestamp":1777657780380,"version":"3.51.4"},"publisher-location":"Cham","reference-count":97,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031729515","type":"print"},{"value":"9783031729522","type":"electronic"}],"license":[{"start":{"date-parts":[[2024,10,1]],"date-time":"2024-10-01T00:00:00Z","timestamp":1727740800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,10,1]],"date-time":"2024-10-01T00:00:00Z","timestamp":1727740800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-72952-2_23","type":"book-chapter","created":{"date-parts":[[2024,9,30]],"date-time":"2024-09-30T05:02:02Z","timestamp":1727672522000},"page":"399-417","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":137,"title":["DynamiCrafter: Animating Open-Domain Images with\u00a0Video Diffusion Priors"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-2181-1879","authenticated-orcid":false,"given":"Jinbo","family":"Xing","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9664-4967","authenticated-orcid":false,"given":"Menghan","family":"Xia","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0066-3448","authenticated-orcid":false,"given":"Yong","family":"Zhang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0000-6085-2107","authenticated-orcid":false,"given":"Haoxin","family":"Chen","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4387-8967","authenticated-orcid":false,"given":"Wangbo","family":"Yu","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0003-3336-0686","authenticated-orcid":false,"given":"Hanyuan","family":"Liu","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0003-6536-282X","authenticated-orcid":false,"given":"Gongye","family":"Liu","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6585-8604","authenticated-orcid":false,"given":"Xintao","family":"Wang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7673-8325","authenticated-orcid":false,"given":"Ying","family":"Shan","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7792-9307","authenticated-orcid":false,"given":"Tien-Tsin","family":"Wong","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,10,1]]},"reference":[{"key":"23_CR1","unstructured":"Awadalla, A., et\u00a0al.: Openflamingo: an open-source framework for training large autoregressive vision-language models. arXiv preprint arXiv:2308.01390 (2023)"},{"key":"23_CR2","unstructured":"Babaeizadeh, M., Finn, C., Erhan, D., Campbell, R., Levine, S.: Stochastic variational video prediction. In: ICLR (2018)"},{"key":"23_CR3","doi-asserted-by":"crossref","unstructured":"Bain, M., Nagrani, A., Varol, G., Zisserman, A.: Frozen in time: a joint video and image encoder for end-to-end retrieval. In: ICCV (2021)","DOI":"10.1109\/ICCV48922.2021.00175"},{"key":"23_CR4","doi-asserted-by":"crossref","unstructured":"Bertiche, H., et al.: Blowing in the wind: cyclenet for human cinemagraphs from still images. In: CVPR (2023)","DOI":"10.1109\/CVPR52729.2023.00052"},{"key":"23_CR5","unstructured":"Blattmann, A., et\u00a0al.: Stable video diffusion: scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127 (2023)"},{"key":"23_CR6","doi-asserted-by":"crossref","unstructured":"Blattmann, A., Milbich, T., Dorkenwald, M., Ommer, B.: iPOKE: poking a still image for controlled stochastic video synthesis. In: ICCV (2021)","DOI":"10.1109\/ICCV48922.2021.01444"},{"key":"23_CR7","doi-asserted-by":"crossref","unstructured":"Blattmann, A., Milbich, T., Dorkenwald, M., Ommer, B.: Understanding object dynamics for interactive image-to-video synthesis. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.00513"},{"key":"23_CR8","doi-asserted-by":"crossref","unstructured":"Blattmann, A., et al.: Align your latents: high-resolution video synthesis with latent diffusion models. In: CVPR (2023)","DOI":"10.1109\/CVPR52729.2023.02161"},{"key":"23_CR9","unstructured":"Chen, H., et\u00a0al.: Videocrafter1: open diffusion models for high-quality video generation. arXiv preprint arXiv:2310.19512 (2023)"},{"key":"23_CR10","unstructured":"Chen, X., et al.: SEINE: short-to-long video diffusion model for generative transition and prediction. In: ICLR (2024)"},{"key":"23_CR11","doi-asserted-by":"crossref","unstructured":"Cheng, C.C., Chen, H.Y., Chiu, W.C.: Time flies: animating a still image with time-lapse video as reference. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.00568"},{"key":"23_CR12","doi-asserted-by":"crossref","unstructured":"Chuang, Y.Y., Goldman, D.B., Zheng, K.C., Curless, B., Salesin, D.H., Szeliski, R.: Animating pictures with stochastic motion textures. In: ACM SIGGRAPH (2005)","DOI":"10.1145\/1186822.1073273"},{"key":"23_CR13","doi-asserted-by":"crossref","unstructured":"Dorkenwald, M., Milbich, T., Blattmann, A., Rombach, R., Derpanis, K.G., Ommer, B.: Stochastic image-to-video synthesis using cINNs. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.00374"},{"key":"23_CR14","unstructured":"Dosovitskiy, A., et\u00a0al.: An image is worth 16 $$\\times $$ 16 words: transformers for image recognition at scale. In: ICLR (2020)"},{"issue":"6","key":"23_CR15","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3355089.3356523","volume":"38","author":"Y Endo","year":"2019","unstructured":"Endo, Y., Kanamori, Y., Kuriyama, S.: Animating landscape: self-supervised learning of decoupled motion and appearance for single-image video synthesis. ACM TOG 38(6), 1\u201319 (2019)","journal-title":"ACM TOG"},{"key":"23_CR16","doi-asserted-by":"crossref","unstructured":"Esser, P., Chiu, J., Atighehchian, P., Granskog, J., Germanidis, A.: Structure and content-guided video synthesis with diffusion models. In: ICCV (2023)","DOI":"10.1109\/ICCV51070.2023.00675"},{"key":"23_CR17","unstructured":"Franceschi, J.Y., Delasalles, E., Chen, M., Lamprier, S., Gallinari, P.: Stochastic latent residual video prediction. In: ICML (2020)"},{"key":"23_CR18","unstructured":"Fu, S., et al.: DreamSim: learning new dimensions of human visual similarity using synthetic data. In: NeurIPS (2023)"},{"key":"23_CR19","doi-asserted-by":"crossref","unstructured":"Ge, S., et al.: Preserve your own correlation: a noise prior for video diffusion models. In: ICCV (2023)","DOI":"10.1109\/ICCV51070.2023.02096"},{"key":"23_CR20","unstructured":"Gen-2: Gen-2. Gen-2, 01 February 2001. https:\/\/research.runwayml.com\/gen2. Accessed 1 Nov 2023"},{"issue":"6","key":"23_CR21","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3272127.3275043","volume":"37","author":"J Geng","year":"2018","unstructured":"Geng, J., Shao, T., Zheng, Y., Weng, Y., Zhou, K.: Warp-guided GANs for single-photo facial animation. ACM TOG 37(6), 1\u201312 (2018)","journal-title":"ACM TOG"},{"key":"23_CR22","doi-asserted-by":"crossref","unstructured":"Girdhar, R., et al.: Emu video: factorizing text-to-video generation by explicit image conditioning. arXiv preprint arXiv:2311.10709 (2023)","DOI":"10.1007\/978-3-031-73033-7_12"},{"key":"23_CR23","unstructured":"Gu, X., Wen, C., Song, J., Gao, Y.: Seer: language instructed video prediction with latent diffusion models. arXiv preprint arXiv:2303.14897 (2023)"},{"key":"23_CR24","unstructured":"He, Y., et al.: Scalecrafter: tuning-free higher-resolution visual generation with diffusion models. arXiv preprint arXiv:2310.07702 (2023)"},{"key":"23_CR25","unstructured":"He, Y., Yang, T., Zhang, Y., Shan, Y., Chen, Q.: Latent video diffusion models for high-fidelity video generation with arbitrary lengths. arXiv preprint arXiv:2211.13221 (2022)"},{"key":"23_CR26","doi-asserted-by":"crossref","unstructured":"Hinz, T., Fisher, M., Wang, O., Wermter, S.: Improved techniques for training single-image GANs. In: WACV (2021)","DOI":"10.1109\/WACV48630.2021.00134"},{"key":"23_CR27","unstructured":"Ho, J., et\u00a0al.: Imagen video: high definition video generation with diffusion models. arXiv preprint arXiv:2210.02303 (2022)"},{"key":"23_CR28","unstructured":"Ho, J., Jain, A., Abbeel, P.: Denoising diffusion probabilistic models. In: NeurIPS (2020)"},{"key":"23_CR29","unstructured":"Ho, J., Salimans, T.: Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598 (2022)"},{"key":"23_CR30","unstructured":"Ho, J., Salimans, T., Gritsenko, A., Chan, W., Norouzi, M., Fleet, D.J.: Video diffusion models. In: NeurIPS (2022)"},{"key":"23_CR31","doi-asserted-by":"crossref","unstructured":"Holynski, A., Curless, B.L., Seitz, S.M., Szeliski, R.: Animating pictures with eulerian motion fields. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.00575"},{"key":"23_CR32","unstructured":"H\u00f6ppe, T., Mehrjou, A., Bauer, S., Nielsen, D., Dittadi, A.: Diffusion models for video prediction and infilling. TMLR (2022)"},{"key":"23_CR33","unstructured":"Hu, L., Gao, X., Zhang, P., Sun, K., Zhang, B., Bo, L.: Animate anyone: consistent and controllable image-to-video synthesis for character animation. arXiv preprint arXiv:2311.17117 (2023)"},{"key":"23_CR34","doi-asserted-by":"crossref","unstructured":"Hu, X., Huang, Z., Huang, A., Xu, J., Zhou, S.: A dynamic multi-scale voxel flow network for video prediction. In: CVPR (2023)","DOI":"10.1109\/CVPR52729.2023.00593"},{"key":"23_CR35","doi-asserted-by":"crossref","unstructured":"Hu, Y., Luo, C., Chen, Z.: Make it move: controllable image-to-video generation with text descriptions. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.01768"},{"key":"23_CR36","unstructured":"I2VGen-XL: I2vgen-xl. ModelScope. https:\/\/modelscope.cn\/models\/damo\/Image-to-Video\/summary. Accessed 15 Oct 2023"},{"key":"23_CR37","unstructured":"Jaegle, A., Gimeno, F., Brock, A., Vinyals, O., Zisserman, A., Carreira, J.: Perceiver: general perception with iterative attention. In: ICML (2021)"},{"issue":"1","key":"23_CR38","first-page":"4","volume":"18","author":"WC Jhou","year":"2015","unstructured":"Jhou, W.C., Cheng, W.H.: Animating still landscape photographs through cloud motion creation. IEEE TMM 18(1), 4\u201313 (2015)","journal-title":"IEEE TMM"},{"key":"23_CR39","doi-asserted-by":"crossref","unstructured":"Karras, J., Holynski, A., Wang, T.C., Kemelmacher-Shlizerman, I.: Dreampose: fashion image-to-video synthesis via stable diffusion. arXiv preprint arXiv:2304.06025 (2023)","DOI":"10.1109\/ICCV51070.2023.02073"},{"key":"23_CR40","doi-asserted-by":"crossref","unstructured":"Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J., Aila, T.: Analyzing and improving the image quality of stylegan. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.00813"},{"key":"23_CR41","doi-asserted-by":"crossref","unstructured":"Khachatryan, L., et al.: Text2video-zero: text-to-image diffusion models are zero-shot video generators. arXiv preprint arXiv:2303.13439 (2023)","DOI":"10.1109\/ICCV51070.2023.01462"},{"key":"23_CR42","unstructured":"Lee, A.X., Zhang, R., Ebert, F., Abbeel, P., Finn, C., Levine, S.: Stochastic adversarial video prediction. arXiv preprint arXiv:1804.01523 (2018)"},{"key":"23_CR43","unstructured":"Li, X., et al.: Videogen: a reference-guided latent diffusion approach for high definition text-to-video generation. arXiv preprint arXiv:2309.00398 (2023)"},{"key":"23_CR44","doi-asserted-by":"crossref","unstructured":"Li, Y., Fang, C., Yang, J., Wang, Z., Lu, X., Yang, M.H.: Flow-grounded spatial-temporal video prediction from still images. In: ECCV (2018)","DOI":"10.1007\/978-3-030-01240-3_37"},{"key":"23_CR45","doi-asserted-by":"crossref","unstructured":"Li, Z., Tucker, R., Snavely, N., Holynski, A.: Generative image dynamics. In: CVPR (2024)","DOI":"10.1109\/CVPR52733.2024.02279"},{"key":"23_CR46","doi-asserted-by":"crossref","unstructured":"Luo, Z., et al.: Videofusion: decomposed diffusion models for high-quality video generation. In: CVPR (2023)","DOI":"10.1109\/CVPR52729.2023.00984"},{"key":"23_CR47","doi-asserted-by":"crossref","unstructured":"Ma, Y., et al.: Follow your pose: pose-guided text-to-video generation using pose-free videos. arXiv preprint arXiv:2304.01186 (2023)","DOI":"10.1609\/aaai.v38i5.28206"},{"key":"23_CR48","doi-asserted-by":"crossref","unstructured":"Mahapatra, A., Kulkarni, K.: Controllable animation of fluid elements in still images. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.00365"},{"key":"23_CR49","unstructured":"Mallya, A., Wang, T.C., Liu, M.Y.: Implicit warping for animation with image sets. In: NeurIPS (2022)"},{"key":"23_CR50","doi-asserted-by":"crossref","unstructured":"Ni, H., Shi, C., Li, K., Huang, S.X., Min, M.R.: Conditional image-to-video generation with latent flow diffusion models. In: CVPR (2023)","DOI":"10.1109\/CVPR52729.2023.01769"},{"key":"23_CR51","unstructured":"Nichol, A.Q., et al.: Glide: towards photorealistic image generation and editing with text-guided diffusion models. In: ICML (2022)"},{"key":"23_CR52","doi-asserted-by":"crossref","unstructured":"Okabe, M., Anjyo, K., Igarashi, T., Seidel, H.P.: Animating pictures of fluid using video examples. In: CGF, vol.\u00a028, pp. 677\u2013686 (2009)","DOI":"10.1111\/j.1467-8659.2009.01408.x"},{"key":"23_CR53","unstructured":"PikaLabs: Pikalabs. PikaLabs, 01 February 2024. https:\/\/www.pika.art\/. Accessed 1 Nov 2023"},{"key":"23_CR54","doi-asserted-by":"crossref","unstructured":"Prashnani, E., Noorkami, M., Vaquero, D., Sen, P.: A phase-based approach for animating images using video examples. In: CGF, vol.\u00a036, pp. 303\u2013311 (2017)","DOI":"10.1111\/cgf.12940"},{"key":"23_CR55","unstructured":"Radford, A., et\u00a0al.: Learning transferable visual models from natural language supervision. In: ICML (2021)"},{"key":"23_CR56","unstructured":"Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., Chen, M.: Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125 (2022)"},{"key":"23_CR57","doi-asserted-by":"crossref","unstructured":"Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B.: High-resolution image synthesis with latent diffusion models. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"23_CR58","doi-asserted-by":"crossref","unstructured":"Saharia, C., et\u00a0al.: Photorealistic text-to-image diffusion models with deep language understanding. NeurIPS (2022)","DOI":"10.1145\/3528233.3530757"},{"key":"23_CR59","doi-asserted-by":"crossref","unstructured":"Shaham, T.R., Dekel, T., Michaeli, T.: SinGAN: learning a generative model from a single natural image. In: ICCV (2019)","DOI":"10.1109\/ICCV.2019.00467"},{"key":"23_CR60","doi-asserted-by":"crossref","unstructured":"Shi, J., Xiong, W., Lin, Z., Jung, H.J.: Instantbooth: personalized text-to-image generation without test-time finetuning. arXiv preprint arXiv:2304.03411 (2023)","DOI":"10.1109\/CVPR52733.2024.00816"},{"key":"23_CR61","doi-asserted-by":"crossref","unstructured":"Siarohin, A., Lathuili\u00e8re, S., Tulyakov, S., Ricci, E., Sebe, N.: Animating arbitrary objects via deep motion transfer. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00248"},{"key":"23_CR62","unstructured":"Siarohin, A., Lathuili\u00e8re, S., Tulyakov, S., Ricci, E., Sebe, N.: First order motion model for image animation. In: NeurIPS (2019)"},{"key":"23_CR63","doi-asserted-by":"crossref","unstructured":"Siarohin, A., Woodford, O.J., Ren, J., Chai, M., Tulyakov, S.: Motion representations for articulated animation. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.01344"},{"key":"23_CR64","unstructured":"Singer, U., et\u00a0al.: Make-a-video: text-to-video generation without text-video data. In: ICLR (2023)"},{"key":"23_CR65","unstructured":"Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., Ganguli, S.: Deep unsupervised learning using nonequilibrium thermodynamics. In: ICML (2015)"},{"key":"23_CR66","unstructured":"Sohl-Dickstein, J., Weiss, E.A., Maheswaranathan, N., Ganguli, S.: Deep unsupervised learning using nonequilibrium thermodynamics. In: ICML (2015)"},{"key":"23_CR67","unstructured":"Song, J., Meng, C., Ermon, S.: Denoising diffusion implicit models. In: ICLR (2021)"},{"key":"23_CR68","unstructured":"Soomro, K., Zamir, A.R., Shah, M.: UCF101: a dataset of 101 human actions classes from videos in the wild. arXiv preprint arXiv:1212.0402 (2012)"},{"key":"23_CR69","unstructured":"Tang, Z., Yang, Z., Zhu, C., Zeng, M., Bansal, M.: Any-to-any generation via composable diffusion. In: NeurIPS (2023)"},{"key":"23_CR70","doi-asserted-by":"crossref","unstructured":"Tao, J., Gu, S., Li, W., Duan, L.: Learning motion refinement for unsupervised face animation. In: NeurIPS (2023)","DOI":"10.1007\/978-3-031-19787-1_40"},{"key":"23_CR71","doi-asserted-by":"publisher","unstructured":"Tao, J., Wang, B., Ge, T., Jiang, Y., Li, W., Duan, L.: Motion transformer for unsupervised image animation. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) Computer Vision \u2013 ECCV 2022. ECCV 2022. LNCS, vol. 13676, pp. 702\u2013719. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19787-1_40","DOI":"10.1007\/978-3-031-19787-1_40"},{"key":"23_CR72","unstructured":"Unterthiner, T., van Steenkiste, S., Kurach, K., Marinier, R., Michalski, M., Gelly, S.: FVD: a new metric for video generation. In: ICLR Workshop (2019)"},{"key":"23_CR73","unstructured":"Voleti, V., Jolicoeur-Martineau, A., Pal, C.: MCVD-masked conditional video diffusion for prediction, generation, and interpolation. In: NeurIPS (2022)"},{"key":"23_CR74","unstructured":"Voynov, A., Chu, Q., Cohen-Or, D., Aberman, K.: P+: extended textual conditioning in text-to-image generation. arXiv preprint arXiv:2303.09522 (2023)"},{"key":"23_CR75","unstructured":"Wang, J., Yuan, H., Chen, D., Zhang, Y., Wang, X., Zhang, S.: Modelscope text-to-video technical report. arXiv preprint arXiv:2308.06571 (2023)"},{"key":"23_CR76","unstructured":"Wang, X., et al.: Videocomposer: compositional video synthesis with motion controllability. arXiv preprint arXiv:2306.02018 (2023)"},{"key":"23_CR77","doi-asserted-by":"crossref","unstructured":"Wang, Y., Bilinski, P., Bremond, F., Dantcheva, A.: Imaginator: conditional spatio-temporal GAN for video generation. In: WACV (2020)","DOI":"10.1109\/WACV45572.2020.9093492"},{"key":"23_CR78","unstructured":"Wang, Y., et\u00a0al.: LAVIE: high-quality video generation with cascaded latent diffusion models. arXiv preprint arXiv:2309.15103 (2023)"},{"key":"23_CR79","unstructured":"Wang, Y., Yang, D., Bremond, F., Dantcheva, A.: Latent image animator: learning to animate images via latent space navigation. In: ICLR (2021)"},{"key":"23_CR80","doi-asserted-by":"crossref","unstructured":"Weng, C.Y., Curless, B., Kemelmacher-Shlizerman, I.: Photo wake-up: 3D character animation from a single photo. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00606"},{"key":"23_CR81","doi-asserted-by":"crossref","unstructured":"Xiao, W., Liu, W., Wang, Y., Ghanem, B., Li, B.: Automatic animation of hair blowing in still portrait photos. In: ICCV (2023)","DOI":"10.1109\/ICCV51070.2023.02099"},{"key":"23_CR82","doi-asserted-by":"crossref","unstructured":"Xing, J., et al.: Tooncrafter: generative cartoon interpolation. arXiv preprint arXiv:2405.17933 (2024)","DOI":"10.1145\/3687761"},{"key":"23_CR83","doi-asserted-by":"crossref","unstructured":"Xing, J., et\u00a0al.: Make-your-video: customized video generation using textual and structural guidance. arXiv preprint arXiv:2306.00943 (2023)","DOI":"10.1109\/TVCG.2024.3365804"},{"key":"23_CR84","doi-asserted-by":"crossref","unstructured":"Xiong, W., Luo, W., Ma, L., Liu, W., Luo, J.: Learning to generate time-lapse videos using multi-stage dynamic generative adversarial networks. In: CVPR (2018)","DOI":"10.1109\/CVPR.2018.00251"},{"key":"23_CR85","doi-asserted-by":"crossref","unstructured":"Xu, J., Mei, T., Yao, T., Rui, Y.: MSR-VTT: a large video description dataset for bridging video and language. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.571"},{"key":"23_CR86","doi-asserted-by":"crossref","unstructured":"Xu, Z., et al.: Magicanimate: temporally consistent human image animation using diffusion model. arXiv preprint arXiv:2311.16498 (2023)","DOI":"10.1109\/CVPR52733.2024.00147"},{"key":"23_CR87","unstructured":"Xue, T., Wu, J., Bouman, K., Freeman, B.: Visual dynamics: probabilistic future frame synthesis via cross convolutional networks. In: NeurIPS (2016)"},{"issue":"9","key":"23_CR88","doi-asserted-by":"publisher","first-page":"2236","DOI":"10.1109\/TPAMI.2018.2854726","volume":"41","author":"T Xue","year":"2018","unstructured":"Xue, T., Wu, J., Bouman, K.L., Freeman, W.T.: Visual dynamics: stochastic future generation via layered cross convolutional networks. IEEE TPAMI 41(9), 2236\u20132250 (2018)","journal-title":"IEEE TPAMI"},{"key":"23_CR89","unstructured":"Ye, H., Zhang, J., Liu, S., Han, X., Yang, W.: IP-Adapter: text compatible image prompt adapter for text-to-image diffusion models. arXiv preprint arXiv:2308.06721 (2023)"},{"key":"23_CR90","unstructured":"Yin, S., et al.: Dragnuwa: fine-grained control in video generation by integrating text, image, and trajectory. arXiv preprint arXiv:2308.08089 (2023)"},{"key":"23_CR91","doi-asserted-by":"crossref","unstructured":"Zeng, Y., et al.: Make pixels dance: high-dynamic video generation. arXiv preprint arXiv:2311.10982 (2023)","DOI":"10.1109\/CVPR52733.2024.00845"},{"key":"23_CR92","doi-asserted-by":"crossref","unstructured":"Zhang, D.J., et al.: Show-1: marrying pixel and latent diffusion models for text-to-video generation. arXiv preprint arXiv:2309.15818 (2023)","DOI":"10.1007\/s11263-024-02271-9"},{"key":"23_CR93","doi-asserted-by":"publisher","unstructured":"Zhang, J., et al.: DTVNet: dynamic time-lapse video generation via single still image. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12350, pp. 300\u2013315. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58558-7_18","DOI":"10.1007\/978-3-030-58558-7_18"},{"key":"23_CR94","unstructured":"Zhang, Y., Wei, Y., Jiang, D., Zhang, X., Zuo, W., Tian, Q.: Controlvideo: training-free controllable text-to-video generation. arXiv preprint arXiv:2305.13077 (2023)"},{"key":"23_CR95","unstructured":"Zhang, Y., Xing, J., Lo, E., Jia, J.: Real-world image variation by aligning diffusion inversion chain. arXiv preprint arXiv:2305.18729 (2023)"},{"key":"23_CR96","doi-asserted-by":"crossref","unstructured":"Zhao, J., Zhang, H.: Thin-plate spline motion model for image animation. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.00364"},{"key":"23_CR97","unstructured":"Zhou, D., Wang, W., Yan, H., Lv, W., Zhu, Y., Feng, J.: Magicvideo: efficient video generation with latent diffusion models. arXiv preprint arXiv:2211.11018 (2022)"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-72952-2_23","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,28]],"date-time":"2024-11-28T21:41:38Z","timestamp":1732830098000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-72952-2_23"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,10,1]]},"ISBN":["9783031729515","9783031729522"],"references-count":97,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-72952-2_23","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,10,1]]},"assertion":[{"value":"1 October 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Milan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Italy","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 September 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2024.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}