{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,14]],"date-time":"2026-01-14T12:06:54Z","timestamp":1768392414743,"version":"3.49.0"},"reference-count":37,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,9,21]],"date-time":"2025-09-21T00:00:00Z","timestamp":1758412800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,9,21]],"date-time":"2025-09-21T00:00:00Z","timestamp":1758412800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,9,21]]},"DOI":"10.1109\/mmsp64401.2025.11324101","type":"proceedings-article","created":{"date-parts":[[2026,1,13]],"date-time":"2026-01-13T20:55:15Z","timestamp":1768337715000},"page":"280-285","source":"Crossref","is-referenced-by-count":0,"title":["Adapting Image-to-Video Diffusion Models for Large-Motion Frame Interpolation"],"prefix":"10.1109","author":[{"given":"Luoxu","family":"Jin","sequence":"first","affiliation":[{"name":"Waseda University,CSCE, Graduate School of FSE,Tokyo,Japan"}]},{"given":"Hiroshi","family":"Watanabe","sequence":"additional","affiliation":[{"name":"Waseda University,CSCE, Graduate School of FSE,Tokyo,Japan"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6634"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00351"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00938"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00548"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01422"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00201"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i2.27912"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00701"},{"key":"ref9","article-title":"Generative inbetweening: Adapting image-to-video models for keyframe interpolation","volume-title":"The Thirteenth International Conference on Learning Representations","author":"Wang"},{"key":"ref10","article-title":"Framer: Interactive frame interpolation","volume-title":"The Thirteenth International Conference on Learning Representations","author":"Wang"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00355"},{"key":"ref12","article-title":"Attention is all you need","author":"Vaswani","year":"2017","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00945"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20071-7_15"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19781-9_36"},{"key":"ref16","article-title":"Denoising diffusion probabilistic models","author":"Ho","year":"2020","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref17","article-title":"Denoising diffusion implicit models","volume-title":"International Conference on Learning Representations","author":"Song"},{"key":"ref18","article-title":"Diffusion models beat gans on image synthesis","author":"Dhariwal","year":"2021","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref19","article-title":"Classifier-free diffusion guidance","volume-title":"NeurlPS 2021 Workshop on Deep Generative Models and Downstream Applications","author":"Ho"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref21","article-title":"Stable video diffusion: Scaling latent video diffusion models to large datasets","author":"Blattmann","year":"2023"},{"key":"ref22","article-title":"Cogvideo: Large-scale pretraining for text-to-video generation via transformers","volume-title":"International Conference on Learning Representations","author":"Hong"},{"key":"ref23","article-title":"Animatediff: Animate your personalized text-to- image diffusion models without specific tuning","volume-title":"International Conference on Learning Representations","author":"Guo"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02161"},{"key":"ref25","article-title":"Make-a-video: Text-to-video generation without text-video data","volume-title":"International Conference on Learning Representations","author":"Singer"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72946-1_19"},{"key":"ref27","article-title":"Learning transferable visual models from natural language supervision","volume-title":"International Conference on Machine Learning","author":"Radford"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58536-5_24"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2020.3019967"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1807.06521"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00175"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-018-01144-2"},{"key":"ref33","article-title":"The 2017 davis challenge on video object segmentation","author":"Pont-Tuset","year":"2017"},{"key":"ref34","article-title":"Ucfl0l: A dataset of 101 human actions classes from videos in the wild","author":"Soomro","year":"2012"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00068"},{"key":"ref36","article-title":"Gans trained by a two time-scale update rule converge to a local nash equilibrium","author":"Heusel","year":"2017","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00695"}],"event":{"name":"2025 IEEE International Workshop on Multimedia Signal Processing (MMSP)","location":"Beijing, China","start":{"date-parts":[[2025,9,21]]},"end":{"date-parts":[[2025,9,23]]}},"container-title":["2025 IEEE International Workshop on Multimedia Signal Processing (MMSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11324077\/11324018\/11324101.pdf?arnumber=11324101","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,14]],"date-time":"2026-01-14T07:01:18Z","timestamp":1768374078000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11324101\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,9,21]]},"references-count":37,"URL":"https:\/\/doi.org\/10.1109\/mmsp64401.2025.11324101","relation":{},"subject":[],"published":{"date-parts":[[2025,9,21]]}}}