{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,24]],"date-time":"2026-02-24T08:40:01Z","timestamp":1771922401131,"version":"3.50.1"},"reference-count":56,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccvw69036.2025.00671","type":"proceedings-article","created":{"date-parts":[[2026,2,23]],"date-time":"2026-02-23T20:44:02Z","timestamp":1771879442000},"page":"6477-6488","source":"Crossref","is-referenced-by-count":0,"title":["Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling"],"prefix":"10.1109","author":[{"given":"Subin","family":"Kim","sequence":"first","affiliation":[{"name":"KAIST"}]},{"given":"Seoung Wug","family":"Oh","sequence":"additional","affiliation":[{"name":"Adobe Research"}]},{"given":"Jui-Hsien","family":"Wang","sequence":"additional","affiliation":[{"name":"Adobe Research"}]},{"given":"Joon-Young","family":"Lee","sequence":"additional","affiliation":[{"name":"Adobe Research"}]},{"given":"Jinwoo","family":"Shin","sequence":"additional","affiliation":[{"name":"KAIST"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Latent-shift: Latent diffusion with temporal shift for efficient text-to-video generation","author":"An","year":"2023","journal-title":"arXiv preprint"},{"key":"ref2","article-title":"ediffi: Text-to-image diffusion models with an ensemble of expert denoisers","author":"Balaji","year":"2022","journal-title":"arXiv preprint"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687614"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02161"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00727"},{"key":"ref6","journal-title":"Brandon Castellano. PySceneDetect"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02033"},{"key":"ref8","article-title":"Seine: Short-to-long video diffusion model for generative transition and prediction","volume-title":"International Conference on Learning Representations","author":"Chen","year":"2023"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19790-1_7"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02096"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73033-7_12"},{"key":"ref12","article-title":"Animatediff: Animate your personalized text-to-image diffusion models without specific tuning","volume-title":"International Conference on Learning Representations","author":"Guo"},{"key":"ref13","article-title":"Latent video diffusion models for high-fidelity video generation with arbitrary lengths","author":"He","year":"2022","journal-title":"arXiv preprint"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00245"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00221"},{"key":"ref16","article-title":"Classifier-free diffusion guidance","author":"Ho","year":"2022","journal-title":"arXiv preprint"},{"key":"ref17","article-title":"Denoising diffusion probabilistic models","author":"Ho","year":"2020","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref18","article-title":"Imagen video: High definition video generation with diffusion models","author":"Ho","year":"2022","journal-title":"arXiv preprint"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02060"},{"key":"ref20","article-title":"Pyramidal flow matching for efficient video generative modeling","author":"Jin","year":"2024","journal-title":"arXiv preprint"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.52202\/079017-2853"},{"key":"ref22","first-page":"73232","article-title":"Collaborative score distillation for consistent visual editing","author":"Kim","year":"2023","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref23","article-title":"Open-sora plan: Open-source large video generation model","author":"Lin","year":"2024","journal-title":"arXiv preprint"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00037"},{"key":"ref25","article-title":"Flow matching for generative modeling","volume-title":"International Conference on Learning Representations","author":"Lipman"},{"key":"ref26","article-title":"Stein variational gradient descent: A general purpose bayesian inference algorithm","author":"Liu","year":"2016","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref27","article-title":"Flow straight and fast: Learning to generate and transfer data with rectified flow","volume-title":"International Conference on Learning Representations","author":"Liu","year":"2023"},{"key":"ref28","article-title":"Decoupled weight decay regularization","volume-title":"International Conference on Learning Representations","author":"Loshchilov"},{"key":"ref29","article-title":"Freelong: Training-free long video generation with spectralblend temporal attention","author":"Lu","year":"2025","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52729.2023.00816"},{"key":"ref31","article-title":"Mtvg: Multi-text video generation with text-to-video models","volume-title":"European Conference on Computer Vision","author":"Oh","year":"2023"},{"key":"ref32","year":"2024","journal-title":"OpenAI. Hello gpt-4o"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00387"},{"key":"ref34","article-title":"Movie gen: A cast of media foundation models","author":"Polyak","year":"2024","journal-title":"arXiv preprint"},{"key":"ref35","article-title":"Dreamfusion: Text-to-3d using 2d diffusion","volume-title":"International Conference on Learning Representations","author":"Poole"},{"key":"ref36","article-title":"Freenoise: Tuning-free longer video diffusion via noise rescheduling","volume-title":"International Conference on Learning Representations","author":"Qiu"},{"key":"ref37","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"International conference on machine learning","author":"Radford"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-24574-4_28"},{"key":"ref40","article-title":"Photorealistic text-to-image diffusion models with deep language understanding","author":"Saharia","year":"2022","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref41","article-title":"Progressive distillation for fast sampling of diffusion models","volume-title":"International Conference on Learning Representations","author":"Salimans"},{"key":"ref42","article-title":"Make-a-video: Text-to-video generation without text-video data","volume-title":"International Conference on Learning Representations","author":"Singer"},{"key":"ref43","article-title":"Denoising diffusion implicit models","volume-title":"International Conference on Learning Representations","author":"Song"},{"key":"ref44","article-title":"Score-based generative modeling through stochastic differential equations","volume-title":"International Conference on Learning Representations","author":"Song"},{"key":"ref45","article-title":"Video-infinity: Distributed long video generation","author":"Tan","year":"2024","journal-title":"arXiv preprint"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02086"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.52202\/079017-0928"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/3DV62453.2024.00154"},{"key":"ref49","article-title":"Phenaki: Variable length video generation from open domain textual descriptions","volume-title":"International Conference on Learning Representations","author":"Villegas"},{"key":"ref50","article-title":"Gen-1-video: Multi-text to long video generation via temporal co-denoising","author":"Wang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01214"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-025-02349-y"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02234"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/cvprw67362.2025.00628"},{"key":"ref55","article-title":"Cogvideox: Text-to-video diffusion models with an expert transformer","author":"Yang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.73"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision Workshops (ICCVW)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,20]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision Workshops (ICCVW)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11373940\/11374285\/11375538.pdf?arnumber=11375538","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,24]],"date-time":"2026-02-24T07:35:03Z","timestamp":1771918503000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11375538\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":56,"URL":"https:\/\/doi.org\/10.1109\/iccvw69036.2025.00671","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}