{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,6]],"date-time":"2026-05-06T15:34:26Z","timestamp":1778081666279,"version":"3.51.4"},"reference-count":74,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccv51701.2025.01446","type":"proceedings-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:45:49Z","timestamp":1777491949000},"page":"15583-15593","source":"Crossref","is-referenced-by-count":1,"title":["Dropletvideo: A Dataset and Approach to Explore Integral Spatio-Temporal Consistent Video Generation"],"prefix":"10.1109","author":[{"given":"Runze","family":"Zhang","sequence":"first","affiliation":[{"name":"IEIT SYSTEMS Co., Ltd.,Jinan,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Guoguang","family":"Du","sequence":"additional","affiliation":[{"name":"IEIT SYSTEMS Co., Ltd.,Jinan,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaochuan","family":"Li","sequence":"additional","affiliation":[{"name":"IEIT SYSTEMS Co., Ltd.,Jinan,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qi","family":"Jia","sequence":"additional","affiliation":[{"name":"IEIT SYSTEMS Co., Ltd.,Jinan,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Liang","family":"Jin","sequence":"additional","affiliation":[{"name":"IEIT SYSTEMS Co., Ltd.,Jinan,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lu","family":"Liu","sequence":"additional","affiliation":[{"name":"IEIT SYSTEMS Co., Ltd.,Jinan,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jingjing","family":"Wang","sequence":"additional","affiliation":[{"name":"IEIT SYSTEMS Co., Ltd.,Jinan,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Cong","family":"Xu","sequence":"additional","affiliation":[{"name":"IEIT SYSTEMS Co., Ltd.,Jinan,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhenhua","family":"Guo","sequence":"additional","affiliation":[{"name":"IEIT SYSTEMS Co., Ltd.,Jinan,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yaqian","family":"Zhao","sequence":"additional","affiliation":[{"name":"IEIT SYSTEMS Co., Ltd.,Jinan,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaoli","family":"Gong","sequence":"additional","affiliation":[{"name":"Nankai University,Tianjin,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Rengang","family":"Li","sequence":"additional","affiliation":[{"name":"Tsinghua University,Beijing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Baoyu","family":"Fan","sequence":"additional","affiliation":[{"name":"Nankai University,Tianjin,China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Cosmos world foundation model platform for physical ai","volume-title":"arXiv preprint arXiv:2501.03575","author":"Agarwal","year":"2025"},{"key":"ref2","article-title":"qingying","year":"2024"},{"key":"ref3","article-title":"Cogvideox-fun","year":"2024"},{"key":"ref4","article-title":"Ac3d: Analyzing and improving 3d camera control in video video transformers","volume-title":"arXiv preprint arXiv:2411.18673","author":"Bahmani","year":"2024"},{"key":"ref5","article-title":"Vd3d: Taming large video diffusion transformers for 3d camera control","volume-title":"arXiv preprint arXiv:2407.12781","author":"Bahmani","year":"2024"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00175"},{"key":"ref7","article-title":"Stable video diffusion: Scaling latent video diffusion models to large datasets","volume-title":"arXiv preprint arXiv:2311.15127","author":"Blattmann","year":"2023"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02161"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01265"},{"key":"ref10","article-title":"Unictrl: Improving the spatiotemporal consistency of text-to-video diffusion models via training-free unified attention control","author":"Chen","year":"2024"},{"key":"ref11","doi-asserted-by":"crossref","DOI":"10.1007\/s11432-024-4231-5","article-title":"How far are we to gpt-4v? closing the gap to commercial multimodal models with open-source suites","volume-title":"arXiv preprint arXiv:2404.168212404.16821","author":"Chen","year":"2024"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.02283"},{"key":"ref13","article-title":"Boosting camera motion control for video diffusion transformers","volume-title":"arXiv preprint arXiv:2410.10802","author":"Cheong","year":"2024"},{"key":"ref14","article-title":"Pyscenedetect","year":"2024"},{"key":"ref15","article-title":"Scaling rectified flow transformers for high-resolution image synthesis","author":"Esser","year":"2024"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72986-7_23"},{"key":"ref17","article-title":"Hailuo ai","year":"2024"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73242-3_3"},{"key":"ref19","article-title":"Cameractrl: Enabling camera control for text-to-video generation","volume-title":"arXiv preprint arXiv:2404.02101","author":"He","year":"2024"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00245"},{"key":"ref21","article-title":"Lora: Low-rank adaptation of large language models","volume-title":"arXiv preprint arXiv:2106.09685","author":"Hu","year":"2021"},{"key":"ref22","doi-asserted-by":"crossref","DOI":"10.1109\/CVPR52733.2024.02060","article-title":"Vbench++: Comprehensive and versatile benchmark suite for video generative models","volume-title":"arXiv preprint arXiv:2411.13503","author":"Huang","year":"2024"},{"key":"ref23","article-title":"Animate3d: Animating any 3d model with multi-view video diffusion","volume-title":"arXiv preprint arXiv:2407.11398","author":"Jiang","year":"2024"},{"key":"ref24","article-title":"Consistent4d: Consistent 360\u00b0 dynamic object generation from monocular video","volume-title":"The Twelfth International Conference on Learning Representations","author":"Jiang","year":"2024"},{"key":"ref25","article-title":"Miradata: A large-scale video dataset with long durations and structured captions","volume-title":"arXiv preprint arXiv:2407.06358","author":"Ju","year":"2024"},{"key":"ref26","article-title":"Adam: A method for stochastic optimization","volume-title":"arXiv preprint arXiv:1412.6980","author":"Kingma","year":"2014"},{"key":"ref27","article-title":"Hunyuanvideo: A systematic framework for large video generative models","volume-title":"arXiv preprint arXiv:2412.03603","author":"Kong","year":"2024"},{"key":"ref28","article-title":"kuaishou-klingai","year":"2024"},{"key":"ref29","article-title":"Open-sora-plan","year":"2024"},{"key":"ref30","article-title":"Animateanything: Consistent and controllable animation for video generation","volume-title":"arXiv preprint arXiv:2411.10836","author":"Lei","year":"2024"},{"key":"ref31","doi-asserted-by":"crossref","DOI":"10.52202\/079017-3519","article-title":"Diffusion4d: Fast spatial-temporal consistent 4d generation via video diffusion models","volume-title":"arXiv preprint arXiv:2405.16645","author":"Liang","year":"2024"},{"key":"ref32","article-title":"Stiv: Scalable text and image conditioned video generation","volume-title":"arXiv preprint arXiv:2412.07730","author":"Lin","year":"2024"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.02092"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2022.3143699"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01170"},{"key":"ref36","article-title":"lumalabs.ai-dream-machine","year":"2024"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00984"},{"key":"ref38","article-title":"Step-videot2v technical report: The practice, challenges, and future of video foundation model","author":"Ma","year":"2025"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00272"},{"key":"ref40","article-title":"Openvid-1m: A large-scale high-quality dataset for text-tovideo generation","volume-title":"arXiv preprint arXiv:2407.02371","author":"Nan","year":"2024"},{"key":"ref41","article-title":"openai-sora","year":"2024"},{"key":"ref42","article-title":"Fast dynamic 3d object generation from a single-view video","volume-title":"arXiv preprint arXiv 2401.08742","author":"Pan","year":"2024"},{"key":"ref44","article-title":"Pika","year":"2024"},{"key":"ref45","article-title":"Movie gen: A cast of media foundation models","author":"Polyak","year":"2024"},{"key":"ref46","article-title":"Movie gen: A cast of media foundation models","author":"Polyak","year":"2024"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00634"},{"issue":"1","key":"ref48","first-page":"5485","article-title":"Exploring the limits of transfer learning with a unified text-to-text transformer","volume":"21","author":"Raffel","year":"2020","journal-title":"The Journal of Machine Learning Research"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1145\/3394486.3406703"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01072"},{"key":"ref51","article-title":"Gen-3 alpha","year":"2024"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.52202\/068431-1833"},{"key":"ref53","article-title":"Make-a-video: Text-to-video generation without text-video data","volume-title":"ArXiv, abs\/2209.14792","author":"Singer","year":"2022"},{"key":"ref54","article-title":"wanxiang","year":"2024"},{"key":"ref55","article-title":"vidu","year":"2024"},{"key":"ref56","article-title":"vivago","year":"2024"},{"key":"ref57","article-title":"Modelscope text-to-video technical report","volume-title":"ArXiv, abs\/2308.06571","author":"Wang","year":"2023"},{"key":"ref58","article-title":"Koala-36m: A large-scale video dataset improving consistency between fine-grained conditions and video content","volume-title":"arXiv preprint arXiv:2410.08260","author":"Wang","year":"2024"},{"key":"ref59","article-title":"Videofactory: Swap attention in spatiotemporal diffusions for text-to-video generation","author":"Wang","year":"2023"},{"key":"ref60","article-title":"Internvid: A large-scale video-text dataset for multimodal understanding and generation","volume-title":"arXiv preprint arXiv:2307.06942","author":"Wang","year":"2023"},{"key":"ref61","article-title":"Cpa: Camera-pose-awareness diffusion transformer for video generation","volume-title":"arXiv preprint arXiv:2412.01429","author":"Wang","year":"2024"},{"key":"ref62","article-title":"Objctrl-2.5 d: Training-free object control with camera poses","volume-title":"arXiv preprint arXiv:2412.07721","author":"Wang","year":"2024"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01843"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72952-2_23"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52688.2022.00498"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00303"},{"key":"ref67","article-title":"Cogvideox: Text-to-video diffusion models with an expert transformer","volume-title":"arXiv preprint arXiv:2408.06072","author":"Yang","year":"2024"},{"key":"ref68","article-title":"Diffusion 2 : Dynamic 3d content generation via score composition of video and multi-view diffusion models","volume-title":"International Conference on Learning Representations (ICLR)","author":"Yang","year":"2025"},{"key":"ref69","doi-asserted-by":"crossref","DOI":"10.18653\/v1\/2023.acl-long.73","article-title":"Nuwa-xl: Diffusion over diffusion for extremely long video generation","volume-title":"arXiv preprint arXiv:2303.12346","author":"Yin","year":"2023"},{"key":"ref70","article-title":"4dgen: Grounded 4d content generation with spatial-temporal consistency","volume-title":"arXiv preprint arXiv:2312.17225","author":"Yin","year":"2023"},{"key":"ref71","article-title":"Viewcrafter: Taming video diffusion models for high-fidelity novel view synthesis","volume-title":"arXiv preprint arXiv:2409.02048","author":"Yu","year":"2024"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00883"},{"key":"ref73","article-title":"Stag4d: Spatial-temporal anchored generative 4d gaussians","author":"Zeng","year":"2024"},{"key":"ref74","article-title":"Open-sora: Democratizing efficient video production for all","author":"Zheng","year":"2024"},{"key":"ref75","doi-asserted-by":"crossref","DOI":"10.1145\/3197517.3201323","article-title":"Stereo magnification: Learning view synthesis using multiplane images","volume-title":"arXiv preprint arXiv:1805.09817","author":"Zhou","year":"2018"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision (ICCV)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,25]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision (ICCV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11443115\/11443287\/11446165.pdf?arnumber=11446165","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,30]],"date-time":"2026-04-30T06:29:25Z","timestamp":1777530565000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11446165\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":74,"URL":"https:\/\/doi.org\/10.1109\/iccv51701.2025.01446","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}