{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,8]],"date-time":"2026-06-08T15:06:44Z","timestamp":1780931204085,"version":"3.54.1"},"reference-count":49,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Pattern Recognition"],"published-print":{"date-parts":[[2026,12]]},"DOI":"10.1016\/j.patcog.2026.114081","type":"journal-article","created":{"date-parts":[[2026,5,29]],"date-time":"2026-05-29T06:44:39Z","timestamp":1780037079000},"page":"114081","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"PA","title":["Beyond consistency: Preserving temporal structure in zero-shot video editing"],"prefix":"10.1016","volume":"180","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-0371-9921","authenticated-orcid":false,"given":"Deyin","family":"Liu","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yisheng","family":"Ding","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4501-7992","authenticated-orcid":false,"given":"Zhe","family":"Jin","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xiatian","family":"Zhu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Anjan","family":"Dutta","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Lin","family":"Wu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"key":"10.1016\/j.patcog.2026.114081_b1","series-title":"ICML","first-page":"2256","article-title":"Deep unsupervised learning using nonequilibrium thermodynamics","author":"Sohl-Dickstein","year":"2015"},{"key":"10.1016\/j.patcog.2026.114081_b2","series-title":"NeurIPS","first-page":"6840","article-title":"Denoising diffusion probabilistic models","author":"Ho","year":"2020"},{"key":"10.1016\/j.patcog.2026.114081_b3","series-title":"ICML","first-page":"8162","article-title":"Improved denoising diffusion probabilistic models","author":"Nichol","year":"2021"},{"key":"10.1016\/j.patcog.2026.114081_b4","series-title":"CVPR","first-page":"10674","article-title":"High-resolution image synthesis with latent diffusion models","author":"Rombach","year":"2022"},{"key":"10.1016\/j.patcog.2026.114081_b5","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2025.111479","article-title":"Token-aware and step-aware acceleration for stable diffusion","author":"Zhen","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.114081_b6","series-title":"NeurIPS","first-page":"8780","article-title":"Diffusion models beat GANs on image synthesis","author":"Dhariwal","year":"2021"},{"key":"10.1016\/j.patcog.2026.114081_b7","article-title":"FastEdit: fast text-guided single-image editing via semantic-aware diffusion fine-tuning","author":"Chen","year":"2026","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.114081_b8","article-title":"HybridEditDif: Text and exemplar guided image editing with diffusion models","author":"Liu","year":"2026","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.114081_b9","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2023.109458","article-title":"Where you edit is what you get: Text-guided image editing with region-based attention","author":"Xiao","year":"2023","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.114081_b10","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2025.112614","article-title":"Instance-wise distribution control of text-to-image diffusion models","author":"Ian Chan","year":"2026","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.114081_b11","doi-asserted-by":"crossref","first-page":"10850","DOI":"10.1109\/TPAMI.2023.3261988","article-title":"Diffusion models in vision: A survey","author":"Croitoru","year":"2023","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.patcog.2026.114081_b12","series-title":"NeurIPS","first-page":"8633","article-title":"Video diffusion models","author":"Ho","year":"2022"},{"key":"10.1016\/j.patcog.2026.114081_b13","series-title":"Imagen video: High definition video generation with diffusion models","author":"Ho","year":"2022"},{"key":"10.1016\/j.patcog.2026.114081_b14","series-title":"NeurIPS","first-page":"36479","article-title":"Photorealistic text-to-image diffusion models with deep language understanding","author":"Saharia","year":"2022"},{"key":"10.1016\/j.patcog.2026.114081_b15","series-title":"ICCV","first-page":"7589","article-title":"Tune-a-video: One-shot tuning of image diffusion models for text-to-video generation","author":"Wu","year":"2023"},{"key":"10.1016\/j.patcog.2026.114081_b16","series-title":"CVPR","first-page":"8599","article-title":"Video-P2P: Video editing with cross-attention control","author":"Liu","year":"2024"},{"key":"10.1016\/j.patcog.2026.114081_b17","series-title":"NeurIPS","first-page":"58508","article-title":"Towards consistent video editing with text-to-image diffusion models","author":"Zhang","year":"2023"},{"key":"10.1016\/j.patcog.2026.114081_b18","series-title":"ICCV","first-page":"15886","article-title":"FateZero: Fusing attentions for zero-shot text-based video editing","author":"Qi","year":"2023"},{"key":"10.1016\/j.patcog.2026.114081_b19","series-title":"ICCV","first-page":"23149","article-title":"Pix2Video: Video editing using image diffusion","author":"Ceylan","year":"2023"},{"key":"10.1016\/j.patcog.2026.114081_b20","series-title":"CVPR","first-page":"1921","article-title":"Plug-and-play diffusion features for text-driven image-to-image translation","author":"Tumanyan","year":"2023"},{"key":"10.1016\/j.patcog.2026.114081_b21","series-title":"ICCV","first-page":"3813","article-title":"Adding conditional control to text-to-image diffusion models","author":"Zhang","year":"2023"},{"key":"10.1016\/j.patcog.2026.114081_b22","series-title":"ICLR","first-page":"20637","article-title":"TokenFlow: Consistent diffusion features for consistent video editing","author":"Geyer","year":"2024"},{"key":"10.1016\/j.patcog.2026.114081_b23","series-title":"CVPR","first-page":"7486","article-title":"VidToMe: Video token merging for zero-shot video editing","author":"Li","year":"2024"},{"key":"10.1016\/j.patcog.2026.114081_b24","series-title":"NeurIPS","first-page":"1363","article-title":"Emergent correspondence from image diffusion","author":"Tang","year":"2023"},{"key":"10.1016\/j.patcog.2026.114081_b25","series-title":"ICLR","first-page":"1498","article-title":"Token merging: Your ViT but faster","author":"Bolya","year":"2023"},{"key":"10.1016\/j.patcog.2026.114081_b26","series-title":"ICLR","first-page":"14369","article-title":"Prompt-to-prompt image editing with cross-attention control","author":"Hertz","year":"2023"},{"key":"10.1016\/j.patcog.2026.114081_b27","series-title":"NeurIPS","first-page":"16222","article-title":"Diffusion self-guidance for controllable image generation","author":"Epstein","year":"2023"},{"key":"10.1016\/j.patcog.2026.114081_b28","series-title":"ACM SIGGRAPH","first-page":"11:1","article-title":"Zero-shot image-to-image translation","author":"Parmar","year":"2023"},{"key":"10.1016\/j.patcog.2026.114081_b29","series-title":"CVPR","first-page":"6038","article-title":"Null-text inversion for editing real images using guided diffusion models","author":"Mokady","year":"2023"},{"key":"10.1016\/j.patcog.2026.114081_b30","series-title":"ICCV","first-page":"15908","article-title":"Text2Video-zero: Text-to-image diffusion models are zero-shot video generators","author":"Khachatryan","year":"2023"},{"key":"10.1016\/j.patcog.2026.114081_b31","series-title":"ACM SIGGRAPH","first-page":"95:1","article-title":"Rerender a video: Zero-shot text-guided video-to-video translation","author":"Yang","year":"2023"},{"key":"10.1016\/j.patcog.2026.114081_b32","series-title":"CVPR","first-page":"8703","article-title":"Fresco: Spatial-temporal correspondence for zero-shot video translation","author":"Yang","year":"2024"},{"key":"10.1016\/j.patcog.2026.114081_b33","series-title":"ICLR","first-page":"8826","article-title":"FLATTEN: optical flow-guided ATTENtion for consistent text-to-video editing","author":"Cong","year":"2024"},{"key":"10.1016\/j.patcog.2026.114081_b34","series-title":"ICML","first-page":"9109","article-title":"Slicedit: Zero-shot video editing with text-to-image diffusion models using spatio-temporal slices","author":"Cohen","year":"2024"},{"key":"10.1016\/j.patcog.2026.114081_b35","series-title":"CVPR","first-page":"22563","article-title":"Align your latents: High-resolution video synthesis with latent diffusion models","author":"Blattmann","year":"2023"},{"key":"10.1016\/j.patcog.2026.114081_b36","series-title":"Auto-encoding variational bayes","author":"Kingma","year":"2013"},{"key":"10.1016\/j.patcog.2026.114081_b37","series-title":"ICLR","first-page":"14205","article-title":"Denoising diffusion implicit models","author":"Song","year":"2021"},{"key":"10.1016\/j.patcog.2026.114081_b38","series-title":"ICML","first-page":"16784","article-title":"GLIDE: Towards photorealistic image generation and editing with text-guided diffusion models","author":"Nichol","year":"2022"},{"key":"10.1016\/j.patcog.2026.114081_b39","series-title":"Adaflow: Efficient long video editing via adaptive attention slimming and keyframe selection","author":"Zhang","year":"2025"},{"key":"10.1016\/j.patcog.2026.114081_b40","series-title":"Zero-shot video editing using off-the-shelf image diffusion models","author":"Wang","year":"2023"},{"key":"10.1016\/j.patcog.2026.114081_b41","series-title":"NeurIPS","first-page":"48955","article-title":"MiraData: A large-scale video dataset with long durations and structured captions","author":"Ju","year":"2024"},{"key":"10.1016\/j.patcog.2026.114081_b42","doi-asserted-by":"crossref","first-page":"121","DOI":"10.1016\/j.iotcps.2023.04.003","article-title":"ChatGPT: A comprehensive review on background, applications, key challenges, bias, ethics, limitations and future scope","author":"Ray","year":"2023","journal-title":"Internet Things Cyber-Phys. Syst."},{"key":"10.1016\/j.patcog.2026.114081_b43","series-title":"CVPR","first-page":"9000","article-title":"Super slomo: High quality estimation of multiple intermediate frames for video interpolation","author":"Jiang","year":"2018"},{"key":"10.1016\/j.patcog.2026.114081_b44","doi-asserted-by":"crossref","first-page":"600","DOI":"10.1109\/TIP.2003.819861","article-title":"Image quality assessment: from error visibility to structural similarity","author":"Wang","year":"2004","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.patcog.2026.114081_b45","series-title":"CVPR","first-page":"586","article-title":"The unreasonable effectiveness of deep features as a perceptual metric","author":"Zhang","year":"2018"},{"key":"10.1016\/j.patcog.2026.114081_b46","series-title":"CVPR","first-page":"21807","article-title":"VBench: Comprehensive benchmark suite for video generative models","author":"Huang","year":"2024"},{"key":"10.1016\/j.patcog.2026.114081_b47","series-title":"ICLR","first-page":"27266","article-title":"ControlVideo: Training-free controllable text-to-video generation","author":"Zhang","year":"2024"},{"key":"10.1016\/j.patcog.2026.114081_b48","series-title":"CVPR","first-page":"6507","article-title":"RAVE: Randomized noise shuffling for fast and consistent video editing with diffusion models","author":"Kara","year":"2024"},{"key":"10.1016\/j.patcog.2026.114081_b49","series-title":"ICLR","first-page":"79063","article-title":"VideoGrain: Modulating space-time attention for multi-grained video editing","author":"Yang","year":"2025"}],"container-title":["Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326010460?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326010460?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,6,8]],"date-time":"2026-06-08T14:52:43Z","timestamp":1780930363000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0031320326010460"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,12]]},"references-count":49,"alternative-id":["S0031320326010460"],"URL":"https:\/\/doi.org\/10.1016\/j.patcog.2026.114081","relation":{},"ISSN":["0031-3203"],"issn-type":[{"value":"0031-3203","type":"print"}],"subject":[],"published":{"date-parts":[[2026,12]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Beyond consistency: Preserving temporal structure in zero-shot video editing","name":"articletitle","label":"Article Title"},{"value":"Pattern Recognition","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.patcog.2026.114081","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"114081"}}