{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:55:18Z","timestamp":1781538918824,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":49,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810596","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"1672-1681","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["SA-Edit: Accelerating Editing Models via Test-time Spatial Acceleration"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-2743-1401","authenticated-orcid":false,"given":"Yihao","family":"Song","sequence":"first","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-1247-5931","authenticated-orcid":false,"given":"Teng","family":"Hu","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1858-3358","authenticated-orcid":false,"given":"Ran","family":"Yi","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-0518-7903","authenticated-orcid":false,"given":"Xiaoning","family":"Lei","sequence":"additional","affiliation":[{"name":"Contemporary Amperex Technology Co. Limited, Ningde, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8678-2784","authenticated-orcid":false,"given":"Bin","family":"Sheng","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","unstructured":"Yuval Atzmon Maciej Bala Yogesh Balaji Tiffany Cai Yin Cui Jiaojiao Fan Yunhao Ge Siddharth Gururani Jacob Huffman Ronald Isaac et\u00a0al. 2024. Edify image: High-quality image generation with pixel space laplacian diffusion models."},{"key":"e_1_3_3_1_3_2","unstructured":"Black Forest Labs Stephen Batifol Andreas Blattmann Frederic Boesel Saksham Consul Cyril Diagne Tim Dockhorn Jack English Zion English Patrick Esser et\u00a0al. 2025. FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space."},{"key":"e_1_3_3_1_4_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01764"},{"key":"e_1_3_3_1_5_2","unstructured":"Jiazi Bu Pengyang Ling Yujie Zhou Pan Zhang Tong Wu Xiaoyi Dong Yuhang Zang Yuhang Cao Dahua Lin and Jiaqi Wang. 2025. HiFlow: Training-free High-Resolution Image Generation with Flow-Aligned Guidance."},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02062"},{"key":"e_1_3_3_1_7_2","unstructured":"Junsong Chen Jincheng Yu Chongjian Ge Lewei Yao Enze Xie Yue Wu Zhongdao Wang James Kwok Ping Luo Huchuan Lu et\u00a0al. 2023. Pixart-alpha: Fast training of diffusion transformer for photorealistic text-to-image synthesis."},{"key":"e_1_3_3_1_8_2","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687612"},{"key":"e_1_3_3_1_9_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51701.2025.01761"},{"key":"e_1_3_3_1_10_2","volume-title":"Forty-first international conference on machine learning","author":"Esser Patrick","year":"2024","unstructured":"Patrick Esser, Sumith Kulal, Andreas Blattmann, Rahim Entezari, Jonas M\u00fcller, Harry Saini, Yam Levi, Dominik Lorenz, Axel Sauer, Frederic Boesel, et\u00a0al. 2024. Scaling rectified flow transformers for high-resolution image synthesis. In Forty-first international conference on machine learning."},{"key":"e_1_3_3_1_11_2","unstructured":"Patrick Esser Sumith Kulal Andreas Blattmann Rahim Entezari Jonas M\u00fcller Harry Saini Yam Levi Dominik Lorenz Axel Sauer Frederic Boesel Dustin Podell Tim Dockhorn Zion English Kyle Lacey Alex Goodwin Yannik Marek and Robin Rombach. 2024. Scaling Rectified Flow Transformers for High-Resolution Image Synthesis. arxiv:https:\/\/arXiv.org\/abs\/2403.03206\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2403.03206"},{"key":"e_1_3_3_1_12_2","first-page":"395","volume-title":"European Conference on Computer Vision","author":"Garibi Daniel","year":"2024","unstructured":"Daniel Garibi, Or Patashnik, Andrey Voynov, Hadar Averbuch-Elor, and Daniel Cohen-Or. 2024. Renoise: Real image inversion through iterative noising. In European Conference on Computer Vision. Springer, 395\u2013413."},{"key":"e_1_3_3_1_13_2","unstructured":"Jonathan Ho Ajay Jain and Pieter Abbeel. 2020. Denoising diffusion probabilistic models. 6840\u20136851\u00a0pages."},{"key":"e_1_3_3_1_14_2","first-page":"13213","volume-title":"International Conference on Machine Learning","author":"Hoogeboom Emiel","year":"2023","unstructured":"Emiel Hoogeboom, Jonathan Heek, and Tim Salimans. 2023. simple diffusion: End-to-end diffusion for high resolution images. In International Conference on Machine Learning. PMLR, 13213\u201313232."},{"key":"e_1_3_3_1_15_2","unstructured":"Juno Hwang Yong-Hyun Park and Junghyo Jo. 2024. Upsample guidance: Scale up diffusion models without training."},{"key":"e_1_3_3_1_16_2","unstructured":"Wongi Jeong Kyungryeol Lee Hoigi Seo and Se\u00a0Young Chun. 2025. Upsample What Matters: Region-Adaptive Latent Sampling for Accelerated Diffusion Transformers."},{"key":"e_1_3_3_1_17_2","unstructured":"Houcheng Jiang Junfeng Fang Ningyu Zhang Guojun Ma Mingyang Wan Xiang Wang Xiangnan He and Tat-seng Chua. 2025. Anyedit: Edit any knowledge encoded in language models."},{"key":"e_1_3_3_1_18_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00582"},{"key":"e_1_3_3_1_19_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i4.32456"},{"key":"e_1_3_3_1_20_2","doi-asserted-by":"crossref","unstructured":"Vladimir Kulikov Matan Kleiner Inbar Huberman-Spiegelglas and Tomer Michaeli. 2024. Flowedit: Inversion-free text-based editing using pre-trained flow models.","DOI":"10.1109\/ICCV51701.2025.01834"},{"key":"e_1_3_3_1_21_2","unstructured":"Black\u00a0Forest Labs. 2024. FLUX. https:\/\/github.com\/black-forest-labs\/flux."},{"key":"e_1_3_3_1_22_2","unstructured":"Zhimin Li Jianwei Zhang Qin Lin Jiangfeng Xiong Yanxin Long Xinchi Deng Yingfang Zhang Xingchao Liu Minbin Huang Zedong Xiao et\u00a0al. 2024. Hunyuan-dit: A powerful multi-resolution diffusion transformer with fine-grained chinese understanding."},{"key":"e_1_3_3_1_23_2","unstructured":"Yaron Lipman Ricky\u00a0TQ Chen Heli Ben-Hamu Maximilian Nickel and Matt Le. 2022. Flow matching for generative modeling."},{"key":"e_1_3_3_1_24_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00689"},{"key":"e_1_3_3_1_25_2","unstructured":"Jiacheng Liu Chang Zou Yuanhuiyi Lyu Junjie Chen and Linfeng Zhang. 2025. From reusing to forecasting: Accelerating diffusion models with taylorseers."},{"key":"e_1_3_3_1_26_2","unstructured":"Shiyu Liu Yucheng Han Peng Xing Fukun Yin Rui Wang Wei Cheng Jiaqi Liao Yingming Wang Honghao Fu Chunrui Han et\u00a0al. 2025. Step1x-edit: A practical framework for general image editing."},{"key":"e_1_3_3_1_27_2","unstructured":"Xingchao Liu Chengyue Gong and Qiang Liu. 2022. Flow straight and fast: Learning to generate and transfer data with rectified flow."},{"key":"e_1_3_3_1_28_2","unstructured":"Zhengyao Lv Chenyang Si Junhao Song Zhenyu Yang Yu Qiao Ziwei Liu and Kwan-Yee\u00a0K Wong. 2024. Fastercache: Training-free video diffusion model acceleration with high quality."},{"key":"e_1_3_3_1_29_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02002"},{"key":"e_1_3_3_1_30_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00387"},{"key":"e_1_3_3_1_31_2","unstructured":"Dustin Podell Zion English Kyle Lacey Andreas Blattmann Tim Dockhorn Jonas M\u00fcller Joe Penna and Robin Rombach. 2023. Sdxl: Improving latent diffusion models for high-resolution image synthesis."},{"key":"e_1_3_3_1_32_2","unstructured":"Yuxi Ren Xin Xia Yanzuo Lu Jiacheng Zhang Jie Wu Pan Xie Xing Wang and Xuefeng Xiao. 2024. Hyper-SD: Trajectory Segmented Consistency Model for Efficient Image Synthesis. arxiv:https:\/\/arXiv.org\/abs\/2404.13686\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2404.13686"},{"key":"e_1_3_3_1_33_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"e_1_3_3_1_34_2","doi-asserted-by":"crossref","unstructured":"Chitwan Saharia William Chan Saurabh Saxena Lala Li Jay Whang Emily\u00a0L Denton Kamyar Ghasemipour Raphael Gontijo\u00a0Lopes Burcu Karagol\u00a0Ayan Tim Salimans et\u00a0al. 2022. Photorealistic text-to-image diffusion models with deep language understanding. 36479\u201336494\u00a0pages.","DOI":"10.52202\/068431-2643"},{"key":"e_1_3_3_1_35_2","first-page":"87","volume-title":"European Conference on Computer Vision","author":"Sauer Axel","year":"2024","unstructured":"Axel Sauer, Dominik Lorenz, Andreas Blattmann, and Robin Rombach. 2024. Adversarial diffusion distillation. In European Conference on Computer Vision. Springer, 87\u2013103."},{"key":"e_1_3_3_1_36_2","unstructured":"Yang Song Prafulla Dhariwal Mark Chen and Ilya Sutskever. 2023. Consistency models."},{"key":"e_1_3_3_1_37_2","unstructured":"Yang Song Jascha Sohl-Dickstein Diederik\u00a0P Kingma Abhishek Kumar Stefano Ermon and Ben Poole. 2020. Score-based generative modeling through stochastic differential equations."},{"key":"e_1_3_3_1_38_2","unstructured":"Nikita Starodubcev Denis Kuznedelev Artem Babenko and Dmitry Baranchuk. 2025. Scale-wise Distillation of Diffusion Models."},{"key":"e_1_3_3_1_39_2","unstructured":"Ye Tian Xin Xia Yuxi Ren Shanchuan Lin Xing Wang Xuefeng Xiao Yunhai Tong Ling Yang and Bin Cui. 2025. Training-free diffusion acceleration with bottleneck sampling."},{"key":"e_1_3_3_1_40_2","doi-asserted-by":"crossref","unstructured":"Tobias Vontobel Seyedmorteza Sadat Farnood Salehi and Romann\u00a0M Weber. 2025. HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling.","DOI":"10.1145\/3757377.3763979"},{"key":"e_1_3_3_1_41_2","doi-asserted-by":"crossref","unstructured":"Fu-Yun Wang Zhaoyang Huang Alexander Bergman Dazhong Shen Peng Gao Michael Lingelbach Keqiang Sun Weikang Bian Guanglu Song Yu Liu et\u00a0al. 2024. Phased consistency models. 83951\u201384009\u00a0pages.","DOI":"10.52202\/079017-2668"},{"key":"e_1_3_3_1_42_2","unstructured":"Peng Wang Yichun Shi Xiaochen Lian Zhonghua Zhai Xin Xia Xuefeng Xiao Weilin Huang and Jianchao Yang. 2025. SeedEdit 3.0: Fast and High-Quality Generative Image Editing."},{"key":"e_1_3_3_1_43_2","unstructured":"Sihan Xu Yidong Huang Jiayi Pan Ziqiao Ma and Joyce Chai. 2023. Inversion-free image editing with natural language."},{"key":"e_1_3_3_1_44_2","unstructured":"Zhen Yang Guibao Shen Minyang Li Liang Hou Mushui Liu Luozhou Wang Xin Tao Pengfei Wan Di Zhang and Ying-Cong Chen. 2025. Efficient Training-Free High-Resolution Synthesis with Energy Rectification in Diffusion Models."},{"key":"e_1_3_3_1_45_2","unstructured":"Yang Ye Xianyi He Zongjian Li Bin Lin Shenghai Yuan Zhiyuan Yan Bohan Hou and Li Yuan. 2025. ImgEdit: A Unified Image Editing Dataset and Benchmark. arxiv:https:\/\/arXiv.org\/abs\/2505.20275\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2505.20275"},{"key":"e_1_3_3_1_46_2","doi-asserted-by":"crossref","unstructured":"Tianwei Yin Micha\u00ebl Gharbi Taesung Park Richard Zhang Eli Shechtman Fredo Durand and Bill Freeman. 2024. Improved distribution matching distillation for fast image synthesis. 47455\u201347487\u00a0pages.","DOI":"10.52202\/079017-1505"},{"key":"e_1_3_3_1_47_2","unstructured":"Qinsheng Zhang and Yongxin Chen. 2022. Fast sampling of diffusion models with exponential integrator."},{"key":"e_1_3_3_1_48_2","unstructured":"Xuanlei Zhao Xiaolong Jin Kai Wang and Yang You. 2024. Real-time video generation with pyramid attention broadcast."},{"key":"e_1_3_3_1_49_2","unstructured":"Mingyuan Zhou Huangjie Zheng Zhendong Wang Mingzhang Yin and Hai Huang. 2024. Score identity Distillation: Exponentially Fast Distillation of Pretrained Diffusion Models for One-Step Generation. arxiv:https:\/\/arXiv.org\/abs\/2404.04057\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2404.04057"},{"key":"e_1_3_3_1_50_2","unstructured":"Chang Zou Xuyang Liu Ting Liu Siteng Huang and Linfeng Zhang. 2024. Accelerating diffusion transformers with token-wise feature caching."}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:04:01Z","timestamp":1781535841000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810596"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":49,"alternative-id":["10.1145\/3805622.3810596","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810596","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}