{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T17:13:10Z","timestamp":1777655590803,"version":"3.51.4"},"publisher-location":"New York, NY, USA","reference-count":77,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,12,3]],"date-time":"2024-12-03T00:00:00Z","timestamp":1733184000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-sa\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100003977","name":"Israel Science Foundation","doi-asserted-by":"publisher","award":["2492\/20, 3611\/21, 1574\/21"],"award-info":[{"award-number":["2492\/20, 3611\/21, 1574\/21"]}],"id":[{"id":"10.13039\/501100003977","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,12,3]]},"DOI":"10.1145\/3680528.3687590","type":"proceedings-article","created":{"date-parts":[[2024,12,3]],"date-time":"2024-12-03T08:14:37Z","timestamp":1733213677000},"page":"1-12","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":15,"title":["DiffUHaul: A Training-Free Method for Object Dragging in Images"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-7628-7525","authenticated-orcid":false,"given":"Omri","family":"Avrahami","sequence":"first","affiliation":[{"name":"The Hebrew University of Jerusalem, Jerusalem, Israel"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4875-965X","authenticated-orcid":false,"given":"Rinon","family":"Gal","sequence":"additional","affiliation":[{"name":"Tel Aviv University, Tel Aviv, Israel"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9164-5303","authenticated-orcid":false,"given":"Gal","family":"Chechik","sequence":"additional","affiliation":[{"name":"NVIDIA, Tel Aviv, Israel"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7109-4006","authenticated-orcid":false,"given":"Ohad","family":"Fried","sequence":"additional","affiliation":[{"name":"The Interdisciplinary Center Herzliya, Herzliya, Israel"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6191-0361","authenticated-orcid":false,"given":"Dani","family":"Lischinski","sequence":"additional","affiliation":[{"name":"The Hebrew University of Jerusalem, Jerusalem, Israel"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-9476-1306","authenticated-orcid":false,"given":"Arash","family":"Vahdat","sequence":"additional","affiliation":[{"name":"NVIDIA, Santa Clara, United States of America"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0030-3189","authenticated-orcid":false,"given":"Weili","family":"Nie","sequence":"additional","affiliation":[{"name":"NVIDIA, Santa Clara, United States of America"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2024,12,3]]},"reference":[{"key":"e_1_3_3_2_2_1","unstructured":"Yuval Alaluf Elad Richardson Gal Metzer and Daniel Cohen-Or. 2023. A Neural Space-Time Representation for Text-to-Image Personalization. ArXiv abs\/2305.15391 (2023). https:\/\/api.semanticscholar.org\/CorpusID:258866047"},{"key":"e_1_3_3_2_3_1","unstructured":"Hadi Alzayer Zhihao Xia Xuaner Zhang Eli Shechtman Jia-Bin Huang and Michael Gharbi. 2024. Magic Fixup: Streamlining Photo Editing by Watching Dynamic Videos. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2403.13044 (2024)."},{"key":"e_1_3_3_2_4_1","unstructured":"Amazon. 2024. Amazon Mechanical Turk. https:\/\/www.mturk.com\/."},{"key":"e_1_3_3_2_5_1","doi-asserted-by":"crossref","unstructured":"Moab Arar Rinon Gal Yuval Atzmon Gal Chechik Daniel Cohen-Or Ariel Shamir and Amit\u00a0H Bermano. 2023. Domain-agnostic tuning-encoder for fast personalization of text-to-image models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2307.06925 (2023).","DOI":"10.1145\/3610548.3618173"},{"key":"e_1_3_3_2_6_1","doi-asserted-by":"crossref","unstructured":"Moab Arar Andrey Voynov Amir Hertz Omri Avrahami Shlomi Fruchter Yael Pritch Daniel Cohen-Or and Ariel Shamir. 2024. PALP: Prompt Aligned Personalization of Text-to-Image Models. (2024).","DOI":"10.1145\/3680528.3687604"},{"key":"e_1_3_3_2_7_1","doi-asserted-by":"crossref","unstructured":"Omri Avrahami Kfir Aberman Ohad Fried Daniel Cohen-Or and Dani Lischinski. 2023a. Break-A-Scene: Extracting Multiple Concepts from a Single Image. ArXiv abs\/2305.16311 (2023). https:\/\/api.semanticscholar.org\/CorpusID:258888228","DOI":"10.1145\/3610548.3618154"},{"key":"e_1_3_3_2_8_1","doi-asserted-by":"publisher","unstructured":"Omri Avrahami Ohad Fried and Dani Lischinski. 2023b. Blended Latent Diffusion. ACM Trans. Graph. 42 4 Article 149 (jul 2023) 11\u00a0pages. 10.1145\/3592450https:\/\/dl.acm.org\/doi\/10.1145\/3592450","DOI":"10.1145\/3592450"},{"key":"e_1_3_3_2_9_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01762"},{"key":"e_1_3_3_2_10_1","unstructured":"Omri Avrahami Amir Hertz Yael Vinker Moab Arar Shlomi Fruchter Ohad Fried Daniel Cohen-Or and Dani Lischinski. 2023d. The Chosen One: Consistent Characters in Text-to-Image Diffusion Models. ArXiv abs\/2311.10093 (2023). https:\/\/api.semanticscholar.org\/CorpusID:265221238"},{"key":"e_1_3_3_2_11_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01767"},{"key":"e_1_3_3_2_12_1","unstructured":"Omer Bar-Tal Lior Yariv Yaron Lipman and Tali Dekel. 2023. Multidiffusion: Fusing diffusion paths for controlled image generation. (2023)."},{"key":"e_1_3_3_2_13_1","unstructured":"Mikolaj Binkowski Danica\u00a0J. Sutherland Michal Arbel and Arthur Gretton. 2018. Demystifying MMD GANs. ArXiv abs\/1801.01401 (2018). https:\/\/api.semanticscholar.org\/CorpusID:3531856"},{"key":"e_1_3_3_2_14_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01764"},{"key":"e_1_3_3_2_15_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02062"},{"key":"e_1_3_3_2_16_1","doi-asserted-by":"crossref","unstructured":"Hila Chefer Yuval Alaluf Yael Vinker Lior Wolf and Daniel Cohen-Or. 2023. Attend-and-Excite: Attention-Based Semantic Guidance for Text-to-Image Diffusion Models. ACM Transactions on Graphics (TOG) 42 (2023) 1 \u2013 10. https:\/\/api.semanticscholar.org\/CorpusID:256416326","DOI":"10.1145\/3592116"},{"key":"e_1_3_3_2_17_1","unstructured":"Minghao Chen Iro Laina and Andrea Vedaldi. 2023b. Training-Free Layout Control with Cross-Attention Guidance. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2304.03373 (2023)."},{"key":"e_1_3_3_2_18_1","unstructured":"Xi Chen Lianghua Huang Yu Liu Yujun Shen Deli Zhao and Hengshuang Zhao. 2023a. AnyDoor: Zero-shot Object-level Image Customization. ArXiv abs\/2307.09481 (2023). https:\/\/api.semanticscholar.org\/CorpusID:259951373"},{"key":"e_1_3_3_2_19_1","unstructured":"Prafulla Dhariwal and Alex Nichol. 2021. Diffusion Models Beat GANs on Image Synthesis. ArXiv abs\/2105.05233 (2021). https:\/\/api.semanticscholar.org\/CorpusID:234357997"},{"key":"e_1_3_3_2_20_1","doi-asserted-by":"crossref","unstructured":"Yuki Endo. 2022. User\u2010Controllable Latent Transformer for StyleGAN Image Layout Editing. Computer Graphics Forum 41 (2022). https:\/\/api.semanticscholar.org\/CorpusID:251881740","DOI":"10.1111\/cgf.14686"},{"key":"e_1_3_3_2_21_1","unstructured":"Dave Epstein Allan Jabri Ben Poole Alexei Efros and Aleksander Holynski. 2023. Diffusion self-guidance for controllable image generation. Advances in Neural Information Processing Systems 36 (2023) 16222\u201316239."},{"key":"e_1_3_3_2_22_1","unstructured":"Dave Epstein Taesung Park Richard Zhang Eli Shechtman and Alexei\u00a0A. Efros. 2022. BlobGAN: Spatially Disentangled Scene Representations. ArXiv abs\/2205.02837 (2022). https:\/\/api.semanticscholar.org\/CorpusID:248524853"},{"key":"e_1_3_3_2_23_1","volume-title":"The Eleventh International Conference on Learning Representations","author":"Feng Weixi","year":"2022","unstructured":"Weixi Feng, Xuehai He, Tsu-Jui Fu, Varun Jampani, Arjun\u00a0Reddy Akula, Pradyumna Narayana, Sugato Basu, Xin\u00a0Eric Wang, and William\u00a0Yang Wang. 2022. Training-Free Structured Diffusion Guidance for Compositional Text-to-Image Synthesis. In The Eleventh International Conference on Learning Representations."},{"key":"e_1_3_3_2_24_1","unstructured":"Yarden Frenkel Yael Vinker Ariel Shamir and Daniel Cohen-Or. 2024. Implicit Style-Content Separation using B-LoRA. ArXiv abs\/2403.14572 (2024). https:\/\/api.semanticscholar.org\/CorpusID:268553753"},{"key":"e_1_3_3_2_25_1","volume-title":"The Eleventh International Conference on Learning Representations","author":"Gal Rinon","year":"2022","unstructured":"Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit\u00a0Haim Bermano, Gal Chechik, and Daniel Cohen-or. 2022. An Image is Worth One Word: Personalizing Text-to-Image Generation using Textual Inversion. In The Eleventh International Conference on Learning Representations."},{"key":"e_1_3_3_2_26_1","doi-asserted-by":"crossref","unstructured":"Rinon Gal Moab Arar Yuval Atzmon Amit\u00a0H Bermano Gal Chechik and Daniel Cohen-Or. 2023. Encoder-based domain tuning for fast personalization of text-to-image models. ACM Transactions on Graphics (TOG) 42 4 (2023) 1\u201313.","DOI":"10.1145\/3592133"},{"key":"e_1_3_3_2_27_1","unstructured":"Michal Geyer Omer Bar-Tal Shai Bagon and Tali Dekel. 2023. Tokenflow: Consistent diffusion features for consistent video editing. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2307.10373 (2023)."},{"key":"e_1_3_3_2_28_1","unstructured":"Ian Goodfellow Jean Pouget-Abadie Mehdi Mirza Bing Xu David Warde-Farley Sherjil Ozair Aaron Courville and Yoshua Bengio. 2014. Generative adversarial nets. Advances in neural information processing systems 27 (2014)."},{"key":"e_1_3_3_2_29_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00221"},{"key":"e_1_3_3_2_30_1","unstructured":"Amir Hertz Ron Mokady Jay Tenenbaum Kfir Aberman Yael Pritch and Daniel Cohen-Or. 2022. Prompt-to-prompt image editing with cross attention control. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2208.01626 (2022)."},{"key":"e_1_3_3_2_31_1","unstructured":"Jonathan Ho. 2022. Classifier-Free Diffusion Guidance. ArXiv abs\/2207.12598 (2022). https:\/\/api.semanticscholar.org\/CorpusID:249145348"},{"key":"e_1_3_3_2_32_1","volume-title":"Proc.\u00a0NeurIPS","author":"Ho Jonathan","year":"2020","unstructured":"Jonathan Ho, Ajay Jain, and Pieter Abbeel. 2020. Denoising Diffusion Probabilistic Models. In Proc.\u00a0NeurIPS."},{"key":"e_1_3_3_2_33_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00803"},{"key":"e_1_3_3_2_34_1","volume-title":"International Conference on Learning Representations","author":"Hu Edward\u00a0J","year":"2021","unstructured":"Edward\u00a0J Hu, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen, et\u00a0al. 2021. LoRA: Low-Rank Adaptation of Large Language Models. In International Conference on Learning Representations."},{"key":"e_1_3_3_2_35_1","doi-asserted-by":"crossref","unstructured":"Inbar Huberman-Spiegelglas Vladimir Kulikov and Tomer Michaeli. 2023. An Edit Friendly DDPM Noise Space: Inversion and Manipulations. arXiv e-prints (2023) arXiv\u20132304.","DOI":"10.1109\/CVPR52733.2024.01185"},{"key":"e_1_3_3_2_36_1","unstructured":"Tero Karras Miika Aittala Samuli Laine Erik H\u00e4rk\u00f6nen Janne Hellsten Jaakko Lehtinen and Timo Aila. 2021. Alias-Free Generative Adversarial Networks. arxiv:https:\/\/arXiv.org\/abs\/2106.12423\u00a0[cs.CV]"},{"key":"e_1_3_3_2_37_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00453"},{"key":"e_1_3_3_2_38_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00813"},{"key":"e_1_3_3_2_39_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00582"},{"key":"e_1_3_3_2_40_1","doi-asserted-by":"crossref","unstructured":"Yuheng Li Haotian Liu Qingyang Wu Fangzhou Mu Jianwei Yang Jianfeng Gao Chunyuan Li and Yong\u00a0Jae Lee. 2023. GLIGEN: Open-Set Grounded Text-to-Image Generation. 2023 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023) 22511\u201322521. https:\/\/api.semanticscholar.org\/CorpusID:255942528","DOI":"10.1109\/CVPR52729.2023.02156"},{"key":"e_1_3_3_2_41_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"e_1_3_3_2_42_1","unstructured":"Haotian Liu Chunyuan Li Yuheng Li and Yong\u00a0Jae Lee. 2023. Improved Baselines with Visual Instruction Tuning. ArXiv abs\/2310.03744 (2023). https:\/\/api.semanticscholar.org\/CorpusID:263672058"},{"key":"e_1_3_3_2_43_1","volume-title":"International Conference on Learning Representations","author":"Meng Chenlin","year":"2021","unstructured":"Chenlin Meng, Yutong He, Yang Song, Jiaming Song, Jiajun Wu, Jun-Yan Zhu, and Stefano Ermon. 2021. SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations. In International Conference on Learning Representations."},{"key":"e_1_3_3_2_44_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00585"},{"key":"e_1_3_3_2_45_1","unstructured":"Eyal Molad Eliahu Horwitz Dani Valevski Alex\u00a0Rav Acha Y. Matias Yael Pritch Yaniv Leviathan and Yedid Hoshen. 2023. Dreamix: Video Diffusion Models are General Video Editors. ArXiv abs\/2302.01329 (2023)."},{"key":"e_1_3_3_2_46_1","unstructured":"Chong Mou Xintao Wang Jie Song Ying Shan and Jian Zhang. 2023. DragonDiffusion: Enabling Drag-style Manipulation on Diffusion Models. ArXiv abs\/2307.02421 (2023). https:\/\/api.semanticscholar.org\/CorpusID:259342813"},{"key":"e_1_3_3_2_47_1","doi-asserted-by":"crossref","unstructured":"Chong Mou Xintao Wang Jie Song Ying Shan and Jian Zhang. 2024. DiffEditor: Boosting Accuracy and Flexibility on Diffusion-based Image Editing. ArXiv abs\/2402.02583 (2024). https:\/\/api.semanticscholar.org\/CorpusID:267499649","DOI":"10.1109\/CVPR52733.2024.00811"},{"key":"e_1_3_3_2_48_1","unstructured":"Weili Nie Sifei Liu Morteza Mardani Chao Liu Benjamin Eckart and Arash Vahdat. 2024. Compositional Text-to-Image Generation with Dense Blob Representations. arxiv:https:\/\/arXiv.org\/abs\/2405.08246\u00a0[cs.CV]"},{"key":"e_1_3_3_2_49_1","unstructured":"Maxime Oquab Timoth\u00e9e Darcet Th\u00e9o Moutakanni Huy\u00a0Q. Vo Marc Szafraniec Vasil Khalidov Pierre Fernandez Daniel Haziza Francisco Massa Alaaeldin El-Nouby Mahmoud Assran Nicolas Ballas Wojciech Galuba Russ Howes Po-Yao\u00a0(Bernie) Huang Shang-Wen Li Ishan Misra Michael\u00a0G. Rabbat Vasu Sharma Gabriel Synnaeve Huijiao Xu Herv\u00e9 J\u00e9gou Julien Mairal Patrick Labatut Armand Joulin and Piotr Bojanowski. 2023. DINOv2: Learning Robust Visual Features without Supervision. ArXiv abs\/2304.07193 (2023). https:\/\/api.semanticscholar.org\/CorpusID:258170077"},{"key":"e_1_3_3_2_50_1","unstructured":"Xingang Pan Ayush\u00a0Kumar Tewari Thomas Leimk\u00fchler Lingjie Liu Abhimitra Meka and Christian Theobalt. 2023. Drag Your GAN: Interactive Point-based Manipulation on the Generative Image Manifold. ACM SIGGRAPH 2023 Conference Proceedings (2023). https:\/\/api.semanticscholar.org\/CorpusID:258762550"},{"key":"e_1_3_3_2_51_1","doi-asserted-by":"crossref","unstructured":"Karran Pandey Paul Guerrero Matheus Gadelha Yannick Hold-Geoffroy Karan Singh and Niloy Mitra. 2023. Diffusion Handles: Enabling 3D Edits for Diffusion Models by Lifting Activations to 3D. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2312.02190 (2023).","DOI":"10.1109\/CVPR52733.2024.00735"},{"key":"e_1_3_3_2_52_1","doi-asserted-by":"crossref","unstructured":"Or Patashnik Daniel Garibi Idan Azuri Hadar Averbuch-Elor and Daniel Cohen-Or. 2023. Localizing Object-level Shape Variations with Text-to-Image Diffusion Models. 2023 IEEE\/CVF International Conference on Computer Vision (ICCV) (2023) 22994\u201323004. https:\/\/api.semanticscholar.org\/CorpusID:257632209","DOI":"10.1109\/ICCV51070.2023.02107"},{"key":"e_1_3_3_2_53_1","unstructured":"Quynh Phung Songwei Ge and Jia-Bin Huang. 2023. Grounded Text-to-Image Synthesis with Attention Refocusing. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2306.05427 (2023)."},{"key":"e_1_3_3_2_54_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01460"},{"key":"e_1_3_3_2_55_1","volume-title":"International Conference on Machine Learning","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong\u00a0Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. In International Conference on Machine Learning."},{"key":"e_1_3_3_2_56_1","unstructured":"Aditya Ramesh Prafulla Dhariwal Alex Nichol Casey Chu and Mark Chen. 2022. Hierarchical text-conditional image generation with CLIP latents. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2204.06125 (2022)."},{"key":"e_1_3_3_2_57_1","unstructured":"Elad Richardson Kfir Goldberg Yuval Alaluf and Daniel Cohen-Or. 2023. ConceptLab: Creative Generation using Diffusion Prior Constraints. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2308.02669 (2023)."},{"key":"e_1_3_3_2_58_1","doi-asserted-by":"crossref","unstructured":"Robin Rombach A. Blattmann Dominik Lorenz Patrick Esser and Bj\u00f6rn Ommer. 2021. High-Resolution Image Synthesis with Latent Diffusion Models. 2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021) 10674\u201310685.","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"e_1_3_3_2_59_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02155"},{"key":"e_1_3_3_2_60_1","unstructured":"Shelly Sheynin Adam Polyak Uriel Singer Yuval Kirstain Amit Zohar Oron Ashual Devi Parikh and Yaniv Taigman. 2023. Emu Edit: Precise Image Editing via Recognition and Generation Tasks. ArXiv abs\/2311.10089 (2023). https:\/\/api.semanticscholar.org\/CorpusID:265221391"},{"key":"e_1_3_3_2_61_1","unstructured":"Yujun Shi Chuhui Xue Jiachun Pan Wenqing Zhang Vincent Y.\u00a0F. Tan and Song Bai. 2023. DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing. ArXiv abs\/2306.14435 (2023). https:\/\/api.semanticscholar.org\/CorpusID:259252555"},{"key":"e_1_3_3_2_62_1","first-page":"2256","volume-title":"International Conference on Machine Learning","author":"Sohl-Dickstein Jascha","year":"2015","unstructured":"Jascha Sohl-Dickstein, Eric Weiss, Niru Maheswaranathan, and Surya Ganguli. 2015. Deep unsupervised learning using nonequilibrium thermodynamics. In International Conference on Machine Learning. PMLR, 2256\u20132265."},{"key":"e_1_3_3_2_63_1","volume-title":"International Conference on Learning Representations","author":"Song Jiaming","year":"2020","unstructured":"Jiaming Song, Chenlin Meng, and Stefano Ermon. 2020. Denoising Diffusion Implicit Models. In International Conference on Learning Representations."},{"key":"e_1_3_3_2_64_1","unstructured":"Yang Song and Stefano Ermon. 2019. Generative modeling by estimating gradients of the data distribution. Advances in Neural Information Processing Systems 32 (2019)."},{"key":"e_1_3_3_2_65_1","unstructured":"Yoad Tewel Omri Kaduri Rinon Gal Yoni Kasten Lior Wolf Gal Chechik and Yuval Atzmon. 2024. Training-Free Consistent Text-to-Image Generation. ArXiv abs\/2402.03286 (2024). https:\/\/api.semanticscholar.org\/CorpusID:267412997"},{"key":"e_1_3_3_2_66_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00191"},{"key":"e_1_3_3_2_67_1","unstructured":"Andrey Voynov Q. Chu Daniel Cohen-Or and Kfir Aberman. 2023. P+: Extended Textual Conditioning in Text-to-Image Generation. ArXiv abs\/2303.09522 (2023)."},{"key":"e_1_3_3_2_68_1","doi-asserted-by":"crossref","unstructured":"Jianyuan Wang Ceyuan Yang Yinghao Xu Yujun Shen Hongdong Li and Bolei Zhou. 2021. Improving GAN Equilibrium by Raising Spatial Awareness. 2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021) 11275\u201311283. https:\/\/api.semanticscholar.org\/CorpusID:244772988","DOI":"10.1109\/CVPR52688.2022.01100"},{"key":"e_1_3_3_2_69_1","doi-asserted-by":"crossref","unstructured":"Sheng-Yu Wang David Bau and Jun-Yan Zhu. 2022. Rewriting geometric rules of a GAN. ACM Transactions on Graphics (TOG) 41 (2022) 1 \u2013 16. https:\/\/api.semanticscholar.org\/CorpusID:250956766","DOI":"10.1145\/3528223.3530065"},{"key":"e_1_3_3_2_70_1","doi-asserted-by":"crossref","unstructured":"Daniel Winter Matan Cohen Shlomi Fruchter Yael Pritch Alex Rav-Acha and Yedid Hoshen. 2024. ObjectDrop: Bootstrapping Counterfactuals for Photorealistic Object Removal and Insertion. ArXiv abs\/2403.18818 (2024). https:\/\/api.semanticscholar.org\/CorpusID:268724005","DOI":"10.1007\/978-3-031-72980-5_7"},{"key":"e_1_3_3_2_71_1","doi-asserted-by":"crossref","unstructured":"Jay\u00a0Zhangjie Wu Yixiao Ge Xintao Wang Weixian Lei Yuchao Gu Wynne Hsu Ying Shan Xiaohu Qie and Mike\u00a0Zheng Shou. 2022. Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation. 2023 IEEE\/CVF International Conference on Computer Vision (ICCV) (2022) 7589\u20137599. https:\/\/api.semanticscholar.org\/CorpusID:254974187","DOI":"10.1109\/ICCV51070.2023.00701"},{"key":"e_1_3_3_2_72_1","doi-asserted-by":"crossref","unstructured":"Jiarui Xu Sifei Liu Arash Vahdat Wonmin Byeon Xiaolong Wang and Shalini\u00a0De Mello. 2023. Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models. 2023 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023) 2955\u20132966. https:\/\/api.semanticscholar.org\/CorpusID:257405338","DOI":"10.1109\/CVPR52729.2023.00289"},{"key":"e_1_3_3_2_73_1","doi-asserted-by":"crossref","unstructured":"Binxin Yang Shuyang Gu Bo Zhang Ting Zhang Xuejin Chen Xiaoyan Sun Dong Chen and Fang Wen. 2022. Paint by Example: Exemplar-based Image Editing with Diffusion Models. 2023 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2022) 18381\u201318391. https:\/\/api.semanticscholar.org\/CorpusID:253802085","DOI":"10.1109\/CVPR52729.2023.01763"},{"key":"e_1_3_3_2_74_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01369"},{"key":"e_1_3_3_2_75_1","unstructured":"Fisher Yu Yinda Zhang Shuran Song Ari Seff and Jianxiong Xiao. 2015. LSUN: Construction of a Large-scale Image Dataset using Deep Learning with Humans in the Loop. ArXiv abs\/1506.03365 (2015). https:\/\/api.semanticscholar.org\/CorpusID:8317437"},{"key":"e_1_3_3_2_76_1","unstructured":"Jiahui Yu Yuanzhong Xu Jing\u00a0Yu Koh Thang Luong Gunjan Baid Zirui Wang Vijay Vasudevan Alexander Ku Yinfei Yang Burcu\u00a0Karagol Ayan et\u00a0al. 2022. Scaling Autoregressive Models for Content-Rich Text-to-Image Generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2206.10789 (2022)."},{"key":"e_1_3_3_2_77_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00355"},{"key":"e_1_3_3_2_78_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02154"}],"event":{"name":"SA '24: SIGGRAPH Asia 2024 Conference Papers","location":"Tokyo Japan","acronym":"SA '24","sponsor":["SIGGRAPH ACM Special Interest Group on Computer Graphics and Interactive Techniques"]},"container-title":["SIGGRAPH Asia 2024 Conference Papers"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3680528.3687590","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3680528.3687590","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T00:58:26Z","timestamp":1750294706000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3680528.3687590"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,3]]},"references-count":77,"alternative-id":["10.1145\/3680528.3687590","10.1145\/3680528"],"URL":"https:\/\/doi.org\/10.1145\/3680528.3687590","relation":{},"subject":[],"published":{"date-parts":[[2024,12,3]]},"assertion":[{"value":"2024-12-03","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}