{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,9]],"date-time":"2025-12-09T19:21:41Z","timestamp":1765308101781,"version":"3.46.0"},"publisher-location":"New York, NY, USA","reference-count":39,"publisher":"ACM","funder":[{"name":"National Key R&D Program of China","award":["No.2024QY1400"],"award-info":[{"award-number":["No.2024QY1400"]}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["No. 62425604"],"award-info":[{"award-number":["No. 62425604"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,27]]},"DOI":"10.1145\/3746027.3755499","type":"proceedings-article","created":{"date-parts":[[2025,10,25]],"date-time":"2025-10-25T05:47:42Z","timestamp":1761371262000},"page":"10239-10247","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["DEPO: Enhancing E-commerce Image Background Generation with Short Trajectory Direct Expected Preference Optimization"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0008-2370-8841","authenticated-orcid":false,"given":"Shikun","family":"Sun","sequence":"first","affiliation":[{"name":"Tsinghua University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0618-0797","authenticated-orcid":false,"given":"Chengrui","family":"Wang","sequence":"additional","affiliation":[{"name":"Taobao &amp; Tmall Group of Alibaba, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-7041-3959","authenticated-orcid":false,"given":"Min","family":"Zhou","sequence":"additional","affiliation":[{"name":"Taobao &amp; Tmall Group of Alibaba, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7291-6198","authenticated-orcid":false,"given":"Zixuan","family":"Wang","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9720-3220","authenticated-orcid":false,"given":"Xiaoyu","family":"Qin","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1381-2692","authenticated-orcid":false,"given":"Tiezheng","family":"Ge","sequence":"additional","affiliation":[{"name":"Taobao &amp; Tmall Group of Alibaba, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4037-6315","authenticated-orcid":false,"given":"Bo","family":"Zheng","sequence":"additional","affiliation":[{"name":"Taobao &amp; Tmall Group of Alibaba, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7118-3666","authenticated-orcid":false,"given":"Jia","family":"Jia","sequence":"additional","affiliation":[{"name":"BNRist,Tsinghua University, Key Laboratory of Pervasive Computing, Ministry of Education, Beijing, China"}]}],"member":"320","published-online":{"date-parts":[[2025,10,27]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1007\/S11263-020-01336--9"},{"key":"e_1_3_2_1_2_1","volume-title":"Training Diffusion Models with Reinforcement Learning. In ICML 2023 Workshop on Structured Probabilistic Inference & Generative Modeling.","author":"Black Kevin","year":"2023","unstructured":"Kevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, and Sergey Levine. 2023. Training Diffusion Models with Reinforcement Learning. In ICML 2023 Workshop on Structured Probabilistic Inference & Generative Modeling."},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3680753"},{"key":"e_1_3_2_1_4_1","volume-title":"Enhancing Diffusion Models with Text-Encoder Reinforcement Learning. arXiv preprint arXiv:2311.15657","author":"Chen Chaofeng","year":"2023","unstructured":"Chaofeng Chen, Annan Wang, Haoning Wu, Liang Liao, Wenxiu Sun, Qiong Yan, and Weisi Lin. 2023. Enhancing Diffusion Models with Text-Encoder Reinforcement Learning. arXiv preprint arXiv:2311.15657 (2023)."},{"key":"e_1_3_2_1_5_1","volume-title":"Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023","author":"Chen Wenhu","year":"2023","unstructured":"Wenhu Chen, Hexiang Hu, Yandong Li, Nataniel Ruiz, Xuhui Jia, Ming-Wei Chang, and WilliamW. Cohen. 2023. Subject-driven Text-to-Image Generation via Apprenticeship Learning. In Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023, Alice Oh, Tristan Naumann, Amir Globerson, Kate Saenko, Moritz Hardt, and Sergey Levine (Eds.)."},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2502"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00842"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2020.2975979"},{"key":"e_1_3_2_1_9_1","unstructured":"Zhenbang Du Wei Feng Haohan Wang Yaoyu Li Jingsen Wang Jian Li Zheng Zhang Jingjing Lv Xin Zhu Junsheng Jin et al. 2024. Towards Reliable Advertising Image Generation Using Human Feedback. arXiv preprint arXiv:2408.00418 (2024)."},{"key":"e_1_3_2_1_10_1","volume-title":"Reinforcement learning for fine-tuning text-to-image diffusion models. Advances in Neural Information Processing Systems 36","author":"Fan Ying","year":"2024","unstructured":"Ying Fan, Olivia Watkins, Yuqing Du, Hao Liu, Moonkyung Ryu, Craig Boutilier, Pieter Abbeel, Mohammad Ghavamzadeh, Kangwook Lee, and Kimin Lee. 2024. Reinforcement learning for fine-tuning text-to-image diffusion models. Advances in Neural Information Processing Systems 36 (2024)."},{"key":"e_1_3_2_1_11_1","volume-title":"Gans trained by a two time-scale update rule converge to a local nash equilibrium. Advances in neural information processing systems 30","author":"Heusel Martin","year":"2017","unstructured":"Martin Heusel, Hubert Ramsauer, Thomas Unterthiner, Bernhard Nessler, and Sepp Hochreiter. 2017. Gans trained by a two time-scale update rule converge to a local nash equilibrium. Advances in neural information processing systems 30 (2017)."},{"key":"e_1_3_2_1_12_1","volume-title":"Pick-a-pic: An open dataset of user preferences for text-toimage generation. arXiv preprint arXiv:2305.01569","author":"Kirstain Yuval","year":"2023","unstructured":"Yuval Kirstain, Adam Polyak, Uriel Singer, Shahbuland Matiana, Joe Penna, and Omer Levy. 2023. Pick-a-pic: An open dataset of user preferences for text-toimage generation. arXiv preprint arXiv:2305.01569 (2023)."},{"key":"e_1_3_2_1_13_1","volume-title":"Aligning text-to-image models using human feedback. arXiv preprint arXiv:2302.12192","author":"Lee Kimin","year":"2023","unstructured":"Kimin Lee, Hao Liu, Moonkyung Ryu, OliviaWatkins, Yuqing Du, Craig Boutilier, Pieter Abbeel, Mohammad Ghavamzadeh, and Shixiang Shane Gu. 2023. Aligning text-to-image models using human feedback. arXiv preprint arXiv:2302.12192 (2023)."},{"key":"e_1_3_2_1_14_1","volume-title":"Hoi","author":"Li Dongxu","year":"2023","unstructured":"Dongxu Li, Junnan Li, and Steven C. H. Hoi. 2023. BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing. In Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023, Alice Oh, Tristan Naumann, Amir Globerson, Kate Saenko, Moritz Hardt, and Sergey Levine (Eds.)."},{"key":"e_1_3_2_1_15_1","volume-title":"Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step. arXiv preprint arXiv:2406.04314","author":"Liang Zhanhao","year":"2024","unstructured":"Zhanhao Liang, Yuhui Yuan, Shuyang Gu, Bohan Chen, Tiankai Hang, Ji Li, and Liang Zheng. 2024. Step-aware Preference Optimization: Aligning Preference with Denoising Performance at Each Step. arXiv preprint arXiv:2406.04314 (2024)."},{"key":"e_1_3_2_1_16_1","volume-title":"Geometric gan. arXiv preprint arXiv:1705.02894","author":"Lim Jae Hyun","year":"2017","unstructured":"Jae Hyun Lim and Jong Chul Ye. 2017. Geometric gan. arXiv preprint arXiv:1705.02894 (2017)."},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00985"},{"key":"e_1_3_2_1_18_1","volume-title":"Sdxl-lightning: Progressive adversarial diffusion distillation. arXiv preprint arXiv:2402.13929","author":"Lin Shanchuan","year":"2024","unstructured":"Shanchuan Lin, Anran Wang, and Xiao Yang. 2024. Sdxl-lightning: Progressive adversarial diffusion distillation. arXiv preprint arXiv:2402.13929 (2024)."},{"key":"e_1_3_2_1_19_1","volume-title":"Making Images Real Again: A Comprehensive Survey on Deep Image Composition. CoRR abs\/2106.14490","author":"Niu Li","year":"2021","unstructured":"Li Niu, Wenyan Cong, Liu Liu, Yan Hong, Bo Zhang, Jing Liang, and Liqing Zhang. 2021. Making Images Real Again: A Comprehensive Survey on Deep Image Composition. CoRR abs\/2106.14490 (2021). arXiv:2106.14490"},{"key":"e_1_3_2_1_20_1","unstructured":"OpenAI. 2023. GPT-4 Technical Report. ArXiv abs\/2303.08774 (2023)."},{"key":"e_1_3_2_1_21_1","doi-asserted-by":"publisher","DOI":"10.1016\/0550-3213(81)90056-0"},{"key":"e_1_3_2_1_22_1","volume-title":"Sdxl: Improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952","author":"Podell Dustin","year":"2023","unstructured":"Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas M\u00fcller, Joe Penna, and Robin Rombach. 2023. Sdxl: Improving latent diffusion models for high-resolution image synthesis. arXiv preprint arXiv:2307.01952 (2023)."},{"key":"e_1_3_2_1_23_1","volume-title":"Aligning text-to-image diffusion models with reward backpropagation. arXiv preprint arXiv:2310.03739","author":"Prabhudesai Mihir","year":"2023","unstructured":"Mihir Prabhudesai, Anirudh Goyal, Deepak Pathak, and Katerina Fragkiadaki. 2023. Aligning text-to-image diffusion models with reward backpropagation. arXiv preprint arXiv:2310.03739 (2023)."},{"key":"e_1_3_2_1_24_1","volume-title":"International conference on machine learning. PMLR, 8748--8763","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. 2021. Learning transferable visual models from natural language supervision. In International conference on machine learning. PMLR, 8748--8763."},{"key":"e_1_3_2_1_25_1","volume-title":"Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems 36","author":"Rafailov Rafael","year":"2024","unstructured":"Rafael Rafailov, Archit Sharma, Eric Mitchell, Christopher D Manning, Stefano Ermon, and Chelsea Finn. 2024. Direct preference optimization: Your language model is secretly a reward model. Advances in Neural Information Processing Systems 36 (2024)."},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02155"},{"key":"e_1_3_2_1_28_1","volume-title":"Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347","author":"Schulman John","year":"2017","unstructured":"John Schulman, Filip Wolski, Prafulla Dhariwal, Alec Radford, and Oleg Klimov. 2017. Proximal policy optimization algorithms. arXiv preprint arXiv:1707.06347 (2017)."},{"key":"e_1_3_2_1_29_1","volume-title":"Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502","author":"Song Jiaming","year":"2020","unstructured":"Jiaming Song, Chenlin Meng, and Stefano Ermon. 2020. Denoising diffusion implicit models. arXiv preprint arXiv:2010.02502 (2020)."},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.308"},{"key":"e_1_3_2_1_31_1","volume-title":"Diffusion model alignment using direct preference optimization. arXiv preprint arXiv:2311.12908","author":"Wallace Bram","year":"2023","unstructured":"Bram Wallace, Meihua Dang, Rafael Rafailov, Linqi Zhou, Aaron Lou, Senthil Purushwalkam, Stefano Ermon, Caiming Xiong, Shafiq Joty, and Nikhil Naik. 2023. Diffusion model alignment using direct preference optimization. arXiv preprint arXiv:2311.12908 (2023)."},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00786"},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49660.2025.10888013"},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2312.13309"},{"key":"e_1_3_2_1_35_1","volume-title":"Imagereward: Learning and evaluating human preferences for text-to-image generation. Advances in Neural Information Processing Systems 36","author":"Xu Jiazheng","year":"2024","unstructured":"Jiazheng Xu, Xiao Liu, Yuchen Wu, Yuxuan Tong, Qinkai Li, Ming Ding, Jie Tang, and Yuxiao Dong. 2024. Imagereward: Learning and evaluating human preferences for text-to-image generation. Advances in Neural Information Processing Systems 36 (2024)."},{"key":"e_1_3_2_1_36_1","volume-title":"Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model. arXiv preprint arXiv:2311.13231","author":"Yang Kai","year":"2023","unstructured":"Kai Yang, Jian Tao, Jiafei Lyu, Chunjiang Ge, Jiaxin Chen, Qimai Li, Weihan Shen, Xiaolong Zhu, and Xiu Li. 2023. Using Human Feedback to Fine-tune Diffusion Models without Any Reward Model. arXiv preprint arXiv:2311.13231 (2023)."},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00854"},{"key":"e_1_3_2_1_38_1","volume-title":"A dense reward view on aligning text-to-image diffusion with preference. arXiv preprint arXiv:2402.08265","author":"Yang Shentao","year":"2024","unstructured":"Shentao Yang, Tianqi Chen, and Mingyuan Zhou. 2024. A dense reward view on aligning text-to-image diffusion with preference. arXiv preprint arXiv:2402.08265 (2024)."},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00212"}],"event":{"name":"MM '25: The 33rd ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Dublin Ireland","acronym":"MM '25"},"container-title":["Proceedings of the 33rd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746027.3755499","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,9]],"date-time":"2025-12-09T19:19:50Z","timestamp":1765307990000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746027.3755499"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,27]]},"references-count":39,"alternative-id":["10.1145\/3746027.3755499","10.1145\/3746027"],"URL":"https:\/\/doi.org\/10.1145\/3746027.3755499","relation":{},"subject":[],"published":{"date-parts":[[2025,10,27]]},"assertion":[{"value":"2025-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}