{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,16]],"date-time":"2026-06-16T05:19:42Z","timestamp":1781587182114,"version":"3.54.5"},"reference-count":65,"publisher":"IEEE","license":[{"start":{"date-parts":[[2026,3,6]],"date-time":"2026-03-06T00:00:00Z","timestamp":1772755200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,3,6]],"date-time":"2026-03-06T00:00:00Z","timestamp":1772755200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026,3,6]]},"DOI":"10.1109\/wacv61042.2026.00013","type":"proceedings-article","created":{"date-parts":[[2026,5,5]],"date-time":"2026-05-05T19:59:32Z","timestamp":1778011172000},"page":"43-53","source":"Crossref","is-referenced-by-count":1,"title":["Reinforcement Learning-based Adaptive Control of Classifier-Free Guidance and Timestep Embeddings in Diffusion Models"],"prefix":"10.1109","author":[{"given":"Haochen","family":"You","sequence":"first","affiliation":[{"name":"Columbia University"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Baojing","family":"Liu","sequence":"additional","affiliation":[{"name":"Hebei Institute of Communications"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Hongyang","family":"He","sequence":"additional","affiliation":[{"name":"University of Warwick"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Training diffusion models with reinforcement learning","author":"Black","year":"2023"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02161"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10599-4_29"},{"key":"ref4","article-title":"Classifierfree guidance is a predictor-corrector","author":"Bradley","year":"2024"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i15.33723"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72698-9_11"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3681047"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1145\/3746027.3758228"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00709"},{"key":"ref10","article-title":"Adjoint matching: Fine-tuning flow and diffusion generative models with memoryless stochastic optimal control","author":"Domingo-Enrich","year":"2024"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.52202\/075280-3497"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01691"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02664"},{"key":"ref14","article-title":"Trico: Triadic game-theoretic co-training for robust semisupervised learning","author":"He","year":"2025"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51701.2025.00079"},{"key":"ref16","article-title":"Gaussian error linear units (gelus)","author":"Hendrycks","year":"2016"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.595"},{"key":"ref18","article-title":"Human-feedback efficient reinforcement learning for online diffusion model finetuning","author":"Hiranaka","year":"2024"},{"key":"ref19","article-title":"Classifier-free diffusion guidance","author":"Ho","year":"2022"},{"key":"ref20","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume":"33","author":"Ho","year":"2020","journal-title":"Advances in neural information processing systems"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02198"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.52202\/075280-3443"},{"key":"ref23","first-page":"267","article-title":"Approximately optimal approximate reinforcement learning","volume-title":"Proceedings of the nineteenth international conference on machine learning","author":"Kakade"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02282"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.52202\/075280-1594"},{"key":"ref26","article-title":"Alignment and safety of diffusion models via reinforcement learning and reward modeling: A survey","author":"Lamba","year":"2025"},{"key":"ref27","first-page":"462","article-title":"Parrot: Pareto-optimal multi-reward reinforcement learning framework for text-to-image generation","volume-title":"European Conference on Computer Vision","author":"Lee"},{"key":"ref28","article-title":"Adaptive classifier-free guidance via dynamic low-confidence masking","author":"Li","year":"2025"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.52202\/079017-1214"},{"key":"ref30","article-title":"Towards understanding the mechanisms of classifier-free guidance","author":"Li","year":"2025"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01835"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00689"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19790-1_26"},{"key":"ref34","article-title":"Understanding diffusion models: A unified perspective","author":"Luo","year":"2022"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01492"},{"key":"ref36","article-title":"Confronting reward model overoptimization with constrained rlhf","author":"Moskovitz"},{"key":"ref37","article-title":"Glide: Towards photorealistic image generation and editing with text-guided diffusion models","author":"Nichol","year":"2021"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00387"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1111\/cgf.15063"},{"key":"ref40","article-title":"Sdxl: Improving latent diffusion models for high-resolution image synthesis","author":"Podell","year":"2023"},{"key":"ref41","first-page":"8821","article-title":"Zero-shot text-to-image generation","volume-title":"International conference on machine learning","author":"Ramesh"},{"issue":"2","key":"ref42","first-page":"3","article-title":"Hierarchical text-conditional image generation with clip latents","volume":"1","author":"Ramesh","year":"2022"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.52202\/068431-2643"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01388"},{"key":"ref47","article-title":"Understanding reinforcement learning-based fine-tuning of diffusion models: A tutorial and review","author":"Uehara","year":"2024"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00786"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01761"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1613\/jair.1.17541"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1016\/j.cosrev.2026.100900"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/iccv51070.2023.00200"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.52202\/075280-0700"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00854"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1145\/3626235"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.52202\/079017-1787"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-96-6579-2_5"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1145\/3743093.3771045"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1145\/3746252.3760958"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-95-5696-0_19"},{"issue":"3","key":"ref61","first-page":"5","article-title":"Scaling autoregressive models for content-rich text-to-image generation","volume":"2","author":"Yu","year":"2022"},{"key":"ref62","article-title":"Text-to-image diffusion models in generative ai: A survey","author":"Zhang","year":"2023"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73036-8_1"},{"key":"ref64","article-title":"Dydit++: Dynamic diffusion transformers for efficient visual generation","author":"Zhao","year":"2025"},{"key":"ref65","article-title":"Adding conditional control to diffusion models with reinforcement learning","author":"Zhao","year":"2024"}],"event":{"name":"2026 IEEE\/CVF Winter Conference on Applications of Computer Vision (WACV)","location":"Tucson, AZ, USA","start":{"date-parts":[[2026,3,6]]},"end":{"date-parts":[[2026,3,10]]}},"container-title":["2026 IEEE\/CVF Winter Conference on Applications of Computer Vision (WACV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11491838\/11491925\/11492271.pdf?arnumber=11492271","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,6]],"date-time":"2026-05-06T05:55:46Z","timestamp":1778046946000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11492271\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,3,6]]},"references-count":65,"URL":"https:\/\/doi.org\/10.1109\/wacv61042.2026.00013","relation":{},"subject":[],"published":{"date-parts":[[2026,3,6]]}}}