{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,6]],"date-time":"2026-05-06T15:50:17Z","timestamp":1778082617252,"version":"3.51.4"},"reference-count":71,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccv51701.2025.01453","type":"proceedings-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:45:49Z","timestamp":1777491949000},"page":"15657-15668","source":"Crossref","is-referenced-by-count":2,"title":["Reflect-DiT: Inference-Time Scaling for Text-to-Image Diffusion Transformers via In-Context Reflection"],"prefix":"10.1109","author":[{"given":"Shufan","family":"Li","sequence":"first","affiliation":[{"name":"UCLA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Konstantinos","family":"Kallidromitis","sequence":"additional","affiliation":[{"name":"Panasonic AI Research"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Akash","family":"Gokul","sequence":"additional","affiliation":[{"name":"Salesforce AI Research"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Arsh","family":"Koneru","sequence":"additional","affiliation":[{"name":"UCLA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yusuke","family":"Kato","sequence":"additional","affiliation":[{"name":"Panasonic AI Research"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kazuki","family":"Kozuka","sequence":"additional","affiliation":[{"name":"Panasonic AI Research"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Aditya","family":"Grover","sequence":"additional","affiliation":[{"name":"UCLA"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01762"},{"key":"ref2","first-page":"4","article-title":"Qwen2. 5-vl technical report","volume-title":"arXiv preprint","author":"Bai","year":"2025"},{"issue":"3","key":"ref3","first-page":"8","article-title":"Improving image generation with better captions","volume":"2","author":"Betker","year":"2023","journal-title":"Computer Science."},{"key":"ref4","first-page":"3","volume-title":"Efros","author":"Brooks"},{"key":"ref5","first-page":"1","article-title":"Large language monkeys: Scaling inference compute with repeated sampling","author":"Brown","year":"2024","journal-title":"arXiv preprint"},{"key":"ref6","first-page":"1877","article-title":"Language models are few-shot learners","volume":"33","author":"Brown","year":"2020","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref7","article-title":"Sets: Leveraging self-verification and self-correction for improved test-time scaling","author":"Chen","year":"2025","journal-title":"arXiv preprint"},{"key":"ref8","volume-title":"Cohen","author":"Chen"},{"key":"ref9","article-title":"Training verifiers to solve math word problems","author":"Cobbe","year":"2021","journal-title":"arXiv preprint"},{"key":"ref10","volume-title":"Scaling rectified flow transformers for high-resolution image synthesis","author":"Esser"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00454"},{"key":"ref12","article-title":"An image is worth one word: Personalizing text-toimage generation using textual inversion","author":"Gal","year":"2022","journal-title":"arXiv preprint"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01208"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.52202\/075280-2270"},{"key":"ref15","article-title":"Deepseek-r1: Incentivizing reasoning capability in 11 ms via reinforcement learning","author":"Guo","year":"2025","journal-title":"arXiv preprint"},{"key":"ref16","author":"Guo","year":"2025","journal-title":"Can we generate images with cot? let\u2019s verify and reinforce image generation step by step"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72684-2_17"},{"issue":"7","key":"ref18","first-page":"16","article-title":"Equip diffusion models with 11 m for enhanced semantic alignment","volume":"5","author":"Hu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref19","article-title":"Ella: Equip diffusion models with 11 m for enhanced semantic alignment","author":"Hu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref20","first-page":"13753","volume-title":"Composer: creative and controllable image synthesis with composable conditions","author":"Huang"},{"key":"ref21","article-title":"Reasonpix2pix: instruction reasoning dataset for advanced image editing","author":"Jin","year":"2024","journal-title":"arXiv preprint"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"ref23","article-title":"Training language models to self-correct via reinforcement learning","author":"Kumar","year":"2024","journal-title":"arXiv preprint"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00192"},{"key":"ref25","volume-title":"Labs. Flux","author":"Forest","year":"2024"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.52202\/075280-1312"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02156"},{"key":"ref28","article-title":"Scaling laws for diffusion transformers","author":"Liang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref29","volume-title":"Let\u2019s verify step by step","author":"Lightman"},{"key":"ref30","article-title":"Playground v3: Improving text-to-image alignment with deep-fusion large language models","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72970-6_3"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.243"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/3641519.3657469"},{"key":"ref34","article-title":"Inference-time scaling for diffusion models beyond scaling denoising steps","author":"Ma","year":"2025","journal-title":"arXiv preprint"},{"key":"ref35","article-title":"s2 r: Teaching llms to self-verify and self-correct via reinforcement learning","author":"Ma","year":"2025","journal-title":"arXiv preprint"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.52202\/075280-2019"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i5.28226"},{"key":"ref38","article-title":"Gpt-4 technical report","volume-title":"arXiv preprint","year":"2023"},{"key":"ref39","article-title":"Sdxl: Improving latent diffusion models for high-resolution image synthesis","author":"Podell","year":"2023","journal-title":"arXiv preprint"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-91907-7_15"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.52202\/079017-1754"},{"key":"ref42","first-page":"8821","volume-title":"Zero-shot text-to-image generation","author":"Ramesh"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref44","article-title":"Text-guided synthesis of artistic images with retrieval-augmented diffusion models","author":"Rombach","year":"2022","journal-title":"arXiv preprint"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02155"},{"key":"ref46","article-title":"Knndiffusion: Image generation via large-scale retrieval","author":"Sheynin","year":"2022","journal-title":"arXiv preprint"},{"key":"ref47","article-title":"A general framework for inference-time scaling and steering of diffusion models","author":"Singhal","year":"2025","journal-title":"arXiv preprint"},{"key":"ref48","article-title":"Scaling llm test-time compute optimally can be more effective than scaling model parameters","author":"Snell","year":"2024","journal-title":"arXiv preprint"},{"key":"ref49","article-title":"Gemma 2: Improving open language models at a practical size","author":"Team","year":"2024","journal-title":"arXiv preprint"},{"key":"ref50","article-title":"Gomez, \u0141ukasz Kaiser, and Illia Polosukhin","volume":"30","author":"Vaswani","year":"2017","journal-title":"Attention is all you need. Advances in neural information processing systems"},{"key":"ref51","article-title":"p+: Extended textual conditioning in text-toimage generation","author":"Voynov","year":"2023","journal-title":"arXiv preprint"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00786"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.52202\/079017-4077"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.52202\/068431-1800"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01461"},{"key":"ref56","article-title":"Generating sequences by learning to self-correct","author":"Welleck","year":"2022","journal-title":"ArXiv, abs\/2211.00053"},{"key":"ref57","article-title":"Large language models are better reasoners with self-verification","author":"Weng","year":"2022","journal-title":"arXiv preprint"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.00605"},{"key":"ref59","article-title":"Inference scaling laws: An empirical analysis of compute-optimal inference for problem-solving with language models","author":"Wu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref60","volume-title":"Sana: Efficient high-resolution text-to-image synthesis with linear diffusion transformers","author":"Xie"},{"key":"ref61","article-title":"Sana 1.5: Efficient scaling of training-time and inference-time compute in linear diffusion transformer","author":"Xie","year":"2025","journal-title":"arXiv preprint"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00685"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.52202\/075280-1802"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.00854"},{"issue":"3","key":"ref65","first-page":"5","article-title":"Scaling autoregressive models for content-rich text-to-image generation","volume":"2","author":"Yu","year":"2022","journal-title":"arXiv preprint"},{"key":"ref66","article-title":"Inpaint anything: Segment anything meets image inpainting","author":"Yu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01100"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00355"},{"key":"ref69","volume-title":"Generative verifiers: Reward modeling as next-token prediction, 2024","author":"Zhang","year":"2024"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00862"},{"key":"ref71","first-page":"11127","article-title":"Wong","volume":"36","author":"Zhao","year":"2023","journal-title":"Uni-controlnet: All-in-one control to text-to-image diffusion models. Advances in Neural Information Processing Systems"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision (ICCV)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,25]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision (ICCV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11443115\/11443287\/11446098.pdf?arnumber=11446098","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T05:11:28Z","timestamp":1777612288000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11446098\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":71,"URL":"https:\/\/doi.org\/10.1109\/iccv51701.2025.01453","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}