{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,11]],"date-time":"2026-06-11T15:53:53Z","timestamp":1781193233420,"version":"3.54.1"},"reference-count":52,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccv51701.2025.00561","type":"proceedings-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:45:49Z","timestamp":1777491949000},"page":"5934-5943","source":"Crossref","is-referenced-by-count":2,"title":["Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers"],"prefix":"10.1109","author":[{"given":"Zhengyao","family":"Lv","sequence":"first","affiliation":[{"name":"The University of Hong Kong"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Tianlin","family":"Pan","sequence":"additional","affiliation":[{"name":"Nanjing University"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Chenyang","family":"Si","sequence":"additional","affiliation":[{"name":"Nanjing University"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zhaoxi","family":"Chen","sequence":"additional","affiliation":[{"name":"Nanyang Technological University"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Wangmeng","family":"Zuo","sequence":"additional","affiliation":[{"name":"Harbin Institute of Technology"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ziwei","family":"Liu","sequence":"additional","affiliation":[{"name":"Nanyang Technological University"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kwan-Yee K.","family":"Wong","sequence":"additional","affiliation":[{"name":"The University of Hong Kong"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","article-title":"An image is worth 16 \u00d7 16 words: Transformers for image recognition at scale","year":"2020","journal-title":"arXiv preprint"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00217"},{"key":"ref3","article-title":"Training diffusion models with reinforcement learning","author":"Black","year":"2023","journal-title":"arXiv preprint"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1145\/3592116"},{"key":"ref5","article-title":"Pixart-\u03b1: Fast training of diffusion transformer for photorealistic text-to-image synthesis","volume-title":"The Twelfth International Conference on Learning Representations","author":"Chen"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/wacv57701.2024.00526"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/wacv57701.2024.00526"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72630-9_25"},{"key":"ref9","article-title":"Diffusion models beat gans on image synthesis","volume-title":"arXiv preprint","author":"Dhariwal","year":"2021"},{"key":"ref10","article-title":"Scaling rectified flow transformers for high-resolution image synthesis","volume-title":"arXiv preprint","author":"Esser","year":"2024"},{"key":"ref11","article-title":"Dpok: Reinforcement learning for fine-tuning text-to-image diffusion models","author":"Fan","year":"2023","journal-title":"arXiv preprint"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.5220\/0010503701660174"},{"key":"ref13","article-title":"Denoising diffusion probabilistic models","author":"Ho","year":"2020","journal-title":"arXiv preprint"},{"key":"ref14","article-title":"Cogvideo: Large-scale pretraining for text-to-video generation via transformers","author":"Hong","year":"2022","journal-title":"arXiv preprint"},{"key":"ref15","article-title":"Lora: Low-rank adaptation of large language models","author":"Edward","year":"2021","journal-title":"arXiv preprint"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.52202\/075280-3443"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00510"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00708"},{"key":"ref19","article-title":"Hunyuanvideo: A systematic framework for large video generative models","author":"Kong","year":"2024","journal-title":"arXiv preprint"},{"key":"ref20","article-title":"Black Forest Labs","volume-title":"Flux","year":"2024"},{"key":"ref21","article-title":"Divide & bind your attention for improved generative semantic nursing","author":"Li","year":"2023","journal-title":"arXiv preprint"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02156"},{"key":"ref23","article-title":"Flow matching for generative modeling","author":"Lipman","year":"2022","journal-title":"arXiv preprint"},{"key":"ref24","article-title":"Visual instruction tuning","author":"Liu","journal-title":"arXiv preprint"},{"key":"ref25","article-title":"Fusedream: Training-free text-to-image generation with improved clip+gan space optimization","author":"Liu","year":"2021","journal-title":"arXiv preprint"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73195-2_1"},{"key":"ref27","first-page":"9005","article-title":"Conform: Contrast is all you need for highfidelity text-to-image diffusion models","volume-title":"2024 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","author":"Han"},{"key":"ref28","article-title":"Glide: Towards photorealistic image generation and editing with text-guided diffusion models","volume-title":"International Conference on Machine Learning","author":"Nichol"},{"key":"ref29","article-title":"Ostris","year":"2025","journal-title":"Ai toolkit"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00387"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11671"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00758"},{"key":"ref33","article-title":"Sdxl: Improving latent diffusion models for high-resolution image synthesis","volume-title":"arXiv preprint","author":"Podell","year":"2023"},{"key":"ref34","volume-title":"Learning transferable visual models from natural language supervision. In International Conference on Machine Learning","author":"Radford"},{"key":"ref35","first-page":"1","article-title":"Exploring the limits of transfer learning with a unified text-to-text transformer","volume":"21","author":"Raffel","year":"2019","journal-title":"J. Mach. Learn. Res."},{"key":"ref36","article-title":"Linguistic binding in diffusion models: Enhancing attribute correspondence through attention map alignment","author":"Rassin","year":"2023","journal-title":"arXiv preprint"},{"key":"ref37","first-page":"10674","article-title":"Dominik Lorenz, Patrick Esser, and Bj\u00f6rn Ommer. High-resolution image synthesis with latent diffusion models","volume-title":"2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","author":"Rombach"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-24574-4_28"},{"key":"ref39","article-title":"Laion-400m: Open dataset of clip-filtered 400 million image-text pairs","author":"Schuhmann","year":"2021","journal-title":"arXiv preprint"},{"key":"ref40","article-title":"Denoising diffusion implicit models","author":"Song","year":"2020","journal-title":"arXiv preprint"},{"key":"ref41","article-title":"Stability-AI","year":"2024","journal-title":"Stable diffusion 3.5"},{"key":"ref42","article-title":"Dreamsync: Aligning text-to-image generation with image understanding feedback","author":"Sun","year":"2023","journal-title":"arXiv preprint"},{"key":"ref43","article-title":"Attention is all you need","author":"Vaswani","year":"2017","journal-title":"Neural Information Processing Systems"},{"key":"ref44","volume-title":"Diffusers: State-of-the-art diffusion models","author":"von Platen","year":"2022"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00817"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01461"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.26599\/CVM.2025.9450495"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00685"},{"key":"ref49","article-title":"Mastering text-to-image diffusion: Recaptioning, planning, and generating with multimodal 11 ms","author":"Yang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW56347.2022.00126"},{"key":"ref51","article-title":"Cogvideox: Text-to-video diffusion models with an expert transformer","author":"Yang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51701.2025.01684"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision (ICCV)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,25]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision (ICCV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11443115\/11443287\/11443513.pdf?arnumber=11443513","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T05:08:09Z","timestamp":1777612089000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11443513\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":52,"URL":"https:\/\/doi.org\/10.1109\/iccv51701.2025.00561","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}