{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,13]],"date-time":"2026-04-13T14:33:55Z","timestamp":1776090835461,"version":"3.50.1"},"reference-count":260,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"9","license":[{"start":{"date-parts":[[2025,9,1]],"date-time":"2025-09-01T00:00:00Z","timestamp":1756684800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,9,1]],"date-time":"2025-09-01T00:00:00Z","timestamp":1756684800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,9,1]],"date-time":"2025-09-01T00:00:00Z","timestamp":1756684800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100018537","name":"National Science and Technology Major Project","doi-asserted-by":"publisher","award":["2023ZD0121403"],"award-info":[{"award-number":["2023ZD0121403"]}],"id":[{"id":"10.13039\/501100018537","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62406161"],"award-info":[{"award-number":["62406161"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002858","name":"China Postdoctoral Science Foundation","doi-asserted-by":"publisher","award":["2023M741950"],"award-info":[{"award-number":["2023M741950"]}],"id":[{"id":"10.13039\/501100002858","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Postdoctoral Fellowship Program of CPSF","award":["GZB20230347"],"award-info":[{"award-number":["GZB20230347"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Pattern Anal. Mach. Intell."],"published-print":{"date-parts":[[2025,9]]},"DOI":"10.1109\/tpami.2025.3569700","type":"journal-article","created":{"date-parts":[[2025,5,13]],"date-time":"2025-05-13T13:46:56Z","timestamp":1747144016000},"page":"7506-7525","source":"Crossref","is-referenced-by-count":16,"title":["Efficient Diffusion Models: A Comprehensive Survey From Principles to Practices"],"prefix":"10.1109","volume":"47","author":[{"ORCID":"https:\/\/orcid.org\/0009-0006-3756-5621","authenticated-orcid":false,"given":"Zhiyuan","family":"Ma","sequence":"first","affiliation":[{"name":"Department of Electronic Engineering, Tsinghua University, Beijing, China"}]},{"given":"Yuzhu","family":"Zhang","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9494-7013","authenticated-orcid":false,"given":"Guoli","family":"Jia","sequence":"additional","affiliation":[{"name":"Department of Electronic Engineering, Tsinghua University, Beijing, China"}]},{"given":"Liangliang","family":"Zhao","sequence":"additional","affiliation":[{"name":"Department of Electronic Engineering, Tsinghua University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-4102-134X","authenticated-orcid":false,"given":"Yichao","family":"Ma","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-8942-0977","authenticated-orcid":false,"given":"Mingjie","family":"Ma","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9340-9398","authenticated-orcid":false,"given":"Gaofeng","family":"Liu","sequence":"additional","affiliation":[{"name":"Department of Automation, Shanghai Jiao Tong University, Shanghai, China"}]},{"given":"Kaiyan","family":"Zhang","sequence":"additional","affiliation":[{"name":"Department of Electronic Engineering, Tsinghua University, Beijing, China"}]},{"given":"Ning","family":"Ding","sequence":"additional","affiliation":[{"name":"Department of Electronic Engineering, Tsinghua University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5265-7624","authenticated-orcid":false,"given":"Jianjun","family":"Li","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1062-9526","authenticated-orcid":false,"given":"Bowen","family":"Zhou","sequence":"additional","affiliation":[{"name":"Department of Electronic Engineering, Tsinghua University, Beijing, China"}]}],"member":"263","reference":[{"key":"ref1","first-page":"2256","article-title":"Deep unsupervised learning using nonequilibrium thermodynamics","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Sohl-Dickstein"},{"key":"ref2","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume-title":"Proc. 34th Int. Conf. Neural Inf. Process. Syst.","author":"Ho"},{"key":"ref3","article-title":"Denoising diffusion implicit models","author":"Song","year":"2020"},{"key":"ref4","first-page":"8780","article-title":"Diffusion models beat GANs on image synthesis","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Dhariwal"},{"key":"ref5","article-title":"Photorealistic text-to-image diffusion models with deep language understanding","author":"Saharia","year":"2022"},{"key":"ref6","article-title":"Hierarchical text-conditional image generation with clip latents","author":"Ramesh","year":"2022"},{"key":"ref7","first-page":"16 890","article-title":"CogView2: Faster and better text-to-image generation via hierarchical transformers","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Ding"},{"key":"ref8","article-title":"SDXL: Improving latent diffusion models for high-resolution image synthesis","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Podell"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00355"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02155"},{"issue":"3","key":"ref11","article-title":"Improving image generation with better captions","volume-title":"Comput. Sci.","volume":"2","author":"Betker","year":"2023"},{"key":"ref12","first-page":"12606","article-title":"Scaling rectified flow transformers for high-resolution image synthesis","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Esser"},{"key":"ref13","article-title":"Prompt-to-prompt image editing with cross attention control","author":"Hertz","year":"2022"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00585"},{"key":"ref15","article-title":"DragonDiffusion: Enabling drag-style manipulation on diffusion models","author":"Mou","year":"2023"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00191"},{"key":"ref17","article-title":"Training-free structured diffusion guidance for compositional text-to-image synthesis","author":"Feng","year":"2022"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00582"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00584"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01764"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i5.28226"},{"key":"ref22","article-title":"Latent video diffusion models for high-fidelity video generation with arbitrary lengths","author":"He","year":"2022"},{"key":"ref23","article-title":"MagicVideo: Efficient video generation with latent diffusion models","author":"Zhou","year":"2022"},{"key":"ref24","article-title":"ModelScope text-to-video technical report","author":"Wang","year":"2023"},{"key":"ref25","article-title":"Stable video diffusion: Scaling latent video diffusion models to large datasets","author":"Blattmann","year":"2023"},{"key":"ref26","article-title":"VideoCrafter1: Open diffusion models for high-quality video generation","author":"Chen","year":"2023"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00698"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02106"},{"key":"ref29","article-title":"MagicVideo-v2: Multi-stage high-aesthetic video generation","author":"Wang","year":"2024"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687614"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01462"},{"key":"ref32","article-title":"FLATTEN: Optical flow-guided attention for consistent text-to-video editing","author":"Cong","year":"2023"},{"key":"ref33","article-title":"Dreamix: Video diffusion models are general video editors","author":"Molad","year":"2023"},{"key":"ref34","article-title":"ControlVideo: Training-free controllable text-to-video generation","author":"Zhang","year":"2023"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1145\/3610548.3618160"},{"key":"ref36","article-title":"Dreamfusion: Text-to-3D using 2D diffusion","volume-title":"Proc. 11th Int. Conf. Learn. Representations","author":"Poole"},{"key":"ref37","article-title":"MVDream: Multi-view diffusion for 3D generation","volume-title":"Proc. 12th Int. Conf. Learn. Representations","author":"Shi"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00037"},{"key":"ref39","article-title":"HiFA: High-fidelity text-to-3D with advanced diffusion guidance","author":"Zhu","year":"2023"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73232-4_25"},{"key":"ref41","article-title":"DDM2: Self-supervised diffusion MRI denoising with generative diffusion models","author":"Xiang","year":"2023"},{"key":"ref42","article-title":"Solving inverse problems in medical imaging with score-based generative models","author":"Song","year":"2021"},{"key":"ref43","article-title":"Diffwave: A versatile diffusion model for audio synthesis","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Kong"},{"key":"ref44","first-page":"13 916","article-title":"Make-an-audio: Text-to-audio generation with prompt-enhanced diffusion models","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Huang"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2023.3268730"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-021-03819-2"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-023-06415-8"},{"key":"ref48","first-page":"9754","article-title":"Antigen-specific antibody design and optimization with diffusion-based generative models for protein structures","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Luo"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1038\/s41467-024-46569-1"},{"key":"ref50","article-title":"Diffdock: Diffusion steps, twists, and turns for molecular docking","author":"Corso","year":"2022"},{"key":"ref51","first-page":"42 390","article-title":"Fast sampling of diffusion models via operator learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Zheng"},{"key":"ref52","article-title":"Progressive distillation for fast sampling of diffusion models","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Salimans"},{"key":"ref53","first-page":"32 211","article-title":"Consistency models","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Song"},{"key":"ref54","article-title":"Latent consistency models: Synthesizing high-resolution images with few-step inference","author":"Luo","year":"2023"},{"key":"ref55","article-title":"GLIDE: Towards photorealistic image generation and editing with text-guided diffusion models","author":"Nichol","year":"2021"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref57","article-title":"AnimateDiff: Animate your personalized text-to-image diffusion models without specific tuning","author":"Guo","year":"2023"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00675"},{"key":"ref59","first-page":"32 270","article-title":"Maximum likelihood training of implicit nonlinear diffusion model","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Kim"},{"key":"ref60","first-page":"4672","article-title":"Score approximation, estimation and distribution recovery of diffusion models on low-dimensional data","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Chen"},{"key":"ref61","first-page":"14 429","article-title":"Maximum likelihood training for score-based diffusion odes by high order denoising score matching","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Lu"},{"key":"ref62","first-page":"1415","article-title":"Maximum likelihood training of score-based diffusion models","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Song"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01610"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01043"},{"key":"ref65","article-title":"Understanding diffusion models: A unified perspective","author":"Luo","year":"2022"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2023.3261988"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1145\/3626235"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/tkde.2024.3361474\/mm1"},{"key":"ref69","article-title":"Neural residual diffusion models for deep scalable vision generation","author":"Ma","year":"2024"},{"key":"ref70","article-title":"Emergent abilities of large language models","author":"Wei","year":"2022","journal-title":"Trans. Mach. Learn. Res."},{"key":"ref71","article-title":"GPT-4 technical report","author":"Achiam","year":"2023"},{"key":"ref72","article-title":"Video generation models as world simulators","author":"Brooks","year":"2024"},{"key":"ref73","first-page":"8162","article-title":"Improved denoising diffusion probabilistic models","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Nichol"},{"key":"ref74","article-title":"Score-based generative modeling through stochastic differential equations","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Song"},{"key":"ref75","article-title":"Flow matching for generative modeling","volume-title":"Proc. 11th Int. Conf. Learn. Representations","author":"Lipman"},{"key":"ref76","article-title":"InstaFlow: One step is enough for high-quality diffusion-based text-to-image generation","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Liu"},{"key":"ref77","article-title":"PeRFlow: Piecewise rectified flow as universal plug-and-play accelerator","author":"Yan","year":"2024"},{"key":"ref78","article-title":"Stochastic interpolants: A unifying framework for flows and diffusions","author":"Albergo","year":"2023"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01268"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i5.28210"},{"key":"ref81","first-page":"1","article-title":"Cascaded diffusion models for high fidelity image generation","volume":"23","author":"Ho","year":"2022","journal-title":"J. Mach. Learn. Res."},{"key":"ref82","article-title":"Playground V2. 5: Three insights towards enhancing aesthetic quality in text-to-image generation","author":"Li","year":"2024"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02171"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00387"},{"key":"ref85","article-title":"Pixart-alpha: Fast training of diffusion transformer for photorealistic text-to-image synthesis","volume-title":"Proc. 12th Int. Conf. Learn. Representations","author":"Chen"},{"key":"ref86","article-title":"Fit: Flexible vision transformer for diffusion model","author":"Lu","year":"2024"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72980-5_2"},{"key":"ref88","article-title":"Latte: Latent diffusion transformer for video generation","author":"Ma","year":"2024"},{"key":"ref89","article-title":"Hunyuan-DiT: A powerful multi-resolution diffusion transformer with fine-grained Chinese understanding","author":"Li","year":"2024"},{"key":"ref90","article-title":"Lumina-T2X: Transforming text into any modality, resolution, and duration via flow-based large diffusion transformers","author":"Gao","year":"2024"},{"key":"ref91","article-title":"Kolors: Effective training of diffusion model for photorealistic text-to-image synthesis","author":"Team","year":"2024"},{"key":"ref92","article-title":"Flux","author":"Labs","year":"2024"},{"key":"ref93","article-title":"Sora: A review on background, technology, limitations, and opportunities of large vision models","author":"Liu","year":"2024"},{"key":"ref94","article-title":"Open-sora: Democratizing efficient video production for all","author":"Zheng","year":"2024"},{"key":"ref95","article-title":"Open-sora-plan","year":"2024"},{"key":"ref96","article-title":"EasyAnimate: A high-performance long video generation method based on transformer architecture","author":"Xu","year":"2024"},{"key":"ref97","article-title":"CogVideoX: Text-to-video diffusion models with an expert transformer","author":"Yang","year":"2024"},{"key":"ref98","article-title":"Movie gen: A cast of media foundation models","year":"2024"},{"key":"ref99","article-title":"Auto-encoding variational bayes","author":"Kingma","year":"2013"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01268"},{"key":"ref101","first-page":"6309","article-title":"Neural discrete representation learning","volume-title":"Proc. Conf. Neural Inf. Process. Syst.","author":"Van Den Oord"},{"key":"ref102","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01123"},{"key":"ref103","article-title":"Imagen video: High definition video generation with diffusion models","author":"Ho","year":"2022"},{"key":"ref104","first-page":"1692","article-title":"One transformer fits all distributions in multi-modal diffusion at scale","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Bao"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i5.28209"},{"key":"ref106","article-title":"Make-a-video: Text-to-video generation without text-video data","author":"Singer","year":"2022"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-024-02271-9"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01008"},{"key":"ref109","article-title":"CV-VAE: A compatible video vae for latent generative video models","author":"Zhao","year":"2024"},{"key":"ref110","article-title":"Phenaki: Variable length video generation from open domain textual descriptions","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Villegas"},{"key":"ref111","article-title":"Language model beats diffusion\u2013tokenizer is key to visual generation","author":"Yu","year":"2023"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-24574-4_28"},{"key":"ref113","article-title":"PixelCNN++: Improving the PixelCNN with discretized logistic mixture likelihood and other modifications","author":"Salimans","year":"2017"},{"key":"ref114","first-page":"8633","article-title":"Video diffusion models","volume-title":"Proc. Conf. Neural Informat. Process. Syst.","author":"Ho"},{"key":"ref115","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","author":"Devlin","year":"2018"},{"key":"ref116","article-title":"Improving language understanding by generative pre-training","author":"Radford","year":"2018"},{"key":"ref117","first-page":"1801","article-title":"GLAF: Global-to-local aggregation and fission network for semantic level fact verification","volume-title":"Proc. 29th Int. Conf. Comput. Linguistics","author":"Ma"},{"key":"ref118","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.174"},{"key":"ref119","article-title":"An image is worth 16 \u00d7 16 words: Transformers for image recognition at scale","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Dosovitskiy"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548292"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.9"},{"key":"ref122","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i11.26569"},{"key":"ref123","first-page":"1691","article-title":"Generative pretraining from pixels","volume-title":"Proc. Conf. Comput. Vis. Pattern Recognit.","author":"Chen"},{"key":"ref124","first-page":"8821","article-title":"Zero-shot text-to-image generation","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Ramesh"},{"issue":"140","key":"ref125","first-page":"1","article-title":"Exploring the limits of transfer learning with a unified text-to-text transformer","volume":"21","author":"Raffel","year":"2020","journal-title":"J. Mach. Learn. Res."},{"key":"ref126","volume-title":"Modeling Sequences With Structured State Spaces","author":"Gu","year":"2023"},{"key":"ref127","article-title":"Exploring adversarial robustness of deep state space models","author":"Qi","year":"2024"},{"key":"ref128","first-page":"1474","article-title":"HiPPO: Recurrent memory with optimal polynomial projections","volume-title":"Proc. Conf. Neural Informat. Process. Syst.","author":"Gu"},{"key":"ref129","article-title":"Efficiently modeling long sequences with structured state spaces","author":"Gu","year":"2021"},{"key":"ref130","first-page":"22 982","article-title":"Diagonal state spaces are as effective as structured state spaces","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Gupta"},{"key":"ref131","article-title":"Mamba: Linear-time sequence modeling with selective state spaces","author":"Gu","year":"2023"},{"key":"ref132","article-title":"DiM: Diffusion Mamba for efficient high-resolution image synthesis","author":"Teng","year":"2024"},{"key":"ref133","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72664-4_9"},{"key":"ref134","article-title":"Diffusion-RWKV: Scaling RWKV-like architectures for diffusion models","author":"Fei","year":"2024"},{"key":"ref135","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.936"},{"key":"ref136","article-title":"DiG: Scalable and efficient diffusion models with gated linear attention","author":"Zhu","year":"2024"},{"key":"ref137","article-title":"Gated linear attention transformers with hardware-efficient training","author":"Yang","year":"2023"},{"key":"ref138","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford"},{"key":"ref139","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1810.04805"},{"key":"ref140","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i7.28487"},{"key":"ref141","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-demos.1"},{"key":"ref142","article-title":"Taiyi-diffusion-XL: Advancing bilingual text-to-image generation with large vision-language model support","author":"Wu","year":"2024"},{"key":"ref143","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford"},{"key":"ref144","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72989-8_27"},{"key":"ref145","article-title":"Baichuan 2: Open large-scale language models","author":"Yang","year":"2023"},{"key":"ref146","article-title":"LLaMA: Open and efficient foundation language models","author":"Touvron","year":"2023"},{"key":"ref147","article-title":"LLaMA 2: Open foundation and fine-tuned chat models","author":"Touvron","year":"2023"},{"key":"ref148","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.26"},{"key":"ref149","doi-asserted-by":"crossref","DOI":"10.21203\/rs.3.rs-1553541\/v1","article-title":"Delta tuning: A comprehensive study of parameter efficient methods for pre-trained language models","author":"Ding","year":"2022"},{"key":"ref150","article-title":"LoRA: Low-rank adaptation of large language models","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Hu"},{"key":"ref151","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00748"},{"key":"ref152","doi-asserted-by":"publisher","DOI":"10.1145\/3641519.3657407"},{"key":"ref153","article-title":"ediff-i: Text-to-image diffusion models with an ensemble of expert denoisers","author":"Balaji","year":"2022"},{"key":"ref154","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.632"},{"key":"ref155","article-title":"ControlNet-XS: Designing an efficient and effective architecture for controlling text-to-image diffusion models","author":"Zavadski","year":"2023"},{"key":"ref156","article-title":"Controlnext: Powerful and efficient control for image and video generation","author":"Peng","year":"2024"},{"key":"ref157","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72667-5_8"},{"key":"ref158","article-title":"IP-adapter: Text compatible image prompt adapter for text-to-image diffusion models","author":"Ye","year":"2023"},{"key":"ref159","article-title":"Ctrl-adapter: An efficient and versatile framework for adapting diverse controls to any diffusion model","author":"Lin","year":"2024"},{"key":"ref160","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3611863"},{"key":"ref161","first-page":"11127","article-title":"Uni-ControlNet: All-in-one control to text-to-image diffusion models","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Zhao"},{"key":"ref162","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00688"},{"key":"ref163","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00847"},{"key":"ref164","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00129"},{"key":"ref165","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00838"},{"key":"ref166","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.568"},{"key":"ref167","article-title":"Measuring the intrinsic dimension of objective landscapes","author":"Li","year":"2018"},{"key":"ref168","article-title":"LCM-LoRA: A universal stable-diffusion acceleration module","author":"Luo","year":"2023"},{"key":"ref169","article-title":"LoRA-composer: Leveraging low-rank adaptation for multi-concept customization in training-free diffusion models","author":"Yang","year":"2024"},{"key":"ref170","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00756"},{"key":"ref171","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73661-2_10"},{"key":"ref172","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00200"},{"key":"ref173","article-title":"Aligning text-to-image models using human feedback","author":"Lee","year":"2023"},{"key":"ref174","first-page":"15903","article-title":"ImageReward: Learning and evaluating human preferences for text-to-image generation","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Xu"},{"key":"ref175","first-page":"36 652","article-title":"Pick-a-pic: An open dataset of user preferences for text-to-image generation","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Kirstain"},{"key":"ref176","article-title":"RAFT: Reward ranked finetuning for generative foundation model alignment","author":"Dong","year":"2023","journal-title":"Trans. Mach. Learn. Res."},{"key":"ref177","article-title":"Training diffusion models with reinforcement learning","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Black"},{"key":"ref178","first-page":"79858","article-title":"Reinforcement learning for fine-tuning text-to-image diffusion models","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Fan"},{"key":"ref179","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00854"},{"key":"ref180","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00786"},{"key":"ref181","first-page":"53728","article-title":"Direct preference optimization: Your language model is secretly a reward model","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Rafailov"},{"key":"ref182","article-title":"An image is worth one word: Personalizing text-to-image generation using textual inversion","author":"Gal","year":"2022"},{"key":"ref183","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01461"},{"key":"ref184","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00825"},{"key":"ref185","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00624"},{"key":"ref186","first-page":"30146","article-title":"BLIP-diffusion: Pre-trained subject representation for controllable text-to-image generation and editing","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Li"},{"key":"ref187","article-title":"InstantID: Zero-shot identity-preserving generation in seconds","author":"Wang","year":"2024"},{"key":"ref188","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72751-1_15"},{"key":"ref189","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00192"},{"key":"ref190","first-page":"15890","article-title":"Mix-of-show: Decentralized low-rank adaptation for multi-concept customization of diffusion models","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Gu"},{"key":"ref191","article-title":"MoA: Mixture-of-attention for subject-context disentanglement in personalized image generation","author":"Ostashev","year":"2024"},{"key":"ref192","doi-asserted-by":"publisher","DOI":"10.1145\/3592133"},{"key":"ref193","article-title":"DreamTuner: Single image is enough for subject-driven generation","author":"Hua","year":"2023"},{"key":"ref194","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00816"},{"key":"ref195","first-page":"12 888","article-title":"BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Li"},{"key":"ref196","doi-asserted-by":"publisher","DOI":"10.1145\/3626235"},{"key":"ref197","article-title":"Progressive distillation for fast sampling of diffusion models","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Salimans"},{"key":"ref198","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01374"},{"key":"ref199","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73016-0_6"},{"key":"ref200","article-title":"Flow straight and fast: Learning to generate and transfer data with rectified flow","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Liu"},{"key":"ref201","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00783"},{"key":"ref202","first-page":"5775","article-title":"DPM-solver: A fast ODE solver for diffusion probabilistic model sampling in around 10 steps","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Lu"},{"key":"ref203","first-page":"26 565","article-title":"Elucidating the design space of diffusion-based generative models","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Karras"},{"key":"ref204","article-title":"Denoising diffusion implicit models","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Song"},{"key":"ref205","first-page":"11 918","article-title":"Generative modeling by estimating gradients of the data distribution","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Song"},{"key":"ref206","article-title":"Adversarial score matching and improved sampling for image generation","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Jolicoeur-Martineau"},{"key":"ref207","article-title":"Score-based generative modeling with critically-damped langevin diffusion","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Dockhorn"},{"key":"ref208","article-title":"Gotta go fast when generating data with score-based models","author":"Jolicoeur-Martineau","year":"2021"},{"key":"ref209","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01209"},{"key":"ref210","article-title":"Pseudo numerical methods for diffusion models on manifolds","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Liu"},{"key":"ref211","doi-asserted-by":"publisher","DOI":"10.1007\/s11633-025-1562-4"},{"key":"ref212","article-title":"gDDIM: Generalized denoising diffusion implicit models","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Zhang","year":"2023"},{"key":"ref213","article-title":"Fast sampling of diffusion models with exponential integrator","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Zhang"},{"key":"ref214","first-page":"41 770","article-title":"ReDi: Efficient learning-free diffusion inference via trajectory retrieval","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Zhang"},{"key":"ref215","first-page":"30 150","article-title":"GENIE: Higher-order denoising diffusion solvers","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Dockhorn"},{"key":"ref216","article-title":"Knowledge distillation in iterative generative models for improved sampling speed","author":"Luhman","year":"2021"},{"key":"ref217","first-page":"49 842","article-title":"UniPC: A unified predictor-corrector framework for fast sampling of diffusion models","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Zhao"},{"key":"ref218","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00792"},{"key":"ref219","article-title":"SDEdit: Guided image synthesis and editing with stochastic differential equations","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Meng"},{"key":"ref220","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00189"},{"key":"ref221","article-title":"Distilling the knowledge in a neural network","author":"Hinton","year":"2015"},{"key":"ref222","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00632"},{"key":"ref223","first-page":"19 667","article-title":"NVAE: A deep hierarchical variational autoencoder","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Vahdat"},{"key":"ref224","article-title":"Large scale GAN training for high fidelity natural image synthesis","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Brock"},{"key":"ref225","article-title":"Classifier-free diffusion guidance","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst. Workshop","author":"Ho"},{"key":"ref226","first-page":"21 696","article-title":"Variational diffusion models","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Kingma"},{"key":"ref227","doi-asserted-by":"publisher","DOI":"10.5555\/2969033.2969125"},{"key":"ref228","first-page":"9623","article-title":"Optimizing DDPM sampling with shortcut fine-tuning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Fan"},{"key":"ref229","article-title":"Fourier neural operator for parametric partial differential equations","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Li"},{"key":"ref230","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687625"},{"key":"ref231","article-title":"AnimateDiff: Animate your personalized text-to-image diffusion models without specific tuning","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Guo"},{"key":"ref232","first-page":"9156","article-title":"Learning universal policies via text-guided video generation","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Du"},{"key":"ref233","first-page":"6629","article-title":"GANs trained by a two time-scale update rule converge to a local nash equilibrium","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Heusel"},{"key":"ref234","doi-asserted-by":"publisher","DOI":"10.1145\/3528223.3530164"},{"key":"ref235","article-title":"DINOv2: Learning robust visual features without supervision","author":"Oquab","year":"2023"},{"key":"ref236","first-page":"3481","article-title":"Which training methods for GANs do actually converge?","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Mescheder"},{"key":"ref237","article-title":"Tackling the generative learning trilemma with denoising diffusion GANs","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Xiao"},{"key":"ref238","first-page":"17 383","article-title":"Semi-implicit denoising diffusion models (SIDDMs)","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Xu"},{"key":"ref239","article-title":"Learning to efficiently sample from diffusion probabilistic models","author":"Watson","year":"2021"},{"key":"ref240","article-title":"Learning fast samplers for diffusion models by differentiating through sample quality","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Watson"},{"key":"ref241","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00196"},{"key":"ref242","first-page":"13 237","article-title":"PTQD: Accurate post-training quantization for diffusion models","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"He"},{"key":"ref243","article-title":"Accelerating diffusion models via early stop of the diffusion process","author":"Lyu","year":"2022"},{"key":"ref244","article-title":"Truncated diffusion probabilistic models","author":"Zheng","year":"2022"},{"key":"ref245","article-title":"Truncated diffusion probabilistic models and diffusion-based adversarial auto-encoders","volume-title":"Proc. 11th Int. Conf. Learn. Representations","author":"Zheng"},{"key":"ref246","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00453"},{"key":"ref247","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW59228.2023.00490"},{"key":"ref248","first-page":"20662","article-title":"SnapFusion: Text-to-image diffusion model on mobile devices within two seconds","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Li"},{"key":"ref249","article-title":"MobileDiffusion: Instant text-to-image generation on mobile devices","author":"Zhao","year":"2024"},{"key":"ref250","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00686"},{"key":"ref251","article-title":"PipeFusion: Displaced patch pipeline parallelism for inference of diffusion transformer models","author":"Wang","year":"2024"},{"key":"ref252","article-title":"AsyncDiff: Parallelizing diffusion models by asynchronous denoising","author":"Chen","year":"2024"},{"key":"ref253","doi-asserted-by":"crossref","DOI":"10.36227\/techrxiv.172055626.64129172\/v1","article-title":"A survey on mixture of experts","author":"Cai","year":"2024"},{"key":"ref254","article-title":"The evolution of mixture of experts: A survey from basics to breakthroughs","author":"Vats","year":"2024"},{"key":"ref255","article-title":"Dynamic diffusion transformer","author":"Zhao","year":"2024"},{"key":"ref256","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73030-6_4"},{"key":"ref257","first-page":"19 274","article-title":"Fast inference from transformers via speculative decoding","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Leviathan"},{"key":"ref258","article-title":"Accelerating large language model decoding with speculative sampling","author":"Chen","year":"2023"},{"key":"ref259","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.naacl-long.601"},{"key":"ref260","article-title":"T-stitch: Accelerating sampling in pre-trained diffusion models with trajectory stitching","author":"Pan","year":"2024"}],"container-title":["IEEE Transactions on Pattern Analysis and Machine Intelligence"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/34\/11118328\/11002717.pdf?arnumber=11002717","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,7]],"date-time":"2025-08-07T17:44:16Z","timestamp":1754588656000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11002717\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,9]]},"references-count":260,"journal-issue":{"issue":"9"},"URL":"https:\/\/doi.org\/10.1109\/tpami.2025.3569700","relation":{},"ISSN":["0162-8828","2160-9292","1939-3539"],"issn-type":[{"value":"0162-8828","type":"print"},{"value":"2160-9292","type":"electronic"},{"value":"1939-3539","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,9]]}}}