{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,6]],"date-time":"2026-05-06T15:31:10Z","timestamp":1778081470411,"version":"3.51.4"},"reference-count":369,"publisher":"Tsinghua University Press","issue":"6","funder":[{"DOI":"10.13039\/501100012166","name":"National Key R&D Program of China","doi-asserted-by":"publisher","award":["2022YFA1004100"],"award-info":[{"award-number":["2022YFA1004100"]}],"id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Comp. Visual. Med."],"published-print":{"date-parts":[[2025,12]]},"DOI":"10.26599\/cvm.2025.9450495","type":"journal-article","created":{"date-parts":[[2025,8,29]],"date-time":"2025-08-29T17:41:37Z","timestamp":1756489297000},"page":"1141-1194","source":"Crossref","is-referenced-by-count":3,"title":["Personalized Image Generation with Deep Generative Models: A Decade Survey"],"prefix":"10.26599","volume":"11","author":[{"given":"Yuxiang","family":"Wei","sequence":"first","affiliation":[{"name":"Harbin Institute of Technology,Faculty of Computing,Harbin,China,150001"}]},{"given":"Yiheng","family":"Zheng","sequence":"additional","affiliation":[{"name":"Harbin Institute of Technology,Faculty of Computing,Harbin,China,150001"}]},{"given":"Yabo","family":"Zhang","sequence":"additional","affiliation":[{"name":"Harbin Institute of Technology,Faculty of Computing,Harbin,China,150001"}]},{"given":"Ming","family":"Liu","sequence":"additional","affiliation":[{"name":"Harbin Institute of Technology,Faculty of Computing,Harbin,China,150001"}]},{"given":"Zhilong","family":"Ji","sequence":"additional","affiliation":[{"name":"Tomorrow Advancing Life,Beijing,China,100081"}]},{"given":"Lei","family":"Zhang","sequence":"additional","affiliation":[{"name":"The Hong Kong Polytechnic University,Department of Computing,Hong Kong,China,999077"}]},{"given":"Wangmeng","family":"Zuo","sequence":"additional","affiliation":[{"name":"Harbin Institute of Technology,Faculty of Computing,Harbin,China,150001"}]}],"member":"11138","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1145\/3422622"},{"key":"ref2","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume-title":"Proceedings of the 34th Conference on Neural Information Processing Systems","author":"Ho","year":"2020"},{"key":"ref3","article-title":"Emu: Generative pretraining in multimodality","author":"Sun","year":"2023","journal-title":"arXiv preprint"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref5","article-title":"SDXL: Improving latent diffusion models for high-resolution image synthesis","author":"Podell","year":"2023","journal-title":"arXiv preprint"},{"key":"ref6","article-title":"Photorealistic text-to-image diffusion models with deep language understanding","author":"Saharia","year":"2022","journal-title":"arXiv preprint"},{"key":"ref7","article-title":"Hierarchical text-conditional image generation with clip latents","author":"Ramesh","year":"2022","journal-title":"arXiv preprint"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00355"},{"key":"ref9","article-title":"Prompt-to-prompt image editing with cross attention control","author":"Hertz","year":"2022","journal-title":"arXiv preprint"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00846"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02062"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00825"},{"key":"ref13","article-title":"Instantstyle: Free lunch towards style-preserving in text-toimage generation","author":"Wang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref14","article-title":"An image is worth one word: Personalizing text-to-image generation using textual inversion","author":"Gal","year":"2022","journal-title":"arXiv preprint"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02155"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01461"},{"key":"ref17","article-title":"Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models","author":"Ye","year":"2023","journal-title":"arXiv preprint"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00192"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46454-1_36"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00232"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1145\/3450626.3459838"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/s11432-022-3679-0"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2022.3181070"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1145\/3592133"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1145\/3610548.3618173"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2102.12092"},{"key":"ref27","first-page":"19822","article-title":"CogView: Mastering text-to-image generation via transformers","volume-title":"Proceedings of the 35th International Conference on Neural Information Processing Systems","author":"Ding","year":"2021"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01365"},{"key":"ref29","article-title":"Controllable generation with text-to-image diffusion models: A survey","author":"Cao","year":"2024","journal-title":"arXiv preprint"},{"key":"ref30","article-title":"Text-to-image synthesis: A decade survey","author":"Zhang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref31","article-title":"Conditional image synthesis with diffusion models: A survey","author":"Zhan","year":"2024","journal-title":"arXiv preprint"},{"key":"ref32","article-title":"A survey of multimodal-guided image editing with text-to-image diffusion models","author":"Shuai","year":"2024","journal-title":"arXiv preprint"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1007\/s11633-025-1563-3"},{"key":"ref34","article-title":"Revisiting latent space of GAN inversion for real image editing","author":"Katsumata","year":"2023","journal-title":"arXiv preprint"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01267"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01109"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01111"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612168"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1145\/3544777"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01796"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2018.2875194"},{"key":"ref42","article-title":"Precise recovery of latent vectors from generative adversarial networks","author":"Lipton","year":"2017","journal-title":"arXiv preprint"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8462233"},{"key":"ref44","first-page":"9651","article-title":"Invertibility of convolutional generative networks from partial measurements","volume-title":"Proceedings of the 32nd International Conference on Neural Information Processing Systems","author":"Ma","year":"2018"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00453"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00832"},{"key":"ref47","article-title":"Near perfect GAN inversion","author":"Feng","year":"2022","journal-title":"arXiv preprint"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01110"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00664"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2022.3167305"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01105"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2020.3034267"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00158"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00778"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58542-6_11"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1145\/3447648"},{"key":"ref57","article-title":"Exploring attribute variations in style-based GANs using diffusion models","author":"Parihar","year":"2023","journal-title":"arXiv preprint"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58539-6_35"},{"key":"ref59","article-title":"A spectral regularizer for unsupervised disentanglement","author":"Ramesh","year":"2018","journal-title":"arXiv preprint"},{"key":"ref60","first-page":"9786","article-title":"Unsupervised discovery of interpretable directions in the GAN latent space","volume-title":"Proceedings of the 37th International Conference on Machine Learning","author":"Voynov","year":"2020"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00633"},{"key":"ref62","article-title":"GANSpace: Discovering interpretable GAN controls","author":"H\u00e4rk\u00f6nen","year":"2020","journal-title":"arXiv preprint"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1145\/3588432.3591500"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/iccv48922.2021.00209"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/WACV51458.2022.00350"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01769"},{"key":"ref67","article-title":"Bridging clip and styleGAN through latent alignment for image editing","author":"Zheng","year":"2022","journal-title":"arXiv preprint"},{"key":"ref68","article-title":"One model to edit them all: Free-form text-driven image manipulation with semantic modulations","volume-title":"Proceedings of the 36th Conference on Neural Information Processing Systems","author":"Zhu","year":"2022"},{"key":"ref69","article-title":"Deltaedit: Exploring text-free training for text-driven image manipulation","author":"Lyu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01754"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1145\/3528223.3530164"},{"key":"ref72","article-title":"Mind the gap: Domain gap control for single shot domain adaptation for generative adversarial networks","author":"Zhu","year":"2021","journal-title":"arXiv preprint"},{"key":"ref73","article-title":"Towards diverse and faithful one-shot adaption of generative adversarial networks","volume-title":"Proceedings of the 36th Conference on Neural Information Processing Systems","author":"Zhang","year":"2022"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687613"},{"key":"ref75","article-title":"Denoising diffusion implicit models","author":"Song","year":"2020","journal-title":"arXiv preprint"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00585"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/tcsvt.2025.3531917"},{"key":"ref78","article-title":"Highly personalized text embedding for image manipulation by stable diffusion","author":"Han","year":"2023","journal-title":"arXiv preprint"},{"key":"ref79","article-title":"p+: Extended textual conditioning in text-to-image generation","author":"Voynov","year":"2023","journal-title":"arXiv preprint"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1145\/3618322"},{"key":"ref81","article-title":"Inserting anybody in diffusion models via celeb basis","author":"Yuan","year":"2023","journal-title":"arXiv preprint"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00816"},{"key":"ref83","article-title":"Cones: Concept neurons in diffusion models for customized generation","author":"Liu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1145\/3588432.3591506"},{"key":"ref85","article-title":"Lora: Low-rank adaptation of large language models","author":"Hu","year":"2021","journal-title":"arXiv preprint"},{"key":"ref86","article-title":"Ledits: Real image editing with DDPM inversion and semantic guidance","author":"Tsaban","year":"2023","journal-title":"arXiv preprint"},{"key":"ref87","article-title":"Semantic image inversion and editing using rectified stochastic differential equations","author":"Rout","year":"2024","journal-title":"arXiv preprint"},{"key":"ref88","first-page":"16222","article-title":"Diffusion self-guidance for controllable image generation","volume-title":"Proceedings of the 37th International Conference on Neural Information Processing Systems","author":"Epstein","year":"2023"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3680658"},{"key":"ref90","article-title":"Flux already knows-activating subject driven image generation without training","author":"Kang","year":"2025","journal-title":"arXiv preprint"},{"key":"ref91","article-title":"Enhancing detail preservation for customized text-to-image generation: A regularizationfree approach","author":"Zhou","year":"2023","journal-title":"arXiv preprint"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73661-2_7"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1145\/3641519.3657469"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-024-02227-z"},{"key":"ref95","article-title":"Blip-diffusion: Pre-trained subject representation for controllable text-to-image generation and editing","author":"Li","year":"2023","journal-title":"arXiv preprint"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72673-6_22"},{"key":"ref97","article-title":"ViCo: Plug-and-play visual condition for personalized text-to-image generation","author":"Hao","year":"2023","journal-title":"arXiv preprint"},{"key":"ref98","article-title":"HiFi tuner: High-fidelity subject-driven fine-tuning for diffusion models","author":"Wang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1145\/3721238.3730634"},{"key":"ref100","article-title":"Controlling text-to-image diffusion by orthogonal finetuning","author":"Qiu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref101","article-title":"Parameter-efficient orthogonal finetuning via butterfly factorization","author":"Liu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref102","article-title":"DisenBooth: Identity-preserving disentangled tuning for subject-driven text-to-image generation","author":"Chen","year":"2023","journal-title":"arXiv preprint"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i2.27850"},{"key":"ref104","article-title":"Dreamtuner: Single image is enough for subject-driven generation","author":"Hua","year":"2023","journal-title":"arXiv preprint"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.1145\/3610548.3618154"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00774"},{"key":"ref107","article-title":"ComFusion: Personalized subject generation in multiple specific scenes from single image","author":"Hong","year":"2024","journal-title":"arXiv preprint"},{"key":"ref108","article-title":"SingleInsert: Inserting new concepts from a single image into text-to-image models for flexible editing","author":"Wu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref109","article-title":"Direct consistency optimization for compositional text-to-image personalization","author":"Lee","year":"2024","journal-title":"arXiv preprint"},{"key":"ref110","article-title":"InstructBooth: Instruction following personalized text-to-image generation","author":"Chae","year":"2023","journal-title":"arXiv preprint"},{"key":"ref111","article-title":"The CLIP model is secretly an image-to-prompt converter","author":"Ding","year":"2023","journal-title":"arXiv preprint"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00689"},{"key":"ref113","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i8.32904"},{"key":"ref114","doi-asserted-by":"publisher","DOI":"10.1109\/wacv61041.2025.00356"},{"key":"ref115","article-title":"Unified multi-modal latent diffusion for joint subject and text conditional image generation","author":"Ma","year":"2023","journal-title":"arXiv preprint"},{"key":"ref116","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-91907-7_15"},{"key":"ref117","article-title":"Taming encoder for zero fine-tuning image customization with text-to-image diffusion models","author":"Jia","year":"2023","journal-title":"arXiv preprint"},{"key":"ref118","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00877"},{"key":"ref119","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00643"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i2.32210"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.02209"},{"key":"ref122","article-title":"DisEnvisioner: Disentangled and enriched visual prompt for customized image generation","author":"He","year":"2024","journal-title":"arXiv preprint"},{"key":"ref123","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i19.34264"},{"key":"ref124","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00648"},{"key":"ref125","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00771"},{"key":"ref126","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687604"},{"key":"ref127","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.01718"},{"key":"ref128","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00455"},{"key":"ref129","article-title":"OminiControl: Minimal and universal control for diffusion transformer","author":"Tan","year":"2024","journal-title":"arXiv preprint"},{"key":"ref130","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.01241"},{"key":"ref131","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612599"},{"key":"ref132","article-title":"Automated black-box prompt engineering for personalized text-to-image generation","author":"He","year":"2024","journal-title":"arXiv preprint"},{"key":"ref133","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i2.27891"},{"key":"ref134","doi-asserted-by":"publisher","DOI":"10.1109\/tmm.2025.3613113"},{"key":"ref135","doi-asserted-by":"publisher","DOI":"10.1109\/FG61629.2025.11099217"},{"key":"ref136","article-title":"Difflora: Generating personalized low-rank adaptation weights with diffusion","author":"Wu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref137","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00802"},{"key":"ref138","article-title":"InstantID: Zero-shot identity-preserving generation in seconds","author":"Wang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref139","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00654"},{"key":"ref140","article-title":"Photoverse: Tuning-free image customization with text-to-image diffusion models","author":"Chen","year":"2023","journal-title":"arXiv preprint"},{"key":"ref141","article-title":"Pulid: Pure and lightning id customization via contrastive alignment","author":"Guo","year":"2024","journal-title":"arXiv preprint"},{"key":"ref142","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02557"},{"key":"ref143","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72630-9_19"},{"key":"ref144","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00213"},{"key":"ref145","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73007-8_27"},{"key":"ref146","article-title":"FlashFace: Human image personalization with high-fidelity identity preservation","author":"Zhang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref147","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73242-3_16"},{"key":"ref148","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72983-6_15"},{"key":"ref149","article-title":"Imagine yourself: Tuning-free personalized image generation","author":"He","year":"2024","journal-title":"arXiv preprint"},{"key":"ref150","article-title":"Consistentid: Portrait generation with multimodal fine-grained identity preserving","author":"Huang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref151","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00612"},{"key":"ref152","article-title":"StoryMaker: Towards holistic consistent characters in text-to-image generation","author":"Zhou","year":"2024","journal-title":"arXiv preprint"},{"key":"ref153","article-title":"Character-adapter: Prompt-guided region control for high-fidelity character customization","author":"Ma","year":"2024","journal-title":"arXiv preprint"},{"key":"ref154","article-title":"Retrieving conditions from reference images for diffusion models","author":"Tang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref155","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00271"},{"key":"ref156","article-title":"AnyStory: Towards unified single and multiple subject personalization in text-to-image generation","author":"He","year":"2025","journal-title":"arXiv preprint"},{"key":"ref157","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00978"},{"key":"ref158","article-title":"Csgo: Content-style composition in text-to-image generation","author":"Xing","year":"2024","journal-title":"arXiv preprint"},{"key":"ref159","doi-asserted-by":"publisher","DOI":"10.1109\/ICTC58733.2023.10392676"},{"key":"ref160","article-title":"Text-to-image synthesis for any artistic styles: Advancements in personalized artistic image generation via subdivision and dual binding","author":"Park","year":"2024","journal-title":"arXiv preprint"},{"key":"ref161","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687642"},{"key":"ref162","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00906"},{"key":"ref163","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73232-4_24"},{"key":"ref164","article-title":"UnZipLoRA: Separating content and style from a single image","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref165","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-024-02253-x"},{"key":"ref166","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00823"},{"key":"ref167","first-page":"52937","article-title":"FineStyle: Fine-grained controllable style personalization for text-to-image models","volume-title":"Proceedings of the 38th International Conference on Neural Information Processing Systems","author":"Zhang","year":"2025"},{"key":"ref168","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2024.3518532"},{"key":"ref169","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687658"},{"key":"ref170","article-title":"Lego: Learning to disentangle and invert concepts beyond object appearance in text-to-image diffusion models","author":"Motamed","year":"2023","journal-title":"arXiv preprint"},{"key":"ref171","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00745"},{"key":"ref172","article-title":"ImPoster: Text and frequency guidance for subject driven action personalization using diffusion models","author":"Kothandaraman","year":"2024","journal-title":"arXiv preprint"},{"key":"ref173","article-title":"Event-customized image generation","author":"Wang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref174","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00673"},{"key":"ref175","article-title":"Customizable image synthesis with multiple subjects","author":"Liu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref176","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00267"},{"key":"ref177","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72751-1_15"},{"key":"ref178","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00848"},{"key":"ref179","article-title":"How to continually adapt text-to-image diffusion models for flexible customization?","author":"Dong","year":"2024","journal-title":"arXiv preprint"},{"key":"ref180","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2025.112111"},{"key":"ref181","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i9.33021"},{"key":"ref182","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2024\/1136"},{"key":"ref183","article-title":"GroundingBooth: Grounding text-to-image customization","author":"Xiong","year":"2024","journal-title":"arXiv preprint"},{"key":"ref184","article-title":"Ms-diffusion: Multi-subject zero-shot image personalization with layout guidance","author":"Wang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref185","article-title":"RelationBooth: Towards relation-aware customized object generation","author":"Shi","year":"2024","journal-title":"arXiv preprint"},{"key":"ref186","doi-asserted-by":"publisher","DOI":"10.1145\/3730843"},{"key":"ref187","article-title":"Less-to-more generalization: Unlocking more controllability by in-context generation","author":"Wu","year":"2025","journal-title":"arXiv preprint"},{"key":"ref188","doi-asserted-by":"publisher","DOI":"10.1145\/3757377.3763956"},{"key":"ref189","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00221"},{"key":"ref190","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00738"},{"key":"ref191","article-title":"HeadRouter: A training-free image editing framework for MM-DiTs by adaptively routing attention heads","author":"Xu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref192","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.02652"},{"key":"ref193","article-title":"Fine-tuning visual autoregressive models for subject-driven generation","author":"Chung","year":"2025","journal-title":"arXiv preprint"},{"key":"ref194","article-title":"Personalized text-to-image generation with auto-regressive models","author":"Sun","year":"2025","journal-title":"arXiv preprint"},{"key":"ref195","article-title":"YoChameleon: Personalized vision and language generation","author":"Nguyen","year":"2025","journal-title":"arXiv preprint"},{"key":"ref196","article-title":"UniCTokens: Boosting personalized understanding and generation via unified concept tokens","author":"An","year":"2025","journal-title":"arXiv preprint"},{"key":"ref197","article-title":"Seed-X: Multimodal models with unified multigranularity comprehension and generation","author":"Ge","year":"2024","journal-title":"arXiv preprint"},{"key":"ref198","article-title":"MetaMorph: Multimodal understanding and generation via instruction tuning","author":"Tong","year":"2024","journal-title":"arXiv preprint"},{"key":"ref199","article-title":"Chameleon: Mixed-modal early-fusion foundation models","year":"2024","journal-title":"arXiv preprint"},{"key":"ref200","article-title":"Puma: Empowering unified MLLM with multigranular visual generation","author":"Fang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref201","article-title":"ILLUME: Illuminating your LLMs to see, draw, and self-enhance","author":"Wang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref202","article-title":"Transfer between modalities with metaqueries","author":"Pan","year":"2025","journal-title":"arXiv preprint"},{"key":"ref203","article-title":"Proxy-Tuning: Tailoring multimodal autoregressive models for subject-driven image generation","author":"Wu","year":"2025","journal-title":"arXiv preprint"},{"key":"ref204","article-title":"Emerging properties in unified multimodal pretraining","author":"Deng","year":"2025","journal-title":"arXiv preprint"},{"key":"ref205","article-title":"Show-O: One single transformer to unify multimodal understanding and generation","author":"Xie","year":"2024","journal-title":"arXiv preprint"},{"key":"ref206","article-title":"Transfusion: Predict the next token and diffuse images with one multi-modal model","author":"Zhou","year":"2024","journal-title":"arXiv preprint"},{"key":"ref207","article-title":"MMaDA: Multimodal large diffusion language models","author":"Yang","year":"2025","journal-title":"arXiv preprint"},{"key":"ref208","article-title":"Unsupervised representation learning with deep convolutional generative adversarial networks","author":"Radford","year":"2015","journal-title":"arXiv preprint"},{"key":"ref209","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.629"},{"key":"ref210","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00453"},{"key":"ref211","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00813"},{"key":"ref212","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.304"},{"key":"ref213","article-title":"Wasserstein generative adversarial networks","author":"Arjovsky","year":"2017","journal-title":"arXiv preprint"},{"key":"ref214","article-title":"Improved training of Wasserstein GANs","author":"Gulrajani","year":"2017","journal-title":"arXiv preprint"},{"key":"ref215","article-title":"Spectral normalization for generative adversarial networks","author":"Miyato","year":"2018","journal-title":"arXiv preprint"},{"key":"ref216","article-title":"Progressive growing of GANs for improved quality, stability, and variation","author":"Karras","year":"2017","journal-title":"arXiv preprint"},{"key":"ref217","article-title":"Alias-free generative adversarial networks","author":"Karras","year":"2021","journal-title":"arXiv preprint"},{"key":"ref218","article-title":"Large scale GAN training for high fidelity natural image synthesis","author":"Brock","year":"2018","journal-title":"arXiv preprint"},{"key":"ref219","article-title":"StyleGAN-T: Unlocking the power of GANs for fast large-scale text-to-image synthesis","author":"Sauer","year":"2023","journal-title":"arXiv preprint"},{"key":"ref220","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00976"},{"key":"ref221","article-title":"Ediff-I: Text-to-image diffusion models with an ensemble of expert denoisers","author":"Balaji","year":"2022","journal-title":"arXiv preprint"},{"key":"ref222","article-title":"Scaling rectified flow transformers for high-resolution image synthesis","author":"Esser","year":"2024","journal-title":"arXiv preprint"},{"key":"ref223","volume-title":"Kolors: Effective training of diffusion model for photorealistic text-to-image synthesis","year":"2024"},{"key":"ref224","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021","journal-title":"arXiv preprint"},{"key":"ref225","article-title":"Sentence-T5: Scalable sentence encoders from pre-trained text-to-text models","author":"Ni","year":"2021","journal-title":"arXiv preprint"},{"key":"ref226","article-title":"LAION-400M: Open dataset of clip-filtered 400 million image-text pairs","author":"Schuhmann","year":"2021","journal-title":"arXiv preprint"},{"key":"ref227","article-title":"LAION-5B: An open large-scale dataset for training next generation image-text models","author":"Schuhmann","year":"2022","journal-title":"arXiv preprint"},{"key":"ref228","volume-title":"FLUX","year":"2024"},{"key":"ref229","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00387"},{"key":"ref230","article-title":"Flow matching for generative modeling","author":"Lipman","year":"2022","journal-title":"arXiv preprint"},{"key":"ref231","volume-title":"Improving language understanding by generative pre-training","author":"Radford","year":"2023"},{"key":"ref232","volume-title":"Language models are unsupervised multitask learners","author":"Radford","year":"2019"},{"key":"ref233","article-title":"Language models are few-shot learners","author":"Brown","year":"2020","journal-title":"arXiv preprint"},{"key":"ref234","article-title":"Autoregressive model beats diffusion: LLAMA for scalable image generation","author":"Sun","year":"2024","journal-title":"arXiv preprint"},{"key":"ref235","article-title":"Next-GPT: Any-to-any multimodal LLM","author":"Wu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref236","article-title":"CogView2: Faster and better text-to-image generation via hierarchical transformers","author":"Ding","year":"2022","journal-title":"arXiv preprint"},{"key":"ref237","article-title":"Scaling autoregressive models for content-rich text-to-image generation","author":"Yu","year":"2022","journal-title":"arXiv preprint"},{"key":"ref238","article-title":"Visual autoregressive modeling: Scalable image generation via next-scale prediction","author":"Tian","year":"2024","journal-title":"arXiv preprint"},{"key":"ref239","article-title":"STAR: Scale-wise text-to-image generation via auto-regressive representations","author":"Ma","year":"2024","journal-title":"arXiv preprint"},{"key":"ref240","article-title":"Var-clip: Text-to-image generator with visual auto-regressive modeling","author":"Zhang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref241","article-title":"Emu3: Next-token prediction is all you need","author":"Wang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref242","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00379"},{"key":"ref243","article-title":"Style intervention: How to achieve spatial disentanglement with style-based generators?","author":"Liu","year":"2020","journal-title":"arXiv preprint"},{"key":"ref244","article-title":"Inverting layers of a large generator","volume-title":"Proceedings of the International Conference on Learning Representations","author":"Bau","year":"2021"},{"key":"ref245","article-title":"Improved styleGAN embedding: Where are the good latents?","author":"Zhu","year":"2020","journal-title":"arXiv preprint"},{"key":"ref246","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01368"},{"key":"ref247","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00482"},{"key":"ref248","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00975"},{"key":"ref249","article-title":"LSUN: Construction of a large-scale image dataset using deep learning with humans in the loop","author":"Yu","year":"2015","journal-title":"arXiv preprint"},{"key":"ref250","first-page":"592","article-title":"In-domain GANinversion for real image editing","volume-title":"Proceedings of the European Conference on Computer Vision","author":"Zhu","year":"2020"},{"key":"ref251","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01475"},{"key":"ref252","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i7.28532"},{"key":"ref253","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-024-02301-6"},{"key":"ref254","article-title":"The geometry of deep generative image models and its applications","author":"Wang","year":"2021","journal-title":"arXiv preprint"},{"key":"ref255","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00790"},{"key":"ref256","article-title":"Clip2Latent: Text driven sampling of a pre-trained styleGAN using denoising diffusion and clip","author":"Pinkney","year":"2022","journal-title":"arXiv preprint"},{"key":"ref257","doi-asserted-by":"publisher","DOI":"10.1145\/3588432.3591532"},{"key":"ref258","article-title":"Contraclip: Interpretable GAN generation driven by pairs of contrasting sentences","author":"Tzelepis","year":"2022","journal-title":"arXiv preprint"},{"key":"ref259","doi-asserted-by":"publisher","DOI":"10.1145\/3610287"},{"key":"ref260","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01185"},{"key":"ref261","article-title":"Classifier-free diffusion guidance","author":"Ho","year":"2022","journal-title":"arXiv preprint"},{"key":"ref262","doi-asserted-by":"publisher","DOI":"10.1109\/wacv61041.2025.00372"},{"key":"ref263","first-page":"15903","article-title":"ImageReward: Learning and evaluating human preferences for text-to-image generation","volume-title":"Proceedings of the 37th International Conference on Neural Information Processing Systems","author":"Xu","year":"2023"},{"key":"ref264","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00630"},{"key":"ref265","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00594"},{"key":"ref266","article-title":"Subject-driven text-to-image generation via apprenticeship learning","author":"Chen","year":"2023","journal-title":"arXiv preprint"},{"key":"ref267","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.01164"},{"key":"ref268","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00624"},{"key":"ref269","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72973-7_24"},{"key":"ref270","article-title":"DreamArtist: Towards controllable oneshot text-to-image generation via positive-negative prompttuning","author":"Dong","year":"2022","journal-title":"arXiv preprint"},{"key":"ref271","article-title":"TextBoost: Towards one-shot personalization of text-to-image models via fine-tuning text encoder","author":"Park","year":"2024","journal-title":"arXiv preprint"},{"key":"ref272","article-title":"P3S-Diffusion: A selective subject-drivengeneration framework via point supervision","author":"Hu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref273","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00782"},{"key":"ref274","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i7.28565"},{"key":"ref275","article-title":"Learning to customize text-to-image diffusion in diverse context","author":"Kim","year":"2024","journal-title":"arXiv preprint"},{"key":"ref276","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.335"},{"key":"ref277","article-title":"A-ECLIPSE: Multi-concept personalized text-to-image diffusion models by leveraging CLIP latent space","author":"Patel","year":"2024","journal-title":"arXiv preprint"},{"key":"ref278","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-91838-4_4"},{"key":"ref279","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00255"},{"key":"ref280","article-title":"EasyPortrait\u2014Face parsing and portrait segmentation dataset","author":"Kvanchiani","year":"2023","journal-title":"arXiv preprint"},{"key":"ref281","article-title":"PFLD: A practical facial landmark detector","author":"Guo","year":"2019","journal-title":"arXiv preprint"},{"key":"ref282","article-title":"SeFi-IDE: Semantic-fidelity identity embedding for personalized diffusion-based generation","author":"Li","year":"2024","journal-title":"arXiv preprint"},{"key":"ref283","article-title":"Dense-face: Personalized face generation model via dense annotation prediction","author":"Guo","year":"2024","journal-title":"arXiv preprint"},{"key":"ref284","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i5.32529"},{"key":"ref285","article-title":"Omni-ID: Holistic identity representation designed for generative tasks","author":"Qian","year":"2024","journal-title":"arXiv preprint"},{"key":"ref286","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i7.32769"},{"key":"ref287","article-title":"PersonaHOI: Effortlessly improving personalized face with human-object interaction generation","author":"Hu","year":"2025","journal-title":"arXiv preprint"},{"key":"ref288","article-title":"UniPortrait: A unified framework for identity-preserving single-and multi-human image personalization","author":"He","year":"2024","journal-title":"arXiv preprint"},{"key":"ref289","article-title":"IC-Portrait: In-context matching for view-consistent personalized portrait","author":"Yang","year":"2025","journal-title":"arXiv preprint"},{"key":"ref290","doi-asserted-by":"publisher","DOI":"10.1109\/tip.2025.3558668"},{"key":"ref291","doi-asserted-by":"publisher","DOI":"10.1145\/3610548.3618249"},{"key":"ref292","article-title":"FaceStudio: Put your face everywhere in seconds","author":"Yan","year":"2023","journal-title":"arXiv preprint"},{"key":"ref293","article-title":"FaceChainFACT: Face adapter with decoupled training for identity preserved personalization","author":"Yu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref294","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i3.28020"},{"key":"ref295","article-title":"IDAligner: Enhancing identity-preserving text-to-image generation with reward feedback learning","author":"Chen","year":"2024","journal-title":"arXiv preprint"},{"key":"ref296","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW63382.2024.00100"},{"key":"ref297","article-title":"Latent consistency models: Synthesizing high-resolution images with few-step inference","author":"Luo","year":"2023","journal-title":"arXiv preprint"},{"key":"ref298","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00733"},{"key":"ref299","article-title":"Foundation cures personalization: Recovering facial personalized models\u2019 prompt consistency","author":"Cai","year":"2024","journal-title":"arXiv preprint"},{"key":"ref300","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00206"},{"key":"ref301","article-title":"EmojiDiff: Advanced facial expression control with high identity preservation in portrait generation","author":"Jiang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref302","article-title":"MagicID: Flexible ID fidelity generation system","author":"Deng","year":"2024","journal-title":"arXiv preprint"},{"key":"ref303","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2024.102869"},{"key":"ref304","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00199"},{"key":"ref305","article-title":"From parts to whole: A unified reference framework for controllable human image generation","author":"Huang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref306","doi-asserted-by":"publisher","DOI":"10.1145\/3618342"},{"key":"ref307","article-title":"Style-friendly SNR sampler for style-driven generation","author":"Choi","year":"2024","journal-title":"arXiv preprint"},{"key":"ref308","doi-asserted-by":"publisher","DOI":"10.1145\/3618315"},{"key":"ref309","doi-asserted-by":"publisher","DOI":"10.1109\/wacv61041.2025.00590"},{"key":"ref310","article-title":"Break-for-make: Modular low-rank adaptations for composable content-style customization","author":"Xu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref311","article-title":"Content-style disentangled representation for controllable artistic image stylization and generation","author":"Zhuoqi","year":"2024","journal-title":"arXiv preprint"},{"key":"ref312","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72684-2_11"},{"key":"ref313","article-title":"Personalizing text-to-image generation via aesthetic gradients","author":"Gallego","year":"2022","journal-title":"arXiv preprint"},{"key":"ref314","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00457"},{"key":"ref315","article-title":"Towards accurate guided diffusion sampling through symplectic adjoint method","author":"Pan","year":"2023","journal-title":"arXiv preprint"},{"key":"ref316","article-title":"FreeTuner: Any subject in any style with training-free diffusion","author":"Xu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref317","article-title":"RB-Modulation: Training-free personalization of diffusion models using stochastic optimal control","author":"Rout","year":"2024","journal-title":"arXiv preprint"},{"key":"ref318","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00748"},{"key":"ref319","article-title":"Mix-of-show: Decentralized low-rank adaptation for multi-concept customization of diffusion models","author":"Gu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref320","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00761"},{"key":"ref321","article-title":"LoRA.rar: Learning to merge LoRAs via hypernetworks for subject-style conditioned image generation","author":"Shenaj","year":"2024","journal-title":"arXiv preprint"},{"key":"ref322","article-title":"Block-wise LoRA: Revisiting fine-grained LoRA for effective personalization and stylization in text-to-image generation","author":"Li","year":"2024","journal-title":"arXiv preprint"},{"key":"ref323","article-title":"Identity decoupling for multi-subject personalization of text-to-image models","author":"Jang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref324","article-title":"Improving multi-subject consistency in open-domain image generation with isolation and reposition attention","author":"He","year":"2024","journal-title":"arXiv preprint"},{"key":"ref325","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00456"},{"key":"ref326","doi-asserted-by":"publisher","DOI":"10.1109\/tip.2025.3633153"},{"key":"ref327","article-title":"Multi-subject personalization","author":"Jain","year":"2024","journal-title":"arXiv preprint"},{"key":"ref328","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-024-02309-y"},{"key":"ref329","doi-asserted-by":"publisher","DOI":"10.1145\/3757377.3763867"},{"key":"ref330","article-title":"GANTASTIC: GAN-based transfer of interpretable directions for disentangled image editing in text-to-image diffusion models","author":"Dalva","year":"2024","journal-title":"arXiv preprint"},{"key":"ref331","article-title":"Liquid: Language models are scalable multi-modal generators","author":"Wu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref332","article-title":"NexusGen: A unified model for image understanding, generation, and editing","author":"Zhang","year":"2025","journal-title":"arXiv preprint"},{"key":"ref333","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00243"},{"key":"ref334","article-title":"Mogao: An omni foundation model for interleaved multi-modal generation","author":"Liao","year":"2025","journal-title":"arXiv preprint"},{"key":"ref335","article-title":"Illume+: Illuminating unified MLLM with dual visual tokenization and diffusion refinement","author":"Huang","year":"2025","journal-title":"arXiv preprint"},{"key":"ref336","article-title":"Llama 2: Open foundation and fine-tuned chat models","author":"Touvron","year":"2023","journal-title":"arXiv preprint"},{"key":"ref337","volume-title":"GPT4o","year":"2025"},{"key":"ref338","volume-title":"Gemini 2.0 Flash","year":"2025"},{"key":"ref339","article-title":"Multi-modal generative ai: Multi-modal LLM, diffusion and beyond","author":"Chen","year":"2024","journal-title":"arXiv preprint"},{"key":"ref340","article-title":"Dreambench++: A human-aligned benchmark for personalized image generation","author":"Peng","year":"2024","journal-title":"arXiv preprint"},{"key":"ref341","first-page":"6629","article-title":"GANs trained by a two time-scale update rule converge to a local Nash equilibrium","volume-title":"Proceedings of the 31st International Conference on Neural Information Processing Systems","author":"Heusel","year":"2017"},{"key":"ref342","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.308"},{"key":"ref343","article-title":"Dinov2: Learning robust visual features without supervision","author":"Oquab","year":"2023","journal-title":"arXiv preprint"},{"key":"ref344","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00202"},{"key":"ref345","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02286"},{"key":"ref346","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01145"},{"key":"ref347","article-title":"Investigating and defending shortcut learning in personalized diffusion models","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref348","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73390-1_20"},{"key":"ref349","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00857"},{"key":"ref350","article-title":"Visual watermarking in the era of diffusion models: Advances and challenges","author":"Duan","year":"2025","journal-title":"arXiv preprint"},{"key":"ref351","article-title":"AnimateDIFF: Animate your personalized text-to-image diffusion models without specific tuning","author":"Guo","year":"2023","journal-title":"arXiv preprint"},{"key":"ref352","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i10.33114"},{"key":"ref353","article-title":"Wan: Open and advanced large-scale video generative models","author":"Wan","year":"2025","journal-title":"arXiv preprint"},{"key":"ref354","article-title":"ControlVideo: Training-free controllable text-to-video generation","author":"Zhang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref355","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00740"},{"key":"ref356","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01227"},{"key":"ref357","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3680718"},{"key":"ref358","article-title":"CustomVideo: Customizing text-to-video generation with multiple subjects","author":"Wang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref359","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00639"},{"key":"ref360","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00223"},{"key":"ref361","article-title":"Chasing consistency in text-to-3D generation from a single image","author":"Ouyang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref362","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3680637"},{"key":"ref363","article-title":"VideoDreamer: Customized multi-subject text-to-video generation with Disen-Mix finetuning","author":"Chen","year":"2023","journal-title":"arXiv preprint"},{"key":"ref364","article-title":"CustomVideoX: 3D reference attention driven dynamic adaptation for zero-shot customized video diffusion transformers","author":"She","year":"2025","journal-title":"arXiv preprint"},{"key":"ref365","article-title":"PersonalVideo:High ID-fidelity video customization without dynamic and semantic degradation","author":"Li","year":"2024","journal-title":"arXiv preprint"},{"key":"ref366","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00625"},{"key":"ref367","doi-asserted-by":"publisher","DOI":"10.1145\/3641519.3657481"},{"key":"ref368","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00880"},{"key":"ref369","article-title":"EfficientMT: Efficient temporal adaptation for motion transfer in text-to-video diffusion models","author":"Cai","year":"2025","journal-title":"arXiv preprint"}],"container-title":["Computational Visual Media"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10750449\/11293157\/11145202.pdf?arnumber=11145202","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,11]],"date-time":"2025-12-11T18:44:38Z","timestamp":1765478678000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11145202\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12]]},"references-count":369,"journal-issue":{"issue":"6"},"URL":"https:\/\/doi.org\/10.26599\/cvm.2025.9450495","relation":{},"ISSN":["2096-0662","2096-0433"],"issn-type":[{"value":"2096-0662","type":"electronic"},{"value":"2096-0433","type":"print"}],"subject":[],"published":{"date-parts":[[2025,12]]}}}