{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:55:16Z","timestamp":1781538916333,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":74,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"National Natural Science Foundation of China","award":["62302535"],"award-info":[{"award-number":["62302535"]}]},{"name":"National Natural Science Foundation of China","award":["62176223"],"award-info":[{"award-number":["62176223"]}]},{"name":"National Natural Science Foundation of China","award":["61902087"],"award-info":[{"award-number":["61902087"]}]},{"name":"Zhuhai Basic and Applied Basic Research Foundation","award":["2320004002745"],"award-info":[{"award-number":["2320004002745"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810698","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"1879-1888","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Training for Identity, Inference for Controllability: A Unified Approach to Tuning-Free Face Personalization"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-5398-1140","authenticated-orcid":false,"given":"Lianyu","family":"Pang","sequence":"first","affiliation":[{"name":"Sun Yat-sen University, Zhuhai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-4763-2755","authenticated-orcid":false,"given":"Ji","family":"Zhou","sequence":"additional","affiliation":[{"name":"Sun Yat-sen University, Zhuhai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5308-6723","authenticated-orcid":false,"given":"Qiping","family":"Wang","sequence":"additional","affiliation":[{"name":"East China Normal University, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0574-1663","authenticated-orcid":false,"given":"Baoquan","family":"Zhao","sequence":"additional","affiliation":[{"name":"Sun Yat-sen University, Zhuhai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3279-0732","authenticated-orcid":false,"given":"Zhenguo","family":"Yang","sequence":"additional","affiliation":[{"name":"Guangdong University of Technology, Guangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3370-471X","authenticated-orcid":false,"given":"Qing","family":"Li","sequence":"additional","affiliation":[{"name":"The Hong Kong Polytechnic University, Hong Kong, Hong Kong"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1952-4176","authenticated-orcid":false,"given":"Xudong","family":"Mao","sequence":"additional","affiliation":[{"name":"Sun Yat-sen University, Zhuhai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","doi-asserted-by":"crossref","unstructured":"Yuval Alaluf Elad Richardson Gal Metzer and Daniel Cohen-Or. 2023. A neural space-time representation for text-to-image personalization. ACM Transactions on Graphics (TOG) 42 6 (2023) 1\u201310.","DOI":"10.1145\/3618322"},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW54120.2021.00166"},{"key":"e_1_3_3_1_4_2","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687604"},{"key":"e_1_3_3_1_5_2","doi-asserted-by":"publisher","DOI":"10.1145\/3610548.3618154"},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"publisher","DOI":"10.1145\/3641519.3657430"},{"key":"e_1_3_3_1_7_2","unstructured":"Yiyang Cai Zhengkai Jiang Yulong Liu Chunyang Jiang Wei Xue Yike Guo and Wenhan Luo. 2024. Foundation Cures Personalization: Improving Personalized Models\u2019 Prompt Consistency via Hidden Foundation Knowledge. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2411.15277 (2024)."},{"key":"e_1_3_3_1_8_2","unstructured":"Li Chen Mengyi Zhao Yiheng Liu Mingxu Ding Yangyang Song Shizun Wang Xu Wang Hao Yang Jing Liu Kang Du et\u00a0al. 2023. Photoverse: Tuning-free image customization with text-to-image diffusion models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2309.05793 (2023)."},{"key":"e_1_3_3_1_9_2","doi-asserted-by":"crossref","unstructured":"Wenhu Chen Hexiang Hu Yandong Li Nataniel Ruiz Xuhui Jia Ming-Wei Chang and William\u00a0W Cohen. 2023. Subject-driven text-to-image generation via apprenticeship learning. Advances in Neural Information Processing Systems 36 (2023) 30286\u201330305.","DOI":"10.52202\/075280-1318"},{"key":"e_1_3_3_1_10_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i2.27891"},{"key":"e_1_3_3_1_11_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i3.32245"},{"key":"e_1_3_3_1_12_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW63382.2024.00100"},{"key":"e_1_3_3_1_13_2","unstructured":"Haoran Feng Zehuan Huang Lin Li Hairong Lv and Lu Sheng. 2025. Personalize anything for free with diffusion transformer. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2503.12590 (2025)."},{"key":"e_1_3_3_1_14_2","first-page":"181","volume-title":"European Conference on Computer Vision","author":"Frenkel Yarden","year":"2024","unstructured":"Yarden Frenkel, Yael Vinker, Ariel Shamir, and Daniel Cohen-Or. 2024. Implicit style-content separation using b-lora. In European Conference on Computer Vision. Springer, 181\u2013198."},{"key":"e_1_3_3_1_15_2","unstructured":"Rinon Gal Yuval Alaluf Yuval Atzmon Or Patashnik Amit\u00a0H Bermano Gal Chechik and Daniel Cohen-Or. 2022. An image is worth one word: Personalizing text-to-image generation using textual inversion. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2208.01618 (2022)."},{"key":"e_1_3_3_1_16_2","doi-asserted-by":"crossref","unstructured":"Rinon Gal Moab Arar Yuval Atzmon Amit\u00a0H Bermano Gal Chechik and Daniel Cohen-Or. 2023. Encoder-based domain tuning for fast personalization of text-to-image models. ACM Transactions on Graphics (TOG) 42 4 (2023) 1\u201313.","DOI":"10.1145\/3592133"},{"key":"e_1_3_3_1_17_2","first-page":"322","volume-title":"European Conference on Computer Vision","author":"Gal Rinon","year":"2024","unstructured":"Rinon Gal, Or Lichter, Elad Richardson, Or Patashnik, Amit\u00a0H Bermano, Gal Chechik, and Daniel Cohen-Or. 2024. Lcm-lookahead for encoder-based text-to-image personalization. In European Conference on Computer Vision. Springer, 322\u2013340."},{"key":"e_1_3_3_1_18_2","doi-asserted-by":"crossref","unstructured":"Zinan Guo Yanze Wu Chen Zhuowei Peng Zhang Qian He et\u00a0al. 2024. Pulid: Pure and lightning id customization via contrastive alignment. Advances in neural information processing systems 37 (2024) 36777\u201336804.","DOI":"10.52202\/079017-1159"},{"key":"e_1_3_3_1_19_2","unstructured":"Ligong Han Yinxiao Li Han Zhang Peyman Milanfar Dimitris Metaxas and Feng Yang. 2023. SVDiff: Compact Parameter Space for Diffusion Fine-Tuning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2303.11305 (2023)."},{"key":"e_1_3_3_1_20_2","unstructured":"Junjie He Yifeng Geng and Liefeng Bo. 2024. UniPortrait: A Unified Framework for Identity-Preserving Single- and Multi-Human Image Personalization. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2408.05939 (2024)."},{"key":"e_1_3_3_1_21_2","unstructured":"Xingzhe He Zhiwen Cao Nicholas Kolkin Lantao Yu Helge Rhodin and Ratheesh Kalarot. 2023. A Data Perspective on Enhanced Identity Preservation for Diffusion Personalization. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2311.04315 (2023)."},{"key":"e_1_3_3_1_22_2","volume-title":"ICLR","author":"Hu Edward\u00a0J","year":"2022","unstructured":"Edward\u00a0J Hu, yelong shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. 2022. LoRA: Low-Rank Adaptation of Large Language Models. In ICLR."},{"key":"e_1_3_3_1_23_2","unstructured":"Miao Hua Jiawei Liu Fei Ding Wei Liu Jie Wu and Qian He. 2023. DreamTuner: Single Image is Enough for Subject-Driven Generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2312.13691 (2023)."},{"key":"e_1_3_3_1_24_2","doi-asserted-by":"crossref","unstructured":"Mengqi Huang Zhendong Mao Mingcong Liu Qian He and Yongdong Zhang. 2024. RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2403.00483 (2024).","DOI":"10.1109\/CVPR52733.2024.00714"},{"key":"e_1_3_3_1_25_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00594"},{"key":"e_1_3_3_1_26_2","unstructured":"Xuhui Jia Yang Zhao Kelvin\u00a0CK Chan Yandong Li Han Zhang Boqing Gong Tingbo Hou Huisheng Wang and Yu-Chuan Su. 2023. Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2304.02642 (2023)."},{"key":"e_1_3_3_1_27_2","unstructured":"Jiaxiu Jiang Yabo Zhang Kailai Feng Xiaohe Wu and Wangmeng Zuo. 2024. MC2: Multi-concept Guidance for Customized Multi-concept Generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2404.05268 (2024)."},{"key":"e_1_3_3_1_28_2","first-page":"410","volume-title":"European Conference on Computer Vision","author":"Jin Jian","year":"2024","unstructured":"Jian Jin, Yang Shen, Zhenyong Fu, and Jian Yang. 2024. Customized generation reimagined: Fidelity and editability harmonized. In European Conference on Computer Vision. Springer, 410\u2013426."},{"key":"e_1_3_3_1_29_2","doi-asserted-by":"crossref","unstructured":"Jian Jin Yang Shen Xinyang Zhao Zhenyong Fu and Jian Yang. 2025. Unicanvas: Affordance-aware unified real image editing via customized text-to-image generation. International Journal of Computer Vision 133 6 (2025) 3456\u20133480.","DOI":"10.1007\/s11263-024-02334-x"},{"key":"e_1_3_3_1_30_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02196"},{"key":"e_1_3_3_1_31_2","doi-asserted-by":"crossref","unstructured":"Maxwell Jones Sheng-Yu Wang Nupur Kumari David Bau and Jun-Yan Zhu. 2024. Customizing Text-to-Image Models with a Single Image Pair. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2405.01536 (2024).","DOI":"10.1145\/3680528.3687642"},{"key":"e_1_3_3_1_32_2","volume-title":"NeurIPS","author":"Karras Tero","year":"2021","unstructured":"Tero Karras, Miika Aittala, Samuli Laine, Erik H\u00e4rk\u00f6nen, Janne Hellsten, Jaakko Lehtinen, and Timo Aila. 2021. Alias-Free Generative Adversarial Networks. In NeurIPS."},{"key":"e_1_3_3_1_33_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00453"},{"key":"e_1_3_3_1_34_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00582"},{"key":"e_1_3_3_1_35_2","unstructured":"Chanran Kim Jeongin Lee Shichang Joung Bongmo Kim and Yeul-Min Baek. 2024. InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2404.19427 (2024)."},{"key":"e_1_3_3_1_36_2","doi-asserted-by":"crossref","unstructured":"Zhe Kong Yong Zhang Tianyu Yang Tao Wang Kaihao Zhang Bizhu Wu Guanying Chen Wei Liu and Wenhan Luo. 2024. Omg: Occlusion-friendly personalized multi-concept generation in diffusion models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2403.10983 (2024).","DOI":"10.1007\/978-3-031-72751-1_15"},{"key":"e_1_3_3_1_37_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00192"},{"key":"e_1_3_3_1_38_2","unstructured":"Black\u00a0Forest Labs. 2024. FLUX. https:\/\/github.com\/black-forest-labs\/flux."},{"key":"e_1_3_3_1_39_2","unstructured":"Black\u00a0Forest Labs Stephen Batifol Andreas Blattmann Frederic Boesel Saksham Consul Cyril Diagne Tim Dockhorn Jack English Zion English Patrick Esser Sumith Kulal Kyle Lacey Yam Levi Cheng Li Dominik Lorenz Jonas M\u00fcller Dustin Podell Robin Rombach Harry Saini Axel Sauer and Luke Smith. 2025. FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2506.15742 (2025)."},{"key":"e_1_3_3_1_40_2","volume-title":"NeurIPS","author":"Li Dongxu","year":"2023","unstructured":"Dongxu Li, Junnan Li, and Steven C.\u00a0H. Hoi. 2023. BLIP-Diffusion: Pre-trained Subject Representation for Controllable Text-to-Image Generation and Editing. In NeurIPS."},{"key":"e_1_3_3_1_41_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00213"},{"key":"e_1_3_3_1_42_2","unstructured":"Zhen Li Mingdeng Cao Xintao Wang Zhongang Qi Ming-Ming Cheng and Ying Shan. 2023. PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2312.04461 (2023)."},{"key":"e_1_3_3_1_43_2","unstructured":"Shanchuan Lin Anran Wang and Xiao Yang. 2024. Sdxl-lightning: Progressive adversarial diffusion distillation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2402.13929 (2024)."},{"key":"e_1_3_3_1_44_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.425"},{"key":"e_1_3_3_1_45_2","unstructured":"LoRA. 2022. Low-rank Adaptation for Fast Text-to-Image Diffusion Fine-tuning. https:\/\/github.com\/cloneofsimo\/lora."},{"key":"e_1_3_3_1_46_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i5.28226"},{"key":"e_1_3_3_1_47_2","unstructured":"Daniil Ostashev Yuwei Fang Sergey Tulyakov Kfir Aberman et\u00a0al. 2024. MoA: Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2404.11565 (2024)."},{"key":"e_1_3_3_1_48_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00802"},{"key":"e_1_3_3_1_49_2","doi-asserted-by":"crossref","unstructured":"Or Patashnik Rinon Gal Daniil Ostashev Sergey Tulyakov Kfir Aberman and Daniel Cohen-Or. 2024. Nested Attention: Semantic-aware Attention Values for Concept Personalization. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2501.01407 (2024).","DOI":"10.1145\/3721238.3730634"},{"key":"e_1_3_3_1_50_2","unstructured":"Dustin Podell Zion English Kyle Lacey Andreas Blattmann Tim Dockhorn Jonas M\u00fcller Joe Penna and Robin Rombach. 2023. SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2307.01952 (2023)."},{"key":"e_1_3_3_1_51_2","volume-title":"ICML","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong\u00a0Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et\u00a0al. 2021. Learning transferable visual models from natural language supervision. In ICML."},{"key":"e_1_3_3_1_52_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"e_1_3_3_1_53_2","volume-title":"ICLR","author":"Rout Litu","year":"2025","unstructured":"Litu Rout, Yujia Chen, Nataniel Ruiz, Abhishek Kumar, Constantine Caramanis, Sanjay Shakkottai, and Wen-Sheng Chu. 2025. RB-Modulation: Training-Free Personalization of Diffusion Models using Stochastic Optimal Control. In ICLR."},{"key":"e_1_3_3_1_54_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02155"},{"key":"e_1_3_3_1_55_2","unstructured":"Nataniel Ruiz Yuanzhen Li Varun Jampani Wei Wei Tingbo Hou Yael Pritch Neal Wadhwa Michael Rubinstein and Kfir Aberman. 2023. HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2307.06949 (2023)."},{"key":"e_1_3_3_1_56_2","volume-title":"ECCV","author":"Sauer Axel","year":"2024","unstructured":"Axel Sauer, Dominik Lorenz, Andreas Blattmann, and Robin Rombach. 2024. Adversarial diffusion distillation. In ECCV."},{"key":"e_1_3_3_1_57_2","unstructured":"SG161222. 2024. RealVisXL V5.0. https:\/\/huggingface.co\/SG161222\/RealVisXL_V5.0. Stable Diffusion XL based text-to-image model."},{"key":"e_1_3_3_1_58_2","unstructured":"Jing Shi Wei Xiong Zhe Lin and Hyun\u00a0Joon Jung. 2023. Instantbooth: Personalized text-to-image generation without test-time finetuning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2304.03411 (2023)."},{"key":"e_1_3_3_1_59_2","doi-asserted-by":"publisher","DOI":"10.1145\/3588432.3591506"},{"key":"e_1_3_3_1_60_2","doi-asserted-by":"crossref","unstructured":"Dani Valevski Danny Wasserman Yossi Matias and Yaniv Leviathan. 2023. Face0: Instantaneously Conditioning a Text-to-Image Model on a Face. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2306.06638 (2023).","DOI":"10.1145\/3610548.3618249"},{"key":"e_1_3_3_1_61_2","unstructured":"Andrey Voynov Qinghao Chu Daniel Cohen-Or and Kfir Aberman. 2023. P + : Extended Textual Conditioning in Text-to-Image Generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2303.09522 (2023)."},{"key":"e_1_3_3_1_62_2","unstructured":"Qixun Wang Xu Bai Haofan Wang Zekui Qin and Anthony Chen. 2024. InstantID: Zero-shot Identity-Preserving Generation in Seconds. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2401.07519 (2024)."},{"key":"e_1_3_3_1_63_2","unstructured":"Qinghe Wang Xu Jia Xiaomin Li Taiqing Li Liqian Ma Yunzhi Zhuge and Huchuan Lu. 2024. StableIdentity: Inserting Anybody into Anywhere at First Sight. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2401.15975 (2024)."},{"key":"e_1_3_3_1_64_2","unstructured":"Shuhe Wang Xiaoya Li Jiwei Li Guoyin Wang Xiaofei Sun Bob Zhu Han Qiu Mo Yu Shengjie Shen Tianwei Zhang et\u00a0al. 2025. Faceid-6m: A large-scale open-source faceid customization dataset. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2503.07091 (2025)."},{"key":"e_1_3_3_1_65_2","unstructured":"Yuxiang Wei Yabo Zhang Zhilong Ji Jinfeng Bai Lei Zhang and Wangmeng Zuo. 2023. ELITE: Encoding Visual Concepts into Textual Embeddings for Customized Text-to-Image Generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2302.13848 (2023)."},{"key":"e_1_3_3_1_66_2","doi-asserted-by":"crossref","unstructured":"Yi Wu Ziqiang Li Heliang Zheng Chaoyue Wang and Bin Li. 2024. Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2403.11781 (2024).","DOI":"10.1007\/978-3-031-73242-3_16"},{"key":"e_1_3_3_1_67_2","unstructured":"Guangxuan Xiao Tianwei Yin William\u00a0T. Freeman Fr\u00e9do Durand and Song Han. 2023. FastComposer: Tuning-Free Multi-Subject Image Generation with Localized Attention. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2305.10431 (2023)."},{"key":"e_1_3_3_1_68_2","unstructured":"Hengyuan Xu Wei Cheng Peng Xing Yixiao Fang Shuhan Wu Rui Wang Xianfang Zeng Daxin Jiang Gang Yu Xingjun Ma et\u00a0al. 2025. WithAnyone: Towards Controllable and ID Consistent Image Generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2510.14975 (2025)."},{"key":"e_1_3_3_1_69_2","unstructured":"Hu Ye Jun Zhang Sibo Liu Xiao Han and Wei Yang. 2023. Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2308.06721 (2023)."},{"key":"e_1_3_3_1_70_2","volume-title":"NeurIPS","author":"Yuan Ge","year":"2023","unstructured":"Ge Yuan, Xiaodong Cun, Yong Zhang, Maomao Li, Chenyang Qi, Xintao Wang, Ying Shan, and Huicheng Zheng. 2023. Inserting Anybody in Diffusion Models via Celeb Basis. In NeurIPS."},{"key":"e_1_3_3_1_71_2","unstructured":"Shilong Zhang Lianghua Huang Xi Chen Yifei Zhang Zhi-Fan Wu Yutong Feng Wei Wang Yujun Shen Yu Liu and Ping Luo. 2023. FlashFace: Human Image Personalization with High-fidelity Identity Preservation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2403.17008 (2023)."},{"key":"e_1_3_3_1_72_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00836"},{"key":"e_1_3_3_1_73_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i10.33133"},{"key":"e_1_3_3_1_74_2","unstructured":"Yufan Zhou Ruiyi Zhang Tong Sun and Jinhui Xu. 2023. Enhancing Detail Preservation for Customized Text-to-Image Generation: A Regularization-Free Approach. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2305.13579 (2023)."},{"key":"e_1_3_3_1_75_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00134"}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:15:08Z","timestamp":1781536508000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810698"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":74,"alternative-id":["10.1145\/3805622.3810698","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810698","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}