{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,11]],"date-time":"2026-07-11T17:31:14Z","timestamp":1783791074253,"version":"3.55.0"},"reference-count":58,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"6","license":[{"start":{"date-parts":[[2025,6,1]],"date-time":"2025-06-01T00:00:00Z","timestamp":1748736000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,6,1]],"date-time":"2025-06-01T00:00:00Z","timestamp":1748736000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,6,1]],"date-time":"2025-06-01T00:00:00Z","timestamp":1748736000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U22A2096"],"award-info":[{"award-number":["U22A2096"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62036007"],"award-info":[{"award-number":["62036007"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Shaanxi Province Core Technology Research and Development Project","award":["2024QY2-GJHX-11"],"award-info":[{"award-number":["2024QY2-GJHX-11"]}]},{"DOI":"10.13039\/501100020790","name":"Young Talent Fund of Association for Science and Technology, Shaanxi, China","doi-asserted-by":"publisher","award":["20230121"],"award-info":[{"award-number":["20230121"]}],"id":[{"id":"10.13039\/501100020790","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Key Research and Development Program of Shaanxi Province","award":["2024SF-YBXM-647"],"award-info":[{"award-number":["2024SF-YBXM-647"]}]},{"DOI":"10.13039\/501100012226","name":"Fundamental Research Funds for the Central Universities","doi-asserted-by":"publisher","award":["QTZX23042"],"award-info":[{"award-number":["QTZX23042"]}],"id":[{"id":"10.13039\/501100012226","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Circuits Syst. Video Technol."],"published-print":{"date-parts":[[2025,6]]},"DOI":"10.1109\/tcsvt.2025.3531917","type":"journal-article","created":{"date-parts":[[2025,1,20]],"date-time":"2025-01-20T19:07:34Z","timestamp":1737400054000},"page":"6047-6058","source":"Crossref","is-referenced-by-count":18,"title":["CatVersion: Concatenating Embeddings for Diffusion-Based Text-to-Image Personalization"],"prefix":"10.1109","volume":"35","author":[{"given":"Ruoyu","family":"Zhao","sequence":"first","affiliation":[{"name":"State Key Laboratory of Integrated Services Networks, School of Telecommunications Engineering, Xidian University, Xi&#x2019;an, Shaanxi, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4179-7701","authenticated-orcid":false,"given":"Mingrui","family":"Zhu","sequence":"additional","affiliation":[{"name":"State Key Laboratory of Integrated Services Networks, School of Telecommunications Engineering, Xidian University, Xi&#x2019;an, Shaanxi, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Shiyin","family":"Dong","sequence":"additional","affiliation":[{"name":"State Key Laboratory of Integrated Services Networks, School of Telecommunications Engineering, Xidian University, Xi&#x2019;an, Shaanxi, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4603-847X","authenticated-orcid":false,"given":"De","family":"Cheng","sequence":"additional","affiliation":[{"name":"State Key Laboratory of Integrated Services Networks, School of Telecommunications Engineering, Xidian University, Xi&#x2019;an, Shaanxi, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4695-6134","authenticated-orcid":false,"given":"Nannan","family":"Wang","sequence":"additional","affiliation":[{"name":"State Key Laboratory of Integrated Services Networks, School of Telecommunications Engineering, Xidian University, Xi&#x2019;an, Shaanxi, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7985-0037","authenticated-orcid":false,"given":"Xinbo","family":"Gao","sequence":"additional","affiliation":[{"name":"Chongqing Key Laboratory of Image Cognition, Chongqing University of Posts and Telecommunications, Chongqing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","article-title":"An image is worth one word: Personalizing text-to-image generation using textual inversion","author":"Gal","year":"2022","journal-title":"arXiv:2208.01618"},{"key":"ref2","article-title":"GLIDE: Towards photorealistic image generation and editing with text-guided diffusion models","author":"Nichol","year":"2021","journal-title":"arXiv:2112.10741"},{"key":"ref3","article-title":"Hierarchical text-conditional image generation with CLIP latents","author":"Ramesh","year":"2022","journal-title":"arXiv:2204.06125"},{"key":"ref4","first-page":"36479","article-title":"Photorealistic text-to-image diffusion models with deep language understanding","volume-title":"Proc. NIPS","volume":"35","author":"Saharia"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02155"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00192"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1145\/3680528.3687658"},{"key":"ref9","article-title":"P+: Extended textual conditioning in text-to-image generation","author":"Voynov","year":"2023","journal-title":"arXiv:2303.09522"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1145\/3618342"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.629"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2018.2856256"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00160"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00143"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00243"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00595"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01602"},{"key":"ref18","first-page":"8821","article-title":"Zero-shot text-to-image generation","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Ramesh"},{"key":"ref19","first-page":"19822","article-title":"CogView: Mastering text-to-image generation via transformers","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NIPS)","author":"Ding"},{"key":"ref20","article-title":"M6: A Chinese multimodal pretrainer","author":"Lin","year":"2021","journal-title":"arXiv:2103.00823"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19784-0_6"},{"key":"ref22","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","volume":"139","author":"Radford"},{"key":"ref23","first-page":"6309","article-title":"Neural discrete representation learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"30","author":"van den Oord"},{"key":"ref24","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Ho"},{"key":"ref25","first-page":"8162","article-title":"Improved denoising diffusion probabilistic models","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Nichol"},{"key":"ref26","article-title":"Denoising diffusion implicit models","author":"Song","year":"2020","journal-title":"arXiv:2010.02502"},{"key":"ref27","article-title":"Score-based generative modeling through stochastic differential equations","author":"Song","year":"2020","journal-title":"arXiv:2011.13456"},{"key":"ref28","first-page":"8780","article-title":"Diffusion models beat GANs on image synthesis","volume-title":"Proc. NIPS","volume":"34","author":"Dhariwal"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2013.2242595"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2024.3396694"},{"issue":"3","key":"ref31","first-page":"8","article-title":"Improving image generation with better captions","volume":"2","author":"Betker","year":"2023","journal-title":"Comput. Sci."},{"key":"ref32","article-title":"SDXL: Improving latent diffusion models for high-resolution image synthesis","author":"Podell","year":"2023","journal-title":"arXiv:2307.01952"},{"key":"ref33","article-title":"Scaling rectified flow transformers for high-resolution image synthesis","author":"Esser","year":"2024","journal-title":"arXiv:2403.03206"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2021.3053577"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/tnnls.2022.3152990"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3285765"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2007.890633"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3338459"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2024.3369757"},{"key":"ref41","first-page":"21548","article-title":"Cones: Concept neurons in diffusion models for customized generation","volume-title":"Proc. 40th Int. Conf. Mach. Learn.","author":"Liu"},{"key":"ref42","first-page":"57500","article-title":"Cones 2: Customizable image synthesis with multiple subjects","volume-title":"Proc. 37th Int. Conf. Neural Inf. Process. Syst.","author":"Liu"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1145\/3588432.3591506"},{"key":"ref44","first-page":"17359","article-title":"Locating and editing factual associations in GPT","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"35","author":"Meng"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1145\/3592133"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01461"},{"key":"ref47","article-title":"Hard prompts made easy: Gradient-based discrete optimization for prompt tuning and discovery","author":"Wen","year":"2023","journal-title":"arXiv:2302.03668"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00673"},{"key":"ref49","article-title":"DisenBooth: Identity-preserving disentangled tuning for subject-driven text-to-image generation","author":"Chen","year":"2023","journal-title":"arXiv:2305.03374"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1145\/3610548.3618154"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1145\/3544777"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1145\/3528233.3530757"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acllong.353"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2024.3367416"},{"key":"ref55","volume-title":"Diffusers: State-of-the-Art Diffusion Models","author":"von Platen","year":"2022"},{"key":"ref56","article-title":"DINOv2: Learning robust visual features without supervision","author":"Oquab","year":"2023","journal-title":"arXiv:2304.07193"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00906"},{"key":"ref58","article-title":"Towards a unified view of parameter-efficient transfer learning","author":"He","year":"2021","journal-title":"arXiv:2110.04366"}],"container-title":["IEEE Transactions on Circuits and Systems for Video Technology"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/76\/11027896\/10847718.pdf?arnumber=10847718","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,10]],"date-time":"2025-06-10T17:54:59Z","timestamp":1749578099000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10847718\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6]]},"references-count":58,"journal-issue":{"issue":"6"},"URL":"https:\/\/doi.org\/10.1109\/tcsvt.2025.3531917","relation":{},"ISSN":["1051-8215","1558-2205"],"issn-type":[{"value":"1051-8215","type":"print"},{"value":"1558-2205","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,6]]}}}