{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T05:07:43Z","timestamp":1775020063042,"version":"3.50.1"},"reference-count":54,"publisher":"Elsevier BV","issue":"1","license":[{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2025,9,24]],"date-time":"2025-09-24T00:00:00Z","timestamp":1758672000000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U21B2024"],"award-info":[{"award-number":["U21B2024"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62472303"],"award-info":[{"award-number":["62472303"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62402334"],"award-info":[{"award-number":["62402334"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Visual Informatics"],"published-print":{"date-parts":[[2026,3]]},"DOI":"10.1016\/j.visinf.2025.100283","type":"journal-article","created":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T18:27:08Z","timestamp":1759343228000},"page":"100283","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"title":["Knowledge and multi-detail enhanced GAN for human-driven text-to-image synthesis"],"prefix":"10.1016","volume":"10","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-7526-4356","authenticated-orcid":false,"given":"Ning","family":"Xu","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0001-4688-4898","authenticated-orcid":false,"given":"Zhewen","family":"Shen","sequence":"additional","affiliation":[]},{"given":"Hongshuo","family":"Tian","sequence":"additional","affiliation":[]},{"given":"Bolun","family":"Zheng","sequence":"additional","affiliation":[]},{"given":"Chenggang","family":"Yan","sequence":"additional","affiliation":[]},{"given":"Jinbo","family":"Cao","sequence":"additional","affiliation":[]},{"given":"Rongbao","family":"Kang","sequence":"additional","affiliation":[]},{"given":"An-An","family":"Liu","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.visinf.2025.100283_b1","article-title":"Anydoor: Zero-shot object-level image customization","author":"Chen","year":"2023","journal-title":"CoRR"},{"key":"10.1016\/j.visinf.2025.100283_b2","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2019.105370","article-title":"DMGAN: Discriminative metric-based generative adversarial networks","volume":"192","author":"Chen","year":"2020","journal-title":"Knowl.-Based Syst."},{"issue":"2","key":"10.1016\/j.visinf.2025.100283_b3","doi-asserted-by":"crossref","first-page":"295","DOI":"10.1109\/TPAMI.2015.2439281","article-title":"Image super-resolution using deep convolutional networks","volume":"38","author":"Dong","year":"2016","journal-title":"PAMI"},{"key":"10.1016\/j.visinf.2025.100283_b4","series-title":"NeurIPS","article-title":"DreamSim: Learning new dimensions of human visual similarity using synthetic data","author":"Fu","year":"2023"},{"key":"10.1016\/j.visinf.2025.100283_b5","article-title":"An image is worth one word: Personalizing text-to-image generation using textual inversion","author":"Gal","year":"2022","journal-title":"ICLR"},{"issue":"11","key":"10.1016\/j.visinf.2025.100283_b6","doi-asserted-by":"crossref","first-page":"139","DOI":"10.1145\/3422622","article-title":"Generative adversarial networks","volume":"63","author":"Goodfellow","year":"2020","journal-title":"CACM"},{"issue":"2","key":"10.1016\/j.visinf.2025.100283_b7","doi-asserted-by":"crossref","first-page":"62","DOI":"10.1016\/j.visinf.2022.04.004","article-title":"VCNet: A generative model for volume completion","volume":"6","author":"Han","year":"2022","journal-title":"Vis. Informatics"},{"key":"10.1016\/j.visinf.2025.100283_b8","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J., 2016. Deep residual learning for image recognition. In: CVPR. pp. 770\u2013778.","DOI":"10.1109\/CVPR.2016.90"},{"key":"10.1016\/j.visinf.2025.100283_b9","article-title":"Gans trained by a two time-scale update rule converge to a local nash equilibrium","volume":"30","author":"Heusel","year":"2017","journal-title":"NeurIPS"},{"key":"10.1016\/j.visinf.2025.100283_b10","doi-asserted-by":"crossref","unstructured":"Hong, S., Yang, D., Choi, J., Lee, H., 2018. Inferring semantic layout for hierarchical text-to-image synthesis. In: CVPR. pp. 7986\u20137994.","DOI":"10.1109\/CVPR.2018.00833"},{"key":"10.1016\/j.visinf.2025.100283_b11","series-title":"CVPR","first-page":"7986","article-title":"Inferring semantic layout for hierarchical text-to-image synthesis","author":"Hong","year":"2018"},{"key":"10.1016\/j.visinf.2025.100283_b12","article-title":"DreamTuner: Single image is enough for subject-driven generation","author":"Hua","year":"2023","journal-title":"CoRR"},{"key":"10.1016\/j.visinf.2025.100283_b13","series-title":"CVPR","first-page":"10124","article-title":"Scaling up gans for text-to-image synthesis","author":"Kang","year":"2023"},{"key":"10.1016\/j.visinf.2025.100283_b14","series-title":"CVPR","first-page":"4401","article-title":"A style-based generator architecture for generative adversarial networks","author":"Karras","year":"2019"},{"key":"10.1016\/j.visinf.2025.100283_b15","doi-asserted-by":"crossref","unstructured":"Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J., Aila, T., 2020. Analyzing and improving the image quality of StyleGAN. In: CVPR. pp. 8107\u20138116.","DOI":"10.1109\/CVPR42600.2020.00813"},{"key":"10.1016\/j.visinf.2025.100283_b16","article-title":"Adam: A method for stochastic optimization","author":"Kingma","year":"2014","journal-title":"ICLR"},{"key":"10.1016\/j.visinf.2025.100283_b17","series-title":"CVPR","first-page":"1931","article-title":"Multi-concept customization of text-to-image diffusion","author":"Kumari","year":"2023"},{"key":"10.1016\/j.visinf.2025.100283_b18","series-title":"CVPR","first-page":"8640","article-title":"PhotoMaker: Customizing realistic human photos via stacked ID embedding","author":"Li","year":"2024"},{"key":"10.1016\/j.visinf.2025.100283_b19","unstructured":"Li, J., Li, D., Savarese, S., Hoi, S.C.H., 2023. BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. Krause, A., Brunskill, E., Cho, K., Engelhardt, B., Sabato, S., Scarlett, J. (Eds.), In: ICML. In: Proceedings of Machine Learning Research, vol. 202. pp. 19730\u201319742."},{"key":"10.1016\/j.visinf.2025.100283_b20","series-title":"NIPS","first-page":"3950","article-title":"PasteGAN: A semi-parametric method to generate image from scene graph","author":"Li","year":"2019"},{"key":"10.1016\/j.visinf.2025.100283_b21","series-title":"NeurIPS","first-page":"3950","article-title":"Pastegan: A semi-parametric method to generate image from scene graph","author":"Li","year":"2019"},{"key":"10.1016\/j.visinf.2025.100283_b22","doi-asserted-by":"crossref","unstructured":"Lin, T., Maire, M., Belongie, S.J., Hays, J., Perona, P., Ramanan, D., Doll\u00e1r, P., Zitnick, C.L., 2014. Microsoft COCO: Common objects in context. In: Fleet, D.J., Pajdla, T., Schiele, B., Tuytelaars, T. (Eds.) ECCV. In: Lecture Notes in Computer Science, vol. 8693. pp. 740\u2013755.","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"10.1016\/j.visinf.2025.100283_b23","series-title":"Unified multi-modal latent diffusion for joint subject and text conditional image generation","author":"Ma","year":"2023"},{"key":"10.1016\/j.visinf.2025.100283_b24","unstructured":"Nichol, A.Q., Dhariwal, P., Ramesh, A., Shyam, P., Mishkin, P., McGrew, B., Sutskever, I., Chen, M., GLIDE: Towards photorealistic image generation and editing with text-guided diffusion models. In: Chaudhuri, K., Jegelka, S., Song, L., Szepesv\u00e1ri, C., Niu, G., Sabato, S. (Eds.), ICML. In: Proceedings of Machine Learning Research, vol. 162. pp. 16784\u201316804."},{"issue":"6","key":"10.1016\/j.visinf.2025.100283_b25","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3550454.3555436","article-title":"Mystyle: A personalized generative prior","volume":"41","author":"Nitzan","year":"2022","journal-title":"ACM Trans. Graph."},{"key":"10.1016\/j.visinf.2025.100283_b26","series-title":"CVPR","first-page":"2085","article-title":"Styleclip: Text-driven manipulation of stylegan imagery","author":"Patashnik","year":"2021"},{"key":"10.1016\/j.visinf.2025.100283_b27","doi-asserted-by":"crossref","first-page":"4356","DOI":"10.1109\/TMM.2021.3116416","article-title":"Knowledge-driven generative adversarial network for text-to-image synthesis","volume":"24","author":"Peng","year":"2021","journal-title":"IEEE Trans. Multimed."},{"key":"10.1016\/j.visinf.2025.100283_b28","article-title":"Learn, imagine and create: Text-to-image generation from prior knowledge","volume":"32","author":"Qiao","year":"2019","journal-title":"NeurIPS"},{"key":"10.1016\/j.visinf.2025.100283_b29","series-title":"ICML","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021"},{"key":"10.1016\/j.visinf.2025.100283_b30","series-title":"Hierarchical text-conditional image generation with CLIP latents","author":"Ramesh","year":"2022"},{"key":"10.1016\/j.visinf.2025.100283_b31","series-title":"CVPR","first-page":"10684","article-title":"High-resolution image synthesis with latent diffusion models","author":"Rombach","year":"2022"},{"key":"10.1016\/j.visinf.2025.100283_b32","series-title":"CVPR","first-page":"22500","article-title":"Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation","author":"Ruiz","year":"2023"},{"key":"10.1016\/j.visinf.2025.100283_b33","series-title":"NIPS","article-title":"Photorealistic text-to-image diffusion models with deep language understanding","author":"Saharia","year":"2022"},{"key":"10.1016\/j.visinf.2025.100283_b34","series-title":"CVPR","first-page":"815","article-title":"Facenet: A unified embedding for face recognition and clustering","author":"Schroff","year":"2015"},{"key":"10.1016\/j.visinf.2025.100283_b35","series-title":"ACL","first-page":"2556","article-title":"Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning","author":"Sharma","year":"2018"},{"key":"10.1016\/j.visinf.2025.100283_b36","series-title":"InstantBooth: Personalized text-to-image generation without test-time finetuning","author":"Shi","year":"2023"},{"key":"10.1016\/j.visinf.2025.100283_b37","article-title":"AdBooster: Personalized ad creative generation using stable diffusion outpainting","author":"Shilova","year":"2023","journal-title":"CORR"},{"issue":"1","key":"10.1016\/j.visinf.2025.100283_b38","first-page":"26","article-title":"A restoration method using dual generate adversarial networks for Chinese ancient characters","volume":"6","author":"Su","year":"2022","journal-title":"Vis. Inf."},{"key":"10.1016\/j.visinf.2025.100283_b39","series-title":"CVPR","first-page":"14214","article-title":"GALIP: Generative adversarial CLIPs for text-to-image synthesis","author":"Tao","year":"2023"},{"key":"10.1016\/j.visinf.2025.100283_b40","series-title":"CVPR","first-page":"16515","article-title":"Df-gan: A simple and effective baseline for text-to-image synthesis","author":"Tao","year":"2022"},{"key":"10.1016\/j.visinf.2025.100283_b41","series-title":"NIPS","first-page":"5998","article-title":"Attention is all you need","author":"Vaswani","year":"2017"},{"key":"10.1016\/j.visinf.2025.100283_b42","series-title":"ICME","first-page":"2375","article-title":"CA-GAN: Object placement via coalescing attention based generative adversarial network","author":"Wang","year":"2023"},{"issue":"1","key":"10.1016\/j.visinf.2025.100283_b43","first-page":"30","article-title":"DenseCL: A simple framework for self-supervised dense visual pre-training","volume":"7","author":"Wang","year":"2023","journal-title":"Vis. Inf."},{"key":"10.1016\/j.visinf.2025.100283_b44","doi-asserted-by":"crossref","unstructured":"Wei, Y., Zhang, Y., Ji, Z., Bai, J., Zhang, L., Zuo, W., 2023. ELITE: Encoding visual concepts into textual embeddings for customized text-to-image generation. In: ICCV.","DOI":"10.1109\/ICCV51070.2023.01461"},{"key":"10.1016\/j.visinf.2025.100283_b45","series-title":"ECCV","first-page":"279","article-title":"Infinite-ID: Identity-preserved personalization via ID-semantics decoupling paradigm","volume":"vol. 15066","author":"Wu","year":"2024"},{"issue":"4","key":"10.1016\/j.visinf.2025.100283_b46","first-page":"36","article-title":"On generated artistic styles: Image generation experiments with gan algorithms","volume":"7","author":"Xiang","year":"2023","journal-title":"Vis. Inf."},{"key":"10.1016\/j.visinf.2025.100283_b47","article-title":"FastComposer: Tuning-free multi-subject image generation with localized attention","author":"Xiao","year":"2023","journal-title":"CoRR"},{"key":"10.1016\/j.visinf.2025.100283_b48","series-title":"CVPR","first-page":"1316","article-title":"Attngan: Fine-grained text to image generation with attentional generative adversarial networks","author":"Xu","year":"2018"},{"key":"10.1016\/j.visinf.2025.100283_b49","article-title":"IP-adapter: Text compatible image prompt adapter for text-to-image diffusion models","author":"Ye","year":"2023","journal-title":"CoRR"},{"key":"10.1016\/j.visinf.2025.100283_b50","unstructured":"Zhang, H., Goodfellow, I.J., Metaxas, D.N., Odena, A., 2018. Self-attention generative adversarial networks. In: Chaudhuri, K., Salakhutdinov, R. (Eds.), ICML. In: Proceedings of Machine Learning Research, vol. 97. 7354\u20137363."},{"key":"10.1016\/j.visinf.2025.100283_b51","series-title":"ICME","first-page":"1","article-title":"Msfc: Deep feature compression in multi-task network","author":"Zhang","year":"2021"},{"issue":"10","key":"10.1016\/j.visinf.2025.100283_b52","doi-asserted-by":"crossref","first-page":"1499","DOI":"10.1109\/LSP.2016.2603342","article-title":"Joint face detection and alignment using multitask cascaded convolutional networks","volume":"23","author":"Zhang","year":"2016","journal-title":"IEEE Signal Process. Lett."},{"issue":"2","key":"10.1016\/j.visinf.2025.100283_b53","first-page":"64","article-title":"Design and validation of a navigation system of multimodal medical images for neurosurgery based on mixed reality","volume":"7","author":"Zhou","year":"2023","journal-title":"Vis. Inf."},{"key":"10.1016\/j.visinf.2025.100283_b54","series-title":"CVPR","first-page":"17907","article-title":"Towards language-free training for text-to-image generation","author":"Zhou","year":"2022"}],"container-title":["Visual Informatics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S2468502X2500066X?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S2468502X2500066X?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T03:10:24Z","timestamp":1775013024000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S2468502X2500066X"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,3]]},"references-count":54,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2026,3]]}},"alternative-id":["S2468502X2500066X"],"URL":"https:\/\/doi.org\/10.1016\/j.visinf.2025.100283","relation":{},"ISSN":["2468-502X"],"issn-type":[{"value":"2468-502X","type":"print"}],"subject":[],"published":{"date-parts":[[2026,3]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Knowledge and multi-detail enhanced GAN for human-driven text-to-image synthesis","name":"articletitle","label":"Article Title"},{"value":"Visual Informatics","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.visinf.2025.100283","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2025 The Author(s). Published by Elsevier B.V. on behalf of Zhejiang University and Zhejiang University Press.","name":"copyright","label":"Copyright"}],"article-number":"100283"}}