{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,16]],"date-time":"2026-02-16T13:15:46Z","timestamp":1771247746606,"version":"3.50.1"},"reference-count":42,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Image and Vision Computing"],"published-print":{"date-parts":[[2026,3]]},"DOI":"10.1016\/j.imavis.2026.105898","type":"journal-article","created":{"date-parts":[[2026,1,7]],"date-time":"2026-01-07T00:10:22Z","timestamp":1767744622000},"page":"105898","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["LoRA-empowered efficient diffusion for accurate fine-grained detail rendering in real-image cartoonization"],"prefix":"10.1016","volume":"167","author":[{"given":"Mingjin","family":"Liu","sequence":"first","affiliation":[]},{"given":"Yien","family":"Li","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.imavis.2026.105898_b1","doi-asserted-by":"crossref","unstructured":"R. Rombach, A. Blattmann, D. Lorenz, P. Esser, B. Ommer, High-resolution image synthesis with latent diffusion models, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 10684\u201310695.","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"10.1016\/j.imavis.2026.105898_b2","series-title":"International Conference on Machine Learning","first-page":"8821","article-title":"Zero-shot text-to-image generation","author":"Ramesh","year":"2021"},{"key":"10.1016\/j.imavis.2026.105898_b3","first-page":"36479","article-title":"Photorealistic text-to-image diffusion models with deep language understanding","volume":"35","author":"Saharia","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.imavis.2026.105898_b4","doi-asserted-by":"crossref","unstructured":"P. Isola, J.Y. Zhu, T. Zhou, A.A. Efros, Image-to-image translation with conditional adversarial networks, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 1125\u20131134.","DOI":"10.1109\/CVPR.2017.632"},{"key":"10.1016\/j.imavis.2026.105898_b5","doi-asserted-by":"crossref","unstructured":"J.Y. Zhu, T. Park, P. Isola, A.A. Efros, Unpaired image-to-image translation using cycle-consistent adversarial networks, in: Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 2223\u20132232.","DOI":"10.1109\/ICCV.2017.244"},{"key":"10.1016\/j.imavis.2026.105898_b6","series-title":"Sdedit: Guided image synthesis and editing with stochastic differential equations","author":"Meng","year":"2021"},{"key":"10.1016\/j.imavis.2026.105898_b7","series-title":"Stable video diffusion: Scaling latent video diffusion models to large datasets","author":"Blattmann","year":"2023"},{"key":"10.1016\/j.imavis.2026.105898_b8","series-title":"Make-a-video: Text-to-video generation without text-video data","author":"Singer","year":"2022"},{"key":"10.1016\/j.imavis.2026.105898_b9","series-title":"Cogvideo: Large-scale pretraining for text-to-video generation via transformers","author":"Hong","year":"2022"},{"key":"10.1016\/j.imavis.2026.105898_b10","series-title":"Cogvideox: Text-to-video diffusion models with an expert transformer","author":"Yang","year":"2024"},{"key":"10.1016\/j.imavis.2026.105898_b11","series-title":"Dreamgaussian: Generative gaussian splatting for efficient 3d content creation","author":"Tang","year":"2023"},{"key":"10.1016\/j.imavis.2026.105898_b12","series-title":"Dreamfusion: Text-to-3d using 2d diffusion","author":"Poole","year":"2022"},{"key":"10.1016\/j.imavis.2026.105898_b13","doi-asserted-by":"crossref","unstructured":"C.H. Lin, J. Gao, L. Tang, T. Takikawa, X. Zeng, X. Huang, K. Kreis, S. Fidler, M.Y. Liu, T.Y. Lin, Magic3d: High-resolution text-to-3d content creation, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 300\u2013309.","DOI":"10.1109\/CVPR52729.2023.00037"},{"key":"10.1016\/j.imavis.2026.105898_b14","doi-asserted-by":"crossref","unstructured":"N. Mohammad Khalid, T. Xie, E. Belilovsky, T. Popa, Clip-mesh: Generating textured meshes from text using pretrained image-text models, in: SIGGRAPH Asia 2022 Conference Papers, 2022, pp. 1\u20138.","DOI":"10.1145\/3550469.3555392"},{"key":"10.1016\/j.imavis.2026.105898_b15","series-title":"Laion-400m: Open dataset of clip-filtered 400 million image-text pairs","author":"Schuhmann","year":"2021"},{"issue":"2","key":"10.1016\/j.imavis.2026.105898_b16","first-page":"3","article-title":"Lora: Low-rank adaptation of large language models","volume":"1","author":"Hu","year":"2022","journal-title":"ICLR"},{"issue":"5786","key":"10.1016\/j.imavis.2026.105898_b17","doi-asserted-by":"crossref","first-page":"504","DOI":"10.1126\/science.1127647","article-title":"Reducing the dimensionality of data with neural networks","volume":"313","author":"Hinton","year":"2006","journal-title":"Science"},{"key":"10.1016\/j.imavis.2026.105898_b18","series-title":"Auto-Encoding Variational Bayes","author":"Kingma","year":"2013"},{"issue":"11","key":"10.1016\/j.imavis.2026.105898_b19","doi-asserted-by":"crossref","first-page":"139","DOI":"10.1145\/3422622","article-title":"Generative adversarial networks","volume":"63","author":"Goodfellow","year":"2020","journal-title":"Commun. ACM"},{"key":"10.1016\/j.imavis.2026.105898_b20","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume":"33","author":"Ho","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.imavis.2026.105898_b21","doi-asserted-by":"crossref","unstructured":"W. Peebles, S. Xie, Scalable diffusion models with transformers, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2023, pp. 4195\u20134205.","DOI":"10.1109\/ICCV51070.2023.00387"},{"key":"10.1016\/j.imavis.2026.105898_b22","series-title":"CharaConsist: Fine-grained consistent character generation","author":"Wang","year":"2025"},{"key":"10.1016\/j.imavis.2026.105898_b23","series-title":"European Conference on Computer Vision","first-page":"181","article-title":"Diffusion for natural image matting","author":"Hu","year":"2024"},{"key":"10.1016\/j.imavis.2026.105898_b24","series-title":"DCEdit: Dual-level controlled image editing via precisely localized semantics","author":"Hu","year":"2025"},{"key":"10.1016\/j.imavis.2026.105898_b25","series-title":"4Dgen: Grounded 4d content generation with spatial-temporal consistency","author":"Yin","year":"2023"},{"key":"10.1016\/j.imavis.2026.105898_b26","doi-asserted-by":"crossref","unstructured":"Y. Zhong, X. Zhang, Y. Zhao, Y. Wei, Dreamlcm: Towards high quality text-to-3d generation via latent consistency model, in: Proceedings of the 32nd ACM International Conference on Multimedia, 2024, pp. 1731\u20131740.","DOI":"10.1145\/3664647.3680709"},{"key":"10.1016\/j.imavis.2026.105898_b27","series-title":"Diffusion4d: Fast spatial-temporal consistent 4d generation via video diffusion models","author":"Liang","year":"2024"},{"key":"10.1016\/j.imavis.2026.105898_b28","doi-asserted-by":"crossref","unstructured":"Y. Yin, D. Xu, C. Tan, P. Liu, Y. Zhao, Y. Wei, Cle diffusion: Controllable light enhancement diffusion model, in: Proceedings of the 31st ACM International Conference on Multimedia, 2023, pp. 8145\u20138156.","DOI":"10.1145\/3581783.3612145"},{"key":"10.1016\/j.imavis.2026.105898_b29","series-title":"Classdiffusion: More aligned personalization tuning with explicit class guidance","author":"Huang","year":"2024"},{"key":"10.1016\/j.imavis.2026.105898_b30","series-title":"European Conference on Computer Vision","first-page":"19","article-title":"Region-native visual tokenization","author":"Wang","year":"2024"},{"key":"10.1016\/j.imavis.2026.105898_b31","doi-asserted-by":"crossref","unstructured":"T. Karras, S. Laine, T. Aila, A style-based generator architecture for generative adversarial networks, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 4401\u20134410.","DOI":"10.1109\/CVPR.2019.00453"},{"key":"10.1016\/j.imavis.2026.105898_b32","series-title":"European Conference on Computer Vision","first-page":"319","article-title":"Contrastive learning for unpaired image-to-image translation","author":"Park","year":"2020"},{"key":"10.1016\/j.imavis.2026.105898_b33","doi-asserted-by":"crossref","unstructured":"N. Ruiz, Y. Li, V. Jampani, Y. Pritch, M. Rubinstein, K. Aberman, Dreambooth: Fine tuning text-to-image diffusion models for subject-driven generation, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 22500\u201322510.","DOI":"10.1109\/CVPR52729.2023.02155"},{"key":"10.1016\/j.imavis.2026.105898_b34","first-page":"4296","article-title":"T2i-adapter: Learning adapters to dig out more controllable ability for text-to-image diffusion models","volume":"vol. 38, no. 5","author":"Mou","year":"2024"},{"key":"10.1016\/j.imavis.2026.105898_b35","series-title":"Denoising diffusion implicit models","author":"Song","year":"2020"},{"key":"10.1016\/j.imavis.2026.105898_b36","article-title":"Attention is all you need","volume":"30","author":"Vaswani","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.imavis.2026.105898_b37","series-title":"International Conference on Machine Learning","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021"},{"key":"10.1016\/j.imavis.2026.105898_b38","series-title":"Ip-adapter: Text compatible image prompt adapter for text-to-image diffusion models","author":"Ye","year":"2023"},{"key":"10.1016\/j.imavis.2026.105898_b39","series-title":"IP-adapter: Text compatible image prompt adapter for text-to-image diffusion models","author":"Ye","year":"2023"},{"key":"10.1016\/j.imavis.2026.105898_b40","series-title":"Sdxl: Improving latent diffusion models for high-resolution image synthesis","author":"Podell","year":"2023"},{"key":"10.1016\/j.imavis.2026.105898_b41","article-title":"Improved techniques for training gans","volume":"29","author":"Salimans","year":"2016","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.imavis.2026.105898_b42","article-title":"Gans trained by a two time-scale update rule converge to a local nash equilibrium","volume":"30","author":"Heusel","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."}],"container-title":["Image and Vision Computing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0262885626000041?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0262885626000041?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,2,16]],"date-time":"2026-02-16T12:30:24Z","timestamp":1771245024000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0262885626000041"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,3]]},"references-count":42,"alternative-id":["S0262885626000041"],"URL":"https:\/\/doi.org\/10.1016\/j.imavis.2026.105898","relation":{},"ISSN":["0262-8856"],"issn-type":[{"value":"0262-8856","type":"print"}],"subject":[],"published":{"date-parts":[[2026,3]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"LoRA-empowered efficient diffusion for accurate fine-grained detail rendering in real-image cartoonization","name":"articletitle","label":"Article Title"},{"value":"Image and Vision Computing","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.imavis.2026.105898","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Published by Elsevier B.V.","name":"copyright","label":"Copyright"}],"article-number":"105898"}}