{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,4]],"date-time":"2026-07-04T11:05:21Z","timestamp":1783163121442,"version":"3.54.6"},"reference-count":55,"publisher":"Springer Science and Business Media LLC","issue":"11","license":[{"start":{"date-parts":[[2024,6,13]],"date-time":"2024-06-13T00:00:00Z","timestamp":1718236800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,6,13]],"date-time":"2024-06-13T00:00:00Z","timestamp":1718236800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62076186"],"award-info":[{"award-number":["62076186"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62225113"],"award-info":[{"award-number":["62225113"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62102150"],"award-info":[{"award-number":["62102150"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2024,11]]},"DOI":"10.1007\/s11263-024-02137-0","type":"journal-article","created":{"date-parts":[[2024,6,19]],"date-time":"2024-06-19T07:03:42Z","timestamp":1718780622000},"page":"5372-5386","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":54,"title":["Diff-Font: Diffusion Model for Robust One-Shot Font Generation"],"prefix":"10.1007","volume":"132","author":[{"given":"Haibin","family":"He","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xinyuan","family":"Chen","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Chaoyue","family":"Wang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3907-8820","authenticated-orcid":false,"given":"Juhua","family":"Liu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Bo","family":"Du","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Dacheng","family":"Tao","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Qiao","family":"Yu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2024,6,13]]},"reference":[{"issue":"1","key":"2137_CR1","first-page":"1","volume":"2","author":"J An","year":"2015","unstructured":"An, J., & Cho, S. (2015). Variational autoencoder based anomaly detection using reconstruction probability. Special Lecture on IE, 2(1), 1\u201318.","journal-title":"Special Lecture on IE"},{"key":"2137_CR2","doi-asserted-by":"crossref","unstructured":"Baek, K., Choi, Y., Uh, Y., Yoo, J., & Shim, H. (2021). Rethinking the truly unsupervised image-to-image translation. In Proceedings of the IEEE\/CVF international conference on computer vision (pp. 14154\u201314163).","DOI":"10.1109\/ICCV48922.2021.01389"},{"key":"2137_CR3","doi-asserted-by":"crossref","unstructured":"Cha, J., Chun, S., Lee, G., Lee, B., Kim, S., & Lee, H. (2020). Few-shot compositional font generation with dual memory. In European conference on computer vision (pp. 735\u2013751). Springer.","DOI":"10.1007\/978-3-030-58529-7_43"},{"key":"2137_CR4","doi-asserted-by":"crossref","unstructured":"Cheng, S. I., Chen, Y. J., Chiu, W. C., Tseng, H. Y., & Lee, H. Y. (2023). Adaptively-realistic image generation from stroke and sketch with diffusion model. In Proceedings of the IEEE\/CVF winter conference on applications of computer vision (pp. 4054\u20134062).","DOI":"10.1109\/WACV56688.2023.00404"},{"key":"2137_CR5","doi-asserted-by":"crossref","unstructured":"Choi, J., Kim, S., Jeong, Y., Gwon, Y., & Yoon, S. (2021). Ilvr: Conditioning method for denoising diffusion probabilistic models. arXiv:2108.02938","DOI":"10.1109\/ICCV48922.2021.01410"},{"key":"2137_CR6","doi-asserted-by":"publisher","first-page":"3504","DOI":"10.1109\/TASLP.2021.3124365","volume":"29","author":"Y Cui","year":"2021","unstructured":"Cui, Y., Che, W., Liu, T., Qin, B., & Yang, Z. (2021). Pre-training with whole word masking for chinese bert. IEEE\/ACM Transactions on Audio, Speech, and Language Processing, 29, 3504\u20133514.","journal-title":"IEEE\/ACM Transactions on Audio, Speech, and Language Processing"},{"key":"2137_CR7","unstructured":"Devlin, J., Chang, M.\u00a0W., Lee, K., & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv:1810.04805"},{"key":"2137_CR8","first-page":"8780","volume":"34","author":"P Dhariwal","year":"2021","unstructured":"Dhariwal, P., & Nichol, A. (2021). Diffusion models beat gans on image synthesis. Advances in Neural Information Processing Systems, 34, 8780\u20138794.","journal-title":"Advances in Neural Information Processing Systems"},{"issue":"6","key":"2137_CR9","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3355089.3356488","volume":"38","author":"Y Gao","year":"2019","unstructured":"Gao, Y., Guo, Y., Lian, Z., Tang, Y., & Xiao, J. (2019). Artistic glyph image synthesis via one-stage few-shot learning. ACM Transactions on Graphics (TOG), 38(6), 1\u201312.","journal-title":"ACM Transactions on Graphics (TOG)"},{"issue":"11","key":"2137_CR10","doi-asserted-by":"publisher","first-page":"139","DOI":"10.1145\/3422622","volume":"63","author":"I Goodfellow","year":"2020","unstructured":"Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2020). Generative adversarial networks. Communications of the ACM, 63(11), 139\u2013144.","journal-title":"Communications of the ACM"},{"key":"2137_CR11","unstructured":"Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., & Hochreiter, S. (2017). GANs trained by a two time-scale update rule converge to a local Nash equilibrium. Advances in Neural Information Processing Systems, 30."},{"key":"2137_CR12","unstructured":"Ho, J., & Salimans, T. (2022). Classifier-free diffusion guidance. arXiv:2207.12598"},{"key":"2137_CR13","first-page":"6840","volume":"33","author":"J Ho","year":"2020","unstructured":"Ho, J., Jain, A., & Abbeel, P. (2020). Denoising diffusion probabilistic models. Advances in Neural Information Processing Systems, 33, 6840\u20136851.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"2137_CR14","doi-asserted-by":"crossref","unstructured":"Huang, X., & Belongie, S. (2017). Arbitrary style transfer in real-time with adaptive instance normalization. In Proceedings of the IEEE international conference on computer vision (pp. 1501\u20131510).","DOI":"10.1109\/ICCV.2017.167"},{"key":"2137_CR15","doi-asserted-by":"crossref","unstructured":"Huang, X., Liu, M.\u00a0Y., Belongie, S., & Kautz, J. (2018). Multimodal unsupervised image-to-image translation. In Proceedings of the European conference on computer vision (ECCV) (pp. 172\u2013189).","DOI":"10.1007\/978-3-030-01219-9_11"},{"key":"2137_CR16","doi-asserted-by":"crossref","unstructured":"Isola, P., Zhu, J.\u00a0Y., Zhou, T., Efros, A.\u00a0A. (2017). Image-to-image translation with conditional adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1125\u20131134).","DOI":"10.1109\/CVPR.2017.632"},{"key":"2137_CR17","doi-asserted-by":"crossref","unstructured":"Jiang, Y., Lian, Z., Tang, Y., & Xiao, J. (2019). Scfont: Structure-guided chinese font generation via deep stacked networks. In Proceedings of the AAAI conference on artificial intelligence (pp. 4015\u20134022).","DOI":"10.1609\/aaai.v33i01.33014015"},{"key":"2137_CR18","unstructured":"Kancharagunta, K.\u00a0B., & Dubey, S.\u00a0R. (2019). Csgan: Cyclic-synthesized generative adversarial networks for image-to-image transformation. arXiv:1901.03554"},{"key":"2137_CR19","unstructured":"Kim, T., Cha, M., Kim, H., Lee, J.\u00a0K., & Kim, J. (2017). Learning to discover cross-domain relations with generative adversarial networks. In International conference on machine learning, PMLR (pp. 1857\u20131865)."},{"key":"2137_CR20","doi-asserted-by":"crossref","unstructured":"Kong, Y., Luo, C., Ma, W., Zhu, Q., Zhu, S., Yuan, N., & Jin, L. (2022). Look closer to supervise better: One-shot font generation via component-based discriminator. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 13482\u201313491).","DOI":"10.1109\/CVPR52688.2022.01312"},{"key":"2137_CR21","doi-asserted-by":"crossref","unstructured":"Li, B., Xue, K., Liu, B., & Lai, Y.\u00a0K. (2022). VQBB: Image-to-image translation with vector quantized Brownian bridge. arXiv:2205.07680","DOI":"10.1109\/CVPR52729.2023.00194"},{"key":"2137_CR22","unstructured":"Liu, M.\u00a0Y., & Tuzel, O. (2016). Coupled generative adversarial networks. Advances in Neural Information Processing Systems, 29."},{"key":"2137_CR23","doi-asserted-by":"crossref","unstructured":"Liu, M.\u00a0Y., Breuel, T., & Kautz, J. (2017). Unsupervised image-to-image translation networks. Advances in Neural Information Processing Systems, 30.","DOI":"10.1007\/978-3-319-70139-4"},{"key":"2137_CR24","doi-asserted-by":"crossref","unstructured":"Liu, M.\u00a0Y., Huang, X., Mallya, A., Karras, T., Aila, T., Lehtinen, J., & Kautz, J. (2019). Few-shot unsupervised image-to-image translation. In Proceedings of the IEEE\/CVF international conference on computer vision (pp. 10551\u201310560).","DOI":"10.1109\/ICCV.2019.01065"},{"key":"2137_CR25","doi-asserted-by":"crossref","unstructured":"Liu, N., Li, S., Du, Y., Torralba, A., & Tenenbaum, J.\u00a0B. (2022). Compositional visual generation with composable diffusion models. arXiv:2206.01714","DOI":"10.1007\/978-3-031-19790-1_26"},{"key":"2137_CR26","unstructured":"Liu, X., Park, D.\u00a0H., Azadi, S., Zhang, G., Chopikyan, A., Hu, Y., Shi, H., Rohrbach, A., & Darrell, T. (2021). More control for free! image synthesis with semantic diffusion guidance. arXiv:2112.05744"},{"key":"2137_CR27","unstructured":"Mirza, M. & Osindero, S. (2014). Conditional generative adversarial nets. In CoRR."},{"key":"2137_CR28","unstructured":"Nair, N.\u00a0G., Bandara, W.\u00a0G.\u00a0C., Patel, V.\u00a0M. (2022). Image generation with multimodal priors using denoising diffusion probabilistic models. arXiv:2206.05039"},{"key":"2137_CR29","unstructured":"Nichol, A., Dhariwal, P., Ramesh, A., Shyam, P., Mishkin, P., McGrew, B., Sutskever, I., & Chen, M. (2021). Glide: Towards photorealistic image generation and editing with text-guided diffusion models. arXiv:2112.10741"},{"key":"2137_CR30","doi-asserted-by":"crossref","unstructured":"Park, S., Chun, S., Cha, J., Lee, B., & Shim, H. (2021a) Few-shot font generation with localized style representations and factorization. In Proceedings of the AAAI conference on artificial intelligence (pp. 2393\u20132402).","DOI":"10.1609\/aaai.v35i3.16340"},{"key":"2137_CR31","doi-asserted-by":"crossref","unstructured":"Park, S., Chun, S., Cha, J., Lee, B., & Shim, H. (2021b) Multiple heads are better than one: Few-shot font generation with multiple localized experts. In Proceedings of the IEEE\/CVF international conference on computer vision (pp. 13900\u201313909).","DOI":"10.1109\/ICCV48922.2021.01364"},{"key":"2137_CR32","unstructured":"Park, S., Chun, S., Cha, J., Lee, B., & Shim, H. (2022). Few-shot font generation with weakly supervised localized representations. IEEE Transactions on Pattern Analysis and Machine Intelligence 1\u201317."},{"key":"2137_CR33","unstructured":"Ramesh, A., Dhariwal, P., Nichol. A., Chu, C., & Chen, M. (2022). Hierarchical text-conditional image generation with clip latents. arXiv:2204.06125"},{"key":"2137_CR34","doi-asserted-by":"crossref","unstructured":"Rombach, R., Blattmann, A., Lorenz, D., Esser, P., & Ommer, B. (2022). High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 10684\u201310695).","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"2137_CR35","doi-asserted-by":"crossref","unstructured":"Saharia, C., Chan, W., Chang, H., Lee, C., Ho, J., Salimans, T., Fleet, D., & Norouzi, M. (2022a). Palette: Image-to-image diffusion models. In ACM SIGGRAPH 2022 conference proceedings (pp. 1\u201310).","DOI":"10.1145\/3528233.3530757"},{"key":"2137_CR36","doi-asserted-by":"crossref","unstructured":"Saharia, C., Chan, W., Saxena, S., Li, L., Whang, J., Denton, E., Ghasemipour, S.\u00a0K.\u00a0S., Ayan, B.\u00a0K., Mahdavi, S.\u00a0S., Lopes, R.\u00a0G., Salimans, T., & Ho, J. (2022b). Photorealistic text-to-image diffusion models with deep language understanding. arXiv:2205.11487","DOI":"10.1145\/3528233.3530757"},{"key":"2137_CR37","unstructured":"Sasaki, H., Willcocks, C.\u00a0G., & Breckon, T.\u00a0P. (2021). Unit-ddpm: Unpaired image translation with denoising diffusion probabilistic models. arXiv:2104.05358"},{"key":"2137_CR38","unstructured":"Sohl-Dickstein, J., Weiss, E., Maheswaranathan, N., & Ganguli, S. (2015). Deep unsupervised learning using nonequilibrium thermodynamics. In International conference on machine learning, PMLR (pp. 2256\u20132265)."},{"key":"2137_CR39","unstructured":"Song, J., Meng, C., & Ermon, S. (2020). Denoising diffusion implicit models."},{"key":"2137_CR40","doi-asserted-by":"crossref","unstructured":"Tang, L., Cai, Y., Liu, J., Hong, Z., Gong, M., Fan, M., Han, J., Liu, J., Ding, E., & Wang, J. (2022). Few-shot font generation by learning fine-grained local styles. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 7895\u20137904).","DOI":"10.1109\/CVPR52688.2022.00774"},{"key":"2137_CR41","unstructured":"Tian, Y. (2017). zi2zi: Master Chinese calligraphy with conditional adversarial networks. Internet https:\/\/github com\/kaonashi-tyc\/zi2zi, 3."},{"key":"2137_CR42","unstructured":"Touvron, H., Lavril, T., Izacard, G., Martinet, X., Lachaux, M.\u00a0A., Lacroix, T., Rozi\u00e8re, B., Goyal, N., Hambro, E., Azhar, F., & Rodriguez, A. (2023). Llama: Open and efficient foundation language models. arXiv:2302.13971"},{"issue":"4","key":"2137_CR43","doi-asserted-by":"publisher","first-page":"600","DOI":"10.1109\/TIP.2003.819861","volume":"13","author":"Z Wang","year":"2004","unstructured":"Wang, Z., Bovik, A. C., Sheikh, H. R., & Simoncelli, E. P. (2004). Image quality assessment: From error visibility to structural similarity. IEEE Transactions on Image Processing, 13(4), 600\u2013612.","journal-title":"IEEE Transactions on Image Processing"},{"key":"2137_CR44","doi-asserted-by":"crossref","unstructured":"Wen, Q., Li, S., Han, B., & Yuan, Y. (2021). Zigan: Fine-grained Chinese calligraphy font generation via a few-shot style transfer approach. In Proceedings of the 29th ACM international conference on multimedia (pp. 621\u2013629).","DOI":"10.1145\/3474085.3475225"},{"key":"2137_CR45","unstructured":"Wolleb, J., Sandk\u00fchler, R., Bieder, F., & Cattin, P.\u00a0C. (2022). The swiss army knife for image-to-image translation: Multi-task diffusion models. arXiv:2204.02641"},{"key":"2137_CR46","doi-asserted-by":"crossref","unstructured":"Xie, Y., Chen, X., Sun, L., & Lu, Y. (2021). Dg-font: Deformable generative networks for unsupervised font generation. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 5130\u20135140).","DOI":"10.1109\/CVPR46437.2021.00509"},{"key":"2137_CR47","doi-asserted-by":"crossref","unstructured":"Yang, X., Xie, D., & Wang, X. (2018). Crossing-domain generative adversarial networks for unsupervised multi-domain image-to-image translation. In Proceedings of the 26th ACM international conference on multimedia (pp. 374\u2013382).","DOI":"10.1145\/3240508.3240716"},{"key":"2137_CR48","doi-asserted-by":"crossref","unstructured":"Yi, Z., Zhang, H., Tan, P., & Gong, M. (2017). Dualgan: Unsupervised dual learning for image-to-image translation. In Proceedings of the IEEE international conference on computer vision (pp. 2849\u20132857).","DOI":"10.1109\/ICCV.2017.310"},{"key":"2137_CR49","doi-asserted-by":"crossref","unstructured":"Zeng, J., Chen, Q., Liu, Y., Wang, M., & Yao, Y. (2021). Strokegan: Reducing mode collapse in Chinese font generation via stroke encoding. In Proceedings of the AAAI conference on artificial intelligence (pp. 3270\u20133277).","DOI":"10.1609\/aaai.v35i4.16438"},{"key":"2137_CR50","doi-asserted-by":"crossref","unstructured":"Zhang, L., & Agrawala, M. (2023). Adding conditional control to text-to-image diffusion models. arXiv:2302.05543","DOI":"10.1109\/ICCV51070.2023.00355"},{"key":"2137_CR51","doi-asserted-by":"crossref","unstructured":"Zhang, R., Isola, P., Efros, A.\u00a0A., Shechtman, E., & Wang, O. (2018a). The unreasonable effectiveness of deep features as a perceptual metric. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 586\u2013595).","DOI":"10.1109\/CVPR.2018.00068"},{"key":"2137_CR52","doi-asserted-by":"crossref","unstructured":"Zhang, Y., Zhang, Y., & Cai, W. (2018b). Separating style and content for generalized style transfer. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 8447\u20138455).","DOI":"10.1109\/CVPR.2018.00881"},{"key":"2137_CR53","doi-asserted-by":"crossref","unstructured":"Zhao, M., Bao, F., Li, C., & Zhu, J. (2022). Egsde: Unpaired image-to-image translation via energy-guided stochastic differential equations. arXiv:2207.06635","DOI":"10.1109\/CVPR46437.2021.01615"},{"key":"2137_CR54","doi-asserted-by":"crossref","unstructured":"Zhu, J.Y., Park, T., Isola, P., & Efros, A.A. (2017a). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision (pp. 2223\u20132232).","DOI":"10.1109\/ICCV.2017.244"},{"key":"2137_CR55","unstructured":"Zhu, J.\u00a0Y., Zhang, R., Pathak, D., Darrell, T., Efros, A.\u00a0A., Wang, O., & Shechtman, E. (2017b). Toward multimodal image-to-image translation. Advances in Neural Information Processing Systems, 30."}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-024-02137-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11263-024-02137-0\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-024-02137-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,10,26]],"date-time":"2024-10-26T05:22:16Z","timestamp":1729920136000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11263-024-02137-0"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,6,13]]},"references-count":55,"journal-issue":{"issue":"11","published-print":{"date-parts":[[2024,11]]}},"alternative-id":["2137"],"URL":"https:\/\/doi.org\/10.1007\/s11263-024-02137-0","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,6,13]]},"assertion":[{"value":"7 May 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"31 May 2024","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"13 June 2024","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}