{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T09:13:39Z","timestamp":1775034819527,"version":"3.50.1"},"reference-count":97,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,11,28]],"date-time":"2025-11-28T00:00:00Z","timestamp":1764288000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,11,28]],"date-time":"2025-11-28T00:00:00Z","timestamp":1764288000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,11,28]]},"DOI":"10.1109\/icvisp68610.2025.11451745","type":"proceedings-article","created":{"date-parts":[[2026,3,31]],"date-time":"2026-03-31T19:48:48Z","timestamp":1774986528000},"page":"1-7","source":"Crossref","is-referenced-by-count":0,"title":["Virtual Humans: A Survey of Technologies and Applications"],"prefix":"10.1109","author":[{"given":"Yikun","family":"Xu","sequence":"first","affiliation":[{"name":"Xi&#x2019;an University of Posts and Telecommunications,Image and Information Processing Research Center School of Communication and Information Engineering,Xi&#x2019;an,China"}]},{"given":"Weidong","family":"Zhang","sequence":"additional","affiliation":[{"name":"Xi&#x2019;an University of Posts and Telecommunications,Image and Information Processing Research Center School of Communication and Information Engineering,Xi&#x2019;an,China"}]},{"given":"Ying","family":"Liu","sequence":"additional","affiliation":[{"name":"Xi&#x2019;an University of Posts and Telecommunications,Image and Information Processing Research Center School of Communication and Information Engineering,Xi&#x2019;an,China"}]},{"given":"Jiming","family":"Liu","sequence":"additional","affiliation":[{"name":"Jinlifang Technology Co., Ltd.,Xiamen,China"}]}],"member":"263","reference":[{"key":"ref1","article-title":"White paper on the development of virtual humans","volume-title":"Zhongguancun Artificial Intelligence Industry Alliance General Group","author":"Yan"},{"key":"ref2","first-page":"195","article-title":"Deep voice: Real-time neural text-to-speech","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Ar\u0131k"},{"key":"ref3","article-title":"Char2Wav: End-to-end speech synthesis","volume-title":"Proceedings of the International Conference on Learning Representations (ICLR) Workshop.","author":"Sotelo"},{"key":"ref4","article-title":"What comprises a good talking-head video generation?: A survey and benchmark","author":"Chen","year":"2020","journal-title":"arXiv preprint arXiv:2005.03201"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.4324\/9780080877945"},{"issue":"07","key":"ref6","first-page":"56","article-title":"Current status, key issues and future of virtual humans","author":"Guo","year":"2022","journal-title":"News and Writing"},{"key":"ref7","article-title":"Infinite reality: Avatars, eternal life, new worlds, and the dawn of the virtual revolution","author":"Blascovich","year":"2011"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.15187\/adr.2023.11.36.4.193"},{"issue":"9","key":"ref9","first-page":"168","article-title":"Research trends of virtual human applications in architecture, engineering and construction","volume":"22","author":"Eiris","year":"2017","journal-title":"Journal of Information Technology in Construction (ITcon)"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1016\/j.chb.2024.108161"},{"issue":"17","key":"ref11","first-page":"29","article-title":"Development approaches of virtual humans","volume":"13","author":"Liu","year":"2022","journal-title":"Journal of News Research Guide"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1201\/9781315151199-2"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2023.3329573"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-22024-1_32"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.3837\/tiis.2020.08.018"},{"key":"ref16","article-title":"Virtual human deep industry report","volume-title":"QbitAI","year":"2021"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-020-10073-7"},{"key":"ref18","article-title":"A survey on neural speech synthesis","volume-title":"arXiv preprint arXiv:2106.15561","author":"Tan","year":"2021"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2017-1452"},{"key":"ref20","article-title":"Wavenet: A generative model for raw audio","author":"Oord","year":"2016","journal-title":"arXiv preprint arXiv:1609.03499"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33016706"},{"key":"ref22","article-title":"Fastspeech: Fast, robust and controllable text to speech","volume-title":"inAdv. Neural Inf. Process. Syst.","volume":"32","author":"Ren"},{"key":"ref23","article-title":"Fastspeech 2: Fast and high-quality end-to-end text to speech","author":"Ren","year":"2020","journal-title":"arXiv preprint arXiv:2006.04558"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2024.3356232"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1312.6114"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.naacl-demo.12"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1364\/AOP.3.000128"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1145\/1186822.1073259"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1145\/3596711.3596730"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1016\/j.cosrev.2021.100400"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2017.2778152"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/WACV57701.2024.00612"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref34","article-title":"Overview of digital talking face generation technology","author":"Zhang","year":"2024","journal-title":"Big Data"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/5.726791"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1145\/3422622"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1145\/3503250"},{"key":"ref38","first-page":"2256","article-title":"Deep unsupervised learning using nonequilibrium thermodynamics","volume-title":"inProc. Int. Conf. Mach. Learn.","author":"Sohl-Dickstein"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-019-01150-y"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.5244\/C.28.6"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-54427-4_19"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-24574-4_28"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2022.3142387"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413532"},{"key":"ref46","article-title":"Audio-driven talking face video generation with learning-based personalized head pose","author":"Yi","year":"2020","journal-title":"arXiv preprint arXiv:2002.10137"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00573"},{"key":"ref48","article-title":"Deep speech: Scaling up end-to-end speech recognition","author":"Hannun","year":"2014","journal-title":"arXiv preprint arXiv:1412.5567"},{"key":"ref49","article-title":"Dfa-nerf: Personalized talking head generation via disentangled face attributes neural rendering","author":"Yao","year":"2022","journal-title":"arXiv preprint arXiv:2201.00791"},{"key":"ref50","article-title":"Dream-talk: Diffusionbased realistic emotional audio-driven method for single image talking face generation","author":"Zhang","year":"2023","journal-title":"arXiv preprint arXiv:2312.13578"},{"key":"ref51","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume":"33","author":"Ho","year":"2020","journal-title":"Advances in Neural Information Processing Systems (NeurIPS)"},{"key":"ref52","article-title":"Classifier-free diffusion guidance","author":"Ho","year":"2022","journal-title":"arXiv preprint arXiv:2207.12598"},{"key":"ref53","article-title":"Dreamtalk: When expressive talking head generation meets diffusion probabilistic models","author":"Ma","year":"2023","journal-title":"arXiv preprint arXiv:2312.09767"},{"issue":"2","key":"ref54","first-page":"61","article-title":"Optical motion capture: Theory and implementation","volume":"12","author":"Guerra-Filho","year":"2005","journal-title":"RITA"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/IEMBS.2008.4650231"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.3390\/bioengineering10050510"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1016\/j.jmmm.2004.11.430"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2006.08.002"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00941"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00135"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01133"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01467"},{"key":"ref63","article-title":"A survey of the evolution of language model-based dialogue systems","author":"Wang","year":"2023","journal-title":"arXiv preprint arXiv:2311.16789"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1145\/3209978.3210183"},{"key":"ref65","article-title":"LLaMA: Open and efficient foundation language models","author":"Touvron","year":"2023","journal-title":"arXiv:2302.13971"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2024.3352100"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1117\/12.333774"},{"key":"ref68","first-page":"127","article-title":"Physically-based rendering","volume":"13","author":"Rendering","year":"2015","journal-title":"Procedia IUTAM"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/MRA.2012.2192811"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1145\/357290.357293"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-28135-8_9"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00372"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1145\/3306346.3323035"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01983"},{"issue":"4","key":"ref75","first-page":"139","article-title":"The objectification of actors-puppets, cyborgs and virtual actors","author":"Yin","year":"2023","journal-title":"Drama Art"},{"issue":"2","key":"ref76","first-page":"97","article-title":"\u2018Avatar: The Way of Water\u2019: Virtual human performance in immersive science fiction film","author":"Tang","year":"2023","journal-title":"Film Literature"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-90179-0_41"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.54097\/hbem.v2i.2379"},{"issue":"3","key":"ref79","first-page":"45","article-title":"The current situation, problems and strategies of virtual live-streaming with goods in the era of intelligent mediataking Bilibili as an example","volume":"21","author":"Han","year":"2024","journal-title":"Times Economy and Trade"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/VR.2009.4811039"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/KELVAR.2017.7961559"},{"issue":"06","key":"ref82","first-page":"85","article-title":"Research on the construction of multiple identities of digital virtual humans in smart cultural tourism","author":"You","year":"2023","journal-title":"Journal of Qiqihar University (Philosophy and Social Sciences Edition)"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/ICACTA54488.2022.9752804"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-25999-0_20"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1145\/3290607.3312853"},{"issue":"01","key":"ref86","first-page":"3","article-title":"Holographic digital humans: A new model for big data applications in healthcare","volume":"5","author":"Jin","year":"2019","journal-title":"Big Data"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.4324\/9781315109503-11"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1186\/s41239-022-00362-6"},{"issue":"06","key":"ref89","first-page":"4","article-title":"Human-computer collaborative teaching: Path design based on virtual avatars, digital twins, and educational robot scenarios","volume":"29","author":"Huang","year":"2023","journal-title":"Open Education Research"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1016\/j.ijhcs.2021.102608"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.3389\/frvir.2020.00001"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.3389\/frvir.2021.786665"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1109\/TPSISA52974.2021.00032"},{"key":"ref94","article-title":"A look at the new humanity: Metaverse and metahuman","volume":"7","author":"Nalbant","year":"2022","journal-title":"International Journal of Computers"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1016\/j.jnca.2024.103989"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1093\/jiplp\/jpad081"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.3389\/frvir.2025.1520655"}],"event":{"name":"2025 9th International Conference on Vision, Image and Signal Processing (ICVISP)","location":"Xi'an, China","start":{"date-parts":[[2025,11,28]]},"end":{"date-parts":[[2025,11,30]]}},"container-title":["2025 9th International Conference on Vision, Image and Signal Processing (ICVISP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11450551\/11451183\/11451745.pdf?arnumber=11451745","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T06:10:37Z","timestamp":1775023837000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11451745\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,28]]},"references-count":97,"URL":"https:\/\/doi.org\/10.1109\/icvisp68610.2025.11451745","relation":{},"subject":[],"published":{"date-parts":[[2025,11,28]]}}}