{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,7]],"date-time":"2026-04-07T16:23:00Z","timestamp":1775578980633,"version":"3.50.1"},"reference-count":87,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"7","license":[{"start":{"date-parts":[[2025,7,1]],"date-time":"2025-07-01T00:00:00Z","timestamp":1751328000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,7,1]],"date-time":"2025-07-01T00:00:00Z","timestamp":1751328000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,7,1]],"date-time":"2025-07-01T00:00:00Z","timestamp":1751328000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"GRF Grant from the Research Grants Council (RGC) of the Hong Kong Special Administrative Region, China","award":["CityU 11208123"],"award-info":[{"award-number":["CityU 11208123"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Circuits Syst. Video Technol."],"published-print":{"date-parts":[[2025,7]]},"DOI":"10.1109\/tcsvt.2025.3540969","type":"journal-article","created":{"date-parts":[[2025,2,11]],"date-time":"2025-02-11T18:30:51Z","timestamp":1739298651000},"page":"6867-6880","source":"Crossref","is-referenced-by-count":6,"title":["HumanRef-GS: Image-to-3D Human Generation With Reference-Guided Diffusion and 3D Gaussian Splatting"],"prefix":"10.1109","volume":"35","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-0009-2315","authenticated-orcid":false,"given":"Jingbo","family":"Zhang","sequence":"first","affiliation":[{"name":"Department of Computer Science, City University of Hong Kong, Hong Kong, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2588-1687","authenticated-orcid":false,"given":"Xiaoyu","family":"Li","sequence":"additional","affiliation":[{"name":"Tencent AI Laboratory, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-0840-8812","authenticated-orcid":false,"given":"Hongliang","family":"Zhong","sequence":"additional","affiliation":[{"name":"Department of Computer Science, City University of Hong Kong, Hong Kong, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9611-6697","authenticated-orcid":false,"given":"Qi","family":"Zhang","sequence":"additional","affiliation":[{"name":"Tencent AI Laboratory, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0416-4374","authenticated-orcid":false,"given":"Yanpei","family":"Cao","sequence":"additional","affiliation":[{"name":"Tencent AI Laboratory, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7673-8325","authenticated-orcid":false,"given":"Ying","family":"Shan","sequence":"additional","affiliation":[{"name":"Tencent AI Laboratory, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7014-5377","authenticated-orcid":false,"given":"Jing","family":"Liao","sequence":"additional","affiliation":[{"name":"Department of Computer Science, City University of Hong Kong, Hong Kong, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01322"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/3dv62453.2024.00152"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00181"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2016.2596118"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00571"},{"key":"ref6","article-title":"UV gaussians: Joint learning of mesh deformation and Gaussian textures for human avatar modeling","author":"Jiang","year":"2024","journal-title":"arXiv:2403.11589"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2021.3050505"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00824"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/tcsvt.2024.3511342"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00961"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2021.3135528"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2020.3040900"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01294"},{"key":"ref14","article-title":"ECON: Explicit clothed humans optimized via normal integration","author":"Xiu","year":"2022","journal-title":"arXiv:2212.07422"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00239"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00156"},{"key":"ref17","article-title":"DreamFusion: Text-to-3D using 2D diffusion","author":"Poole","year":"2022","journal-title":"arXiv:2209.14988"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01977"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02086"},{"key":"ref20","article-title":"ProlificDreamer: High-fidelity and diverse text-to-3D generation with variational score distillation","author":"Wang","year":"2023","journal-title":"arXiv:2305.16213"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TVCG.2024.3361502"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00305"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/3592433"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00635"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00091"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72633-0_1"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2009.5459300"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00055"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46454-1_34"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/3DV.2018.00062"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00339"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01358"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3310525"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00875"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00127"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00552"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-33765-9_54"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2022.3190875"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00016"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01626"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00316"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00837"},{"key":"ref43","article-title":"Denoising diffusion implicit models","author":"Song","year":"2020","journal-title":"arXiv:2010.02502"},{"key":"ref44","article-title":"Classifier-free diffusion guidance","author":"Ho","year":"2022","journal-title":"arXiv:2207.12598"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3347971"},{"key":"ref46","first-page":"8780","article-title":"Diffusion models beat GANs on image synthesis","volume-title":"Proc. NIPS","volume":"34","author":"Dhariwal"},{"key":"ref47","article-title":"GLIDE: Towards photorealistic image generation and editing with text-guided diffusion models","author":"Nichol","year":"2021","journal-title":"arXiv:2112.10741"},{"key":"ref48","article-title":"Hierarchical text-conditional image generation with CLIP latents","author":"Ramesh","year":"2022","journal-title":"arXiv:2204.06125"},{"key":"ref49","first-page":"36479","article-title":"Photorealistic text-to-image diffusion models with deep language understanding","volume-title":"Proc. NIPS","volume":"35","author":"Saharia"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02062"},{"key":"ref52","article-title":"Point-E: A system for generating 3D point clouds from complex prompts","author":"Nichol","year":"2022","journal-title":"arXiv:2212.08751"},{"key":"ref53","first-page":"26744","article-title":"VPP: Efficient conditional 3D generation via voxel-point progressive representation","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"36","author":"Qi"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1145\/3503250"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01978"},{"key":"ref56","article-title":"LightGaussian: Unbounded 3D Gaussian compression with 15x reduction and 200+ FPS","author":"Fan","year":"2023","journal-title":"arXiv:2311.17245"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72643-9_17"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01920"},{"key":"ref59","article-title":"MoSca: Dynamic Gaussian fusion from casual videos via 4D motion scaffolds","author":"Lei","year":"2024","journal-title":"arXiv:2405.17421"},{"key":"ref60","article-title":"DreamGaussian: Generative Gaussian splatting for efficient 3D content creation","author":"Tang","year":"2023","journal-title":"arXiv:2309.16653"},{"key":"ref61","article-title":"RealmDreamer: Text-driven 3D scene generation with inpainting and depth diffusion","author":"Shriram","year":"2024","journal-title":"arXiv:2404.07199"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01214"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02033"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52729.2023.00816"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01123"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.322"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2020.3048039"},{"key":"ref68","article-title":"BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models","author":"Li","year":"2023","journal-title":"arXiv:2301.12597"},{"key":"ref69","article-title":"Open3D: A modern library for 3D data processing","author":"Zhou","year":"2018","journal-title":"arXiv:1801.09847"},{"key":"ref70","article-title":"Relightable 3D gaussians: Realistic point cloud relighting with BRDF decomposition and ray tracing","author":"Gao","year":"2023","journal-title":"arXiv:2311.16043"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1145\/3641519.3657428"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00223"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/TVCG.2022.3148245"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00853"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1603.08155"},{"key":"ref76","first-page":"8026","article-title":"PyTorch: An imperative style, high-performance deep learning library","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"32","author":"Paszke"},{"key":"ref77","article-title":"Adam: A method for stochastic optimization","author":"Kingma","year":"2014","journal-title":"arXiv:1412.6980"},{"key":"ref78","article-title":"UniPC: A unified predictor-corrector framework for fast sampling of diffusion models","author":"Zhao","year":"2023","journal-title":"arXiv:2302.04867"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00650"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00569"},{"key":"ref81","first-page":"7397","article-title":"FOF: Learning Fourier occupancy field for monocular real-time human reconstruction","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Qiao"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00837"},{"key":"ref83","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","volume":"139","author":"Radford"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19787-1_1"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00068"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2003.819861"},{"key":"ref87","article-title":"TripoSR: Fast 3D object reconstruction from a single image","author":"Tochilkin","year":"2024","journal-title":"arXiv:2403.02151"}],"container-title":["IEEE Transactions on Circuits and Systems for Video Technology"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/76\/11071401\/10879794.pdf?arnumber=10879794","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,7,5]],"date-time":"2025-07-05T04:31:40Z","timestamp":1751689900000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10879794\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,7]]},"references-count":87,"journal-issue":{"issue":"7"},"URL":"https:\/\/doi.org\/10.1109\/tcsvt.2025.3540969","relation":{},"ISSN":["1051-8215","1558-2205"],"issn-type":[{"value":"1051-8215","type":"print"},{"value":"1558-2205","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,7]]}}}