{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T22:00:33Z","timestamp":1774044033423,"version":"3.50.1"},"reference-count":50,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100021171","name":"Basic and Applied Basic Research Foundation of Guangdong Province","doi-asserted-by":"publisher","award":["2024A1515010496"],"award-info":[{"award-number":["2024A1515010496"]}],"id":[{"id":"10.13039\/501100021171","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100021171","name":"Basic and Applied Basic Research Foundation of Guangdong Province","doi-asserted-by":"publisher","award":["2022A1515110101"],"award-info":[{"award-number":["2022A1515110101"]}],"id":[{"id":"10.13039\/501100021171","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100012166","name":"National Key Research and Development Program of China","doi-asserted-by":"publisher","award":["2025YFF0515300"],"award-info":[{"award-number":["2025YFF0515300"]}],"id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62101346"],"award-info":[{"award-number":["62101346"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62301330"],"award-info":[{"award-number":["62301330"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100017610","name":"Shenzhen Science and Technology Innovation Program","doi-asserted-by":"publisher","award":["JCYJ20240813141358076"],"award-info":[{"award-number":["JCYJ20240813141358076"]}],"id":[{"id":"10.13039\/501100017610","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100017610","name":"Shenzhen Science and Technology Innovation Program","doi-asserted-by":"publisher","award":["ZDCY20250901103004005"],"award-info":[{"award-number":["ZDCY20250901103004005"]}],"id":[{"id":"10.13039\/501100017610","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Pattern Recognition"],"published-print":{"date-parts":[[2026,10]]},"DOI":"10.1016\/j.patcog.2026.113368","type":"journal-article","created":{"date-parts":[[2026,2,26]],"date-time":"2026-02-26T08:04:57Z","timestamp":1772093097000},"page":"113368","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Diff-KATKG: Diffusion-based talking head generation with joint keypoint and action unit guidance"],"prefix":"10.1016","volume":"178","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-6819-0125","authenticated-orcid":false,"given":"Wuzhen","family":"Shi","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0006-1755-1804","authenticated-orcid":false,"given":"Shuai","family":"Wang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0001-5419-9583","authenticated-orcid":false,"given":"Zibang","family":"Xue","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6303-8178","authenticated-orcid":false,"given":"Yang","family":"Wen","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"issue":"9","key":"10.1016\/j.patcog.2026.113368_bib0001","doi-asserted-by":"crossref","first-page":"8692","DOI":"10.1109\/TCSVT.2025.3560369","article-title":"Keypoints and action units jointly drive talking head generation for video conferencing","volume":"35","author":"Shi","year":"2025","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.patcog.2026.113368_bib0002","series-title":"Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision","first-page":"5091","article-title":"Diffused heads: diffusion models beat GANs on talking-face generation","author":"Stypu\u0142kowski","year":"2024"},{"key":"10.1016\/j.patcog.2026.113368_bib0003","unstructured":"M. Xu, H. Li, Q. Su, H. Shang, L. Zhang, C. Liu, J. Wang, Y. Yao, S. Zhu, Hallo: hierarchical audio-driven visual synthesis for portrait image animation, (2024). arXiv: 2406.08801."},{"key":"10.1016\/j.patcog.2026.113368_bib0004","series-title":"ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"1","article-title":"Audio-driven talking head video generation with diffusion model","author":"Zhua","year":"2023"},{"key":"10.1016\/j.patcog.2026.113368_bib0005","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV)","first-page":"9459","article-title":"Few-shot adversarial learning of realistic neural talking head models","author":"Zakharov","year":"2019"},{"key":"10.1016\/j.patcog.2026.113368_bib0006","first-page":"7137","article-title":"First order motion model for image animation","volume":"32","author":"Siarohin","year":"2019","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.patcog.2026.113368_bib0007","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"22096","article-title":"MetaPortrait: identity-preserving talking head generation with fast personalized adaptation","author":"Zhang","year":"2023"},{"issue":"4","key":"10.1016\/j.patcog.2026.113368_bib0008","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3072959.3073640","article-title":"Synthesizing obama: learning lip sync from audio","volume":"36","author":"Suwajanakorn","year":"2017","journal-title":"ACM Trans. Graph. (ToG)"},{"issue":"4","key":"10.1016\/j.patcog.2026.113368_bib0009","doi-asserted-by":"crossref","first-page":"526","DOI":"10.1109\/TAFFC.2016.2628787","article-title":"Predicting personalized image emotion perceptions in social networks","volume":"9","author":"Zhao","year":"2016","journal-title":"IEEE Trans. Affect. Comput."},{"issue":"10","key":"10.1016\/j.patcog.2026.113368_bib0010","doi-asserted-by":"crossref","first-page":"1159","DOI":"10.1109\/JPROC.2023.3309299","article-title":"Toward label-efficient emotion and sentiment analysis","volume":"111","author":"Zhao","year":"2023","journal-title":"Proc. IEEE"},{"key":"10.1016\/j.patcog.2026.113368_bib0011","series-title":"Proceedings of the 28th ACM International Conference on Multimedia","first-page":"484","article-title":"A lip sync expert is all you need for speech to lip generation in the wild","author":"Prajwal","year":"2020"},{"key":"10.1016\/j.patcog.2026.113368_bib0012","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"4176","article-title":"Pose-controllable talking face generation by implicitly modularized audio-visual representation","author":"Zhou","year":"2021"},{"key":"10.1016\/j.patcog.2026.113368_bib0013","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"1292","article-title":"FaceChain-ImagineID: freely crafting high-fidelity diverse talking faces from disentangled audio","author":"Xu","year":"2024"},{"key":"10.1016\/j.patcog.2026.113368_bib0014","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"18770","article-title":"FaceFormer: speech-driven 3D facial animation with transformers","author":"Fan","year":"2022"},{"issue":"6","key":"10.1016\/j.patcog.2026.113368_bib0015","first-page":"1","article-title":"MakeItTalk: speaker-aware talking-head animation","volume":"39","author":"Zhou","year":"2020","journal-title":"ACM Trans. Graph. (TOG)"},{"key":"10.1016\/j.patcog.2026.113368_bib0016","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"1896","article-title":"StyleTalk: one-shot talking head generation with controllable speaking styles","volume":"vol. 37","author":"Ma","year":"2023"},{"key":"10.1016\/j.patcog.2026.113368_bib0017","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"1982","article-title":"DiffTalk: crafting diffusion models for generalized audio-driven portraits animation","author":"Shen","year":"2023"},{"issue":"11","key":"10.1016\/j.patcog.2026.113368_bib0018","doi-asserted-by":"crossref","first-page":"11056","DOI":"10.1109\/TCSVT.2024.3414412","article-title":"Audio-semantic enhanced pose-driven talking head generation","volume":"34","author":"Liu","year":"2024","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"issue":"8","key":"10.1016\/j.patcog.2026.113368_bib0019","doi-asserted-by":"crossref","first-page":"6888","DOI":"10.1109\/TCSVT.2024.3394850","article-title":"OSM-Net: one-to-many one-shot talking head generation with spontaneous head motions","volume":"34","author":"Liu","year":"2024","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.patcog.2026.113368_bib0020","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2022.109181","article-title":"Large motion anime head animation using a cascade pose transform network","volume":"135","author":"Zhang","year":"2023","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113368_bib0021","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"4401","article-title":"A style-based generator architecture for generative adversarial networks","author":"Karras","year":"2019"},{"key":"10.1016\/j.patcog.2026.113368_bib0022","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"3626","article-title":"StyleGAN-V: A Continuous Video Generator with the Price, Image Quality and Perks of StyleGAN2","author":"Skorokhodov","year":"2022"},{"key":"10.1016\/j.patcog.2026.113368_bib0023","series-title":"Computer Vision\u2013ECCV 2020: Proceedings, Part XXII","first-page":"170","article-title":"StyleGAN2 distillation for feed-forward image manipulation","author":"Viazovetskyi","year":"2020"},{"issue":"9","key":"10.1016\/j.patcog.2026.113368_bib0024","doi-asserted-by":"crossref","first-page":"1063","DOI":"10.1109\/TPAMI.2003.1227983","article-title":"Face recognition based on fitting a 3D morphable model","volume":"25","author":"Blanz","year":"2003","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.patcog.2026.113368_bib0025","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"2755","article-title":"LipSync3D: data-efficient learning of personalized 3D talking faces from video using pose and lighting normalization","author":"Lahiri","year":"2021"},{"key":"10.1016\/j.patcog.2026.113368_bib0026","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV)","first-page":"13759","article-title":"PIRenderer: controllable portrait image generation via semantic neural rendering","author":"Ren","year":"2021"},{"key":"10.1016\/j.patcog.2026.113368_bib0027","series-title":"Proceedings of the 32nd ACM International Conference on Multimedia (ACM MM)","first-page":"3411","article-title":"FD2Talk: towards generalized talking head generation with facial decoupled diffusion model","author":"Yao","year":"2024"},{"key":"10.1016\/j.patcog.2026.113368_bib0028","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"8649","article-title":"Dynamic neural radiance fields for monocular 4D facial avatar reconstruction","author":"Gafni","year":"2021"},{"key":"10.1016\/j.patcog.2026.113368_bib0029","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV)","first-page":"5784","article-title":"AD-NeRF: audio driven neural radiance fields for talking head synthesis","author":"Guo","year":"2021"},{"key":"10.1016\/j.patcog.2026.113368_bib0030","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2025.111994","article-title":"FacialTalk: audio-driven high-fidelity facial portrait generation using 3D facial prior","volume":"171","author":"Yang","year":"2026","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113368_bib0031","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV)","first-page":"7645","article-title":"Talking head generation with probabilistic audio-to-visual diffusion priors","author":"Yu","year":"2023"},{"issue":"11","key":"10.1016\/j.patcog.2026.113368_bib0032","doi-asserted-by":"crossref","first-page":"7397","DOI":"10.1109\/TVCG.2024.3456213","article-title":"Expressive 3D facial animation generation based on local-to-global latent diffusion","volume":"30","author":"Song","year":"2024","journal-title":"IEEE Trans. Vis. Comput. Graph."},{"key":"10.1016\/j.patcog.2026.113368_bib0033","series-title":"ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"7945","article-title":"FreeTalker: controllable speech and text-driven gesture generation based on diffusion models for enhanced speaker naturalness","author":"Yang","year":"2024"},{"key":"10.1016\/j.patcog.2026.113368_bib0034","series-title":"2024\u202fIEEE International Conference on Multimedia and Expo (ICME)","first-page":"1","article-title":"Landmark-guided diffusion model for high-fidelity and temporally coherent talking head generation","author":"Tan","year":"2024"},{"key":"10.1016\/j.patcog.2026.113368_bib0035","series-title":"ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"8276","article-title":"EmoTalker: emotionally editable talking face generation via diffusion model","author":"Zhang","year":"2024"},{"key":"10.1016\/j.patcog.2026.113368_bib0036","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"7352","article-title":"DiffSheg: a diffusion-based approach for real-time speech-driven holistic 3D expression and gesture generation","author":"Chen","year":"2024"},{"key":"10.1016\/j.patcog.2026.113368_bib0037","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"10039","article-title":"One-shot free-view neural talking-head synthesis for video conferencing","author":"Wang","year":"2021"},{"key":"10.1016\/j.patcog.2026.113368_bib0038","article-title":"Facial action coding system","author":"Ekman","year":"1978","journal-title":"Environ. Psychol. Nonverbal Behav."},{"issue":"10","key":"10.1016\/j.patcog.2026.113368_bib0039","doi-asserted-by":"crossref","first-page":"6729","DOI":"10.1109\/TPAMI.2021.3094362","article-title":"Affective image content analysis: two decades review and new perspectives","volume":"44","author":"Zhao","year":"2021","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.patcog.2026.113368_bib0040","series-title":"2016\u202fIEEE Winter Conference on Applications of Computer Vision (WACV)","first-page":"1","article-title":"OpenFace: an open source facial behavior analysis toolkit","author":"Baltru\u0161aitis","year":"2016"},{"issue":"10","key":"10.1016\/j.patcog.2026.113368_bib0041","doi-asserted-by":"crossref","first-page":"692","DOI":"10.1016\/j.imavis.2014.06.002","article-title":"BP4D-Spontaneous: a high-resolution spontaneous 3D dynamic facial expression database","volume":"32","author":"Zhang","year":"2014","journal-title":"Image Vis. Comput."},{"issue":"2","key":"10.1016\/j.patcog.2026.113368_bib0042","doi-asserted-by":"crossref","first-page":"151","DOI":"10.1109\/T-AFFC.2013.4","article-title":"DISFA: a spontaneous facial action intensity database","volume":"4","author":"Mavadati","year":"2013","journal-title":"IEEE Trans. Affect. Comput."},{"key":"10.1016\/j.patcog.2026.113368_bib0043","series-title":"Advances in Neural Information Processing Systems","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume":"33","author":"Ho","year":"2020"},{"key":"10.1016\/j.patcog.2026.113368_bib0044","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"657","article-title":"VFHQ: a high-quality dataset and benchmark for video face super-resolution","author":"Xie","year":"2022"},{"key":"10.1016\/j.patcog.2026.113368_bib0045","doi-asserted-by":"crossref","unstructured":"J.S. Chung, A. Nagrani, A. Zisserman, VoxCeleb2: deep speaker recognition, (2018). arXiv: 1806.05622.","DOI":"10.21437\/Interspeech.2018-1929"},{"issue":"2","key":"10.1016\/j.patcog.2026.113368_bib0046","doi-asserted-by":"crossref","first-page":"379","DOI":"10.1109\/TMM.2017.2729020","article-title":"Reduced-reference image quality assessment in free-energy principle and sparse representation","volume":"20","author":"Liu","year":"2017","journal-title":"IEEE Trans. Multimed."},{"issue":"4","key":"10.1016\/j.patcog.2026.113368_bib0047","doi-asserted-by":"crossref","first-page":"929","DOI":"10.1109\/TCSVT.2019.2900472","article-title":"Unsupervised blind image quality evaluation via statistical measurements of structure, naturalness, and perception","volume":"30","author":"Liu","year":"2019","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.patcog.2026.113368_bib0048","doi-asserted-by":"crossref","first-page":"2560","DOI":"10.1109\/TMM.2023.3301226","article-title":"UIQI: A comprehensive quality evaluation index for underwater images","volume":"26","author":"Liu","year":"2023","journal-title":"IEEE Trans. Multimed."},{"key":"10.1016\/j.patcog.2026.113368_bib0049","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"3397","article-title":"Depth-aware generative adversarial network for talking head video generation","author":"Hong","year":"2022"},{"key":"10.1016\/j.patcog.2026.113368_bib0050","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","first-page":"427","article-title":"DPE: disentanglement of pose and expression for general video portrait editing","author":"Pang","year":"2023"}],"container-title":["Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S003132032600333X?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S003132032600333X?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T20:14:02Z","timestamp":1774037642000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S003132032600333X"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,10]]},"references-count":50,"alternative-id":["S003132032600333X"],"URL":"https:\/\/doi.org\/10.1016\/j.patcog.2026.113368","relation":{},"ISSN":["0031-3203"],"issn-type":[{"value":"0031-3203","type":"print"}],"subject":[],"published":{"date-parts":[[2026,10]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Diff-KATKG: Diffusion-based talking head generation with joint keypoint and action unit guidance","name":"articletitle","label":"Article Title"},{"value":"Pattern Recognition","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.patcog.2026.113368","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"113368"}}