{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,23]],"date-time":"2026-04-23T07:58:42Z","timestamp":1776931122454,"version":"3.51.2"},"publisher-location":"New York, NY, USA","reference-count":22,"publisher":"ACM","funder":[{"name":"Research Council of Finland, Academy Research Fellow project","award":["371019"],"award-info":[{"award-number":["371019"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,12,9]]},"DOI":"10.1145\/3769748.3773364","type":"proceedings-article","created":{"date-parts":[[2025,12,8]],"date-time":"2025-12-08T10:33:15Z","timestamp":1765189995000},"page":"1-4","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Detection-Aware Inference for Robust Talking-Head Video Generation"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0006-1503-8652","authenticated-orcid":false,"given":"Seyyedhamid","family":"Azimidokht","sequence":"first","affiliation":[{"name":"CMVS, University of Oulu, Oulu, Finland"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-3810-0717","authenticated-orcid":false,"given":"Fang","family":"Kang","sequence":"additional","affiliation":[{"name":"CMVS, University of Oulu, Oulu, Finland"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4948-1058","authenticated-orcid":false,"given":"Yueyi","family":"Yang","sequence":"additional","affiliation":[{"name":"CMVS, University of Oulu, Oulu, Finland"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3267-2664","authenticated-orcid":false,"given":"Haoyu","family":"Chen","sequence":"additional","affiliation":[{"name":"CMVS, University of Oulu, Oulu, Finland"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,12,8]]},"reference":[{"key":"e_1_3_3_1_2_2","doi-asserted-by":"crossref","unstructured":"Haoyu Chen Henglin Shi Xin Liu Xiaobai Li and Guoying Zhao. 2023. Smg: A micro-gesture dataset towards spontaneous body gestures for emotional stress state analysis. International Journal of Computer Vision 131 6 (2023) 1346\u20131366.","DOI":"10.1007\/s11263-023-01761-6"},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"publisher","DOI":"10.5244\/C.35.36"},{"key":"e_1_3_3_1_4_2","unstructured":"Haoyu Chen Hao Tang Radu Timofte Luc\u00a0V Gool and Guoying Zhao. 2023. Lart: Neural correspondence learning with latent regularization transformer for 3d motion transfer. Advances in Neural Information Processing Systems 36 (2023) 43742\u201343753."},{"key":"e_1_3_3_1_5_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00802"},{"key":"e_1_3_3_1_6_2","unstructured":"Jiahao Cui Hui Li Yao Yao Hao Zhu Hanlin Shang Kaihui Cheng Hang Zhou Siyu Zhu and Jingdong Wang. 2024. Hallo2: Long-duration and high-resolution audio-driven portrait image animation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2410.07718 (2024)."},{"key":"e_1_3_3_1_7_2","unstructured":"Donglin Di He Feng Wenzhang Sun Yongjia Ma Hao Li Wei Chen Xiaofei Gou Tonghua Su and Xun Yang. 2024. FaceVid-1K: A Large-Scale High-Quality Multiracial Human Face Video Dataset. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2410.07151 (2024)."},{"key":"e_1_3_3_1_8_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01022"},{"key":"e_1_3_3_1_9_2","unstructured":"Tianyu He Junliang Guo Runyi Yu Yuchi Wang Jialiang Zhu Kaikai An Leyi Li Xu Tan Chunyu Wang Han Hu et\u00a0al. 2023. Gaia: Zero-shot talking avatar generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2311.15230 (2023)."},{"key":"e_1_3_3_1_10_2","doi-asserted-by":"crossref","unstructured":"Fang Kang Yin Cao and Haoyu Chen. 2025. Face2VoiceSync: Lightweight Face-Voice Consistency for Text-Driven Talking Face Generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2507.19225 (2025).","DOI":"10.21437\/Interspeech.2025-2163"},{"key":"e_1_3_3_1_11_2","volume-title":"Forty-second International Conference on Machine Learning","author":"Lian Zheng","unstructured":"Zheng Lian, Haoyu Chen, Lan Chen, Haiyang Sun, Licai Sun, Yong Ren, Zebang Cheng, Bin Liu, Rui Liu, Xiaojiang Peng, et\u00a0al. [n. d.]. AffectGPT: A New Dataset, Model, and Benchmark for Emotion Understanding with Multimodal Large Language Models. In Forty-second International Conference on Machine Learning."},{"key":"e_1_3_3_1_12_2","unstructured":"Zheng Lian Haiyang Sun Licai Sun Lan Chen Haoyu Chen Hao Gu Zhuofan Wen Shun Chen Siyuan Zhang Hailiang Yao et\u00a0al. 2025. Open-vocabulary Multimodal Emotion Recognition: Dataset Metric and Benchmark. Forty-second International Conference on Machine Learning (2025)."},{"key":"e_1_3_3_1_13_2","unstructured":"Zheng Lian Licai Sun Lan Chen Haoyu Chen Zebang Cheng Fan Zhang Ziyu Jia Ziyang Ma Fei Ma Xiaojiang Peng et\u00a0al. 2025. EmoPrefer: Can Large Language Models Understand Human Emotion Preferences? arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2507.04278 (2025)."},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"crossref","unstructured":"Yang Liu Kevin\u00a0HM Cheng Marko Savic Haoyu Chen Zitong Yu and Guoying Zhao. 2025. 3D Face De-Identification With Preserving Multi-Facial Attributes: A Benchmark. IEEE Transactions on Biometrics Behavior and Identity Science (2025).","DOI":"10.1109\/TBIOM.2025.3570599"},{"key":"e_1_3_3_1_15_2","unstructured":"Yifeng Ma Shiwei Zhang Jiayu Wang Xiang Wang Yingya Zhang and Zhidong Deng. 2023. DreamTalk: When Emotional Talking Head Generation Meets Diffusion Probabilistic Models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2312.09767 (2023)."},{"key":"e_1_3_3_1_16_2","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413532"},{"key":"e_1_3_3_1_17_2","unstructured":"Weiming Ren Huan Yang Ge Zhang Cong Wei Xinrun Du Wenhao Huang and Wenhu Chen. 2024. Consisti2v: Enhancing visual consistency for image-to-video generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2402.04324 (2024)."},{"key":"e_1_3_3_1_18_2","doi-asserted-by":"publisher","DOI":"10.1109\/FG57933.2023.10042505"},{"key":"e_1_3_3_1_19_2","unstructured":"Jiaqi Xu Xinyi Zou Kunzhe Huang Yunkuo Chen Bo Liu MengLi Cheng Xing Shi and Jun Huang. 2024. Easyanimate: A high-performance long video generation method based on transformer architecture. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2405.18991 (2024)."},{"key":"e_1_3_3_1_20_2","unstructured":"Mingwang Xu Hui Li Qingkun Su Hanlin Shang Liwei Zhang Ce Liu Jingdong Wang Yao Yao and Siyu Zhu. 2024. Hallo: Hierarchical audio-driven visual synthesis for portrait image animation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2406.08801 (2024)."},{"key":"e_1_3_3_1_21_2","unstructured":"Zhuoyi Yang Jiayan Teng Wendi Zheng Ming Ding Shiyu Huang Jiazheng Xu Yuanming Yang Wenyi Hong Xiaohan Zhang Guanyu Feng et\u00a0al. 2024. Cogvideox: Text-to-video diffusion models with an expert transformer. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2408.06072 (2024)."},{"key":"e_1_3_3_1_22_2","unstructured":"Shiwei Zhang Jiayu Wang Yingya Zhang Kang Zhao Hangjie Yuan Zhiwu Qin Xiang Wang Deli Zhao and Jingren Zhou. 2023. I2vgen-xl: High-quality image-to-video synthesis via cascaded diffusion models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2311.04145 (2023)."},{"key":"e_1_3_3_1_23_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00836"}],"event":{"name":"MMAsia '25 Workshops: ACM Multimedia Asia Workshops","location":"Kuala Lumpur Malaysia","acronym":"MMAsia '25 Workshops","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 7th ACM International Conference on Multimedia in Asia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3769748.3773364","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,23]],"date-time":"2026-01-23T22:03:50Z","timestamp":1769205830000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3769748.3773364"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,8]]},"references-count":22,"alternative-id":["10.1145\/3769748.3773364","10.1145\/3769748"],"URL":"https:\/\/doi.org\/10.1145\/3769748.3773364","relation":{},"subject":[],"published":{"date-parts":[[2025,12,8]]},"assertion":[{"value":"2025-12-08","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}