{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,5]],"date-time":"2026-03-05T01:32:51Z","timestamp":1772674371121,"version":"3.50.1"},"publisher-location":"Cham","reference-count":83,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031729393","type":"print"},{"value":"9783031729409","type":"electronic"}],"license":[{"start":{"date-parts":[[2024,11,17]],"date-time":"2024-11-17T00:00:00Z","timestamp":1731801600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,11,17]],"date-time":"2024-11-17T00:00:00Z","timestamp":1731801600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-72940-9_20","type":"book-chapter","created":{"date-parts":[[2024,11,16]],"date-time":"2024-11-16T20:43:34Z","timestamp":1731789814000},"page":"348-367","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":4,"title":["ReSyncer: Rewiring Style-Based Generator for\u00a0Unified Audio-Visually Synced Facial Performer"],"prefix":"10.1007","author":[{"given":"Jiazhi","family":"Guan","sequence":"first","affiliation":[]},{"given":"Zhiliang","family":"Xu","sequence":"additional","affiliation":[]},{"given":"Hang","family":"Zhou","sequence":"additional","affiliation":[]},{"given":"Kaisiyuan","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Shengyi","family":"He","sequence":"additional","affiliation":[]},{"given":"Zhanwang","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Borong","family":"Liang","sequence":"additional","affiliation":[]},{"given":"Haocheng","family":"Feng","sequence":"additional","affiliation":[]},{"given":"Errui","family":"Ding","sequence":"additional","affiliation":[]},{"given":"Jingtuo","family":"Liu","sequence":"additional","affiliation":[]},{"given":"Jingdong","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Youjian","family":"Zhao","sequence":"additional","affiliation":[]},{"given":"Ziwei","family":"Liu","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,11,17]]},"reference":[{"key":"20_CR1","unstructured":"Baevski, A., Zhou, Y., Mohamed, A., Auli, M.: wav2vec 2.0: A framework for self-supervised learning of speech representations. In: Advances in Neural Information Processing Systems (2020)"},{"key":"20_CR2","doi-asserted-by":"crossref","unstructured":"Bao, L., et al.: High-fidelity 3D digital human head creation from RGB-D selfies. ACM Trans. Graph. (2021)","DOI":"10.1145\/3472954"},{"key":"20_CR3","doi-asserted-by":"crossref","unstructured":"Blanz, V., Vetter, T.: A morphable model for the synthesis of 3D faces. In: Proceedings of the 26th Annual Conference on Computer Graphics and Interactive Techniques, pp. 187\u2013194 (1999)","DOI":"10.1145\/311535.311556"},{"key":"20_CR4","doi-asserted-by":"crossref","unstructured":"Chan, E.R., et\u00a0al.: Efficient geometry-aware 3D generative adversarial networks. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 16123\u201316133 (2022)","DOI":"10.1109\/CVPR52688.2022.01565"},{"key":"20_CR5","doi-asserted-by":"crossref","unstructured":"Chang, H., Zhang, H., Jiang, L., Liu, C., Freeman, W.T.: MaskGIT: masked generative image transformer. arXiv preprint arXiv:2202.04200 (2022)","DOI":"10.1109\/CVPR52688.2022.01103"},{"key":"20_CR6","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"35","DOI":"10.1007\/978-3-030-58545-7_3","volume-title":"Computer Vision \u2013 ECCV 2020","author":"L Chen","year":"2020","unstructured":"Chen, L., et al.: Talking-head generation with rhythmic head motion. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12354, pp. 35\u201351. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58545-7_3"},{"key":"20_CR7","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"538","DOI":"10.1007\/978-3-030-01234-2_32","volume-title":"Computer Vision \u2013 ECCV 2018","author":"L Chen","year":"2018","unstructured":"Chen, L., Li, Z., Maddox, R.K., Duan, Z., Xu, C.: Lip movements generation at a glance. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds.) ECCV 2018. LNCS, vol. 11211, pp. 538\u2013553. Springer, Cham (2018). https:\/\/doi.org\/10.1007\/978-3-030-01234-2_32"},{"key":"20_CR8","doi-asserted-by":"crossref","unstructured":"Chen, L., Maddox, R.K., Duan, Z., Xu, C.: Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7832\u20137841 (2019)","DOI":"10.1109\/CVPR.2019.00802"},{"key":"20_CR9","doi-asserted-by":"crossref","unstructured":"Chen, R., Chen, X., Ni, B., Ge, Y.: SimSwap: an efficient framework for high fidelity face swapping. In: Proceedings of the 28th ACM International Conference on Multimedia, pp. 2003\u20132011 (2020)","DOI":"10.1145\/3394171.3413630"},{"key":"20_CR10","doi-asserted-by":"crossref","unstructured":"Cheng, K., et al.: Videoretalking: audio-based lip synchronization for talking head video editing in the wild (2022)","DOI":"10.1145\/3550469.3555399"},{"key":"20_CR11","doi-asserted-by":"crossref","unstructured":"Chung, J.S., Nagrani, A., Zisserman, A.: Voxceleb2: deep speaker recognition. In: INTERSPEECH (2018)","DOI":"10.21437\/Interspeech.2018-1929"},{"key":"20_CR12","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"251","DOI":"10.1007\/978-3-319-54427-4_19","volume-title":"Computer Vision \u2013 ACCV 2016 Workshops","author":"JS Chung","year":"2017","unstructured":"Chung, J.S., Zisserman, A.: Out of time: automated lip sync in the wild. In: Chen, C.-S., Lu, J., Ma, K.-K. (eds.) ACCV 2016. LNCS, vol. 10117, pp. 251\u2013263. Springer, Cham (2017). https:\/\/doi.org\/10.1007\/978-3-319-54427-4_19"},{"key":"20_CR13","doi-asserted-by":"crossref","unstructured":"Cudeiro, D., Bolkart, T., Laidlaw, C., Ranjan, A., Black, M.J.: Capture, learning, and synthesis of 3D speaking styles. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 10101\u201310111 (2019)","DOI":"10.1109\/CVPR.2019.01034"},{"key":"20_CR14","doi-asserted-by":"crossref","unstructured":"Deng, J., Guo, J., Xue, N., Zafeiriou, S.: Arcface: additive angular margin loss for deep face recognition. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 4690\u20134699 (2019)","DOI":"10.1109\/CVPR.2019.00482"},{"key":"20_CR15","doi-asserted-by":"crossref","unstructured":"Deng, Y., Yang, J., Chen, D., Wen, F., Tong, X.: Disentangled and controllable face image generation via 3D imitative-contrastive learning. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2020)","DOI":"10.1109\/CVPR42600.2020.00520"},{"key":"20_CR16","doi-asserted-by":"crossref","unstructured":"Deng, Y., Yang, J., Xiang, J., Tong, X.: Gram: generative radiance manifolds for 3D-aware image generation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 10673\u201310683 (June 2022)","DOI":"10.1109\/CVPR52688.2022.01041"},{"key":"20_CR17","doi-asserted-by":"crossref","unstructured":"Deng, Y., Yang, J., Xu, S., Chen, D., Jia, Y., Tong, X.: Accurate 3D face reconstruction with weakly-supervised learning: from single image to image set. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition Workshops (2019)","DOI":"10.1109\/CVPRW.2019.00038"},{"key":"20_CR18","doi-asserted-by":"crossref","unstructured":"Fan, Y., Lin, Z., Saito, J., Wang, W., Komura, T.: Faceformer: speech-driven 3D facial animation with transformers. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 18770\u201318780 (2022)","DOI":"10.1109\/CVPR52688.2022.01821"},{"key":"20_CR19","doi-asserted-by":"crossref","unstructured":"Gafni, G., Thies, J., Zollh\u00f6fer, M., Nie\u00dfner, M.: Dynamic neural radiance fields for monocular 4D facial avatar reconstruction. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 8649\u20138658 (2021)","DOI":"10.1109\/CVPR46437.2021.00854"},{"key":"20_CR20","doi-asserted-by":"crossref","unstructured":"Gao, G., Huang, H., Fu, C., Li, Z., He, R.: Information bottleneck disentanglement for identity swapping. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 3404\u20133413 (2021)","DOI":"10.1109\/CVPR46437.2021.00341"},{"key":"20_CR21","unstructured":"Goodfellow, I.J., et al.: Generative adversarial networks. arXiv preprint arXiv:1406.2661 (2014)"},{"key":"20_CR22","doi-asserted-by":"crossref","unstructured":"Guan, J., et al.: Stylesync: high-fidelity generalized and personalized lip sync in style-based generator. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)","DOI":"10.1109\/CVPR52729.2023.00151"},{"key":"20_CR23","doi-asserted-by":"crossref","unstructured":"Guo, Y., Chen, K., Liang, S., Liu, Y., Bao, H., Zhang, J.: Ad-Nerf: audio driven neural radiance fields for talking head synthesis. In: IEEE\/CVF International Conference on Computer Vision (ICCV) (2021)","DOI":"10.1109\/ICCV48922.2021.00573"},{"issue":"11","key":"20_CR24","doi-asserted-by":"publisher","first-page":"1767","DOI":"10.1007\/s11263-019-01150-y","volume":"127","author":"A Jamaludin","year":"2019","unstructured":"Jamaludin, A., Chung, J.S., Zisserman, A.: You said that?: Synthesising talking faces from audio. Int. J. Comput. Vision 127(11), 1767\u20131779 (2019)","journal-title":"Int. J. Comput. Vision"},{"key":"20_CR25","doi-asserted-by":"crossref","unstructured":"Ji, X., et al.: EAMM: one-shot emotional talking face via audio-based emotion-aware motion model. In: SIGGRAPH (2022)","DOI":"10.1145\/3528233.3530745"},{"key":"20_CR26","doi-asserted-by":"crossref","unstructured":"Karras, T., Laine, S., Aila, T.: A style-based generator architecture for generative adversarial networks. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 4401\u20134410 (2019)","DOI":"10.1109\/CVPR.2019.00453"},{"key":"20_CR27","doi-asserted-by":"crossref","unstructured":"Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J., Aila, T.: Analyzing and improving the image quality of StyleGAN. In: Proceedings of CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.00813"},{"key":"20_CR28","doi-asserted-by":"crossref","unstructured":"Karras, T., Laine, S., Aittala, M., Hellsten, J., Lehtinen, J., Aila, T.: Analyzing and improving the image quality of styleGAN. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8110\u20138119 (2020)","DOI":"10.1109\/CVPR42600.2020.00813"},{"key":"20_CR29","doi-asserted-by":"crossref","unstructured":"Li, L., et al.: Write-a-speaker: text-based emotional and rhythmic talking-head generation. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a035, pp. 1911\u20131920 (2021)","DOI":"10.1609\/aaai.v35i3.16286"},{"key":"20_CR30","unstructured":"Li, L., Bao, J., Yang, H., Chen, D., Wen, F.: Faceshifter: towards high fidelity and occlusion aware face swapping. arXiv preprint arXiv:1912.13457 (2019)"},{"key":"20_CR31","doi-asserted-by":"crossref","unstructured":"Li, Y., Ma, C., Yan, Y., Zhu, W., Yang, X.: 3D-aware face swapping. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 12705\u201312714 (2023)","DOI":"10.1109\/CVPR52729.2023.01222"},{"key":"20_CR32","doi-asserted-by":"crossref","unstructured":"Liang, B., et al.: Expressive talking head generation with granular audio-visual control. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 3387\u20133396 (2022)","DOI":"10.1109\/CVPR52688.2022.00338"},{"key":"20_CR33","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"106","DOI":"10.1007\/978-3-031-19836-6_7","volume-title":"Computer Vision - ECCV 2022","author":"X Liu","year":"2022","unstructured":"Liu, X., Xu, Y., Wu, Q., Zhou, H., Wu, W., Zhou, B.: Semantic-aware implicit neural audio-driven video portrait generation. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13697, pp. 106\u2013125. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19836-6_7"},{"key":"20_CR34","doi-asserted-by":"crossref","unstructured":"Liu, Z., et al.: Fine-grained face swapping via regional GAN inversion. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8578\u20138587 (2023)","DOI":"10.1109\/CVPR52729.2023.00829"},{"key":"20_CR35","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"297","DOI":"10.1007\/978-3-031-19787-1_17","volume-title":"Computer Vision - ECCV 2022","author":"Y Luo","year":"2022","unstructured":"Luo, Y., et al.: StyleFace: towards identity-disentangled face generation on megapixels. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13676, pp. 297\u2013312. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19787-1_17"},{"key":"20_CR36","unstructured":"Ma, Y., et al.: TalkClip: talking head generation with text-guided expressive speaking styles. arXiv preprint arXiv:2304.00334 (2023)"},{"key":"20_CR37","doi-asserted-by":"crossref","unstructured":"Ma, Y., et al.: StyleTalk: one-shot talking head generation with controllable speaking styles. In: AAAI (2023)","DOI":"10.1609\/aaai.v37i2.25280"},{"key":"20_CR38","doi-asserted-by":"crossref","unstructured":"Natsume, R., Yatagawa, T., Morishima, S.: RSGAN: face swapping and editing using face and hair representation in latent spaces, 2. arXiv preprint arXiv:1804.03447 (2018)","DOI":"10.1145\/3230744.3230818"},{"key":"20_CR39","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"117","DOI":"10.1007\/978-3-030-20876-9_8","volume-title":"Computer Vision \u2013 ACCV 2018","author":"R Natsume","year":"2019","unstructured":"Natsume, R., Yatagawa, T., Morishima, S.: FSNet: an identity-aware generative model for image-based face swapping. In: Jawahar, C.V., Li, H., Mori, G., Schindler, K. (eds.) ACCV 2018, Part IV. LNCS, vol. 11366, pp. 117\u2013132. Springer, Cham (2019). https:\/\/doi.org\/10.1007\/978-3-030-20876-9_8"},{"key":"20_CR40","doi-asserted-by":"crossref","unstructured":"Park, S.J., Kim, M., Hong, J., Choi, J., Ro, Y.M.: SyncTalkface: talking face generation with precise lip-syncing via audio-lip memory. In: AAAI Conference on Artificial Intelligence. Association for the Advancement of Artificial Intelligence (2022)","DOI":"10.1609\/aaai.v36i2.20102"},{"key":"20_CR41","doi-asserted-by":"crossref","unstructured":"Prajwal, K., Mukhopadhyay, R., Namboodiri, V.P., Jawahar, C.: A lip sync expert is all you need for speech to lip generation in the wild. In: Proceedings of the 28th ACM International Conference on Multimedia, pp. 484\u2013492 (2020)","DOI":"10.1145\/3394171.3413532"},{"key":"20_CR42","doi-asserted-by":"crossref","unstructured":"Qiu, H., et al.: ReliTalk: Relightable talking portrait generation from a single video. Int. J. Comput. Vision, 1\u201316 (2024)","DOI":"10.1007\/s11263-024-02007-9"},{"key":"20_CR43","doi-asserted-by":"crossref","unstructured":"Richard, A., Zollh\u00f6fer, M., Wen, Y., de\u00a0la Torre, F., Sheikh, Y.: MeshTalk: 3D face animation from speech using cross-modality disentanglement. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV) (2021)","DOI":"10.1109\/ICCV48922.2021.00121"},{"key":"20_CR44","doi-asserted-by":"crossref","unstructured":"Rombach, R., Blattmann, A., Lorenz, D., Esser, P., Ommer, B.: High-resolution image synthesis with latent diffusion models. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 10684\u201310695 (2022)","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"20_CR45","doi-asserted-by":"crossref","unstructured":"R\u00f6ssler, A., Cozzolino, D., Verdoliva, L., Riess, C., Thies, J., Nie\u00dfner, M.: FaceForensics++: learning to detect manipulated facial images. In: International Conference on Computer Vision (ICCV) (2019)","DOI":"10.1109\/ICCV.2019.00009"},{"key":"20_CR46","doi-asserted-by":"crossref","unstructured":"Ruiz, N., Chong, E., Rehg, J.M.: Fine-grained head pose estimation without keypoints. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp. 2074\u20132083 (2018)","DOI":"10.1109\/CVPRW.2018.00281"},{"key":"20_CR47","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"666","DOI":"10.1007\/978-3-031-19775-8_39","volume-title":"Computer Vision - ECCV 2022","author":"S Shen","year":"2022","unstructured":"Shen, S., Li, W., Zhu, Z., Duan, Y., Zhou, J., Lu, J.: Learning dynamic facial radiance fields for few-shot talking head synthesis. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13672, pp. 666\u2013682. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19775-8_39"},{"key":"20_CR48","doi-asserted-by":"crossref","unstructured":"Shen, S., et al.: DiffTalk: crafting diffusion models for generalized audio-driven portraits animation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 1982\u20131991 (2023)","DOI":"10.1109\/CVPR52729.2023.00197"},{"key":"20_CR49","doi-asserted-by":"crossref","unstructured":"Song, Y., Zhu, J., Li, D., Wang, X., Qi, H.: Talking face generation by conditional recurrent adversarial network. arXiv preprint arXiv:1804.04786 (2018)","DOI":"10.24963\/ijcai.2019\/129"},{"key":"20_CR50","doi-asserted-by":"crossref","unstructured":"Stypu\u0142kowski, M., Vougioukas, K., He, S., Zieba, M., Petridis, S., Pantic, M.: Diffused heads: diffusion models beat GANs on talking-face generation. arXiv preprint arXiv:2301.03396 (2023)","DOI":"10.1109\/WACV57701.2024.00502"},{"key":"20_CR51","doi-asserted-by":"crossref","unstructured":"Sun, Y., et al.: Masked lip-sync prediction by audio-visual contextual exploitation in transformers. In: SIGGRAPH Asia 2022 Conference Papers, pp.\u00a01\u20139 (2022)","DOI":"10.1145\/3550469.3555393"},{"issue":"4","key":"20_CR52","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3072959.3073640","volume":"36","author":"S Suwajanakorn","year":"2017","unstructured":"Suwajanakorn, S., Seitz, S.M., Kemelmacher-Shlizerman, I.: Synthesizing Obama: learning lip sync from audio. ACM Trans. Graph. (ToG) 36(4), 1\u201313 (2017)","journal-title":"ACM Trans. Graph. (ToG)"},{"key":"20_CR53","unstructured":"Tang, J., et al.: Real-time neural radiance talking portrait synthesis via audio-spatial decomposition. arXiv preprint arXiv:2211.12368 (2022)"},{"key":"20_CR54","doi-asserted-by":"crossref","unstructured":"Thambiraja, B., Habibie, I., Aliakbarian, S., Cosker, D., Theobalt, C., Thies, J.: Imitator: Personalized speech-driven 3D facial animation. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 20621\u201320631 (2023)","DOI":"10.1109\/ICCV51070.2023.01885"},{"key":"20_CR55","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"716","DOI":"10.1007\/978-3-030-58517-4_42","volume-title":"Computer Vision \u2013 ECCV 2020","author":"J Thies","year":"2020","unstructured":"Thies, J., Elgharib, M., Tewari, A., Theobalt, C., Nie\u00dfner, M.: Neural voice puppetry: audio-driven facial reenactment. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12361, pp. 716\u2013731. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58517-4_42"},{"key":"20_CR56","unstructured":"Van Den\u00a0Oord, A., Vinyals, O., et\u00a0al.: Neural discrete representation learning. In: Advances in Neural Information Processing Systems, vol. 30 (2017)"},{"key":"20_CR57","unstructured":"Vaswani, A., et al.: Attention is all you need. In: Advances in Neural Information Processing Systems, vol. 30 (2017)"},{"key":"20_CR58","doi-asserted-by":"crossref","unstructured":"Vemulapalli, R., Agarwala, A.: A compact embedding for facial expression similarity. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 5683\u20135692 (2019)","DOI":"10.1109\/CVPR.2019.00583"},{"key":"20_CR59","doi-asserted-by":"crossref","unstructured":"Wang, D., Deng, Y., Yin, Z., Shum, H.Y., Wang, B.: Progressive disentangled representation learning for fine-grained controllable talking head synthesis. In: CVPR (2023)","DOI":"10.1109\/CVPR52729.2023.01724"},{"key":"20_CR60","doi-asserted-by":"crossref","unstructured":"Wang, H., et al.: CosFace: large margin cosine loss for deep face recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5265\u20135274 (2018)","DOI":"10.1109\/CVPR.2018.00552"},{"key":"20_CR61","unstructured":"Wang, J., et al.: FaceComposer: a unified model for versatile facial content creation. In: Thirty-Seventh Conference on Neural Information Processing Systems (2023)"},{"key":"20_CR62","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"700","DOI":"10.1007\/978-3-030-58589-1_42","volume-title":"Computer Vision \u2013 ECCV 2020","author":"K Wang","year":"2020","unstructured":"Wang, K., et al.: MEAD: a large-scale audio-visual dataset for emotional talking-face generation. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12366, pp. 700\u2013717. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58589-1_42"},{"key":"20_CR63","doi-asserted-by":"crossref","unstructured":"Wang, S., Li, L., Ding, Y., Fan, C., Yu, X.: Audio2head: audio-driven one-shot talking-head generation with natural head motion. arXiv preprint arXiv:2107.09293 (2021)","DOI":"10.24963\/ijcai.2021\/152"},{"key":"20_CR64","doi-asserted-by":"crossref","unstructured":"Wang, S., Li, L., Ding, Y., Yu, X.: One-shot talking face generation from single-speaker audio-visual correlation learning. In: Proceedings of the AAAI Conference on Artificial Intelligence (2022)","DOI":"10.1609\/aaai.v36i3.20154"},{"key":"20_CR65","doi-asserted-by":"crossref","unstructured":"Wang, T.C., Liu, M.Y., Zhu, J.Y., Tao, A., Kautz, J., Catanzaro, B.: High-resolution image synthesis and semantic manipulation with conditional GANs. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 8798\u20138807 (2018)","DOI":"10.1109\/CVPR.2018.00917"},{"issue":"4","key":"20_CR66","doi-asserted-by":"publisher","first-page":"600","DOI":"10.1109\/TIP.2003.819861","volume":"13","author":"Z Wang","year":"2004","unstructured":"Wang, Z., Bovik, A.C., Sheikh, H.R., Simoncelli, E.P.: Image quality assessment: from error visibility to structural similarity. IEEE Trans. Image Process. 13(4), 600\u2013612 (2004)","journal-title":"IEEE Trans. Image Process."},{"key":"20_CR67","doi-asserted-by":"crossref","unstructured":"Wu, H., Jia, J., Wang, H., Dou, Y., Duan, C., Deng, Q.: Imitating arbitrary talking style for realistic audio-driven talking face synthesis. In: Proceedings of the 29th ACM International Conference on Multimedia, pp. 1478\u20131486 (2021)","DOI":"10.1145\/3474085.3475280"},{"key":"20_CR68","doi-asserted-by":"crossref","unstructured":"Wu, X., et al.: Speech2lip: high-fidelity speech to lip generation by learning from a short video. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 22168\u201322177 (2023)","DOI":"10.1109\/ICCV51070.2023.02026"},{"key":"20_CR69","doi-asserted-by":"crossref","unstructured":"Xing, J., Xia, M., Zhang, Y., Cun, X., Wang, J., Wong, T.T.: CodeTalker: speech-driven 3D facial animation with discrete motion prior. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 12780\u201312790 (2023)","DOI":"10.1109\/CVPR52729.2023.01229"},{"key":"20_CR70","doi-asserted-by":"crossref","unstructured":"Xu, C., Zhang, J., Hua, M., He, Q., Yi, Z., Liu, Y.: Region-aware face swapping. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7632\u20137641 (2022)","DOI":"10.1109\/CVPR52688.2022.00749"},{"key":"20_CR71","doi-asserted-by":"crossref","unstructured":"Xu, Y., Deng, B., Wang, J., Jing, Y., Pan, J., He, S.: High-resolution face swapping via latent semantics disentanglement. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7642\u20137651 (2022)","DOI":"10.1109\/CVPR52688.2022.00749"},{"key":"20_CR72","doi-asserted-by":"crossref","unstructured":"Xu, Z., Hong, Z., Ding, C., Zhu, Z., Han, J., Liu, J., Ding, E.: Mobilefaceswap: a lightweight framework for video face swapping. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a036, pp. 2973\u20132981 (2022)","DOI":"10.1609\/aaai.v36i3.20203"},{"key":"20_CR73","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"661","DOI":"10.1007\/978-3-031-19781-9_38","volume-title":"Computer Vision - ECCV 2022","author":"Z Xu","year":"2022","unstructured":"Xu, Z., et al.: StyleSwap: style-based generator empowers robust face swapping. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13674, pp. 661\u2013677. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19781-9_38"},{"key":"20_CR74","doi-asserted-by":"crossref","unstructured":"Yang, T., Ren, P., Xie, X., Zhang, L.: Gan prior embedded network for blind face restoration in the wild. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 672\u2013681 (2021)","DOI":"10.1109\/CVPR46437.2021.00073"},{"key":"20_CR75","unstructured":"Yao, S., Zhong, R., Yan, Y., Zhai, G., Yang, X.: DFA-Nerf: personalized talking head generation via disentangled face attributes neural rendering. arXiv preprint arXiv:2201.00791 (2022)"},{"key":"20_CR76","unstructured":"Ye, Z., Jiang, Z., Ren, Y., Liu, J., He, J., Zhao, Z.: Geneface: generalized and high-fidelity audio-driven 3D talking face synthesis. In: ICLR (2023)"},{"key":"20_CR77","doi-asserted-by":"crossref","unstructured":"Yu, Z., Yin, Z., Zhou, D., Wang, D., Wong, F., Wang, B.: Talking head generation with probabilistic audio-to-visual diffusion priors. In: ICCV (2023)","DOI":"10.1109\/ICCV51070.2023.00703"},{"key":"20_CR78","doi-asserted-by":"crossref","unstructured":"Zhang, W., et al.: SadTalker: learning realistic 3D motion coefficients for stylized audio-driven single image talking face animation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8652\u20138661 (2023)","DOI":"10.1109\/CVPR52729.2023.00836"},{"key":"20_CR79","doi-asserted-by":"crossref","unstructured":"Zhang, Z., Li, L., Ding, Y., Fan, C.: Flow-guided one-shot talking face generation with a high-resolution audio-visual dataset. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 3661\u20133670 (2021)","DOI":"10.1109\/CVPR46437.2021.00366"},{"key":"20_CR80","doi-asserted-by":"crossref","unstructured":"Zhou, H., Liu, Y., Liu, Z., Luo, P., Wang, X.: Talking face generation by adversarially disentangled audio-visual representation. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a033, pp. 9299\u20139306 (2019)","DOI":"10.1609\/aaai.v33i01.33019299"},{"key":"20_CR81","doi-asserted-by":"crossref","unstructured":"Zhou, H., Sun, Y., Wu, W., Loy, C.C., Wang, X., Liu, Z.: Pose-controllable talking face generation by implicitly modularized audio-visual representation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 4176\u20134186 (2021)","DOI":"10.1109\/CVPR46437.2021.00416"},{"issue":"6","key":"20_CR82","first-page":"1","volume":"39","author":"Y Zhou","year":"2020","unstructured":"Zhou, Y., Han, X., Shechtman, E., Echevarria, J., Kalogerakis, E., Li, D.: MakeltTalk: speaker-aware talking-head animation. ACM Trans. Graph. (TOG) 39(6), 1\u201315 (2020)","journal-title":"ACM Trans. Graph. (TOG)"},{"key":"20_CR83","doi-asserted-by":"crossref","unstructured":"Zhu, Y., Li, Q., Wang, J., Xu, C.Z., Sun, Z.: One shot face swapping on megapixels. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 4834\u20134844 (2021)","DOI":"10.1109\/CVPR46437.2021.00480"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-72940-9_20","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,16]],"date-time":"2024-11-16T21:35:11Z","timestamp":1731792911000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-72940-9_20"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,11,17]]},"ISBN":["9783031729393","9783031729409"],"references-count":83,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-72940-9_20","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,11,17]]},"assertion":[{"value":"17 November 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Milan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Italy","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 September 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2024.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}