{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,18]],"date-time":"2026-04-18T16:22:55Z","timestamp":1776529375617,"version":"3.51.2"},"publisher-location":"Cham","reference-count":46,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031730382","type":"print"},{"value":"9783031730399","type":"electronic"}],"license":[{"start":{"date-parts":[[2024,10,31]],"date-time":"2024-10-31T00:00:00Z","timestamp":1730332800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,10,31]],"date-time":"2024-10-31T00:00:00Z","timestamp":1730332800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-73039-9_20","type":"book-chapter","created":{"date-parts":[[2024,10,30]],"date-time":"2024-10-30T14:57:07Z","timestamp":1730300227000},"page":"347-363","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["All You Need Is Your Voice: Emotional Face Representation with\u00a0Audio Perspective for\u00a0Emotional Talking Face Generation"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0009-0000-5803-6629","authenticated-orcid":false,"given":"Seongho","family":"Kim","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8742-3433","authenticated-orcid":false,"given":"Byung Cheol","family":"Song","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,10,31]]},"reference":[{"issue":"4","key":"20_CR1","doi-asserted-by":"publisher","first-page":"377","DOI":"10.1109\/TAFFC.2014.2336244","volume":"5","author":"H Cao","year":"2014","unstructured":"Cao, H., Cooper, D.G., Keutmann, M.K., Gur, R.C., Nenkova, A., Verma, R.: CREMA-D: crowd-sourced emotional multimodal actors dataset. IEEE Trans. Affect. Comput. 5(4), 377\u2013390 (2014)","journal-title":"IEEE Trans. Affect. Comput."},{"key":"20_CR2","doi-asserted-by":"crossref","unstructured":"Carver, W., Nwogu, I.: Facial expression neutralization with StoicNet. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, pp. 201\u2013208 (2021)","DOI":"10.1109\/WACVW52041.2021.00026"},{"key":"20_CR3","doi-asserted-by":"crossref","unstructured":"Chen, L., Maddox, R.K., Duan, Z., Xu, C.: Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7832\u20137841 (2019)","DOI":"10.1109\/CVPR.2019.00802"},{"key":"20_CR4","doi-asserted-by":"crossref","unstructured":"Chung, J.S., Nagrani, A., Zisserman, A.: VoxCeleb2: deep speaker recognition. arXiv preprint arXiv:1806.05622 (2018)","DOI":"10.21437\/Interspeech.2018-1929"},{"key":"20_CR5","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"87","DOI":"10.1007\/978-3-319-54184-6_6","volume-title":"Computer Vision \u2013 ACCV 2016","author":"JS Chung","year":"2017","unstructured":"Chung, J.S., Zisserman, A.: Lip reading in the wild. In: Lai, S.-H., Lepetit, V., Nishino, K., Sato, Y. (eds.) ACCV 2016. LNCS, vol. 10112, pp. 87\u2013103. Springer, Cham (2017). https:\/\/doi.org\/10.1007\/978-3-319-54184-6_6"},{"key":"20_CR6","unstructured":"Cover, T.M.: Elements of Information Theory. Wiley (1999)"},{"key":"20_CR7","doi-asserted-by":"crossref","unstructured":"Deng, Y., Yang, J., Xu, S., Chen, D., Jia, Y., Tong, X.: Accurate 3D face reconstruction with weakly-supervised learning: from single image to image set. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition Workshops (2019)","DOI":"10.1109\/CVPRW.2019.00038"},{"issue":"3\u20134","key":"20_CR8","doi-asserted-by":"publisher","first-page":"169","DOI":"10.1080\/02699939208411068","volume":"6","author":"P Ekman","year":"1992","unstructured":"Ekman, P.: An argument for basic emotions. Cogn. Emot. 6(3\u20134), 169\u2013200 (1992)","journal-title":"Cogn. Emot."},{"key":"20_CR9","doi-asserted-by":"crossref","unstructured":"Gan, Y., Yang, Z., Yue, X., Sun, L., Yang, Y.: Efficient emotional adaptation for audio-driven talking-head generation. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 22634\u201322645 (2023)","DOI":"10.1109\/ICCV51070.2023.02069"},{"key":"20_CR10","unstructured":"Goodfellow, I., et al.: Generative adversarial nets. In: Advances in Neural Information Processing Systems, vol. 27 (2014)"},{"key":"20_CR11","unstructured":"Heusel, M., Ramsauer, H., Unterthiner, T., Nessler, B., Hochreiter, S.: GANs trained by a two time-scale update rule converge to a local Nash equilibrium. In: Advances in Neural Information Processing Systems, vol. 30 (2017)"},{"key":"20_CR12","doi-asserted-by":"crossref","unstructured":"Ji, X., et al.: EAMM: one-shot emotional talking face via audio-based emotion-aware motion model. In: ACM SIGGRAPH 2022 Conference Proceedings, pp. 1\u201310 (2022)","DOI":"10.1145\/3528233.3530745"},{"key":"20_CR13","doi-asserted-by":"crossref","unstructured":"Ji, X., et al.: Audio-driven emotional video portraits. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 14080\u201314089 (2021)","DOI":"10.1109\/CVPR46437.2021.01386"},{"key":"20_CR14","series-title":"LNCS","doi-asserted-by":"publisher","first-page":"131","DOI":"10.1007\/978-3-031-06509-5_10","volume-title":"HCII 2022","author":"R Kato","year":"2022","unstructured":"Kato, R., Kikuchi, Y., Yem, V., Ikei, Y.: Reality avatar for customer conversation in the metaverse. In: Yamamoto, S., Mori, H. (eds.) HCII 2022. LNCS, vol. 13306, pp. 131\u2013145. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-06509-5_10"},{"key":"20_CR15","series-title":"LNCS","doi-asserted-by":"publisher","first-page":"178","DOI":"10.1007\/978-3-031-19778-9_11","volume-title":"ECCV 2022","author":"D Kim","year":"2022","unstructured":"Kim, D., Song, B.C.: Emotion-aware multi-view contrastive learning for facial emotion recognition. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13673, pp. 178\u2013195. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19778-9_11"},{"key":"20_CR16","unstructured":"Kim, D., Song, B.C.: Optimal transport-based identity matching for identity-invariant facial expression recognition. In: Advances in Neural Information Processing Systems, vol. 35, pp. 18749\u201318762 (2022)"},{"issue":"6","key":"20_CR17","first-page":"1","volume":"38","author":"H Kim","year":"2019","unstructured":"Kim, H., et al.: Neural style-preserving visual dubbing. ACM Trans. Graph. (TOG) 38(6), 1\u201313 (2019)","journal-title":"ACM Trans. Graph. (TOG)"},{"key":"20_CR18","first-page":"1755","volume":"10","author":"DE King","year":"2009","unstructured":"King, D.E.: Dlib-ml: a machine learning toolkit. J. Mach. Learn. Res. 10, 1755\u20131758 (2009)","journal-title":"J. Mach. Learn. Res."},{"key":"20_CR19","doi-asserted-by":"crossref","unstructured":"Kowalski, M., Naruniec, J., Trzcinski, T.: Deep alignment network: a convolutional neural network for robust face alignment. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops, pp. 88\u201397 (2017)","DOI":"10.1109\/CVPRW.2017.254"},{"issue":"5","key":"20_CR20","doi-asserted-by":"publisher","first-page":"283","DOI":"10.1038\/s44159-023-00172-1","volume":"2","author":"EG Krumhuber","year":"2023","unstructured":"Krumhuber, E.G., Skora, L.I., Hill, H.C., Lander, K.: The role of facial movements in emotion recognition. Nat. Rev. Psychol. 2(5), 283\u2013296 (2023)","journal-title":"Nat. Rev. Psychol."},{"issue":"6","key":"20_CR21","first-page":"1","volume":"36","author":"T Li","year":"2017","unstructured":"Li, T., Bolkart, T., Black, M.J., Li, H., Romero, J.: Learning a model of facial shape and expression from 4D scans. ACM Trans. Graph. 36(6), 1\u201317 (2017)","journal-title":"ACM Trans. Graph."},{"key":"20_CR22","doi-asserted-by":"crossref","unstructured":"Liang, B., et al.: Expressive talking head generation with granular audio-visual control. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 3387\u20133396 (2022)","DOI":"10.1109\/CVPR52688.2022.00338"},{"issue":"6","key":"20_CR23","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/2816795.2818130","volume":"34","author":"Y Liu","year":"2015","unstructured":"Liu, Y., Xu, F., Chai, J., Tong, X., Wang, L., Huo, Q.: Video-audio driven real-time facial animation. ACM Trans. Graph. (TOG) 34(6), 1\u201310 (2015)","journal-title":"ACM Trans. Graph. (TOG)"},{"key":"20_CR24","doi-asserted-by":"crossref","unstructured":"Mao, X., Li, Q., Xie, H., Lau, R.Y., Wang, Z., Paul\u00a0Smolley, S.: Least squares generative adversarial networks. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 2794\u20132802 (2017)","DOI":"10.1109\/ICCV.2017.304"},{"key":"20_CR25","doi-asserted-by":"crossref","unstructured":"Pang, Y., et al.: DPE: disentanglement of pose and expression for general video portrait editing. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 427\u2013436 (2023)","DOI":"10.1109\/CVPR52729.2023.00049"},{"key":"20_CR26","doi-asserted-by":"crossref","unstructured":"Papantoniou, F.P., Filntisis, P.P., Maragos, P., Roussos, A.: Neural emotion director: speech-preserving semantic control of facial expressions in \u201cin-the-wild\u201d videos. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 18781\u201318790 (2022)","DOI":"10.1109\/CVPR52688.2022.01822"},{"key":"20_CR27","doi-asserted-by":"crossref","unstructured":"Park, S.J., Kim, M., Hong, J., Choi, J., Ro, Y.M.: SyncTalkFace: talking face generation with precise lip-syncing via audio-lip memory. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a036, pp. 2062\u20132070 (2022)","DOI":"10.1609\/aaai.v36i2.20102"},{"key":"20_CR28","unstructured":"Paszke, A., et\u00a0al.: PyTorch: an imperative style, high-performance deep learning library. In: Advances in Neural Information Processing Systems, vol. 32 (2019)"},{"key":"20_CR29","doi-asserted-by":"crossref","unstructured":"Prajwal, K., Mukhopadhyay, R., Namboodiri, V.P., Jawahar, C.: A lip sync expert is all you need for speech to lip generation in the wild. In: Proceedings of the 28th ACM International Conference on Multimedia, pp. 484\u2013492 (2020)","DOI":"10.1145\/3394171.3413532"},{"key":"20_CR30","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"835","DOI":"10.1007\/978-3-030-01249-6_50","volume-title":"Computer Vision \u2013 ECCV 2018","author":"A Pumarola","year":"2018","unstructured":"Pumarola, A., Agudo, A., Martinez, A.M., Sanfeliu, A., Moreno-Noguer, F.: GANimation: anatomically-aware facial animation from a single image. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds.) ECCV 2018. LNCS, vol. 11214, pp. 835\u2013851. Springer, Cham (2018). https:\/\/doi.org\/10.1007\/978-3-030-01249-6_50"},{"issue":"6","key":"20_CR31","doi-asserted-by":"publisher","first-page":"1161","DOI":"10.1037\/h0077714","volume":"39","author":"JA Russell","year":"1980","unstructured":"Russell, J.A.: A circumplex model of affect. J. Pers. Soc. Psychol. 39(6), 1161 (1980)","journal-title":"J. Pers. Soc. Psychol."},{"key":"20_CR32","doi-asserted-by":"crossref","unstructured":"Sak, H., Senior, A.W., Beaufays, F.: Long short-term memory recurrent neural network architectures for large scale acoustic modeling (2014)","DOI":"10.21437\/Interspeech.2014-80"},{"key":"20_CR33","unstructured":"Sohn, K.: Improved deep metric learning with multi-class n-pair loss objective. In: Advances in Neural Information Processing Systems, vol. 29 (2016)"},{"key":"20_CR34","doi-asserted-by":"crossref","unstructured":"Tulyakov, S., Liu, M.Y., Yang, X., Kautz, J.: MoCoGAN: decomposing motion and content for video generation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1526\u20131535 (2018)","DOI":"10.1109\/CVPR.2018.00165"},{"key":"20_CR35","doi-asserted-by":"crossref","unstructured":"Vemulapalli, R., Agarwala, A.: A compact embedding for facial expression similarity. In: proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 5683\u20135692 (2019)","DOI":"10.1109\/CVPR.2019.00583"},{"key":"20_CR36","doi-asserted-by":"crossref","unstructured":"Wang, J., et al.: LipFormer: high-fidelity and generalizable talking face generation with a pre-learned facial codebook. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 13844\u201313853 (2023)","DOI":"10.1109\/CVPR52729.2023.01330"},{"key":"20_CR37","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"700","DOI":"10.1007\/978-3-030-58589-1_42","volume-title":"Computer Vision \u2013 ECCV 2020","author":"K Wang","year":"2020","unstructured":"Wang, K., et al.: MEAD: a large-scale audio-visual dataset for emotional talking-face generation. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12366, pp. 700\u2013717. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58589-1_42"},{"key":"20_CR38","doi-asserted-by":"crossref","unstructured":"Wang, S., Li, L., Ding, Y., Yu, X.: One-shot talking face generation from single-speaker audio-visual correlation learning. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a036, pp. 2531\u20132539 (2022)","DOI":"10.1609\/aaai.v36i3.20154"},{"key":"20_CR39","doi-asserted-by":"crossref","unstructured":"Xie, T., et al.: Towards realistic visual dubbing with heterogeneous sources. In: Proceedings of the 29th ACM International Conference on Multimedia, pp. 1739\u20131747 (2021)","DOI":"10.1145\/3474085.3475318"},{"key":"20_CR40","doi-asserted-by":"crossref","unstructured":"Yang, H., Ciftci, U., Yin, L.: Facial expression recognition by de-expression residue learning. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2168\u20132177 (2018)","DOI":"10.1109\/CVPR.2018.00231"},{"key":"20_CR41","unstructured":"Yang, Z., Wei, Y., Yang, Y.: Associating objects with transformers for video object segmentation. In: Advances in Neural Information Processing Systems, vol. 34, pp. 2491\u20132502 (2021)"},{"issue":"10","key":"20_CR42","doi-asserted-by":"publisher","first-page":"1499","DOI":"10.1109\/LSP.2016.2603342","volume":"23","author":"K Zhang","year":"2016","unstructured":"Zhang, K., Zhang, Z., Li, Z., Qiao, Y.: Joint face detection and alignment using multitask cascaded convolutional networks. IEEE Signal Process. Lett. 23(10), 1499\u20131503 (2016)","journal-title":"IEEE Signal Process. Lett."},{"key":"20_CR43","doi-asserted-by":"crossref","unstructured":"Zhang, W., Ji, X., Chen, K., Ding, Y., Fan, C.: Learning a facial expression embedding disentangled from identity. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6759\u20136768 (2021)","DOI":"10.1109\/CVPR46437.2021.00669"},{"key":"20_CR44","doi-asserted-by":"crossref","unstructured":"Zhang, W., et al.: SadTalker: learning realistic 3D motion coefficients for stylized audio-driven single image talking face animation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8652\u20138661 (2023)","DOI":"10.1109\/CVPR52729.2023.00836"},{"key":"20_CR45","doi-asserted-by":"crossref","unstructured":"Zhou, H., Sun, Y., Wu, W., Loy, C.C., Wang, X., Liu, Z.: Pose-controllable talking face generation by implicitly modularized audio-visual representation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 4176\u20134186 (2021)","DOI":"10.1109\/CVPR46437.2021.00416"},{"issue":"6","key":"20_CR46","first-page":"1","volume":"39","author":"Y Zhou","year":"2020","unstructured":"Zhou, Y., Han, X., Shechtman, E., Echevarria, J., Kalogerakis, E., Li, D.: MakeltTalk: speaker-aware talking-head animation. ACM Trans. Graph. (TOG) 39(6), 1\u201315 (2020)","journal-title":"ACM Trans. Graph. (TOG)"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-73039-9_20","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,10,30]],"date-time":"2024-10-30T15:26:29Z","timestamp":1730301989000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-73039-9_20"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,10,31]]},"ISBN":["9783031730382","9783031730399"],"references-count":46,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-73039-9_20","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,10,31]]},"assertion":[{"value":"31 October 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Milan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Italy","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 September 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2024.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}