{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,7]],"date-time":"2026-03-07T18:43:53Z","timestamp":1772909033884,"version":"3.50.1"},"publisher-location":"Cham","reference-count":40,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031976056","type":"print"},{"value":"9783031976063","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,6,28]],"date-time":"2025-06-28T00:00:00Z","timestamp":1751068800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,6,28]],"date-time":"2025-06-28T00:00:00Z","timestamp":1751068800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-031-97606-3_15","type":"book-chapter","created":{"date-parts":[[2025,7,6]],"date-time":"2025-07-06T11:23:32Z","timestamp":1751801012000},"page":"217-234","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Whisper, Translate, Speak, Sync: Video Translation for\u00a0Multilingual Video Conferencing Using Generative AI"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-3490-550X","authenticated-orcid":false,"given":"Amirkia","family":"Rafiei Oskooei","sequence":"first","affiliation":[]},{"given":"Eren","family":"Caglar","sequence":"additional","affiliation":[]},{"given":"Ibrahim","family":"\u015eahin","sequence":"additional","affiliation":[]},{"given":"Ayse","family":"Kayabay","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7908-5067","authenticated-orcid":false,"given":"Mehmet S.","family":"Aktas","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,6,28]]},"reference":[{"issue":"3","key":"15_CR1","doi-asserted-by":"publisher","first-page":"317","DOI":"10.1016\/j.future.2006.05.009","volume":"23","author":"MS Aktas","year":"2007","unstructured":"Aktas, M.S., Fox, G.C., Pierce, M.: Fault tolerant high performance information services for dynamic collections of grid and web services. Futur. Gener. Comput. Syst. 23(3), 317\u2013337 (2007)","journal-title":"Futur. Gener. Comput. Syst."},{"key":"15_CR2","doi-asserted-by":"crossref","unstructured":"Aydin, G., Aktas, M.S., Sayar, A.: Servogrid complexity computational environments CCE integrated performance analysis. In: 2005 6th International Workshop on Grid Computing (GRID), pp. 256\u2013261 (2005)","DOI":"10.1109\/GRID.2005.1542750"},{"issue":"3","key":"15_CR3","doi-asserted-by":"publisher","first-page":"71","DOI":"10.1016\/j.visinf.2024.08.002","volume":"8","author":"H Bao","year":"2024","unstructured":"Bao, H., et al.: MILG: realistic lip-sync video generation with audio-modulated image inpainting. Vis. Inform. 8(3), 71\u201381 (2024)","journal-title":"Vis. Inform."},{"key":"15_CR4","doi-asserted-by":"crossref","unstructured":"Casanova, E., et al.: XTTS: a massively multilingual zero-shot text-to-speech model. arXiv preprint arXiv:2406.04904 (2024)","DOI":"10.21437\/Interspeech.2024-2016"},{"key":"15_CR5","doi-asserted-by":"crossref","unstructured":"Cheng, X., et al.: Transface: unit-based audio-visual speech synthesizer for talking head translation. arXiv preprint arXiv:2312.15197 (2023)","DOI":"10.18653\/v1\/2024.findings-acl.593"},{"key":"15_CR6","unstructured":"Chu, S.N., Goodell, A.J.: Synthetic patients: simulating difficult conversations with multimodal generative AI for medical education. arXiv preprint arXiv:2405.19941 (2024)"},{"key":"15_CR7","doi-asserted-by":"crossref","unstructured":"Das, D., Biswas, S., Sinha, S., Bhowmick, B.: Speech-driven facial animation using cascaded GANs for learning of motion and texture. In: Computer Vision\u2013ECCV 2020: 16th European Conference, Glasgow, UK, 23\u201328 August 2020, Proceedings, Part XXX 16, pp. 408\u2013424. Springer (2020)","DOI":"10.1007\/978-3-030-58577-8_25"},{"key":"15_CR8","doi-asserted-by":"crossref","unstructured":"Hong, F.T., Zhang, L., Shen, L., Xu, D.: Depth-aware generative adversarial network for talking head video generation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 3397\u20133406 (2022)","DOI":"10.1109\/CVPR52688.2022.00339"},{"key":"15_CR9","doi-asserted-by":"crossref","unstructured":"Kheddar, H., Hemis, M., Himeur, Y.: Automatic speech recognition using advanced deep learning approaches: a survey. Inf. Fusion 102422 (2024)","DOI":"10.1016\/j.inffus.2024.102422"},{"key":"15_CR10","first-page":"2758","volume":"34","author":"M Kim","year":"2021","unstructured":"Kim, M., Hong, J., Ro, Y.M.: Lip to speech synthesis with visual context attentional GAN. Adv. Neural. Inf. Process. Syst. 34, 2758\u20132770 (2021)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"15_CR11","doi-asserted-by":"crossref","unstructured":"KR, P., Mukhopadhyay, R., Philip, J., Jha, A., Namboodiri, V., Jawahar, C.: Towards automatic face-to-face translation. In: Proceedings of the 27th ACM International Conference on Multimedia, pp. 1428\u20131436 (2019)","DOI":"10.1145\/3343031.3351066"},{"key":"15_CR12","unstructured":"Li, C., et al.: Latentsync: audio conditioned latent diffusion models for lip sync. arXiv preprint arXiv:2412.09262 (2024)"},{"key":"15_CR13","doi-asserted-by":"crossref","unstructured":"Li, R., Pu, D., Huang, M., Huang, B.: Unet-TTS: improving unseen speaker and style transfer in one-shot voice cloning. In: ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 8327\u20138331. IEEE (2022)","DOI":"10.1109\/ICASSP43922.2022.9746049"},{"key":"15_CR14","unstructured":"Lin, G., Jiang, J., Yang, J., Zheng, Z., Liang, C.: Omnihuman-1: rethinking the scaling-up of one-stage conditioned human animation models. arXiv preprint arXiv:2502.01061 (2025)"},{"key":"15_CR15","doi-asserted-by":"publisher","first-page":"9411","DOI":"10.1007\/s11042-020-10073-7","volume":"80","author":"M Malik","year":"2021","unstructured":"Malik, M., Malik, M.K., Mehmood, K., Makhdoom, I.: Automatic speech recognition: a survey. Multimedia Tools Appl. 80, 9411\u20139457 (2021)","journal-title":"Multimedia Tools Appl."},{"issue":"12","key":"15_CR16","doi-asserted-by":"publisher","first-page":"1717","DOI":"10.1002\/cpe.1199","volume":"19","author":"MA Nacar","year":"2007","unstructured":"Nacar, M.A., Aktas, M.S., Yuen, D.A.: Vlab: collaborative grid services and portals to support computational material science. Concurr. Comput. Pract. Exp. 19(12), 1717\u20131728 (2007)","journal-title":"Concurr. Comput. Pract. Exp."},{"key":"15_CR17","doi-asserted-by":"crossref","unstructured":"Olmezogullari, E., Aktas, M.S.: Representation of click-stream data sequences for learning user navigational behavior by using embeddings. In: 2020 IEEE International Conference on Big Data (Big Data), pp. 3173\u20133179 (2020)","DOI":"10.1109\/BigData50022.2020.9378437"},{"key":"15_CR18","doi-asserted-by":"crossref","unstructured":"Olmezogullari, E., Aktas, M.S.: Pattern2vec: representation of clickstream data sequences for learning user navigational behavior. Concurr. Comput. Pract. Exp. 34(9) (2022)","DOI":"10.1002\/cpe.6546"},{"key":"15_CR19","unstructured":"Oskooei, A.R., Babacan, M.S., Ya\u011fc\u0131, E., Alptekin, \u00c7., Bu\u011fday, A.: Beyond synthetic benchmarks: assessing recent LLMs for code generation. In: 14th International Workshop on Computer Science and Engineering, WCSE (2024)"},{"key":"15_CR20","doi-asserted-by":"crossref","unstructured":"Prabhavalkar, R., Hori, T., Sainath, T.N., Schl\u00fcter, R., Watanabe, S.: End-to-end speech recognition: a survey. IEEE\/ACM Trans. Audio Speech Lang. Process. (2023)","DOI":"10.1109\/TASLP.2023.3328283"},{"key":"15_CR21","doi-asserted-by":"crossref","unstructured":"Prajwal, K., Mukhopadhyay, R., Namboodiri, V.P., Jawahar, C.: A lip sync expert is all you need for speech to lip generation in the wild. In: Proceedings of the 28th ACM International Conference on Multimedia, pp. 484\u2013492 (2020)","DOI":"10.1145\/3394171.3413532"},{"issue":"1","key":"15_CR22","doi-asserted-by":"publisher","first-page":"7","DOI":"10.3390\/computers14010007","volume":"14","author":"A Rafiei Oskooei","year":"2024","unstructured":"Rafiei Oskooei, A., Akta\u015f, M.S., Kele\u015f, M.: Seeing the sound: multilingual lip sync for real-time face-to-face translation. Computers 14(1), 7 (2024)","journal-title":"Computers"},{"key":"15_CR23","doi-asserted-by":"crossref","unstructured":"Rafiei\u00a0Oskooei, A., Yahsi, E., Sungur, M., S.\u00a0Aktas, M.: Can one model fit all? An exploration of wav2lip\u2019s lip-syncing generalizability across culturally distinct languages. In: International Conference on Computational Science and Its Applications, pp. 149\u2013164. Springer (2024)","DOI":"10.1007\/978-3-031-65282-0_10"},{"key":"15_CR24","unstructured":"Ritter, M., Meier, U., Yang, J., Waibel, A.: Face translation: a multimodal translation agent. In: AVSP\u201999-International Conference on Auditory-Visual Speech Processing. Citeseer (1999)"},{"key":"15_CR25","doi-asserted-by":"crossref","unstructured":"Sahinoglu, M., Incki, K., Aktas, M.S.: Mobile application verification: a systematic mapping study. In: Computational Science and Its Applications\u2013ICCSA 2015. Lecture Notes in Computer Science, vol. 9159, pp. 147\u2013163 (2015)","DOI":"10.1007\/978-3-319-21413-9_11"},{"key":"15_CR26","doi-asserted-by":"crossref","unstructured":"Shen, S., et al.: Difftalk: crafting diffusion models for generalized audio-driven portraits animation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 1982\u20131991 (2023)","DOI":"10.1109\/CVPR52729.2023.00197"},{"key":"15_CR27","doi-asserted-by":"crossref","unstructured":"Shin, A.H., Lee, J.H., Hwang, J., Kim, Y., Park, G.M.: Wav2nerf: audio-driven realistic talking head generation via wavelet-based nerf. Image Vis. Comput. 105104 (2024)","DOI":"10.1016\/j.imavis.2024.105104"},{"key":"15_CR28","doi-asserted-by":"crossref","unstructured":"Song, H.K., et al.: Talking face generation with multilingual TTS. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 21425\u201321430 (2022)","DOI":"10.1109\/CVPR52688.2022.02074"},{"key":"15_CR29","doi-asserted-by":"crossref","unstructured":"Stypu\u0142kowski, M., Vougioukas, K., He, S., Zi\u0119ba, M., Petridis, S., Pantic, M.: Diffused heads: diffusion models beat GANs on talking-face generation. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, pp. 5091\u20135100 (2024)","DOI":"10.1109\/WACV57701.2024.00502"},{"key":"15_CR30","unstructured":"Sun, X., et al.: Vividtalk: one-shot audio-driven talking head generation based on 3D hybrid prior. arXiv preprint arXiv:2312.01841 (2023)"},{"key":"15_CR31","doi-asserted-by":"crossref","unstructured":"Team, N., et al.: Scaling neural machine translation to 200 languages. Nature 630(8018), 841 (2024)","DOI":"10.1038\/s41586-024-07335-x"},{"key":"15_CR32","doi-asserted-by":"crossref","unstructured":"Tufek, A., Gurbuz, A., Aktas, M.S.: Provenance collection platform for the weather research and forecasting model. In: 2018 14th International Conference on Semantics, Knowledge and Grids (SKG), pp. 17\u201324 (2018)","DOI":"10.1109\/SKG.2018.00009"},{"key":"15_CR33","unstructured":"Vougioukas, K., Petridis, S., Pantic, M.: End-to-end speech-driven realistic facial animation with temporal GANs. In: CVPR Workshops, vol.\u00a0887, pp. 37\u201340 (2019)"},{"key":"15_CR34","doi-asserted-by":"publisher","first-page":"143","DOI":"10.1016\/j.eng.2021.03.023","volume":"18","author":"H Wang","year":"2022","unstructured":"Wang, H., Wu, H., He, Z., Huang, L., Church, K.W.: Progress in machine translation. Engineering 18, 143\u2013153 (2022)","journal-title":"Engineering"},{"key":"15_CR35","unstructured":"Xu, S., et al.: Vasa-1: lifelike audio-driven talking faces generated in real time. arXiv preprint arXiv:2404.10667 (2024)"},{"key":"15_CR36","unstructured":"Ye, Z., et al.: Geneface++: generalized and stable real-time audio-driven 3D talking face generation. arXiv preprint arXiv:2305.00787 (2023)"},{"key":"15_CR37","unstructured":"Ye, Z., et al.: Mimictalk: mimicking a personalized and expressive 3D talking face in minutes. arXiv preprint arXiv:2410.06734 (2024)"},{"key":"15_CR38","unstructured":"Ye, Z., et al.: Real3d-portrait: one-shot realistic 3D talking portrait synthesis. arXiv preprint arXiv:2401.08503 (2024)"},{"key":"15_CR39","doi-asserted-by":"crossref","unstructured":"Yin, F., et al.: Styleheat: one-shot high-resolution editable talking face generation via pre-trained stylegan. In: European Conference on Computer Vision, pp. 85\u2013101. Springer (2022)","DOI":"10.1007\/978-3-031-19790-1_6"},{"key":"15_CR40","unstructured":"Zhu, W., et al.: Multilingual machine translation with large language models: empirical results and analysis. arXiv preprint arXiv:2304.04675 (2023)"}],"container-title":["Lecture Notes in Computer Science","Computational Science and Its Applications \u2013 ICCSA 2025 Workshops"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-97606-3_15","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,7,6]],"date-time":"2025-07-06T11:23:38Z","timestamp":1751801018000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-97606-3_15"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6,28]]},"ISBN":["9783031976056","9783031976063"],"references-count":40,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-97606-3_15","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,6,28]]},"assertion":[{"value":"28 June 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICCSA","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Computational Science and Its Applications","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Istanbul","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"T\u00fcrkiye","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"30 June 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"3 July 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"25","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"iccsa2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/iccsa.org\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}