{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,23]],"date-time":"2025-12-23T17:49:20Z","timestamp":1766512160776,"version":"3.48.0"},"publisher-location":"Singapore","reference-count":45,"publisher":"Springer Nature Singapore","isbn-type":[{"type":"print","value":"9789819523818"},{"type":"electronic","value":"9789819523825"}],"license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-981-95-2382-5_15","type":"book-chapter","created":{"date-parts":[[2025,12,23]],"date-time":"2025-12-23T17:43:37Z","timestamp":1766511817000},"page":"207-221","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Towards Improving Turn-Taking in\u00a0Social Robots Using Visual-Only Voice Activity Detection in\u00a0Multimodal Dialogue Systems"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-0435-4987","authenticated-orcid":false,"given":"Antonio","family":"Cano","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8358-996X","authenticated-orcid":false,"given":"Guillermo","family":"Perez","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4927-8647","authenticated-orcid":false,"given":"Luis","family":"Merino","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3191-6818","authenticated-orcid":false,"given":"Randy","family":"Gomez","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2026,1,2]]},"reference":[{"key":"15_CR1","doi-asserted-by":"crossref","unstructured":"Gomez, R., Szapiro, D., Galindo, K., Nakamura, K.: Haru: hardware design of an experimental tabletop robot assistant, pp.\u00a0233\u2013240, February 2018","DOI":"10.1145\/3171221.3171288"},{"key":"15_CR2","doi-asserted-by":"crossref","unstructured":"Gomez, R., et al.: Design of embodied mediator haru for remote cross cultural communication. In: Proceedings of the IEEE International Conference on Robotics and Automation, pp.\u00a05505\u20135511 (2024)","DOI":"10.1109\/ICRA57147.2024.10611253"},{"key":"15_CR3","unstructured":"Jaiswal, R., Hines, A.: The sound of silence: How traditional and deep learning based voice activity detection influences speech quality monitoring, December 2018"},{"key":"15_CR4","doi-asserted-by":"crossref","unstructured":"Ekstedt, E., Skantze, G.: Voice activity projection: Self-supervised learning of turn-taking events (2022)","DOI":"10.21437\/Interspeech.2022-10955"},{"key":"15_CR5","doi-asserted-by":"crossref","unstructured":"Aneja, D., McDuff, D., Czerwinski, M.: Conversational error analysis in human-agent interaction. In: Proceedings of the 20th ACM International Conference on Intelligent Virtual Agents, IVA 2020, (New York, NY, USA), ACM (2020)","DOI":"10.1145\/3383652.3423901"},{"key":"15_CR6","doi-asserted-by":"crossref","unstructured":"Blauth, D.A., Minotto, V.P., Jung, C.R., Lee, B., Kalker, T.: Voice activity detection and speaker localization using audiovisual cues. Pattern Recogn. Lett. 33(4), 373\u2013380 (2012). Intelligent Multimedia Interactivity","DOI":"10.1016\/j.patrec.2011.09.002"},{"key":"15_CR7","doi-asserted-by":"crossref","unstructured":"Sodoyer, D., Rivet, B., Girin, L., Savariaux, C., Schwartz, J.-l., Jutten, C.: A study of lip movements during spontaneous dialog and its application to voice activity detection. J. Acoust. Soc. Am. 125, 1184\u201396 (2009)","DOI":"10.1121\/1.3050257"},{"key":"15_CR8","unstructured":"Siohan, O., de\u00a0Pinho Forin\u00a0Braga, O.: Best of both worlds: multi-task audio-visual automatic speech recognition and active speaker detection (2022)"},{"issue":"10","key":"15_CR9","doi-asserted-by":"publisher","first-page":"1183","DOI":"10.1080\/01691864.2012.687152","volume":"26","author":"T Yoshida","year":"2012","unstructured":"Yoshida, T., Nakadai, K.: Audio-visual voice activity detection based on an utterance state transition model. Adv. Robot. 26(10), 1183\u20131201 (2012)","journal-title":"Adv. Robot."},{"key":"15_CR10","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"143","DOI":"10.1007\/978-3-319-22482-4_17","volume-title":"Latent Variable Analysis and Signal Separation","author":"ID Gebru","year":"2015","unstructured":"Gebru, I.D., Ba, S., Evangelidis, G., Horaud, R.: Audio-visual speech-turn detection and tracking. In: Vincent, E., Yeredor, A., Koldovsk\u00fd, Z., Tichavsk\u00fd, P. (eds.) LVA\/ICA 2015. LNCS, vol. 9237, pp. 143\u2013151. Springer, Cham (2015). https:\/\/doi.org\/10.1007\/978-3-319-22482-4_17"},{"key":"15_CR11","doi-asserted-by":"crossref","unstructured":"Skantze, G., Irfan, B.: Applying general turn-taking models to conversational human-robot interaction. In: Proceedings of the 2025 ACM\/IEEE International Conference on Human-Robot Interaction, HRI 2025, pp.\u00a0859\u2013868. IEEE Press (2025)","DOI":"10.1109\/HRI61500.2025.10973958"},{"key":"15_CR12","doi-asserted-by":"crossref","unstructured":"Onishi, K., Tanaka, H., Nakamura, S.: Multimodal voice activity prediction: Turn-taking events detection in expert-novice conversation. In: Proceedings of the 11th International Conference on Human-Agent Interaction, HAI 2023, (New York, NY, USA), pp.\u00a013\u201321. ACM (2023)","DOI":"10.1145\/3623809.3623837"},{"key":"15_CR13","doi-asserted-by":"publisher","first-page":"45140","DOI":"10.1109\/ACCESS.2023.3267668","volume":"11","author":"FB Tesema","year":"2023","unstructured":"Tesema, F.B., Gu, J., Song, W., Wu, H., Zhu, S., Lin, Z.: Efficient audiovisual fusion for active speaker detection. IEEE Access 11, 45140\u201345153 (2023)","journal-title":"IEEE Access"},{"key":"15_CR14","doi-asserted-by":"crossref","unstructured":"Jiang, Y., Tao, R., Pan, Z., Li, H.: Target active speaker detection with audio-visual cues (2023)","DOI":"10.21437\/Interspeech.2023-574"},{"key":"15_CR15","unstructured":"Min, K.: Intel labs at ego4d challenge 2022: a better baseline for audio-visual diarization (2023)"},{"key":"15_CR16","doi-asserted-by":"crossref","unstructured":"Liao, J., Duan, H., Feng, K., Zhao, W., Yang, Y., Chen, L.: A light weight model for active speaker detection (2023)","DOI":"10.1109\/CVPR52729.2023.02196"},{"key":"15_CR17","unstructured":"Vasireddy, S.S.N., Zhang, C., Guo, X., Tian, Y.: Robust active speaker detection in noisy environments (2024)"},{"key":"15_CR18","doi-asserted-by":"crossref","unstructured":"Wang, X., Cheng, F., Bertasius, G.: Loconet: long-short context network for active speaker detection. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp.\u00a018462\u201318472, June 2024","DOI":"10.1109\/CVPR52733.2024.01747"},{"key":"15_CR19","doi-asserted-by":"crossref","unstructured":"Alcazar, J.L., Cordes, M., Zhao, C., Ghanem, B.: End-to-end active speaker detection (2022)","DOI":"10.1007\/978-3-031-19836-6_8"},{"issue":"2","key":"15_CR20","doi-asserted-by":"publisher","first-page":"265","DOI":"10.1109\/JSTSP.2019.2901195","volume":"13","author":"I Ariav","year":"2019","unstructured":"Ariav, I., Cohen, I.: An end-to-end multimodal voice activity detection using wavenet encoder and residual networks. IEEE J. Sel. Top. Sig. Process. 13(2), 265\u2013274 (2019)","journal-title":"IEEE J. Sel. Top. Sig. Process."},{"key":"15_CR21","unstructured":"Guy, S., Lathuili\u00e8re, S., Mesejo, P., Horaud, R.: Learning visual voice activity detection with an automatically annotated dataset (2020)"},{"key":"15_CR22","doi-asserted-by":"crossref","unstructured":"Shahid, M., Beyan, C., Murino, V.: S-vvad: visual voice activity detection by motion segmentation. In: 2021 IEEE Winter Conference on Applications of Computer Vision (WACV), pp.\u00a02331\u20132340 (2021)","DOI":"10.1109\/WACV48630.2021.00238"},{"key":"15_CR23","doi-asserted-by":"crossref","unstructured":"Yamazaki, K., Tamura, S., Gotoh, Y., Nose, M.: Visual-only voice activity detection using human motion in conference video. In: Proceedings of the 11th International Conference on Pattern Recognition Applications and Methods - Volume 1: ICPRAM, pp.\u00a0570\u2013577, INSTICC, SciTePress (2022)","DOI":"10.5220\/0010829200003122"},{"key":"15_CR24","doi-asserted-by":"crossref","unstructured":"Wang, Z., et al.: The multimodal information based speech processing (misp) 2022 challenge: Audio-visual diarization and recognition (2023)","DOI":"10.1109\/ICASSP49357.2023.10094836"},{"key":"15_CR25","doi-asserted-by":"publisher","first-page":"76","DOI":"10.1016\/j.cviu.2018.02.001","volume":"173","author":"JS Chung","year":"2018","unstructured":"Chung, J.S., Zisserman, A.: Learning to lip read words by watching videos. Comput. Vis. Image Underst. 173, 76\u201385 (2018)","journal-title":"Comput. Vis. Image Underst."},{"key":"15_CR26","doi-asserted-by":"crossref","unstructured":"Cheng, M., Li, M.: Multi-input multi-output target-speaker voice activity detection for unified, flexible, and robust audio-visual speaker diarization (2024)","DOI":"10.1109\/TASLPRO.2025.3597450"},{"key":"15_CR27","doi-asserted-by":"crossref","unstructured":"Caus, D., Carbajal, G., Gerkmann, T., Frintrop, S.: See the silence: improving visual-only voice activity detection by optical flow and RGB fusion, pp.\u00a041\u201351, September 2021","DOI":"10.1007\/978-3-030-87156-7_4"},{"key":"15_CR28","doi-asserted-by":"crossref","unstructured":"Tao, R., Qian, X., Das, R.K., Gao, X., Wang, J., Li, H.: Enhancing real-world active speaker detection with multi-modal extraction pre-training (2024)","DOI":"10.1109\/TMM.2024.3521791"},{"key":"15_CR29","doi-asserted-by":"crossref","unstructured":"Shahverdi, P., Tyshka, A., Trombly, M., Louie, W.-Y.G.: Learning turn-taking behavior from human demonstrations for social human-robot interactions. In: 2022 IEEE\/RSJ International Conference on Intelligent Robots and Systems (IROS), pp.\u00a07643\u20137649 (2022)","DOI":"10.1109\/IROS47612.2022.9981243"},{"key":"15_CR30","doi-asserted-by":"crossref","unstructured":"Sharma, R., Somandepalli, K., Narayanan, S.: Toward visual voice activity detection for unconstrained videos. In: 2019 IEEE International Conference on Image Processing (ICIP), pp.\u00a02991\u20132995 (2019)","DOI":"10.1109\/ICIP.2019.8803248"},{"issue":"6","key":"15_CR31","doi-asserted-by":"publisher","first-page":"967","DOI":"10.1109\/TMM.2016.2535357","volume":"18","author":"F Patrona","year":"2016","unstructured":"Patrona, F., Iosifidis, A., Tefas, A., Nikolaidis, N., Pitas, I.: Visual voice activity detection in the wild. IEEE Trans. Multimedia 18(6), 967\u2013977 (2016)","journal-title":"IEEE Trans. Multimedia"},{"key":"15_CR32","doi-asserted-by":"crossref","unstructured":"Fujie, S., Katayama, H., Sakuma, J., Kobayashi, T.: Timing generating networks: neural network based precise turn-taking timing prediction in multiparty conversation. In: Interspeech (2021)","DOI":"10.21437\/Interspeech.2021-874"},{"key":"15_CR33","doi-asserted-by":"crossref","unstructured":"Hou, Y., et al.: Attention-based cross-modal fusion for audio-visual voice activity detection in musical video streams (2021)","DOI":"10.21437\/Interspeech.2021-37"},{"key":"15_CR34","unstructured":"Benatan, M.: Audio-visual speech processing for multimedia localisation (2016)"},{"key":"15_CR35","doi-asserted-by":"crossref","unstructured":"Kim, J., et al.: Egospeak: learning when to speak for egocentric conversational agents in the wild (2025)","DOI":"10.18653\/v1\/2025.findings-naacl.163"},{"key":"15_CR36","doi-asserted-by":"crossref","unstructured":"Yamasaki, H., Louradour, J., Hunter, J., Pr\u00e9vot, L.: Transcribing and aligning conversational speech: a hybrid pipeline applied to french conversations, pp.\u00a01\u20136, December 2023","DOI":"10.1109\/ASRU57964.2023.10389691"},{"key":"15_CR37","unstructured":"Jeon, W.: Timestamped embedding-matching acoustic-to-word ctc asr (2023)"},{"key":"15_CR38","doi-asserted-by":"publisher","first-page":"105410","DOI":"10.1016\/j.bspc.2023.105410","volume":"87","author":"J Zhang","year":"2024","unstructured":"Zhang, J., Cao, J., Sun, J.: Learning spatiotemporal lip dynamics in 3d point cloud stream for visual voice activity detection. Biomed. Signal Process. Control 87, 105410 (2024)","journal-title":"Biomed. Signal Process. Control"},{"key":"15_CR39","unstructured":"Bulat, A., Patterson, G.G.: face-alignment (2016). Accessed 05 Oct 2023"},{"key":"15_CR40","unstructured":"Geitgey, A.: face_recognition: recognize and manipulate faces from python or from the command line. https:\/\/github.com\/ageitgey\/face_recognition (2017)"},{"key":"15_CR41","doi-asserted-by":"crossref","unstructured":"Carreira, J., Zisserman, A.: Quo vadis, action recognition? A new model and the kinetics dataset, CoRR, vol. arXiv:1705.07750 (2017)","DOI":"10.1109\/CVPR.2017.502"},{"key":"15_CR42","doi-asserted-by":"crossref","unstructured":"Martinez, B., Ma, P., Petridis, S., Pantic, M.: Lipreading using temporal convolutional networks (2020)","DOI":"10.1109\/ICASSP40776.2020.9053841"},{"key":"15_CR43","doi-asserted-by":"publisher","first-page":"2130","DOI":"10.21437\/Interspeech.2016-406","volume":"2016","author":"F Tao","year":"2016","unstructured":"Tao, F., Hansen, J.H., Busso, C.: Improving boundary estimation in audiovisual speech activity detection using bayesian information criterion. Interspeech 2016, 2130\u20132134 (2016)","journal-title":"Interspeech"},{"issue":"5","key":"15_CR44","doi-asserted-by":"publisher","first-page":"603","DOI":"10.1109\/TMM.2015.2407694","volume":"17","author":"N Harte","year":"2015","unstructured":"Harte, N., Gillen, E.: Tcd-timit: an audio-visual corpus of continuous speech. IEEE Trans. Multimedia 17(5), 603\u2013615 (2015)","journal-title":"IEEE Trans. Multimedia"},{"key":"15_CR45","doi-asserted-by":"crossref","unstructured":"Livingstone, S.R., Russo, F.A.: The ryerson audio-visual database of emotional speech and song (ravdess): a dynamic, multimodal set of facial and vocal expressions in north American English. PLOS ONE 13, 1\u201335 (2018)","DOI":"10.1371\/journal.pone.0196391"}],"container-title":["Lecture Notes in Computer Science","Social Robotics + AI"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-95-2382-5_15","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,23]],"date-time":"2025-12-23T17:43:40Z","timestamp":1766511820000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-95-2382-5_15"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"ISBN":["9789819523818","9789819523825"],"references-count":45,"URL":"https:\/\/doi.org\/10.1007\/978-981-95-2382-5_15","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2026]]},"assertion":[{"value":"2 January 2026","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICSR+AI","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Social Robotics","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Naples","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Italy","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"10 September 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"12 September 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"17","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"socrob2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/icsr2025.eu\/icsr-2025-about\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}