{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,26]],"date-time":"2025-03-26T09:51:13Z","timestamp":1742982673069,"version":"3.40.3"},"publisher-location":"Singapore","reference-count":33,"publisher":"Springer Nature Singapore","isbn-type":[{"type":"print","value":"9789819620630"},{"type":"electronic","value":"9789819620647"}],"license":[{"start":{"date-parts":[[2024,12,28]],"date-time":"2024-12-28T00:00:00Z","timestamp":1735344000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,12,28]],"date-time":"2024-12-28T00:00:00Z","timestamp":1735344000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-981-96-2064-7_24","type":"book-chapter","created":{"date-parts":[[2024,12,27]],"date-time":"2024-12-27T19:25:15Z","timestamp":1735327515000},"page":"326-339","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Robust Active Speaker Detection in\u00a0Challenging Environments Using GNN-Fused Multi-modal Cues and\u00a0Body Language"],"prefix":"10.1007","author":[{"given":"Yongqian","family":"Li","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yong","family":"Luo","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xin","family":"Zhou","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,12,28]]},"reference":[{"key":"24_CR1","unstructured":"Alc\u00e1zar, J.L., et al.: Active speakers in context. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 12465\u201312474 (2020)"},{"key":"24_CR2","doi-asserted-by":"crossref","unstructured":"Alc\u00e1zar, J.L., Caba, F., Thabet, A.K., Ghanem, B.: MAAS: multi-modal assignation for active speaker detection. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 265\u2013274 (2021)","DOI":"10.1109\/ICCV48922.2021.00033"},{"key":"24_CR3","doi-asserted-by":"crossref","unstructured":"Alc\u00e1zar, J.L., Cordes, M., Zhao, C., Ghanem, B.: End-to-end active speaker detection. In: European Conference on Computer Vision, pp. 126\u2013143. Springer (2022)","DOI":"10.1007\/978-3-031-19836-6_8"},{"issue":"8","key":"24_CR4","doi-asserted-by":"publisher","first-page":"3397","DOI":"10.3390\/app11083397","volume":"11","author":"G Assun\u00e7\u00e3o","year":"2021","unstructured":"Assun\u00e7\u00e3o, G., Gon\u00e7alves, N., Menezes, P.: Bio-inspired modality fusion for active speaker detection. Appl. Sci. 11(8), 3397 (2021)","journal-title":"Appl. Sci."},{"issue":"1","key":"24_CR5","doi-asserted-by":"publisher","first-page":"59","DOI":"10.1016\/j.cognition.2006.05.005","volume":"104","author":"AP Atkinson","year":"2007","unstructured":"Atkinson, A.P., Tunstall, M.L., Dittrich, W.H.: Evidence for distinct contributions of form and motion information to the recognition of emotions from body gestures. Cognition 104(1), 59\u201372 (2007)","journal-title":"Cognition"},{"key":"24_CR6","doi-asserted-by":"crossref","unstructured":"Berghi, D., Jackson, P.J.: Leveraging visual supervision for array-based active speaker detection and localization. IEEE\/ACM Trans. Audio Speech Lang. Process. (2023)","DOI":"10.1109\/TASLP.2023.3346643"},{"key":"24_CR7","doi-asserted-by":"crossref","unstructured":"Chakravarty, P., Zegers, J., Tuytelaars, T., Van\u00a0hamme, H.: Active speaker detection with audio-visual co-training. In: Proceedings of the 18th ACM International Conference on Multimodal Interaction, pp. 312\u2013316 (2016)","DOI":"10.1145\/2993148.2993172"},{"issue":"6","key":"24_CR8","doi-asserted-by":"publisher","first-page":"1965","DOI":"10.1109\/TSP.2006.874403","volume":"54","author":"JH Chang","year":"2006","unstructured":"Chang, J.H., Kim, N.S., Mitra, S.K.: Voice activity detection based on multiple statistical models. IEEE Trans. Sig. Process. 54(6), 1965\u20131976 (2006)","journal-title":"IEEE Trans. Sig. Process."},{"key":"24_CR9","doi-asserted-by":"crossref","unstructured":"Chung, J.S., Zisserman, A.: Out of time: automated lip sync in the wild. In: Computer Vision\u2013ACCV 2016 Workshops: ACCV 2016 International Workshops, Taipei, Taiwan, November 20-24, 2016, Revised Selected Papers, Part II 13, pp. 251\u2013263. Springer (2017)","DOI":"10.1007\/978-3-319-54427-4_19"},{"key":"24_CR10","doi-asserted-by":"crossref","unstructured":"Crenn, A., Khan, R.A., Meyer, A., Bouakaz, S.: Body expression recognition from animated 3D skeleton. In: 2016 International Conference on 3D Imaging (IC3D), pp.\u00a01\u20137. IEEE (2016)","DOI":"10.1109\/IC3D.2016.7823448"},{"key":"24_CR11","doi-asserted-by":"crossref","unstructured":"Ding, Y., Xu, Y., Zhang, S.X., Cong, Y., Wang, L.: Self-supervised learning for audio-visual speaker diarization. In: ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4367\u20134371. IEEE (2020)","DOI":"10.1109\/ICASSP40776.2020.9054376"},{"issue":"5","key":"24_CR12","doi-asserted-by":"publisher","first-page":"545","DOI":"10.1016\/j.imavis.2008.04.018","volume":"27","author":"M Everingham","year":"2009","unstructured":"Everingham, M., Sivic, J., Zisserman, A.: Taking the bite out of automated naming of characters in TV video. Image Vis. Comput. 27(5), 545\u2013559 (2009)","journal-title":"Image Vis. Comput."},{"key":"24_CR13","doi-asserted-by":"crossref","unstructured":"Garcia-Romero, D., Snyder, D., Sell, G., Povey, D., McCree, A.: Speaker diarization using deep neural network embeddings. In: 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4930\u20134934. IEEE (2017)","DOI":"10.1109\/ICASSP.2017.7953094"},{"key":"24_CR14","unstructured":"Grauman, K., et\u00a0al.: Ego4D: around the world in 3,000 hours of egocentric video. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 18995\u201319012 (2022)"},{"key":"24_CR15","unstructured":"Hamilton, W., Ying, Z., Leskovec, J.: Inductive representation learning on large graphs. Adv. Neural Inf. Process. Syst. 30 (2017)"},{"key":"24_CR16","doi-asserted-by":"crossref","unstructured":"Huang, C., Koishida, K.: Improved active speaker detection based on optical flow. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition Workshops, pp. 950\u2013951 (2020)","DOI":"10.1109\/CVPRW50498.2020.00483"},{"key":"24_CR17","doi-asserted-by":"crossref","unstructured":"Jung, C., et al.: TalkNCE: improving active speaker detection with talk-aware contrastive learning. In: ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 8391\u20138395 (2024)","DOI":"10.1109\/ICASSP48485.2024.10448124"},{"key":"24_CR18","doi-asserted-by":"crossref","unstructured":"Kim, Y.J., et al.: Look who\u2019s talking: active speaker detection in the wild. arXiv preprint arXiv:2108.07640 (2021)","DOI":"10.21437\/Interspeech.2021-2041"},{"key":"24_CR19","doi-asserted-by":"crossref","unstructured":"K\u00f6p\u00fckl\u00fc, O., Taseska, M., Rigoll, G.: How to design a three-stage architecture for audio-visual active speaker detection in the wild. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 1193\u20131203 (2021)","DOI":"10.1109\/ICCV48922.2021.00123"},{"key":"24_CR20","doi-asserted-by":"crossref","unstructured":"Liao, J., Duan, H., Feng, K., Zhao, W., Yang, Y., Chen, L.: A light weight model for active speaker detection. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 22932\u201322941 (2023)","DOI":"10.1109\/CVPR52729.2023.02196"},{"key":"24_CR21","unstructured":"Lugaresi, C., et\u00a0al.: MediaPipe: a framework for building perception pipelines. arXiv preprint arXiv:1906.08172 (2019)"},{"key":"24_CR22","doi-asserted-by":"crossref","unstructured":"Min, K., Roy, S., Tripathi, S., Guha, T., Majumdar, S.: Learning long-term spatial-temporal graphs for active speaker detection. In: European Conference on Computer Vision, pp. 371\u2013387. Springer (2022)","DOI":"10.1007\/978-3-031-19833-5_22"},{"key":"24_CR23","doi-asserted-by":"crossref","unstructured":"Palash, M., Bhargava, B.: EMERSK\u2013explainable multimodal emotion recognition with situational knowledge. arXiv preprint arXiv:2306.08657 (2023)","DOI":"10.1109\/TMM.2023.3304015"},{"key":"24_CR24","doi-asserted-by":"crossref","unstructured":"Pan, Z., Tao, R., Xu, C., Li, H.: MuSE: multi-modal target speaker extraction with visual cues. In: ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6678\u20136682. IEEE (2021)","DOI":"10.1109\/ICASSP39728.2021.9414023"},{"issue":"9","key":"24_CR25","doi-asserted-by":"publisher","first-page":"13667","DOI":"10.1007\/s11042-022-13746-7","volume":"82","author":"L Pibre","year":"2023","unstructured":"Pibre, L., et al.: Audio-video fusion strategies for active speaker detection in meetings. Multimedia Tools Appl. 82(9), 13667\u201313688 (2023)","journal-title":"Multimedia Tools Appl."},{"key":"24_CR26","doi-asserted-by":"crossref","unstructured":"Roth, J., et\u00a0al.: AVA active speaker: an audio-visual dataset for active speaker detection. In: IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) 2020, pp. 4492\u20134496. IEEE (2020)","DOI":"10.1109\/ICASSP40776.2020.9053900"},{"key":"24_CR27","doi-asserted-by":"crossref","unstructured":"Saenko, K., Livescu, K., Siracusa, M., Wilson, K., Glass, J., Darrell, T.: Visual speech recognition with loosely synchronized feature streams. In: Tenth IEEE International Conference on Computer Vision (ICCV\u201905) Volume 1, vol.\u00a02, pp. 1424\u20131431. IEEE (2005)","DOI":"10.1109\/ICCV.2005.251"},{"key":"24_CR28","doi-asserted-by":"crossref","unstructured":"Shaw, P., Uszkoreit, J., Vaswani, A.: Self-attention with relative position representations. arXiv preprint arXiv:1803.02155 (2018)","DOI":"10.18653\/v1\/N18-2074"},{"issue":"4","key":"24_CR29","doi-asserted-by":"publisher","first-page":"478","DOI":"10.1109\/89.848229","volume":"8","author":"SG Tanyer","year":"2000","unstructured":"Tanyer, S.G., Ozer, H.: Voice activity detection in nonstationary noise. IEEE Trans. Speech Audio Process. 8(4), 478\u2013482 (2000)","journal-title":"IEEE Trans. Speech Audio Process."},{"key":"24_CR30","doi-asserted-by":"crossref","unstructured":"Tao, R., Pan, Z., Das, R.K., Qian, X., Shou, M.Z., Li, H.: Is someone speaking? Exploring long-term temporal features for audio-visual active speaker detection. In: Proceedings of the 29th ACM International Conference on Multimedia, pp. 3927\u20133935 (2021)","DOI":"10.1145\/3474085.3475587"},{"key":"24_CR31","doi-asserted-by":"crossref","unstructured":"Wang, X., Cheng, F., Bertasius, G., Crandall, D.: LocoNet: long-short context network for active speaker detection. arXiv preprint arXiv:2301.08237 (2023)","DOI":"10.1109\/CVPR52733.2024.01747"},{"issue":"5","key":"24_CR32","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3326362","volume":"38","author":"Y Wang","year":"2019","unstructured":"Wang, Y., Sun, Y., Liu, Z., Sarma, S.E., Bronstein, M.M., Solomon, J.M.: Dynamic graph CNN for learning on point clouds. ACM Trans. Graph. 38(5), 1\u201312 (2019)","journal-title":"ACM Trans. Graph."},{"key":"24_CR33","doi-asserted-by":"crossref","unstructured":"Zhang, Y., et al.: UniCon: unified context network for robust active speaker detection. In: Proceedings of the 29th ACM International Conference on Multimedia, pp. 3964\u20133972 (2021)","DOI":"10.1145\/3474085.3475275"}],"container-title":["Lecture Notes in Computer Science","MultiMedia Modeling"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-96-2064-7_24","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,12,27]],"date-time":"2024-12-27T20:04:28Z","timestamp":1735329868000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-96-2064-7_24"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,28]]},"ISBN":["9789819620630","9789819620647"],"references-count":33,"URL":"https:\/\/doi.org\/10.1007\/978-981-96-2064-7_24","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2024,12,28]]},"assertion":[{"value":"28 December 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"MMM","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Multimedia Modeling","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Nara","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Japan","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"9 January 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"11 January 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"31","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"mmm2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/mmm2025.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}