{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,2]],"date-time":"2026-02-02T17:35:47Z","timestamp":1770053747405,"version":"3.49.0"},"publisher-location":"Cham","reference-count":38,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783032113573","type":"print"},{"value":"9783032113580","type":"electronic"}],"license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-11358-0_34","type":"book-chapter","created":{"date-parts":[[2026,2,2]],"date-time":"2026-02-02T07:03:23Z","timestamp":1770015803000},"page":"407-419","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Lightweight Neural Networks for\u00a0Multi-modal and\u00a0Cross-Modal Biometric Matching: Experimental Evaluation on\u00a0Audio-Visual Data"],"prefix":"10.1007","author":[{"given":"Yoanna","family":"Mart\u00ednez-D\u00edaz","sequence":"first","affiliation":[]},{"given":"Heydi","family":"M\u00e9ndez-V\u00e1zquez","sequence":"additional","affiliation":[]},{"given":"Gabriel","family":"Hern\u00e1ndez-Sierra","sequence":"additional","affiliation":[]},{"given":"Anthony","family":"Larcher","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2026,2,3]]},"reference":[{"key":"34_CR1","doi-asserted-by":"crossref","unstructured":"Abdrakhmanova, M., Yermekova, A., Barko, Y., Ryspayev, V., Jumadildayev, M., Varol, H.A.: One model to rule them all: a universal transformer for biometric matching. IEEE Access (2024)","DOI":"10.1109\/ACCESS.2024.3426602"},{"key":"34_CR2","doi-asserted-by":"publisher","first-page":"35429","DOI":"10.1109\/ACCESS.2023.3266068","volume":"11","author":"M Alansari","year":"2023","unstructured":"Alansari, M., Hay, O.A., Javed, S., Shoufan, A., Zweiri, Y., Werghi, N.: GhostFaceNets: lightweight face recognition model from cheap operations. IEEE Access 11, 35429\u201335446 (2023)","journal-title":"IEEE Access"},{"issue":"5","key":"34_CR3","doi-asserted-by":"publisher","first-page":"1410","DOI":"10.3390\/s25051410","volume":"25","author":"B Amirgaliyev","year":"2025","unstructured":"Amirgaliyev, B., Mussabek, M., Rakhimzhanova, T., Zhumadillayeva, A.: A review of machine learning and deep learning methods for person detection, tracking and identification, and face recognition with applications. Sensors 25(5), 1410 (2025)","journal-title":"Sensors"},{"key":"34_CR4","first-page":"103748","volume":"82","author":"AI Awad","year":"2024","unstructured":"Awad, A.I., Babu, A., Barka, E., Shuaib, K.: Ai-powered biometrics for internet of things security: a review and future vision. J. Inf. Secur. Appl. 82, 103748 (2024)","journal-title":"J. Inf. Secur. Appl."},{"key":"34_CR5","doi-asserted-by":"publisher","first-page":"46823","DOI":"10.1109\/ACCESS.2022.3170561","volume":"10","author":"F Boutros","year":"2022","unstructured":"Boutros, F., Siebke, P., Klemt, M., Damer, N., Kirchbuchner, F., Kuijper, A.: Pocketnet: extreme lightweight face recognition network using neural architecture search and multistep knowledge distillation. IEEE access 10, 46823\u201346833 (2022)","journal-title":"IEEE access"},{"key":"34_CR6","doi-asserted-by":"crossref","unstructured":"Chen, S., Liu, Y., Gao, X., Han, Z.: MobileFaceNets: efficient CNNs for accurate real-time face verification on mobile devices. In: Biometric Recognition, pp. 428\u2013438 (2018)","DOI":"10.1007\/978-3-319-97909-0_46"},{"issue":"9","key":"34_CR7","first-page":"1","volume":"20","author":"W Chen","year":"2024","unstructured":"Chen, W., Zhu, B., Xu, K., Dou, Y., Feng, D.: VoiceStyle: voice-based face generation via cross-modal prototype contrastive learning. ACM Trans. Multimed. Comput. Commun. Appl. 20(9), 1\u201323 (2024)","journal-title":"ACM Trans. Multimed. Comput. Commun. Appl."},{"key":"34_CR8","doi-asserted-by":"crossref","unstructured":"Chen, Z., Wang, S., Qian, Y.: Multi-modality matters: a performance leap on VoxCeleb. In: Interspeech, pp. 2252\u20132256 (2020)","DOI":"10.21437\/Interspeech.2020-2229"},{"key":"34_CR9","doi-asserted-by":"crossref","unstructured":"Chung, J.S., Nagrani, A., Zisserman, A.: VoxCeleb2: deep speaker recognition. In: INTERSPEECH (2018)","DOI":"10.21437\/Interspeech.2018-1929"},{"key":"34_CR10","doi-asserted-by":"crossref","unstructured":"Desplanques, B., Thienpondt, J., Demuynck, K.: ECAPA-TDNN: emphasized channel attention, propagation and aggregation in TDNN based speaker verification. arXiv preprint arXiv:2005.07143 (2020)","DOI":"10.21437\/Interspeech.2020-2650"},{"issue":"2","key":"34_CR11","doi-asserted-by":"publisher","first-page":"158","DOI":"10.1109\/TBIOM.2024.3352164","volume":"6","author":"A George","year":"2024","unstructured":"George, A., Ecabert, C., Shahreza, H.O., Kotwal, K., Marcel, S.: EdgeFace: efficient face recognition model for edge devices. IEEE Trans. Biomet. Behav. Identity Sci. 6(2), 158\u2013168 (2024)","journal-title":"IEEE Trans. Biomet. Behav. Identity Sci."},{"key":"34_CR12","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"87","DOI":"10.1007\/978-3-319-46487-9_6","volume-title":"Computer Vision \u2013 ECCV 2016","author":"Y Guo","year":"2016","unstructured":"Guo, Y., Zhang, L., Hu, Y., He, X., Gao, J.: MS-Celeb-1M: a dataset and benchmark for large-scale face recognition. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9907, pp. 87\u2013102. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46487-9_6"},{"key":"34_CR13","doi-asserted-by":"crossref","unstructured":"Hassanzadeh, H., Qadir, J.A., Omer, S.M., Ahmed, M.H., Khezri, E.: Deep learning for speaker recognition: a comparative analysis of 1D-CNN and LSTM models using diverse datasets. In: 2024 4th Interdisciplinary conference on electrics and computer (INTCEC), pp.\u00a01\u20138. IEEE (2024)","DOI":"10.1109\/INTCEC61833.2024.10603196"},{"key":"34_CR14","doi-asserted-by":"crossref","unstructured":"H\u00f6rmann, S., Moiz, A., Knoche, M., Rigoll, G.: Attention fusion for audio-visual person verification using multi-scale features. In: 2020 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020), pp. 281\u2013285. IEEE (2020)","DOI":"10.1109\/FG47880.2020.00074"},{"key":"34_CR15","doi-asserted-by":"crossref","unstructured":"Jain, A.K., Flynn, P., Ross, A.A.: Handbook of Biometrics. Springer, Heidelberg (2007)","DOI":"10.1007\/978-0-387-71041-9"},{"key":"34_CR16","doi-asserted-by":"crossref","unstructured":"Jiao, T., Guo, C., Feng, X., Chen, Y., Song, J.: A comprehensive survey on deep learning multi-modal fusion: methods, technologies and applications. Comput. Mater. Continua 80(1) (2024)","DOI":"10.32604\/cmc.2024.053204"},{"key":"34_CR17","doi-asserted-by":"crossref","unstructured":"Liu, B., Wang, H., Chen, Z., Wang, S., Qian, Y.: Self-knowledge distillation via feature enhancement for speaker verification. In: ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 7542\u20137546. IEEE (2022)","DOI":"10.1109\/ICASSP43922.2022.9746529"},{"key":"34_CR18","doi-asserted-by":"crossref","unstructured":"Liu, M., Lee, K.A., Wang, L., Zhang, H., Zeng, C., Dang, J.: Cross-modal audio-visual co-learning for text-independent speaker verification. In: ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.\u00a01\u20135. IEEE (2023)","DOI":"10.1109\/ICASSP49357.2023.10095883"},{"key":"34_CR19","doi-asserted-by":"crossref","unstructured":"Martinez-Diaz, Y., Luevano, L.S., Mendez-Vazquez, H., Nicolas-Diaz, M., Chang, L., Gonzalez-Mendoza, M.: ShuffleFaceNet: a lightweight face architecture for efficient and highly-accurate face recognition. In: IEEE International Conference on Computer Vision Workshops (2019)","DOI":"10.1109\/ICCVW.2019.00333"},{"key":"34_CR20","doi-asserted-by":"crossref","unstructured":"Nagrani, A., Chung, J.S., Zisserman, A.: VoxCeleb: a large-scale speaker identification dataset. In: INTERSPEECH (2017)","DOI":"10.21437\/Interspeech.2017-950"},{"key":"34_CR21","doi-asserted-by":"crossref","unstructured":"Nagrani, A., Albanie, S., Zisserman, A.: Learnable pins: cross-modal embeddings for person identity. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 71\u201388 (2018)","DOI":"10.1007\/978-3-030-01261-8_5"},{"key":"34_CR22","doi-asserted-by":"crossref","unstructured":"Nagrani, A., Albanie, S., Zisserman, A.: Seeing voices and hearing faces: cross-modal biometric matching. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 8427\u20138436 (2018)","DOI":"10.1109\/CVPR.2018.00879"},{"key":"34_CR23","doi-asserted-by":"crossref","unstructured":"Nawaz, S., Janjua, M.K., Gallo, I., Mahmood, A., Calefati, A.: Deep latent space learning for cross-modal mapping of audio and visual signals. In: 2019 Digital Image Computing: Techniques and Applications (DICTA), pp.\u00a01\u20137. IEEE (2019)","DOI":"10.1109\/DICTA47822.2019.8945863"},{"key":"34_CR24","doi-asserted-by":"crossref","unstructured":"Nawaz, S., et al.: Cross-modal speaker verification and recognition: a multilingual perspective. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 1682\u20131691 (2021)","DOI":"10.1109\/CVPRW53098.2021.00184"},{"key":"34_CR25","doi-asserted-by":"crossref","unstructured":"Praveen, R.G., Alam, J.: Audio-visual person verification based on recursive fusion of joint cross-attention. In: 2024 IEEE 18th International Conference on Automatic Face and Gesture Recognition (FG), pp.\u00a01\u20135. IEEE (2024)","DOI":"10.1109\/FG59268.2024.10582018"},{"key":"34_CR26","doi-asserted-by":"publisher","first-page":"1079","DOI":"10.1109\/TASLP.2021.3057230","volume":"29","author":"Y Qian","year":"2021","unstructured":"Qian, Y., Chen, Z., Wang, S.: Audio-visual deep neural network for robust person verification. IEEE\/ACM Trans. Audio Speech Lang. Process. 29, 1079\u20131092 (2021)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"34_CR27","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"18","DOI":"10.1007\/978-3-031-48312-7_2","volume-title":"Speech and Computer","author":"GP Rajasekhar","year":"2023","unstructured":"Rajasekhar, G.P., Alam, J.: Audio-visual speaker verification via joint cross-attention. In: Karpov, A., Samudravijaya, K., Deepak, K.T., Hegde, R.M., Agrawal, S.S., Prasanna, S.R.M. (eds.) SPECOM 2023. LNCS, vol. 14339, pp. 18\u201331. Springer, Cham (2023). https:\/\/doi.org\/10.1007\/978-3-031-48312-7_2"},{"key":"34_CR28","doi-asserted-by":"crossref","unstructured":"Sadjadi, S.O., et\u00a0al.: The 2019 NIST audio-visual speaker recognition evaluation. In: Odyssey, pp. 259\u2013265 (2020)","DOI":"10.21437\/Odyssey.2020-37"},{"key":"34_CR29","doi-asserted-by":"crossref","unstructured":"Saeed, M.S., Khan, M.H., Nawaz, S., Yousaf, M.H., Del\u00a0Bue, A.: Fusion and orthogonal projection for improved face-voice association. In: ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 7057\u20137061. IEEE (2022)","DOI":"10.1109\/ICASSP43922.2022.9747704"},{"key":"34_CR30","doi-asserted-by":"crossref","unstructured":"Saeed, M.S., et al.: Single-branch network for multimodal training. In: ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.\u00a01\u20135. IEEE (2023)","DOI":"10.1109\/ICASSP49357.2023.10097207"},{"key":"34_CR31","doi-asserted-by":"crossref","unstructured":"Sar\u0131, L., Singh, K., Zhou, J., Torresani, L., Singhal, N., Saraf, Y.: A multi-view approach to audio-visual speaker verification. In: ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6194\u20136198. IEEE (2021)","DOI":"10.1109\/ICASSP39728.2021.9414260"},{"key":"34_CR32","doi-asserted-by":"crossref","unstructured":"Shon, S., Oh, T.H., Glass, J.: Noise-tolerant audio-visual online person verification using an attention-based neural network fusion. In: ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 3995\u20133999. IEEE (2019)","DOI":"10.1109\/ICASSP.2019.8683477"},{"issue":"2","key":"34_CR33","doi-asserted-by":"publisher","first-page":"112","DOI":"10.3390\/brainsci14020112","volume":"14","author":"SV Stevenage","year":"2024","unstructured":"Stevenage, S.V., Edey, R., Keay, R., Morrison, R., Robertson, D.J.: Familiarity is key: exploring the effect of familiarity on the face-voice correlation. Brain Sci. 14(2), 112 (2024)","journal-title":"Brain Sci."},{"key":"34_CR34","doi-asserted-by":"crossref","unstructured":"Tao, R., Lee, K.A., Shi, Z., Li, H.: Speaker recognition with two-step multi-modal deep cleansing. In: ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.\u00a01\u20135. IEEE (2023)","DOI":"10.1109\/ICASSP49357.2023.10096814"},{"key":"34_CR35","doi-asserted-by":"publisher","first-page":"2267","DOI":"10.1109\/TASLP.2022.3182856","volume":"30","author":"R Wang","year":"2022","unstructured":"Wang, R., Wei, Z., Duan, H., Ji, S., Long, Y., Hong, Z.: EfficientTDNN: efficient architecture search for speaker recognition. IEEE\/ACM Trans. Audio Speech Lang. Process. 30, 2267\u20132279 (2022)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"34_CR36","doi-asserted-by":"crossref","unstructured":"Xie, W., Nagrani, A., Chung, J.S., Zisserman, A.: Utterance-level aggregation for speaker recognition in the wild. In: ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 5791\u20135795. IEEE (2019)","DOI":"10.1109\/ICASSP.2019.8683120"},{"key":"34_CR37","doi-asserted-by":"crossref","unstructured":"Zhang, J., Xu, X., Shen, F., Lu, H., Liu, X., Shen, H.T.: Enhancing audio-visual association with self-supervised curriculum learning. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a035, pp. 3351\u20133359 (2021)","DOI":"10.1609\/aaai.v35i4.16447"},{"key":"34_CR38","unstructured":"Zhang, J.: SeesawFaceNets: sparse and robust face verification model for mobile platform. arXiv preprint arXiv:1908.09124 (2019)"}],"container-title":["Lecture Notes in Computer Science","Progress in Artificial Intelligence and Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-11358-0_34","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,2]],"date-time":"2026-02-02T07:03:38Z","timestamp":1770015818000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-11358-0_34"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"ISBN":["9783032113573","9783032113580"],"references-count":38,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-11358-0_34","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]},"assertion":[{"value":"3 February 2026","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"IWAIPR","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Congress on Artificial Intelligence and Pattern Recognition","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Varadero","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Cuba","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"14 October 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"17 October 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"9","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"iwaipr2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eventos.uci.cu\/en\/event\/ix-international-congress-on-artificial-intelligence-and-pattern-recognition-iwaipr-2025-2\/register","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}