{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,15]],"date-time":"2026-05-15T05:13:37Z","timestamp":1778822017679,"version":"3.51.4"},"reference-count":129,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Information Fusion"],"published-print":{"date-parts":[[2026,9]]},"DOI":"10.1016\/j.inffus.2026.104343","type":"journal-article","created":{"date-parts":[[2026,4,3]],"date-time":"2026-04-03T16:22:11Z","timestamp":1775233331000},"page":"104343","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Face off: A survey on multimodal fusion for secure and realistic facial de-identification"],"prefix":"10.1016","volume":"133","author":[{"given":"Haini","family":"Zhu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3400-1613","authenticated-orcid":false,"given":"Deepak Kumar","family":"Jain","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xudong","family":"Zhao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Muyu","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chenquan","family":"Gan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hao","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"78","reference":[{"issue":"2","key":"10.1016\/j.inffus.2026.104343_bib0001","first-page":"6","article-title":"Megapixels: origins, ethics, and privacy implications of publicly available face recognition image datasets","volume":"1","author":"Harvey","year":"2019","journal-title":"Megapixels"},{"key":"10.1016\/j.inffus.2026.104343_bib0002","unstructured":"J. Cao, X. Chen, B. Liu, M. Ding, R. Xie, L. Song, Z. Li, W. Zhang, Face de-identification: state-of-the-art methods and comparative studies, arXiv preprint arXiv: 2411.09863(2024)."},{"key":"10.1016\/j.inffus.2026.104343_bib0003","doi-asserted-by":"crossref","first-page":"4147","DOI":"10.1109\/TIFS.2021.3096024","article-title":"Privacy\u2013enhancing face biometrics: a comprehensive survey","volume":"16","author":"Meden","year":"2021","journal-title":"IEEE Trans. Inf. Forensics Secur."},{"key":"10.1016\/j.inffus.2026.104343_bib0004","doi-asserted-by":"crossref","DOI":"10.1016\/j.imavis.2023.104688","article-title":"Synthetic data for face recognition: current state and future prospects","volume":"135","author":"Boutros","year":"2023","journal-title":"Image Vis. Comput."},{"issue":"7","key":"10.1016\/j.inffus.2026.104343_bib0005","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3713070","article-title":"A survey of multimodal learning: methods, applications, and future","volume":"57","author":"Yuan","year":"2025","journal-title":"ACM Comput. Surv."},{"issue":"2s","key":"10.1016\/j.inffus.2026.104343_bib0006","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3545572","article-title":"A review on methods and applications in multimodal deep learning","volume":"19","author":"Jabeen","year":"2023","journal-title":"ACM Trans. Multimed. Comput. Commun. Appl."},{"key":"10.1016\/j.inffus.2026.104343_bib0007","unstructured":"J. Summaira, X. Li, A.M. Shoib, S. Li, J. Abdul, Recent advances and trends in multimodal deep learning: a review, arXiv preprint arXiv: 2105.11087(2021)."},{"issue":"7","key":"10.1016\/j.inffus.2026.104343_bib0008","doi-asserted-by":"crossref","first-page":"1448","DOI":"10.1587\/transinf.2019ICI0002","article-title":"An overview of de-identification techniques and their standardization directions","volume":"103","author":"Youm","year":"2020","journal-title":"IEICE Trans. Inf. Syst."},{"issue":"3","key":"10.1016\/j.inffus.2026.104343_bib0009","doi-asserted-by":"crossref","first-page":"293","DOI":"10.1109\/TBIOM.2024.3485990","article-title":"Person de-identification: a comprehensive review of methods, datasets, applications, and ethical aspects along-with new dimensions","volume":"7","author":"Khan","year":"2024","journal-title":"IEEE Trans. Biom. Behav. Identity Sci."},{"key":"10.1016\/j.inffus.2026.104343_bib0010","unstructured":"B.A. Owoyele, M. Schilling, R. Sawahn, N. Kaemer, P. Zherebenkov, B. Verma, W. Pouw, G. de Melo, MaskAnyone toolkit: offering strategies for minimizing privacy risks and maximizing utility in audio-visual data archiving, arXiv preprint arXiv: 2408.03185(2024)."},{"issue":"16","key":"10.1016\/j.inffus.2026.104343_bib0011","first-page":"9510","article-title":"A de-identification face recognition using extracted thermal features based on deep learning","volume":"20","author":"Lin","year":"2020","journal-title":"IEEE Sens. J."},{"key":"10.1016\/j.inffus.2026.104343_bib0012","series-title":"Proceedings of the 33rd ACM International Conference on Multimedia","first-page":"5707","article-title":"Deemo: de-identity multimodal emotion recognition and reasoning","author":"Li","year":"2025"},{"issue":"2","key":"10.1016\/j.inffus.2026.104343_bib0013","doi-asserted-by":"crossref","first-page":"423","DOI":"10.1109\/TPAMI.2018.2798607","article-title":"Multimodal machine learning: a survey and taxonomy","volume":"41","author":"Baltru\u0161aitis","year":"2018","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"9","key":"10.1016\/j.inffus.2026.104343_bib0014","doi-asserted-by":"crossref","first-page":"1449","DOI":"10.1109\/JPROC.2015.2460697","article-title":"Multimodal data fusion: an overview of methods, challenges, and prospects","volume":"103","author":"Lahat","year":"2015","journal-title":"Proc. IEEE"},{"key":"10.1016\/j.inffus.2026.104343_bib0015","series-title":"ICML","first-page":"689","article-title":"Multimodal deep learning","volume":"11","author":"Ngiam","year":"2011"},{"key":"10.1016\/j.inffus.2026.104343_bib0016","series-title":"European Conference on Computer Vision","first-page":"740","article-title":"Microsoft coco: common objects in context","author":"Lin","year":"2014"},{"key":"10.1016\/j.inffus.2026.104343_bib0017","series-title":"Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval","first-page":"2443","article-title":"WIT: wikipedia-based image text dataset for multimodal multilingual machine learning","author":"Srinivasan","year":"2021"},{"key":"10.1016\/j.inffus.2026.104343_bib0018","unstructured":"M. Byeon, B. Park, H. Kim, S. Lee, W. Baek, S. Kim, Coyo-700m: image-text pair dataset, 2022,."},{"key":"10.1016\/j.inffus.2026.104343_bib0019","first-page":"25278","article-title":"Laion-5B: an open large-scale dataset for training next generation image-text models","volume":"35","author":"Schuhmann","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2026.104343_bib0020","first-page":"27092","article-title":"Datacomp: in search of the next generation of multimodal datasets","volume":"36","author":"Gadre","year":"2023","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"DB1","key":"10.1016\/j.inffus.2026.104343_bib0021","first-page":"1","article-title":"Multibench: multiscale benchmarks for multimodal representation learning","volume":"2021","author":"Liang","year":"2021","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2026.104343_bib0022","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"2630","article-title":"Howto100m: learning a text-video embedding by watching hundred million narrated video clips","author":"Miech","year":"2019"},{"key":"10.1016\/j.inffus.2026.104343_bib0023","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"17980","article-title":"Scaling up vision-language pre-training for image captioning","author":"Hu","year":"2022"},{"key":"10.1016\/j.inffus.2026.104343_bib0024","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"9762","article-title":"X-World: accessibility, vision, and autonomy meet","author":"Zhang","year":"2021"},{"key":"10.1016\/j.inffus.2026.104343_bib0025","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"13401","article-title":"AI choreographer: music conditioned 3D dance generation with aist++","author":"Li","year":"2021"},{"key":"10.1016\/j.inffus.2026.104343_bib0026","series-title":"European Conference on Computer Vision","first-page":"459","article-title":"Chalearn looking at people challenge 2014: dataset and results","author":"Escalera","year":"2014"},{"key":"10.1016\/j.inffus.2026.104343_bib0027","series-title":"NIPS 2016, Workshop Future of Interactive Learning Machines","article-title":"A multimodal human-robot interaction dataset","author":"Azagra","year":"2016"},{"key":"10.1016\/j.inffus.2026.104343_bib0028","series-title":"Workshop on Faces in\u2019Real-Life\u2019Images: Detection, Alignment, and Recognition","article-title":"Labeled faces in the wild: a database forstudying face recognition in unconstrained environments","author":"Huang","year":"2008"},{"key":"10.1016\/j.inffus.2026.104343_bib0029","series-title":"Proceedings of Fifth IEEE International Conference on Automatic Face Gesture Recognition","first-page":"53","article-title":"The CMU pose, illumination, and expression (PIE) database","author":"Sim","year":"2002"},{"key":"10.1016\/j.inffus.2026.104343_bib0030","series-title":"Proceedings of the IEEE International Conference on Computer Vision","first-page":"3730","article-title":"Deep learning face attributes in the wild","author":"Liu","year":"2015"},{"key":"10.1016\/j.inffus.2026.104343_bib0031","series-title":"2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018)","first-page":"67","article-title":"VGGFace2: a dataset for recognising faces across pose and age","author":"Cao","year":"2018"},{"key":"10.1016\/j.inffus.2026.104343_bib0032","series-title":"Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing","first-page":"2539","article-title":"Deep convolutional neural network textual features and multiple kernel learning for utterance-level multimodal sentiment analysis","author":"Poria","year":"2015"},{"key":"10.1016\/j.inffus.2026.104343_bib0033","series-title":"Proceedings of the 16th International Conference on Multimodal Interaction","first-page":"34","article-title":"Deep multimodal fusion: combining discrete events and continuous signals","author":"Mart\u00ednez","year":"2014"},{"key":"10.1016\/j.inffus.2026.104343_bib0034","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"1725","article-title":"Large-scale video classification with convolutional neural networks","author":"Karpathy","year":"2014"},{"issue":"8","key":"10.1016\/j.inffus.2026.104343_bib0035","doi-asserted-by":"crossref","first-page":"1692","DOI":"10.1109\/TPAMI.2015.2461544","article-title":"Moddrop: adaptive multi-modal gesture recognition","volume":"38","author":"Neverova","year":"2015","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.inffus.2026.104343_bib0036","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"4690","article-title":"Arcface: additive angular margin loss for deep face recognition","author":"Deng","year":"2019"},{"key":"10.1016\/j.inffus.2026.104343_bib0037","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"5265","article-title":"Cosface: large margin cosine loss for deep face recognition","author":"Wang","year":"2018"},{"issue":"3","key":"10.1016\/j.inffus.2026.104343_bib0038","doi-asserted-by":"crossref","first-page":"614","DOI":"10.1147\/sj.403.0614","article-title":"Enhancing security and privacy in biometrics-based authentication systems","volume":"40","author":"Ratha","year":"2001","journal-title":"IBM Syst. J."},{"issue":"12","key":"10.1016\/j.inffus.2026.104343_bib0039","doi-asserted-by":"crossref","first-page":"2065","DOI":"10.1109\/TPAMI.2007.1129","article-title":"From scores to face templates: a model-based approach","volume":"29","author":"Mohanty","year":"2007","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.inffus.2026.104343_bib0040","series-title":"British Machine Vision Conference 2013","first-page":"1","article-title":"Reconstructing faces from their signatures using RBF regression","author":"Mignon","year":"2013"},{"key":"10.1016\/j.inffus.2026.104343_bib0041","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"3703","article-title":"Synthesizing normalized faces from facial identity features","author":"Cole","year":"2017"},{"key":"10.1016\/j.inffus.2026.104343_bib0042","doi-asserted-by":"crossref","first-page":"37431","DOI":"10.1109\/ACCESS.2021.3063031","article-title":"Audio-visual biometric recognition and presentation attack detection: a comprehensive survey","volume":"9","author":"Mandalapu","year":"2021","journal-title":"IEEE Access"},{"key":"10.1016\/j.inffus.2026.104343_bib0043","unstructured":"M. Mirza, S. Osindero, Conditional generative adversarial nets, arXiv preprint arXiv: 1411.1784(2014)."},{"key":"10.1016\/j.inffus.2026.104343_bib0044","first-page":"5767","article-title":"Improved training of wasserstein GANs","volume":"30","author":"Gulrajani","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2026.104343_bib0045","unstructured":"S.M.S.M. Khorzooghi, S. Nilizadeh, StyleGAN as a utility-preserving face de-identification method, arXiv preprint arXiv: 2212.02611(2022)."},{"key":"10.1016\/j.inffus.2026.104343_bib0046","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"5447","article-title":"CiaGAN: conditional identity anonymization generative adversarial networks","author":"Maximov","year":"2020"},{"issue":"13","key":"10.1016\/j.inffus.2026.104343_bib0047","doi-asserted-by":"crossref","first-page":"4520","DOI":"10.3390\/s21134520","article-title":"Multispectral face recognition using transfer learning with adaptation of domain specific units","volume":"21","author":"Chambino","year":"2021","journal-title":"Sensors"},{"key":"10.1016\/j.inffus.2026.104343_bib0048","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2024.108495","article-title":"Generating bimodal privacy-preserving data for face recognition","volume":"133","author":"Toma\u0161evi\u0107","year":"2024","journal-title":"Eng. Appl. Artif. Intell."},{"key":"10.1016\/j.inffus.2026.104343_bib0049","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"5925","article-title":"Now you see me, now you don\u2019t: a unified framework for expression consistent anonymization in talking head videos","author":"Egin","year":"2025"},{"key":"10.1016\/j.inffus.2026.104343_bib0050","doi-asserted-by":"crossref","DOI":"10.1016\/j.imavis.2023.104678","article-title":"Face deidentification with controllable privacy protection","volume":"134","author":"Meden","year":"2023","journal-title":"Image Vis. Comput."},{"key":"10.1016\/j.inffus.2026.104343_bib0051","first-page":"2672","article-title":"Generative adversarial nets","volume":"27","author":"Goodfellow","year":"2014","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2026.104343_bib0052","series-title":"International Conference on Machine Learning","first-page":"214","article-title":"Wasserstein generative adversarial networks","author":"Arjovsky","year":"2017"},{"key":"10.1016\/j.inffus.2026.104343_bib0053","series-title":"Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision","first-page":"1663","article-title":"StructFormer: structure-consistent face de-identification under strong privacy constraints","author":"Zhu","year":"2026"},{"key":"10.1016\/j.inffus.2026.104343_bib0054","unstructured":"D. Bahdanau, K. Cho, Y. Bengio, Neural machine translation by jointly learning to align and translate, arXiv preprint arXiv: 1409.0473(2014)."},{"key":"10.1016\/j.inffus.2026.104343_bib0055","first-page":"5998","article-title":"Attention is all you need","volume":"30","author":"Vaswani","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2026.104343_bib0056","series-title":"Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)","first-page":"4171","article-title":"BERT: pre-training of deep bidirectional transformers for language understanding","author":"Devlin","year":"2019"},{"issue":"8","key":"10.1016\/j.inffus.2026.104343_bib0057","first-page":"9","article-title":"Language models are unsupervised multitask learners","volume":"1","author":"Radford","year":"2019","journal-title":"OpenAI Blog"},{"key":"10.1016\/j.inffus.2026.104343_bib0058","first-page":"1877","article-title":"Language models are few-shot learners","volume":"33","author":"Brown","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2026.104343_bib0059","series-title":"International Conference on Machine Learning","first-page":"1691","article-title":"Generative pretraining from pixels","author":"Chen","year":"2020"},{"key":"10.1016\/j.inffus.2026.104343_bib0060","unstructured":"A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, et al., An image is worth 16x16 words: transformers for image recognition at scale, arXiv preprint arXiv: 2010.11929(2020)."},{"key":"10.1016\/j.inffus.2026.104343_bib0061","first-page":"13","article-title":"VilBERT: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks","volume":"32","author":"Lu","year":"2019","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2026.104343_bib0062","unstructured":"H. Tan, M. Bansal, LXMERT: learning cross-modality encoder representations from transformers, arXiv preprint arXiv: 1908.07490(2019)."},{"key":"10.1016\/j.inffus.2026.104343_bib0063","series-title":"European Conference on Computer Vision","first-page":"104","article-title":"UnitER: universal image-text representation learning","author":"Chen","year":"2020"},{"key":"10.1016\/j.inffus.2026.104343_bib0064","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"11304","article-title":"Styleswin: transformer-based GAN for high-resolution image generation","author":"Zhang","year":"2022"},{"key":"10.1016\/j.inffus.2026.104343_bib0065","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"10012","article-title":"Swin transformer: hierarchical vision transformer using shifted windows","author":"Liu","year":"2021"},{"key":"10.1016\/j.inffus.2026.104343_bib0066","unstructured":"N. Zhang, X. Liu, X. Li, G.-J. Qi, Morphganformer: transformer-based face morphing and de-morphing, arXiv preprint arXiv: 2302.09404(2023)."},{"key":"10.1016\/j.inffus.2026.104343_bib0067","unstructured":"H. Tang, Y. Wu, S. Yang, E. Xie, J. Chen, J. Chen, Z. Zhang, H. Cai, Y. Lu, S. Han, Hart: efficient visual generation with hybrid autoregressive transformer, arXiv preprint arXiv: 2410.10812(2024)."},{"key":"10.1016\/j.inffus.2026.104343_bib0068","unstructured":"X. Zhu, W. Su, L. Lu, B. Li, X. Wang, J. Dai, Deformable DETR: deformable transformers for end-to-end object detection, arXiv preprint arXiv: 2010.04159(2020)."},{"key":"10.1016\/j.inffus.2026.104343_bib0069","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"6881","article-title":"Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers","author":"Zheng","year":"2021"},{"key":"10.1016\/j.inffus.2026.104343_bib0070","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"1701","article-title":"Deepface: closing the gap to human-level performance in face verification","author":"Taigman","year":"2014"},{"key":"10.1016\/j.inffus.2026.104343_bib0071","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume":"33","author":"Ho","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2026.104343_bib0072","first-page":"8780","article-title":"Diffusion models beat GANs on image synthesis","volume":"34","author":"Dhariwal","year":"2021","journal-title":"NeurIPS"},{"key":"10.1016\/j.inffus.2026.104343_bib0073","unstructured":"J. Song, C. Meng, S. Ermon, Denoising diffusion implicit models, arXiv preprint arXiv: 2010.02502(2020)."},{"key":"10.1016\/j.inffus.2026.104343_bib0074","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"10684","article-title":"High-resolution image synthesis with latent diffusion models","author":"Rombach","year":"2022"},{"key":"10.1016\/j.inffus.2026.104343_bib0075","unstructured":"A. Ramesh, P. Dhariwal, A. Nichol, C. Chu, M. Chen, Hierarchical text-conditional image generation with clip latents, arXiv preprint arXiv: 2204.06125 1 (2) (2022) 3."},{"key":"10.1016\/j.inffus.2026.104343_bib0076","first-page":"36479","article-title":"Photorealistic text-to-image diffusion models with deep language understanding","volume":"35","author":"Saharia","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2026.104343_bib0077","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"19650","article-title":"Idiff-face: synthetic-based face recognition through fizzy identity-conditioned diffusion model","author":"Boutros","year":"2023"},{"key":"10.1016\/j.inffus.2026.104343_bib0078","unstructured":"Y. Wei, Y. Pan, DiffDeID: a multi-conditional diffusion-based method for high fidelity face de-indentification with diversity."},{"key":"10.1016\/j.inffus.2026.104343_bib0079","unstructured":"M.\u0130. Mu\u015ftu, H.K. Ekenel, Facial attribute based text guided face anonymization, arXiv preprint arXiv: 2505.21002(2025)."},{"key":"10.1016\/j.inffus.2026.104343_bib0080","first-page":"4790","article-title":"Conditional image generation with pixelCNN decoders","volume":"29","author":"Van den Oord","year":"2016","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2026.104343_bib0081","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"12873","article-title":"Taming transformers for high-resolution image synthesis","author":"Esser","year":"2021"},{"key":"10.1016\/j.inffus.2026.104343_bib0082","unstructured":"J. Park, S. Muhammad, S. Lee, J.T. Lee, S.K. Jung, FLUID: training-free face de-identification via latent identity substitution, arXiv preprint arXiv: 2511.17005(2025)."},{"issue":"12","key":"10.1016\/j.inffus.2026.104343_bib0083","doi-asserted-by":"crossref","first-page":"8353","DOI":"10.1109\/TCSVT.2022.3191982","article-title":"IdentityMask: deep motion flow guided reversible face video de-identification","volume":"32","author":"Wen","year":"2022","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"issue":"1","key":"10.1016\/j.inffus.2026.104343_bib0084","doi-asserted-by":"crossref","first-page":"244","DOI":"10.1109\/TNNLS.2020.3027617","article-title":"Disentangled representation learning for multiple attributes preserving face deidentification","volume":"33","author":"Gong","year":"2020","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"10.1016\/j.inffus.2026.104343_bib0085","doi-asserted-by":"crossref","first-page":"13280","DOI":"10.1109\/TIFS.2025.3643789","article-title":"Disentangle before anonymize: a two-stage framework for attribute-preserved and occlusion-robust de-identification","volume":"20","author":"Zhu","year":"2025","journal-title":"IEEE Trans. Inf. Forensics Secur."},{"key":"10.1016\/j.inffus.2026.104343_bib0086","series-title":"2024 IEEE International Symposium on Broadband Multimedia Systems and Broadcasting (BMSB)","first-page":"1","article-title":"Identity-consistent video de-identification via diffusion autoencoders","author":"Zhu","year":"2024"},{"key":"10.1016\/j.inffus.2026.104343_bib0087","series-title":"2023 IEEE Symposium on Computers and Communications (ISCC)","first-page":"562","article-title":"Natural face anonymization via latent space layers swapping","author":"BenSaid","year":"2023"},{"key":"10.1016\/j.inffus.2026.104343_bib0088","series-title":"2024 International Conference on Cyberworlds (CW)","first-page":"167","article-title":"A latent feature space transformation for identity-aware controllable de-identification","author":"Shopon","year":"2024"},{"key":"10.1016\/j.inffus.2026.104343_bib0089","unstructured":"L. Dinh, J. Sohl-Dickstein, S. Bengio, Density estimation using real NVP, arXiv preprint arXiv: 1605.08803(2016)."},{"key":"10.1016\/j.inffus.2026.104343_bib0090","first-page":"16280","article-title":"Diffusion normalizing flow","volume":"34","author":"Zhang","year":"2021","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2026.104343_bib0091","unstructured":"F.-Y. Wang, L. Yang, Z. Huang, M. Wang, H. Li, Rectified diffusion: straightness is not your need in rectified flow, arXiv preprint arXiv: 2410.07303(2024)."},{"key":"10.1016\/j.inffus.2026.104343_bib0092","unstructured":"T. Balaji, P. Blies, G. G\u00f6ri, R. Mitsch, M. Wasserer, T. Sch\u00f6n, Temporally coherent video anonymization through GAN inpainting, arXiv preprint arXiv: 2106.02328(2021)."},{"key":"10.1016\/j.inffus.2026.104343_bib0093","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"362","article-title":"FIVA: facial image and video anonymization and anonymization defense","author":"Rosberg","year":"2023"},{"issue":"6","key":"10.1016\/j.inffus.2026.104343_bib0094","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3459992","article-title":"Generative adversarial networks: a survey toward private and secure applications","volume":"54","author":"Cai","year":"2021","journal-title":"ACM Comput. Surv. (CSUR)"},{"key":"10.1016\/j.inffus.2026.104343_bib0095","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"3001","article-title":"Fewer denoising steps or cheaper per-step inference: towards compute-optimal diffusion model deployment","author":"Du","year":"2025"},{"key":"10.1016\/j.inffus.2026.104343_bib0096","first-page":"85203","article-title":"Faster diffusion: rethinking the role of the encoder for diffusion model inference","volume":"37","author":"Li","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2026.104343_bib0097","series-title":"Conference on Graphics, Patterns and Images (SIBGRAPI)","first-page":"339","article-title":"Replacing real faces with virtual humans: a new paradigm for facial de-identification","author":"Knob","year":"2025"},{"key":"10.1016\/j.inffus.2026.104343_bib0098","doi-asserted-by":"crossref","unstructured":"M. Bla\u017eevi\u0107, K. Brki\u0107, T. Hrka\u0107, Towards reversible de-identification in video sequences using 3D avatars and steganography, arXiv preprint arXiv: 1510.04861(2015).","DOI":"10.20532\/ccvw.2015.0004"},{"issue":"4091","key":"10.1016\/j.inffus.2026.104343_bib0099","doi-asserted-by":"crossref","first-page":"1194","DOI":"10.1126\/science.180.4091.1194","article-title":"Masking in visual recognition: effects of two-dimensional filtered noise","volume":"180","author":"Harmon","year":"1973","journal-title":"Science"},{"key":"10.1016\/j.inffus.2026.104343_bib0100","unstructured":"M.U. Saleem, D. Reilly, L. Fan, Dp-shield: face obfuscation with differential privacy (2022) 578\u201358110.48786\/edbt.2022.55."},{"key":"10.1016\/j.inffus.2026.104343_bib0101","series-title":"IFIP Annual Conference on Data and Applications Security and Privacy","first-page":"148","article-title":"Image pixelization with differential privacy","author":"Fan","year":"2018"},{"key":"10.1016\/j.inffus.2026.104343_bib0102","series-title":"2019 IEEE International Conference on Multimedia and Expo (ICME)","first-page":"784","article-title":"Practical image obfuscation with provable privacy","author":"Fan","year":"2019"},{"issue":"1","key":"10.1016\/j.inffus.2026.104343_bib0103","article-title":"Face image publication based on differential privacy","volume":"2021","author":"Liu","year":"2021","journal-title":"Wireless Commun. Mob. Comput."},{"issue":"2","key":"10.1016\/j.inffus.2026.104343_bib0104","doi-asserted-by":"crossref","first-page":"232","DOI":"10.1109\/TKDE.2005.32","article-title":"Preserving privacy by de-identifying face images","volume":"17","author":"Newton","year":"2005","journal-title":"IEEE Trans. Knowl. Data Eng."},{"key":"10.1016\/j.inffus.2026.104343_bib0105","series-title":"2015 IEEE Global Conference on Signal and Information Processing (GlobalSIP)","first-page":"586","article-title":"Face de-identification using facial identity preserving features","author":"Chi","year":"2015"},{"key":"10.1016\/j.inffus.2026.104343_bib0106","series-title":"2019 16th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS)","first-page":"1","article-title":"K-same-siamese-gan: K-same algorithm with generative adversarial network for facial image de-identification with hyperparameter tuning and mixed precision training","author":"Pan","year":"2019"},{"key":"10.1016\/j.inffus.2026.104343_bib0107","unstructured":"Y. Jeong, J. Choi, S. Kim, Y. Ro, T.-H. Oh, D. Kim, H. Ha, S. Yoon, FICGAN: facial identity controllable GAN for de-identification, arXiv preprint arXiv: 2110.00740(2021)."},{"key":"10.1016\/j.inffus.2026.104343_bib0108","series-title":"International Symposium on Visual Computing","first-page":"565","article-title":"Deepprivacy: a generative adversarial network for face anonymization","author":"Hukkel\u00e5s","year":"2019"},{"key":"10.1016\/j.inffus.2026.104343_bib0109","series-title":"Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision","first-page":"6343","article-title":"Diffuse and restore: a region-adaptive diffusion model for identity-preserving blind face restoration","author":"Suin","year":"2024"},{"key":"10.1016\/j.inffus.2026.104343_bib0110","series-title":"Proceedings of the Asian Conference on Computer Vision","first-page":"4017","article-title":"IDDiffuse: dual-conditional diffusion model for enhanced facial image anonymization","author":"Shaheryar","year":"2024"},{"key":"10.1016\/j.inffus.2026.104343_bib0111","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"5567","article-title":"FaceMe: robust blind face restoration with personal identification","volume":"39","author":"Liu","year":"2025"},{"key":"10.1016\/j.inffus.2026.104343_bib0112","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"815","article-title":"FaceNet: a unified embedding for face recognition and clustering","author":"Schroff","year":"2015"},{"key":"10.1016\/j.inffus.2026.104343_bib0113","unstructured":"D. Yi, Z. Lei, S. Liao, S.Z. Li, Learning face representation from scratch, arXiv preprint arXiv: 1411.7923(2014)."},{"issue":"10","key":"10.1016\/j.inffus.2026.104343_bib0114","doi-asserted-by":"crossref","first-page":"1499","DOI":"10.1109\/LSP.2016.2603342","article-title":"Joint face detection and alignment using multitask cascaded convolutional networks","volume":"23","author":"Zhang","year":"2016","journal-title":"IEEE Signal Process. Lett."},{"key":"10.1016\/j.inffus.2026.104343_bib0115","first-page":"6626","article-title":"GANs trained by a two time-scale update rule converge to a local nash equilibrium","volume":"30","author":"Heusel","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2026.104343_bib0116","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"586","article-title":"The unreasonable effectiveness of deep features as a perceptual metric","author":"Zhang","year":"2018"},{"key":"10.1016\/j.inffus.2026.104343_bib0117","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"586","article-title":"The unreasonable effectiveness of deep features as a perceptual metric","author":"Zhang","year":"2018"},{"issue":"11","key":"10.1016\/j.inffus.2026.104343_bib0118","doi-asserted-by":"crossref","first-page":"1617","DOI":"10.1007\/s00371-017-1428-z","article-title":"Review on the effects of age, gender, and race demographics on automatic face recognition","volume":"34","author":"Abdurrahim","year":"2018","journal-title":"Vis. Comput."},{"issue":"1","key":"10.1016\/j.inffus.2026.104343_bib0119","doi-asserted-by":"crossref","first-page":"101","DOI":"10.1109\/TBIOM.2020.3027269","article-title":"Accuracy comparison across face recognition algorithms: where are we on measuring race bias?","volume":"3","author":"Cavazos","year":"2020","journal-title":"IEEE Trans. Biom. Behav. Identity Sci."},{"key":"10.1016\/j.inffus.2026.104343_bib0120","series-title":"European Conference on Computer Vision","first-page":"506","article-title":"Investigating bias and fairness in facial expression recognition","author":"Xu","year":"2020"},{"key":"10.1016\/j.inffus.2026.104343_bib0121","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2023.110002","article-title":"Fairness in face presentation attack detection","volume":"147","author":"Fang","year":"2024","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.inffus.2026.104343_bib0122","unstructured":"D. Yaman, F.I. Eyiokur, H.K. Ekenel, A. Waibel, Assessing identity leakage in talking face generation: metrics and evaluation framework, arXiv preprint arXiv: 2511.08613(2025)."},{"issue":"9","key":"10.1016\/j.inffus.2026.104343_bib0123","first-page":"1","article-title":"VoiceStyle: voice-based face generation via cross-modal prototype contrastive learning","volume":"20","author":"Chen","year":"2024","journal-title":"ACM Trans. Multimed. Comput. Commun. Appl."},{"key":"10.1016\/j.inffus.2026.104343_bib0124","doi-asserted-by":"crossref","first-page":"2759","DOI":"10.1109\/TIFS.2021.3065495","article-title":"Face anti-spoofing via adversarial cross-modality translation","volume":"16","author":"Liu","year":"2021","journal-title":"IEEE Trans. Inf. Forensics Secur."},{"issue":"5","key":"10.1016\/j.inffus.2026.104343_bib0125","doi-asserted-by":"crossref","first-page":"4698","DOI":"10.1109\/TCSVT.2024.3524602","article-title":"Distilling multi-level semantic cues across multi-modalities for face forgery detection","volume":"35","author":"Yu","year":"2025","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.inffus.2026.104343_bib0126","unstructured":"D. Li, X. Liu, B. Xing, B. Xia, Y. Zong, B. Wen, H. K\u00e4lvi\u00e4inen, Eald-MLLM: emotion analysis in long-sequential and de-identity videos with multi-modal large langua ge model, arXiv preprint arXiv: 2405.00574(2024)."},{"key":"10.1016\/j.inffus.2026.104343_bib0127","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"24655","article-title":"MMCERT: provable defense against adversarial attacks to multi-modal models","author":"Wang","year":"2024"},{"key":"10.1016\/j.inffus.2026.104343_bib0128","series-title":"Proceedings of the 31st ACM International Conference on Multimedia","first-page":"6311","article-title":"AdvCLIP: downstream-agnostic adversarial examples in multimodal contrastive learning","author":"Zhou","year":"2023"},{"key":"10.1016\/j.inffus.2026.104343_bib0129","series-title":"2019 IEEE 25Th International Conference on Parallel and Distributed Systems (ICPADS)","first-page":"985","article-title":"PPGAN: privacy-preserving generative adversarial network","author":"Liu","year":"2019"}],"container-title":["Information Fusion"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1566253526002228?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1566253526002228?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,15]],"date-time":"2026-05-15T04:39:48Z","timestamp":1778819988000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S1566253526002228"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,9]]},"references-count":129,"alternative-id":["S1566253526002228"],"URL":"https:\/\/doi.org\/10.1016\/j.inffus.2026.104343","relation":{},"ISSN":["1566-2535"],"issn-type":[{"value":"1566-2535","type":"print"}],"subject":[],"published":{"date-parts":[[2026,9]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Face off: A survey on multimodal fusion for secure and realistic facial de-identification","name":"articletitle","label":"Article Title"},{"value":"Information Fusion","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.inffus.2026.104343","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"104343"}}