{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,17]],"date-time":"2026-06-17T16:45:05Z","timestamp":1781714705888,"version":"3.54.5"},"reference-count":113,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"3","license":[{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100011039","name":"Office of the Director of National Intelligence (ODNI), Intelligence Advanced Research Projects Activity","doi-asserted-by":"publisher","award":["2022-21102100005"],"award-info":[{"award-number":["2022-21102100005"]}],"id":[{"id":"10.13039\/100011039","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Biom. Behav. Identity Sci."],"published-print":{"date-parts":[[2026,5]]},"DOI":"10.1109\/tbiom.2026.3655668","type":"journal-article","created":{"date-parts":[[2026,1,19]],"date-time":"2026-01-19T20:57:06Z","timestamp":1768856226000},"page":"354-364","source":"Crossref","is-referenced-by-count":3,"title":["FaceXBench: Evaluating Multimodal LLMs on Face Understanding"],"prefix":"10.1109","volume":"8","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-3095-9752","authenticated-orcid":false,"given":"Kartik","family":"Narayan","sequence":"first","affiliation":[{"name":"Department of Computer Science, Johns Hopkins University, Baltimore, MD, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"V. S.","family":"Vibashan","sequence":"additional","affiliation":[{"name":"Department of Electrical and Computer Engineering, Johns Hopkins University, Baltimore, MD, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5239-692X","authenticated-orcid":false,"given":"Vishal M.","family":"Patel","sequence":"additional","affiliation":[{"name":"Department of Electrical and Computer Engineering, Johns Hopkins University, Baltimore, MD, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","article-title":"LLaVA-OneVision: Easy visual task transfer","author":"Li","year":"2024","journal-title":"arXiv:2408.03326"},{"key":"ref2","article-title":"Qwen2-VL: Enhancing vision-language model\u2019s perception of the world at any resolution","author":"Wang","year":"2024","journal-title":"arXiv:2409.12191"},{"key":"ref3","article-title":"GPT-4o system card","author":"Hurst","year":"2024","journal-title":"arXiv:2410.21276"},{"key":"ref4","volume-title":"Gemini 1.5: Unlocking Multimodal Understanding Across Millions of Tokens of Context (2024)","author":"Team","year":"2024"},{"key":"ref5","article-title":"GPT-4 technical report","volume-title":"arXiv:2303.08774","author":"Achiam","year":"2023"},{"key":"ref6","article-title":"The Claude 3 model family: Opus, sonnet, haiku","volume":"1","author":"Anthropic","year":"2024","journal-title":"Claude-3 Model Card"},{"key":"ref7","article-title":"LLaMA: Open and efficient foundation language models","author":"Touvron","year":"2023","journal-title":"arXiv:2302.13971"},{"key":"ref8","first-page":"19730","article-title":"BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Li"},{"key":"ref9","article-title":"MiniGPT-4: Enhancing vision-language understanding with advanced large language models","author":"Zhu","year":"2023","journal-title":"arXiv:2304.10592"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.52202\/075280-1516"},{"key":"ref11","article-title":"MPLUG-owl: Modularization empowers large language models with multimodality","author":"Ye","year":"2023","journal-title":"arXiv:2304.14178"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1007\/s11432-024-4321-9"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.679"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1007\/s11432-024-4231-5"},{"key":"ref15","article-title":"Phi-3 technical report: A highly capable language model locally on your phone","volume-title":"arXiv:2404.14219","author":"Abdin","year":"2024"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02520"},{"key":"ref17","article-title":"CogVLM2: Visual language models for image and video understanding","author":"Hong","year":"2024","journal-title":"arXiv:2408.16500"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00913"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1093\/nsr\/nwae403"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72658-3_13"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01263"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.findings-naacl.267"},{"key":"ref23","article-title":"MMIE: Massive multimodal interleaved comprehension benchmark for large vision-language models","author":"Xia","year":"2024","journal-title":"arXiv:2410.10139"},{"key":"ref24","article-title":"MathVista: Evaluating mathematical reasoning of foundation models in visual contexts","volume-title":"Proc. Int. Conf. Learn. Represent. (ICLR)","author":"Lu"},{"key":"ref25","article-title":"VR-GPT: Visual language model for intelligent virtual reality applications","author":"Konenkov","year":"2024","journal-title":"arXiv:2405.11537"},{"key":"ref26","article-title":"Modality plug-and-play: Elastic modality adaptation in multimodal LLMs for embodied AI","author":"Huang","year":"2023","journal-title":"arXiv:2312.07886"},{"key":"ref27","article-title":"PaLM-E: An embodied multimodal language model","author":"Driess","year":"2023","journal-title":"arXiv:2303.03378"},{"key":"ref28","article-title":"EMMA: End-to-end multimodal model for autonomous driving","author":"Hwang","year":"2024","journal-title":"arXiv:2410.23262"},{"key":"ref29","article-title":"Probing multimodal LLMs as world models for driving","author":"Sreeram","year":"2024","journal-title":"arXiv:2405.05956"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2024.3370437"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/3613905.3651029"},{"key":"ref32","article-title":"SPORTU: A comprehensive sports understanding benchmark for multimodal large language models","author":"Xia","year":"2024","journal-title":"arXiv:2410.08474"},{"key":"ref33","article-title":"EMO-LLaMA: Enhancing facial emotion understanding with instruction tuning","author":"Xing","year":"2024","journal-title":"arXiv:2408.11424"},{"key":"ref34","article-title":"Face-MLLM: A large face perception model","author":"Sun","year":"2024","journal-title":"arXiv:2410.20717"},{"key":"ref35","article-title":"ToolLLM: Facilitating large language models to master 16000+ real-world APIs","author":"Qin","year":"2023","journal-title":"arXiv:2307.16789"},{"key":"ref36","article-title":"ToolAlpaca: Generalized tool learning for language models with 3000 simulated cases","author":"Tang","year":"2023","journal-title":"arXiv:2306.05301"},{"key":"ref37","article-title":"SEED-bench: Benchmarking multimodal LLMs with generative comprehension","author":"Li","year":"2023","journal-title":"arXiv:2307.16125"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/TIFS.2021.3114066"},{"key":"ref39","article-title":"Facial age estimation using convolutional neural networks","author":"Kj\u00e6rran","year":"2021","journal-title":"arXiv:2105.06746"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2015.7301352"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2020.11.008"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CCWC.2019.8666601"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.3991\/ijim.v17i08.39163"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICISCAE51034.2020.9236905"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1016\/j.jksuci.2020.11.029"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-024-19950-x"},{"key":"ref47","article-title":"PETALface: Parameter efficient transfer learning for low-resolution face recognition","author":"Narayan","year":"2024","journal-title":"arXiv:2412.07771"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00552"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00482"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00362"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01888"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/FG59268.2024.10581913"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00222"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/TBIOM.2024.3487482"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00939"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/IJCB54206.2022.10007968"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2018.2858821"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR.2018.8545271"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02151"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01722"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW59228.2023.00602"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01965"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00859"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP46576.2022.9897219"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2018.00281"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298684"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01234-2_17"},{"key":"ref68","article-title":"Diffuse-denoise-count: Accurate crowd-counting with diffusion models","author":"Ranasinghe","year":"2023","journal-title":"arXiv:2303.12790"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00412"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02009"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i6.32661"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2021.3113780"},{"key":"ref73","article-title":"FaceXFormer: A unified transformer for facial analysis","author":"Narayan","year":"2024","journal-title":"arXiv:2403.12960"},{"key":"ref74","article-title":"Task-adaptive Q-Face","author":"Sun","year":"2024","journal-title":"arXiv:2405.09059"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72754-2_14"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1016\/j.imavis.2025.105453"},{"key":"ref77","article-title":"FakeShield: Explainable image forgery detection and localization via multi-modal large language models","author":"Xu","year":"2024","journal-title":"arXiv:2410.02761"},{"key":"ref78","article-title":"Enhancing zero-shot facial expression recognition by LLM knowledge transfer","author":"Zhao","year":"2024","journal-title":"arXiv:2405.19100"},{"key":"ref79","article-title":"SHIELD: An evaluation benchmark for face spoofing and forgery detection with multimodal large language models","author":"Shi","year":"2024","journal-title":"arXiv:2402.04178"},{"key":"ref80","article-title":"Qwen technical report","volume-title":"arXiv:2309.16609","author":"Bai","year":"2023"},{"key":"ref81","article-title":"MANTIS: Interleaved multi-image instruction tuning","author":"Jiang","year":"2024","journal-title":"arXiv:2405.01483"},{"key":"ref82","article-title":"PaliGemma: A versatile 3B VLM for transfer","author":"Beyer","year":"2024","journal-title":"arXiv:2407.07726"},{"key":"ref83","article-title":"Eagle: Exploring the design space for multimodal LLMs with mixture of encoders","author":"Shi","year":"2024","journal-title":"arXiv:2408.15998"},{"key":"ref84","article-title":"Cambrian-1: A fully open, vision-centric exploration of multimodal LLMs","author":"Tong","year":"2024","journal-title":"arXiv:2406.16860"},{"key":"ref85","article-title":"CogVLM: Visual expert for pretrained language models","author":"Wang","year":"2023","journal-title":"arXiv:2311.03079"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.02283"},{"key":"ref87","article-title":"MMAU: A massive multi-task audio understanding and reasoning benchmark","author":"Sakshi","year":"2024","journal-title":"arXiv:2410.19168"},{"key":"ref88","article-title":"SWE-bench: Can language models resolve real-world GitHub issues?","author":"Jimenez","year":"2023","journal-title":"arXiv:2310.06770"},{"key":"ref89","article-title":"OSWorld: Benchmarking multimodal agents for open-ended tasks in real computer environments","author":"Xie","year":"2024","journal-title":"arXiv:2404.07972"},{"key":"ref90","article-title":"Chameleon: Mixed-modal early-fusion foundation models","author":"Team","year":"2024","journal-title":"arXiv:2405.09818"},{"key":"ref91","article-title":"OBELICS: An open web-scale filtered dataset of interleaved image-text documents","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Lauren\u00e7on"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02527"},{"key":"ref93","article-title":"MiniCPM-V: A GPT-4V level MLLM on your phone","author":"Yao","year":"2024","journal-title":"arXiv:2408.01800"},{"key":"ref94","article-title":"LLaVA-NeXT-interleave: Tackling multi-image, video, and 3D in large multimodal models","author":"Li","year":"2024","journal-title":"arXiv:2407.07895"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3685520"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.52202\/079017-2789"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.1109\/FG52635.2021.9666791"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01354"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01814"},{"key":"ref100","article-title":"15M multimodal facial image-text dataset","author":"Dai","year":"2024","journal-title":"arXiv:2407.08515"},{"key":"ref101","article-title":"Microsoft COCO captions: Data collection and evaluation server","author":"Chen","year":"2015","journal-title":"arXiv:1504.00325"},{"key":"ref102","doi-asserted-by":"publisher","DOI":"10.1007\/s00799-022-00329-y"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-acl.905"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.findings-acl.177"},{"key":"ref105","article-title":"FigureQA: An annotated figure dataset for visual reasoning","author":"Kahou","year":"2017","journal-title":"arXiv:1710.07300"},{"key":"ref106","article-title":"G-LLaVA: Solving geometric problem with multi-modal large language model","author":"Gao","year":"2023","journal-title":"arXiv:2312.11370"},{"key":"ref107","article-title":"MAVIS: Mathematical visual instruction tuning with an automatic data engine","author":"Zhang","year":"2024","journal-title":"arXiv:2407.08739"},{"key":"ref108","article-title":"MathQA: Towards interpretable math word problem solving with operation-based formalisms","author":"Amini","year":"2019","journal-title":"arXiv:1905.13319"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00869"},{"key":"ref110","doi-asserted-by":"publisher","DOI":"10.1109\/ICDAR.2019.00156"},{"key":"ref111","article-title":"Magpie: Alignment data synthesis from scratch by prompting aligned LLMs with nothing","author":"Xu","year":"2024","journal-title":"arXiv:2406.08464"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.02484"},{"key":"ref113","article-title":"LoRA: Low-rank adaptation of large language models","author":"Hu","year":"2021","journal-title":"arXiv:2106.09685"}],"container-title":["IEEE Transactions on Biometrics, Behavior, and Identity Science"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/8423754\/11482009\/11358941.pdf?arnumber=11358941","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:54:29Z","timestamp":1777492469000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11358941\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,5]]},"references-count":113,"journal-issue":{"issue":"3"},"URL":"https:\/\/doi.org\/10.1109\/tbiom.2026.3655668","relation":{},"ISSN":["2637-6407"],"issn-type":[{"value":"2637-6407","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,5]]}}}