{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,10]],"date-time":"2026-03-10T06:37:04Z","timestamp":1773124624144,"version":"3.50.1"},"reference-count":183,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2026]]},"DOI":"10.1109\/access.2026.3656368","type":"journal-article","created":{"date-parts":[[2026,1,20]],"date-time":"2026-01-20T20:40:48Z","timestamp":1768941648000},"page":"19511-19535","source":"Crossref","is-referenced-by-count":1,"title":["Multimodal Vision\u2013Language Models in Medical Imaging: A Survey of Retrieval, Interpretability, and Trust"],"prefix":"10.1109","volume":"14","author":[{"ORCID":"https:\/\/orcid.org\/0009-0003-6687-7307","authenticated-orcid":false,"given":"Muhammad","family":"Imran","sequence":"first","affiliation":[{"name":"Department of Computer Science, University of Missouri&#x2013;Kansas City (UMKC), Kansas City, MO, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1619-1695","authenticated-orcid":false,"given":"Yugyung","family":"Lee","sequence":"additional","affiliation":[{"name":"Department of Computer Science, University of Missouri&#x2013;Kansas City (UMKC), Kansas City, MO, USA"}]}],"member":"263","reference":[{"key":"ref1","volume-title":"AI\/ML-enabled Medical Devices: Authorized Device List","year":"2025"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.3389\/frai.2024.1430984"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1007\/s13534-025-00484-6"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2025.102995"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1007\/s00521-025-11666-9"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pdig.0000877"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1016\/j.cmpb.2025.108870"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1016\/j.media.2025.103514"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.21037\/jmai-24-412"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1186\/s12909-023-04698-z"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1038\/s41746-022-00712-8"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1038\/s41746-020-00323-1"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2018.2798607"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-024-02032-8"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1038\/s41746-020-00341-z"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.2196\/59505"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.3390\/info16070591"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2024.102690"},{"key":"ref19","first-page":"28541","article-title":"LLaVA-med: Training a large Language-and-Vision assistant for biomedicine in one day","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Li"},{"key":"ref20","article-title":"Expert-level vision-language foundation model for real-world radiology and comprehensive evaluation","author":"Liu","year":"2024","journal-title":"arXiv:2409.16183"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.418"},{"key":"ref22","first-page":"353","article-title":"Med-flamingo: A multimodal medical few-shot learner","volume-title":"Proc. Mach. Learn. Health","author":"Moor"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1038\/s41591-024-02856-4"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1038\/s41591-024-02959-y"},{"key":"ref25","first-page":"1877","article-title":"Language models are few-shot learners","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Brown"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.2196\/58158"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.677"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1038\/s41591-024-03097-1"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-023-06291-2"},{"key":"ref30","first-page":"44293","article-title":"MMed-RAG: Versatile multimodal RAG system for medical vision language models","volume-title":"Proc. 13th Int. Conf. Learn. Represent. (ICLR)","author":"Xia"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.62"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.2196\/58670"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-acl.372"},{"key":"ref34","first-page":"1011","article-title":"MKRAG: Medical knowledge retrieval augmented generation for medical question answering","volume-title":"Proc. AMIA Annu. Symp.","author":"Shi"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-acl.372"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1142\/9789819807024_0015"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-88714-7_18"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-032-04981-0_46"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.3390\/app14156638"},{"key":"ref40","article-title":"RAMDS: Retrieval augmented medical diagnosis system for explainable breast cancer classification from ultrasound images","author":"Johnson","year":"2024","journal-title":"medRxiv"},{"key":"ref41","article-title":"Federated learning and RAG integration: A scalable approach for medical large language models","author":"Jung","year":"2024","journal-title":"arXiv:2412.13720"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1093\/jamia\/ocae209"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.7759\/cureus.57728"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00391"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.256"},{"key":"ref46","article-title":"Contrastive learning of medical visual representations from paired images and text","author":"Zhang","year":"2020","journal-title":"arXiv:2010.00747"},{"key":"ref47","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-43993-3_51"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1007\/s10278-024-01051-8"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/TMI.2023.3291719"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/TMI.2024.3418408"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.clinicalnlp-1.21"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1016\/j.imu.2024.101504"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1038\/s41598-025-94437-9"},{"issue":"3","key":"ref55","first-page":"34","article-title":"New AI method captures uncertainty in medical images","volume":"12","author":"Stephens","year":"2023","journal-title":"AXIS Imag. News"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/JBHI.2020.2991043"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-024-07618-3"},{"key":"ref58","first-page":"11159","article-title":"Medical vision-language pre-training for brain abnormalities","volume-title":"Proc. Conf. Assoc. Comput. Linguistics. Meeting","author":"Monajatipoor"},{"key":"ref59","article-title":"BioMedLM: A 2.7B parameter language model trained on biomedical text","author":"Bolton","year":"2024","journal-title":"arXiv:2403.18421"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-acl.348"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02303"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.52202\/079017-3171"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.3390\/diagnostics15091114"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.3390\/electronics13040746"},{"key":"ref65","article-title":"Retrieval-augmented generation for knowledge-intensive NLP tasks","author":"Lewis","year":"2020","journal-title":"arXiv:2005.11401"},{"key":"ref66","article-title":"A comprehensive survey of retrieval-augmented generation (RAG): Evolution, current landscape and future directions","author":"Gupta","year":"2024","journal-title":"arXiv:2410.12837"},{"key":"ref67","article-title":"Retrieval augmented generation and understanding in vision: A survey and new outlook","author":"Zheng","year":"2025","journal-title":"arXiv:2503.18016"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1038\/s41591-019-0727-5"},{"key":"ref69","first-page":"574","article-title":"Observational health data sciences and informatics (OHDSI): Opportunities for observational researchers","volume":"216","author":"Hripcsak","year":"2015","journal-title":"Stud. Health Technol. Informat."},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1016\/j.metrad.2023.100033"},{"issue":"4","key":"ref71","first-page":"234","article-title":"CXR-REPAIR-GEN: Contrastive X-ray-report pair retrieval for report generation","volume-title":"Frontiers Comput. Sci.","volume":"5","author":"Ranjit","year":"2023"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.7861\/fhj.2021-0095"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1111\/cts.70149"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1021\/acsomega.5c00549"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pmed.1003583"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.7326\/0003-4819-155-8-201110180-00009"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1161\/CIRCULATIONAHA.114.014508"},{"key":"ref78","article-title":"ExGra-med: Extended context graph alignment for medical vision-language models","author":"Nguyen","year":"2024","journal-title":"arXiv:2410.02615"},{"key":"ref79","article-title":"LLaDA-MedV: Exploring large language diffusion models for biomedical image understanding","author":"Dong","year":"2025","journal-title":"arXiv:2508.01617"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1016\/j.xcrm.2024.101419"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1007\/s10586-022-03658-4"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.3390\/engproc2023059230"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1145\/3746027.3755760"},{"key":"ref84","article-title":"Mechanistic interpretability for AI safety\u2014A review","author":"Bereska","year":"2024","journal-title":"arXiv:2404.14082"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1038\/s41390-022-02226-1"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1001\/jamapediatrics.2025.1979"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1038\/s41591-024-03185-2"},{"key":"ref88","article-title":"MedViLaM: A multimodal large language model with advanced generalizability and explainability for medical data understanding and generation","author":"Xu","year":"2024","journal-title":"arXiv:2409.19684"},{"key":"ref89","article-title":"MedGemma technical report","volume-title":"arXiv:2507.05201","author":"Sellergren","year":"2025"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1038\/s44172-024-00271-8"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1080\/21681163.2024.2396595"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1016\/j.media.2025.103621"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1109\/RICAI64321.2024.10911671"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.52202\/079017-2522"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1109\/BIBM66473.2025.11356025"},{"key":"ref96","first-page":"112","article-title":"Multi-modal interpretability for enhanced localization in vision-language models","volume-title":"Proc. 1st Workshop Multimodal Knowl. Lang. Models","author":"Imran"},{"key":"ref97","volume-title":"Aidoc Medical Ltd. BriefCase CT Brain (intracranial Hemorrhage) Triage and Notification Software-FDA 510(k) K180647 Summary","year":"2018"},{"key":"ref98","article-title":"Evaluating general vision-language models for clinical medicine","author":"Jiang","year":"2024","journal-title":"MedRxiv"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1145\/3613904.3642013"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1007\/s11604-023-01474-3"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1038\/s41551-023-01056-8"},{"key":"ref102","article-title":"The 2024 brain tumor segmentation (BraTS) challenge: Glioma segmentation on post-treatment MRI","author":"Correia de Verdier","year":"2024","journal-title":"arXiv:2405.18368"},{"key":"ref103","article-title":"Bridging AI and healthcare: A scoping review of retrieval-augmented generation\u2014Ethics, bias, transparency, improvements, and applications","author":"Bunnell","year":"2023","journal-title":"medRxiv"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.3389\/fcomp.2023.1187299"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.1186\/s12910-024-01151-8"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1038\/s41746-018-0040-6"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-019-1799-6"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1145\/3696410.3714782"},{"key":"ref109","article-title":"Comprehensive and practical evaluation of retrieval-augmented generation systems for medical question answering","author":"Trung Ngo","year":"2024","journal-title":"arXiv:2411.09213"},{"key":"ref110","doi-asserted-by":"publisher","DOI":"10.1093\/jamia\/ocaf008"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.emnlp-main.1630"},{"key":"ref112","article-title":"Medical graph RAG: Towards safe medical large language model via graph retrieval-augmented generation","author":"Wu","year":"2024","journal-title":"arXiv:2408.04187"},{"key":"ref113","doi-asserted-by":"crossref","DOI":"10.3389\/frai.2024.1388479","article-title":"Patient-centric knowledge graphs: A survey of current methods, challenges, and applications","volume":"7","author":"Khatib","year":"2024","journal-title":"Frontiers Artif. Intell."},{"key":"ref114","article-title":"AlzheimerRAG: Multimodal retrieval augmented generation for clinical use cases using PubMed articles","author":"Kumar Lahiri","year":"2024","journal-title":"arXiv:2412.16701"},{"key":"ref115","doi-asserted-by":"publisher","DOI":"10.12720\/jait.16.4.568-581"},{"key":"ref116","article-title":"Biomedical knowledge graph: A survey of domains, tasks, and real-world applications","author":"Lu","year":"2025","journal-title":"arXiv:2501.11632"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.2196\/60847"},{"key":"ref118","article-title":"Federated learning: A new frontier in the exploration of multi-institutional medical imaging data","author":"Ciupek","year":"2025","journal-title":"arXiv:2503.20107"},{"key":"ref119","doi-asserted-by":"publisher","DOI":"10.3390\/medicina60030445"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-industry.66"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.1038\/s41746-025-01519-z"},{"key":"ref122","article-title":"Multimodal clinical reasoning through knowledge-augmented rationale generation","author":"Niu","year":"2024","journal-title":"2411.07611v1"},{"key":"ref123","doi-asserted-by":"publisher","DOI":"10.1038\/s42256-021-00425-9"},{"key":"ref124","article-title":"Artificial intelligence-driven clinical decision support systems","author":"Alkan","year":"2025","journal-title":"arXiv:2501.09628"},{"key":"ref125","article-title":"AgentClinic: A multimodal agent benchmark to evaluate AI in simulated clinical environments","author":"Schmidgall","year":"2024","journal-title":"arXiv:2405.07960"},{"key":"ref126","article-title":"A collection of innovations in medical AI for patient records in 2024","author":"Zhang","year":"2025","journal-title":"arXiv:2503.05768"},{"key":"ref127","article-title":"FEET: A framework for evaluating embedding techniques","author":"Lee","year":"2024","journal-title":"arXiv:2411.01322"},{"key":"ref128","article-title":"Interpreting CLIP\u2019s image representation via text-based decomposition","author":"Gandelsman","year":"2023","journal-title":"arXiv:2310.05916"},{"key":"ref129","first-page":"44293","article-title":"A multimodal automated interpretability agent","volume-title":"Proc. Int. Conf. Mach. Learn.","volume":"235","author":"Shaham"},{"key":"ref130","doi-asserted-by":"publisher","DOI":"10.1145\/3544548.3581251"},{"key":"ref131","first-page":"1","article-title":"Matex: Multi-scale attention and text-guided explainability of medical vision-language models","volume-title":"Proc. Workshop Interpretability Mach. Intell. Med. Image Comput. (IMIMIC)","author":"Imran"},{"key":"ref132","doi-asserted-by":"publisher","DOI":"10.1145\/3613904.3642780"},{"key":"ref133","article-title":"Safeguarding patient trust in the age of AI: Tackling health misinformation with explainable AI","author":"Hong","year":"2025","journal-title":"arXiv:2509.04052"},{"key":"ref134","doi-asserted-by":"publisher","DOI":"10.1111\/poms.13770"},{"key":"ref135","doi-asserted-by":"publisher","DOI":"10.2196\/50048"},{"key":"ref136","doi-asserted-by":"publisher","DOI":"10.1038\/s44387-025-00011-z"},{"key":"ref137","doi-asserted-by":"publisher","DOI":"10.1038\/s41591-024-03328-5"},{"key":"ref138","article-title":"Predicting when to trust vision-language models for spatial reasoning","author":"Imran","year":"2026","journal-title":"arXiv:2601.11644"},{"key":"ref139","doi-asserted-by":"publisher","DOI":"10.1016\/j.media.2025.103497"},{"key":"ref140","article-title":"Federated learning in healthcare: Model misconducts, security, challenges, applications, and future research directions\u2014A systematic review","author":"Shahin Ali","year":"2024","journal-title":"arXiv:2405.13832"},{"key":"ref141","doi-asserted-by":"crossref","DOI":"10.3389\/fcomp.2024.1494174","article-title":"A reliable and privacy-preserved federated learning framework for real-time smoking prediction in healthcare","volume":"6","author":"Fuladi","year":"2025","journal-title":"Frontiers Comput. Sci."},{"key":"ref142","article-title":"R-LLaVA: Improving med-VQA understanding through visual region of interest","author":"Chen","year":"2024","journal-title":"arXiv:2410.20327"},{"key":"ref143","doi-asserted-by":"publisher","DOI":"10.1038\/s43856-024-00709-2"},{"key":"ref144","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-032-04981-0_32"},{"key":"ref145","doi-asserted-by":"publisher","DOI":"10.2196\/64266"},{"key":"ref146","doi-asserted-by":"publisher","DOI":"10.3390\/jcm14051605"},{"key":"ref147","first-page":"140334","article-title":"CARES: A comprehensive benchmark of trustworthiness in medical vision language models","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"37","author":"Xia"},{"key":"ref148","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.369"},{"key":"ref149","doi-asserted-by":"publisher","DOI":"10.1001\/jama.2017.14585"},{"key":"ref150","doi-asserted-by":"publisher","DOI":"10.1038\/ng.2764"},{"key":"ref151","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1902.03368"},{"key":"ref152","doi-asserted-by":"publisher","DOI":"10.1038\/sdata.2018.161"},{"key":"ref153","doi-asserted-by":"publisher","DOI":"10.3390\/ejihpe14030045"},{"key":"ref154","article-title":"Crystal oscillators in OSNMA-enabled receivers: An implementation view for automotive applications","author":"Ardizzon","year":"2025","journal-title":"arXiv:2501.15123"},{"key":"ref155","doi-asserted-by":"publisher","DOI":"10.1016\/j.jbi.2024.104662"},{"key":"ref156","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-023-05881-4"},{"key":"ref157","doi-asserted-by":"publisher","DOI":"10.1080\/20476965.2024.2402128"},{"key":"ref158","doi-asserted-by":"publisher","DOI":"10.52202\/079017-2386"},{"key":"ref159","doi-asserted-by":"publisher","DOI":"10.52202\/079017-3773"},{"key":"ref160","volume-title":"GPT-4V(ision) System Card","year":"2023"},{"key":"ref161","first-page":"19730","article-title":"BLIP-2: Bootstrapping vision-language pre-training with frozen image encoders and large language models","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Li"},{"key":"ref162","article-title":"Improved baselines with visual instruction tuning","author":"Liu","year":"2023","journal-title":"arXiv:2310.03744"},{"key":"ref163","article-title":"OpenFlamingo: An open-source framework for training large autoregressive vision-language models","author":"Awadalla","year":"2023","journal-title":"arXiv:2308.01390"},{"key":"ref164","article-title":"Towards generalist foundation model for radiology by leveraging Web-scale 2D&3D medical data","author":"Wu","year":"2023","journal-title":"arXiv:2308.02463"},{"key":"ref165","first-page":"22170","article-title":"OmniMedVQA: A new large-scale comprehensive evaluation benchmark for medical LVLM","volume-title":"Proc. IEEE\/CVF Conf. Comput. Vis. Pattern Recognit.","author":"Hu"},{"key":"ref166","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01837"},{"key":"ref167","article-title":"MIMIC-CXR: A large publicly available database of labeled chest radiographs","volume":"2","author":"Johnson","year":"2019","journal-title":"Radiol., Artif. Intell."},{"key":"ref168","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.3301590"},{"key":"ref169","article-title":"CheXpert plus: Augmenting a large chest X-ray dataset with text radiology reports, patient demographics and additional image formats","volume-title":"arXiv:2405.19538","author":"Chambon","year":"2024"},{"key":"ref170","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.findings-emnlp.544"},{"key":"ref171","doi-asserted-by":"publisher","DOI":"10.1093\/jamia\/ocv080"},{"key":"ref172","doi-asserted-by":"publisher","DOI":"10.1148\/ryai.240528"},{"key":"ref173","doi-asserted-by":"publisher","DOI":"10.5566\/ias.1155"},{"key":"ref174","doi-asserted-by":"publisher","DOI":"10.1109\/TMI.2004.825627"},{"key":"ref175","article-title":"BiomedCLIP: A multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs","author":"Zhang","year":"2023","journal-title":"arXiv:2303.00915"},{"key":"ref176","doi-asserted-by":"publisher","DOI":"10.1038\/sdata.2018.251"},{"key":"ref177","doi-asserted-by":"publisher","DOI":"10.1109\/ISBI48211.2021.9434010"},{"key":"ref178","article-title":"PathVQA: 30000+ questions for medical visual question answering","author":"He","year":"2020","journal-title":"arXiv:2003.10286"},{"key":"ref179","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01364-6_20"},{"key":"ref180","doi-asserted-by":"publisher","DOI":"10.1038\/s41591-023-02504-3"},{"key":"ref181","doi-asserted-by":"publisher","DOI":"10.1109\/TMI.2025.3580713"},{"key":"ref182","doi-asserted-by":"publisher","DOI":"10.1109\/JBHI.2022.3207502"},{"key":"ref183","doi-asserted-by":"publisher","DOI":"10.3390\/healthcare12242587"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6287639\/11323511\/11359238.pdf?arnumber=11359238","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,11]],"date-time":"2026-02-11T20:56:41Z","timestamp":1770843401000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11359238\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"references-count":183,"URL":"https:\/\/doi.org\/10.1109\/access.2026.3656368","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]}}}