{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,14]],"date-time":"2026-04-14T09:46:56Z","timestamp":1776160016568,"version":"3.50.1"},"reference-count":109,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100009002","name":"Shanghai University","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100009002","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100012166","name":"National Key Research and Development Program of China","doi-asserted-by":"publisher","award":["2022YFF0902500"],"award-info":[{"award-number":["2022YFF0902500"]}],"id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Expert Systems with Applications"],"published-print":{"date-parts":[[2026,7]]},"DOI":"10.1016\/j.eswa.2026.132008","type":"journal-article","created":{"date-parts":[[2026,3,13]],"date-time":"2026-03-13T00:26:45Z","timestamp":1773361605000},"page":"132008","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Task-specific models vs. large vision-language models in medical visual question answering: A survey"],"prefix":"10.1016","volume":"318","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-4765-9272","authenticated-orcid":false,"given":"Huahu","family":"Xu","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0004-8282-7569","authenticated-orcid":false,"given":"Qishen","family":"Chen","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0002-6099-4724","authenticated-orcid":false,"given":"Wenxuan","family":"He","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3031-3596","authenticated-orcid":false,"given":"Xingyuan","family":"Chen","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6861-9684","authenticated-orcid":false,"given":"Honghao","family":"Gao","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.eswa.2026.132008_bib0001","series-title":"Medical imaging with deep learning","article-title":"Mimic-CXR-VQA: A medical visual question answering dataset constructed with LLaMA-based annotations","author":"Aas-Alas","year":"2025"},{"key":"10.1016\/j.eswa.2026.132008_bib0002","doi-asserted-by":"crossref","first-page":"136507","DOI":"10.1109\/ACCESS.2023.3335216","article-title":"A critical analysis of benchmarks, techniques, and models in medical visual question answering","volume":"11","author":"Al-Hadhrami","year":"2023","journal-title":"IEEE Access"},{"key":"10.1016\/j.eswa.2026.132008_bib0003","doi-asserted-by":"crossref","first-page":"57","DOI":"10.1016\/j.patrec.2021.07.002","article-title":"Visual question answering in the medical domain based on deep learning approaches: A comprehensive study","volume":"150","author":"Al-Sadi","year":"2021","journal-title":"Pattern Recognition Letters"},{"key":"10.1016\/j.eswa.2026.132008_bib0004","series-title":"Proceedings of the 30th ACM international conference on information & knowledge management","first-page":"4675","article-title":"MVQAS: A medical visual question answering system","author":"Bai","year":"2021"},{"key":"10.1016\/j.eswa.2026.132008_bib0005","series-title":"International conference on medical image computing and computer-assisted intervention","first-page":"68","article-title":"Revisiting distillation for continual learning on visual question localized-answering in robotic surgery","author":"Bai","year":"2023"},{"key":"10.1016\/j.eswa.2026.132008_bib0006","series-title":"Proceedings of the ACL workshop on intrinsic and extrinsic evaluation measures for machine translation and\/or summarization","first-page":"65","article-title":"METEOR: An automatic metric for MT evaluation with improved correlation with human judgments","author":"Banerjee","year":"2005"},{"issue":"3","key":"10.1016\/j.eswa.2026.132008_bib0007","doi-asserted-by":"crossref","first-page":"380","DOI":"10.3390\/bioengineering10030380","article-title":"Vision-language model for visual question answering in medical imagery","volume":"10","author":"Bazi","year":"2023","journal-title":"Bioengineering"},{"key":"10.1016\/j.eswa.2026.132008_bib0008","series-title":"Proceedings of CLEF (Conference and labs of the evaluation forum) 2019 working notes","article-title":"VQA-Med: Overview of the medical visual question answering task at imageclef 2019","author":"Ben Abacha","year":"2019"},{"key":"10.1016\/j.eswa.2026.132008_bib0009","series-title":"Proceedings of the CLEF 2021 conference and labs of the evaluation forum-working notes","article-title":"Overview of the VQA-Med task at imageclef 2021: Visual question answering and generation in the medical domain","author":"Ben Abacha","year":"2021"},{"key":"10.1016\/j.eswa.2026.132008_bib0010","doi-asserted-by":"crossref","DOI":"10.1016\/j.media.2020.101797","article-title":"Padchest: A large chest x-ray image dataset with multi-label annotated reports","volume":"66","author":"Bustos","year":"2020","journal-title":"Medical Image Analysis"},{"key":"10.1016\/j.eswa.2026.132008_bib0011","series-title":"ICASSP 2024-2024 IEEE international conference on acoustics, speech and signal processing (ICASSP)","first-page":"1891","article-title":"Medical vision-language representation learning with cross-modal multi-teacher contrastive distillation","author":"Chen","year":"2024"},{"key":"10.1016\/j.eswa.2026.132008_bib0012","series-title":"International conference on medical image computing and computer-assisted intervention","first-page":"112","article-title":"Can LLMs\u2019 tuning methods work in medical multimodal domain?","author":"Chen","year":"2024"},{"key":"10.1016\/j.eswa.2026.132008_bib0013","series-title":"International conference on artificial neural networks","first-page":"299","article-title":"MISS: A generative pre-training and fine-tuning approach for Med-VQA","author":"Chen","year":"2024"},{"key":"10.1016\/j.eswa.2026.132008_bib0014","series-title":"Proceedings of the 32nd ACM international conference on multimedia","first-page":"3122","article-title":"Efficiency in focus: Layernorm as a catalyst for fine-tuning medical visual language models","author":"Chen","year":"2024"},{"key":"10.1016\/j.eswa.2026.132008_bib0015","series-title":"International conference on medical image computing and computer-assisted intervention","first-page":"480","article-title":"MMQL: Multi-question learning for medical visual question answering","author":"Chen","year":"2024"},{"key":"10.1016\/j.eswa.2026.132008_bib0016","unstructured":"Chen, Q., Zhao, R., Wang, S., Phan, V. M. H., van den, H. A., Verjans, J., Liao, Z., To, M.-S., Xia, Y., & Chen, J. (2024a). A survey of medical vision-and-language applications and their techniques. arXiv preprint arXiv:2411.12195."},{"key":"10.1016\/j.eswa.2026.132008_bib0017","series-title":"2025 International joint conference on neural networks (IJCNN)","first-page":"1","article-title":"R-LLAVA: Improving Med-VQA understanding through visual region of interest","author":"Chen","year":"2025"},{"key":"10.1016\/j.eswa.2026.132008_bib0018","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (CVPR)","first-page":"24732","article-title":"Mimo: A medical vision language model with visual referring multimodal input and pixel grounding multimodal output","author":"Chen","year":"2025"},{"key":"10.1016\/j.eswa.2026.132008_bib0019","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"23403","article-title":"Towards unifying medical vision-and-language pre-training via soft prompts","author":"Chen","year":"2023"},{"key":"10.1016\/j.eswa.2026.132008_bib0020","doi-asserted-by":"crossref","DOI":"10.1016\/j.media.2023.103018","article-title":"Mapping medical image-text to a joint space via masked modeling","volume":"91","author":"Chen","year":"2024","journal-title":"Medical Image Analysis"},{"key":"10.1016\/j.eswa.2026.132008_bib0021","series-title":"Proceedings of the 30th ACM international conference on multimedia","first-page":"5152","article-title":"Align, reason and learn: Enhancing medical vision-and-language pre-training with knowledge","author":"Chen","year":"2022"},{"key":"10.1016\/j.eswa.2026.132008_bib0022","doi-asserted-by":"crossref","DOI":"10.1016\/j.bspc.2023.105049","article-title":"Medical visual question answering with symmetric interaction attention and cross-modal gating","volume":"85","author":"Chen","year":"2023","journal-title":"Biomedical Signal Processing and Control"},{"key":"10.1016\/j.eswa.2026.132008_bib0023","doi-asserted-by":"crossref","first-page":"132665","DOI":"10.1109\/ACCESS.2020.3010287","article-title":"Can AI help in screening viral and COVID-19 pneumonia?","volume":"8","author":"Chowdhury","year":"2020","journal-title":"IEEE Access"},{"key":"10.1016\/j.eswa.2026.132008_bib0024","series-title":"Proceedings of the 30th ACM international conference on multimedia","first-page":"3569","article-title":"Caption-aware medical VQA via semantic focusing and progressive cross-modality comprehension","author":"Cong","year":"2022"},{"issue":"2","key":"10.1016\/j.eswa.2026.132008_bib0025","doi-asserted-by":"crossref","first-page":"304","DOI":"10.1093\/jamia\/ocv080","article-title":"Preparing a collection of radiology examinations for distribution and retrieval","volume":"23","author":"Demner-Fushman","year":"2016","journal-title":"Journal of the American Medical Informatics Association"},{"issue":"6","key":"10.1016\/j.eswa.2026.132008_bib0026","doi-asserted-by":"crossref","first-page":"2983","DOI":"10.3390\/app15062983","article-title":"Generative models in medical visual question answering: A survey","volume":"15","author":"Dong","year":"2025","journal-title":"Applied Sciences"},{"key":"10.1016\/j.eswa.2026.132008_bib0027","doi-asserted-by":"crossref","DOI":"10.1016\/j.jbi.2025.104811","article-title":"A language-guided progressive fusion network with semantic density alignment for medical visual question answering","volume":"165","author":"Du","year":"2025","journal-title":"Journal of Biomedical Informatics"},{"key":"10.1016\/j.eswa.2026.132008_bib0028","series-title":"Findings of the association for computational linguistics: EACL 2023","first-page":"1181","article-title":"Pubmedclip: How much does clip benefit visual question answering in the medical domain?","author":"Eslami","year":"2023"},{"key":"10.1016\/j.eswa.2026.132008_bib0029","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2025.111609","article-title":"Cycle-VQA: A cycle-consistent framework for robust medical visual question answering","volume":"165","author":"Fan","year":"2025","journal-title":"Pattern Recognition"},{"key":"10.1016\/j.eswa.2026.132008_bib0030","series-title":"Proceedings of the first international workshop on vision-language models for biomedical applications","first-page":"3","article-title":"KVASIR-VQA: A text-image pair GI tract dataset","author":"Gautam","year":"2024"},{"key":"10.1016\/j.eswa.2026.132008_bib0031","series-title":"Proceedings of the 2021 international conference on multimedia retrieval","first-page":"456","article-title":"Cross-modal self-attention with multi-task pre-training for medical visual question answering","author":"Gong","year":"2021"},{"issue":"11","key":"10.1016\/j.eswa.2026.132008_bib0032","doi-asserted-by":"crossref","first-page":"3332","DOI":"10.1109\/TMI.2022.3185008","article-title":"VQAMIX: Conditional triplet mixup for medical visual question answering","volume":"41","author":"Gong","year":"2022","journal-title":"IEEE Transactions on Medical Imaging"},{"key":"10.1016\/j.eswa.2026.132008_bib0033","series-title":"International conference on neural information processing","first-page":"343","article-title":"Medical visual question answering via targeted choice contrast and multimodal entity matching","author":"Guo","year":"2022"},{"key":"10.1016\/j.eswa.2026.132008_bib0034","doi-asserted-by":"crossref","DOI":"10.3389\/frai.2024.1430984","article-title":"Vision-language models for medical report generation and visual question answering: A review","volume":"7","author":"Hartsock","year":"2024","journal-title":"Frontiers in Artificial Intelligence"},{"key":"10.1016\/j.eswa.2026.132008_bib0035","series-title":"Proceedings of CLEF 2018 working notes","article-title":"Overview of imageclef 2018 medical domain visual question answering task","author":"Hasan","year":"2018"},{"key":"10.1016\/j.eswa.2026.132008_bib0036","doi-asserted-by":"crossref","unstructured":"He, X., Zhang, Y., Mou, L., Xing, E., & Xie, P. (2020). PatHVQA: 30000+ Questions for medical visual question answering. arXiv preprint arXiv:2003.10286.","DOI":"10.36227\/techrxiv.13127537"},{"key":"10.1016\/j.eswa.2026.132008_bib0037","unstructured":"Hu, X., Gu, L., Kobayashi, K., Hu, X., Gu, L., Kobayashi, K., Liu, L., Zhang, M., Harada, T., Summers, R. M. et al. (2025). Medical-CXR-VQA dataset: A large-scale LLM-enhanced medical dataset for visual question answering on chest x-ray images. PhysioNet. 202510.13026\/1pm5-hy02, https:\/\/doi.org\/10.13026\/1pm5-hy02."},{"key":"10.1016\/j.eswa.2026.132008_bib0038","doi-asserted-by":"crossref","DOI":"10.1016\/j.media.2024.103279","article-title":"Interpretable medical image visual question answering via multi-modal relationship graph learning","volume":"97","author":"Hu","year":"2024","journal-title":"Medical Image Analysis"},{"key":"10.1016\/j.eswa.2026.132008_bib0039","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (CVPR)","first-page":"22170","article-title":"OmnimedVQA: A new large-scale comprehensive evaluation benchmark for medical LVLM","author":"Hu","year":"2024"},{"issue":"2","key":"10.1016\/j.eswa.2026.132008_bib0040","doi-asserted-by":"crossref","DOI":"10.1016\/j.ipm.2022.103241","article-title":"Medical knowledge-based network for patient-oriented visual question answering","volume":"60","author":"Huang","year":"2023","journal-title":"Information Processing & Management"},{"key":"10.1016\/j.eswa.2026.132008_bib0041","series-title":"Proceedings of the AAAI conference on artificial intelligence","first-page":"3779","article-title":"Towards a multimodal large language model with pixel-level insight for biomedicine","volume":"vol. 39","author":"Huang","year":"2025"},{"key":"10.1016\/j.eswa.2026.132008_bib0042","doi-asserted-by":"crossref","unstructured":"Huang, Y., Wang, X., Liu, F., & Huang, G. (q). OVQA: A clinically generated visual question answering dataset. In Proceedings of the 45th international ACM SIGIR conference on research and development in information retrieval (pp. 2924\u20132938).","DOI":"10.1145\/3477495.3531724"},{"key":"10.1016\/j.eswa.2026.132008_bib0043","series-title":"International conference of the cross-language evaluation forum for European languages","first-page":"370","article-title":"Overview of the imageCLEF 2023: Multimedia retrieval in medical, social media and internet applications","author":"Ionescu","year":"2023"},{"key":"10.1016\/j.eswa.2026.132008_bib0044","series-title":"Experimental IR meets multilinguality, multimodality, and interaction: 11th international conference of the CLEF association, CLEF 2020, Thessaloniki, Greece, September 22-25, 2020, proceedings 11","first-page":"311","article-title":"Overview of the imageCLEF 2020: Multimedia retrieval in medical, lifelogging, nature, and internet applications","author":"Ionescu","year":"2020"},{"key":"10.1016\/j.eswa.2026.132008_bib0045","series-title":"Proceedings of the AAAI conference on artificial intelligence","first-page":"590","article-title":"CheXpert: A large chest radiograph dataset with uncertainty labels and expert comparison","volume":"vol. 33","author":"Irvin","year":"2019"},{"key":"10.1016\/j.eswa.2026.132008_bib0046","series-title":"Findings of the association for computational linguistics: EMNLP 2024","first-page":"3843","article-title":"Med-MOE: Mixture of domain-specific experts for lightweight medical vision-language models","author":"Jiang","year":"2024"},{"issue":"1","key":"10.1016\/j.eswa.2026.132008_bib0047","doi-asserted-by":"crossref","first-page":"317","DOI":"10.1038\/s41597-019-0322-0","article-title":"MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports","volume":"6","author":"Johnson","year":"2019","journal-title":"Scientific Data"},{"key":"10.1016\/j.eswa.2026.132008_sbref0048","doi-asserted-by":"crossref","DOI":"10.1016\/j.media.2020.101950","article-title":"CHAOS Challenge - combined (CT-MR) healthy abdominal organ segmentation","volume":"69","author":"Kavur","year":"2021","journal-title":"Medical Image Analysis"},{"key":"10.1016\/j.eswa.2026.132008_bib0049","series-title":"2021 IEEE 18th international symposium on biomedical imaging (ISBI)","first-page":"1033","article-title":"MMBERT: Multimodal BERT pretraining for improved medical VQA","author":"Khare","year":"2021"},{"key":"10.1016\/j.eswa.2026.132008_bib0050","series-title":"Proceedings of the 19th SIGBiomed workshop on biomedical language processing","first-page":"60","article-title":"Towards visual dialog for radiology","author":"Kovaleva","year":"2020"},{"key":"10.1016\/j.eswa.2026.132008_bib0051","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2024.128730","article-title":"VG-CALF: A vision-guided cross-attention and late-fusion network for radiology images in medical visual question answering","volume":"613","author":"Lameesa","year":"2025","journal-title":"Neurocomputing"},{"issue":"1","key":"10.1016\/j.eswa.2026.132008_bib0052","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1038\/sdata.2018.251","article-title":"A dataset of clinically generated visual questions and answers about radiology images","volume":"5","author":"Lau","year":"2018","journal-title":"Scientific Data"},{"key":"10.1016\/j.eswa.2026.132008_bib0053","first-page":"28541","article-title":"LLAVA-Med: Training a large language-and-vision assistant for biomedicine in one day","volume":"36","author":"Li","year":"2023","journal-title":"Advances in Neural Information Processing Systems"},{"key":"10.1016\/j.eswa.2026.132008_bib0054","series-title":"International conference on medical image computing and computer-assisted intervention","first-page":"374","article-title":"Masked vision and language pre-training with unimodal and multimodal contrastive losses for medical visual question answering","author":"Li","year":"2023"},{"key":"10.1016\/j.eswa.2026.132008_bib0055","series-title":"2023 IEEE 20th international symposium on biomedical imaging (ISBI)","first-page":"1","article-title":"Self-supervised vision-language pretraining for medial visual question answering","author":"Li","year":"2023"},{"issue":"3","key":"10.1016\/j.eswa.2026.132008_bib0056","first-page":"152","article-title":"Developing chatGPT for biology and medicine: A complete review of biomedical question answering","volume":"10","author":"Li","year":"2024","journal-title":"Biophysics Reports"},{"key":"10.1016\/j.eswa.2026.132008_bib0057","doi-asserted-by":"crossref","DOI":"10.1016\/j.artmed.2023.102667","article-title":"Asymmetric cross-modal attention network with multimodal augmented mixup for medical visual question answering","volume":"144","author":"Li","year":"2023","journal-title":"Artificial Intelligence in Medicine"},{"key":"10.1016\/j.eswa.2026.132008_bib0058","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2025.103059","article-title":"Fine-grained knowledge fusion for retrieval-augmented medical visual question answering","volume":"120","author":"Liang","year":"2025","journal-title":"Information Fusion"},{"key":"10.1016\/j.eswa.2026.132008_bib0059","series-title":"International conference on medical image computing and computer-assisted intervention","first-page":"525","article-title":"PMC-CLIP: Contrastive language-image pre-training using biomedical documents","author":"Lin","year":"2023"},{"key":"10.1016\/j.eswa.2026.132008_bib0060","doi-asserted-by":"crossref","DOI":"10.1016\/j.artmed.2023.102611","article-title":"Medical visual question answering: A survey","volume":"143","author":"Lin","year":"2023","journal-title":"Artificial Intelligence in Medicine"},{"key":"10.1016\/j.eswa.2026.132008_bib0061","series-title":"Medical image computing and computer assisted intervention-MICCAI 2021: 24th International conference, Strasbourg, France, September 27\u2013October 1, 2021, proceedings, Part II 24","first-page":"210","article-title":"Contrastive pre-training and representation distillation for medical visual question answering based on radiology images","author":"Liu","year":"2021"},{"key":"10.1016\/j.eswa.2026.132008_bib0062","series-title":"2021 IEEE 18th international symposium on biomedical imaging (ISBI)","first-page":"1650","article-title":"Slake: A semantically-labeled knowledge-enhanced dataset for medical visual question answering","author":"Liu","year":"2021"},{"key":"10.1016\/j.eswa.2026.132008_bib0063","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"21310","article-title":"GEMeX: A large-scale, groundable, and explainable medical VQA benchmark for chest x-ray diagnosis","author":"Liu","year":"2025"},{"issue":"4","key":"10.1016\/j.eswa.2026.132008_bib0064","doi-asserted-by":"crossref","first-page":"2816","DOI":"10.1109\/TETCI.2023.3311333","article-title":"Parameter-efficient transfer learning for medical visual question answering","volume":"8","author":"Liu","year":"2023","journal-title":"IEEE Transactions on Emerging Topics in Computational Intelligence"},{"key":"10.1016\/j.eswa.2026.132008_bib0065","series-title":"2022 IEEE international conference on bioinformatics and biomedicine (BIBM)","first-page":"2648","article-title":"How well apply multimodal mixup and simple MLPs backbone to medical visual question answering?","author":"Liu","year":"2022"},{"key":"10.1016\/j.eswa.2026.132008_bib0066","series-title":"International conference on information processing in medical imaging","first-page":"445","article-title":"Q2ATransformer: Improving medical VQA via an answer querying decoder","author":"Liu","year":"2023"},{"key":"10.1016\/j.eswa.2026.132008_bib0067","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision (ICCV)","first-page":"23051","article-title":"CoSMIC: Continual self-supervised learning for multi-domain medical imaging via conditional mutual information maximization","author":"Liu","year":"2025"},{"key":"10.1016\/j.eswa.2026.132008_bib0068","first-page":"6070","article-title":"A multi-world approach to question answering about real-world scenes based on uncertain input","volume":"27","author":"Malinowski","year":"2014","journal-title":"Advances in Neural Information Processing Systems"},{"issue":"12","key":"10.1016\/j.eswa.2026.132008_bib0069","doi-asserted-by":"crossref","first-page":"6070","DOI":"10.1109\/JBHI.2022.3207502","article-title":"Multi-modal understanding and generation for medical images and text via vision-language pre-training","volume":"26","author":"Moon","year":"2022","journal-title":"IEEE Journal of Biomedical and Health Informatics"},{"key":"10.1016\/j.eswa.2026.132008_bib0070","series-title":"Machine learning for health (ML4h)","first-page":"353","article-title":"Med-Flamingo: A multimodal medical few-shot learner","author":"Moor","year":"2023"},{"issue":"4","key":"10.1016\/j.eswa.2026.132008_bib0071","doi-asserted-by":"crossref","first-page":"1886","DOI":"10.1109\/JBHI.2023.3294249","article-title":"K-pathVQA: Knowledge-aware multimodal representation for pathology visual question answering","volume":"28","author":"Naseem","year":"2023","journal-title":"IEEE Journal of Biomedical and Health Informatics"},{"key":"10.1016\/j.eswa.2026.132008_bib0072","series-title":"Proceedings of the computer vision and pattern recognition conference","first-page":"14788","article-title":"VILA-M3: Enhancing vision-language models with medical expert knowledge","author":"Nath","year":"2025"},{"key":"10.1016\/j.eswa.2026.132008_bib0073","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2022.109763","article-title":"AMAM: An attention-based multimodal alignment model for medical visual question answering","volume":"255","author":"Pan","year":"2022","journal-title":"Knowledge-Based Systems"},{"key":"10.1016\/j.eswa.2026.132008_bib0074","series-title":"Proceedings of the 40th annual meeting of the association for computational linguistics","first-page":"311","article-title":"BLEU: A method for automatic evaluation of machine translation","author":"Papineni","year":"2002"},{"key":"10.1016\/j.eswa.2026.132008_bib0075","first-page":"180","article-title":"Radiology objects in COntext (ROCO): A multimodal image dataset","author":"Pelka","year":"2018"},{"key":"10.1016\/j.eswa.2026.132008_bib0076","series-title":"International conference on medical image computing and computer-assisted intervention","first-page":"409","article-title":"Rad-restruct: A novel VQA benchmark and method for structured radiology reporting","author":"Pellegrini","year":"2023"},{"key":"10.1016\/j.eswa.2026.132008_bib0077","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2025.113672","article-title":"Explainable medical visual question answering via chain of evidence","author":"Qiu","year":"2025","journal-title":"Knowledge-Based Systems"},{"key":"10.1016\/j.eswa.2026.132008_bib0078","series-title":"International conference on machine learning","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021"},{"key":"10.1016\/j.eswa.2026.132008_bib0079","series-title":"Ceur workshop proceedings","first-page":"1294","article-title":"Overview of imageCLEFmedical 2022\u2013caption prediction and concept detection","volume":"vol. 3180","author":"R\u00fcckert","year":"2022"},{"key":"10.1016\/j.eswa.2026.132008_bib0080","unstructured":"Saab, K., Tu, T., Weng, W.-H., Tanno, R., Stutz, D., Wulczyn, E., Zhang, F., Strother, T., Park, C., & Vedadi, E. (2024). Capabilities of gemini models in medicine. arXiv preprint arXiv:2404.18416."},{"key":"10.1016\/j.eswa.2026.132008_bib0081","series-title":"Advancements in medical foundation models: Explainability, robustness, security, and beyond","article-title":"Mediconfusion: Can you trust your AI radiologist? Probing the reliability of multimodal medical foundation models","author":"Sepehri","year":"2025"},{"issue":"1","key":"10.1016\/j.eswa.2026.132008_bib0082","doi-asserted-by":"crossref","DOI":"10.1038\/s41598-021-98390-1","article-title":"MedFuseNet: An attention-based multimodal deep learning model for visual question answering in the medical domain","volume":"11","author":"Sharma","year":"2021","journal-title":"Scientific Reports"},{"key":"10.1016\/j.eswa.2026.132008_bib0083","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2023.121526","article-title":"Miter: Medical image\u2013text joint adaptive pretraining with multi-level contrastive learning","volume":"238","author":"Shu","year":"2024","journal-title":"Expert Systems with Applications"},{"key":"10.1016\/j.eswa.2026.132008_bib0084","series-title":"The thirteenth international conference on learning representations","article-title":"Large-scale and fine-grained vision-language pre-training for enhanced CT image understanding","author":"Shui","year":"2025"},{"key":"10.1016\/j.eswa.2026.132008_bib0085","doi-asserted-by":"crossref","DOI":"10.1016\/j.iswa.2023.200221","article-title":"Contrastive training of a multimodal encoder for medical visual question answering","volume":"18","author":"Silva","year":"2023","journal-title":"Intelligent Systems with Applications"},{"key":"10.1016\/j.eswa.2026.132008_bib0086","unstructured":"Simpson, A. L., Antonelli, M., Bakas, S., Bilello, M., Farahani, K., Van Ginneken, B., Kopp-Schneider, A., Landman, B. A., Litjens, G., Menze, B. et al. (2019). A large annotated medical image dataset for the development and evaluation of segmentation algorithms. arXiv preprint arXiv:1902.09063."},{"key":"10.1016\/j.eswa.2026.132008_bib0087","series-title":"2023 IEEE 20th international symposium on biomedical imaging (ISBI)","first-page":"1","article-title":"MF 2-MVQA: A multi-stage feature fusion method for medical visual question answering","author":"Song","year":"2023"},{"key":"10.1016\/j.eswa.2026.132008_bib0088","series-title":"Findings of the association for computational linguistics: EMNLP 2020","first-page":"2112","article-title":"Medicat: A dataset of medical images, captions, and textual references","author":"Subramanian","year":"2020"},{"key":"10.1016\/j.eswa.2026.132008_bib0089","series-title":"International conference on medical image computing and computer-assisted intervention","first-page":"386","article-title":"Consistency-preserving visual question answering in medical imaging","author":"Tascon-Morales","year":"2019"},{"key":"10.1016\/j.eswa.2026.132008_bib0090","series-title":"International conference on medical image computing and computer-assisted intervention","first-page":"361","article-title":"Localized questions in medical visual question answering","author":"Tascon-Morales","year":"2022"},{"key":"10.1016\/j.eswa.2026.132008_bib0091","series-title":"International conference on medical image computing and computer-assisted intervention","first-page":"726","article-title":"Open-ended medical visual question answering through prefix tuning of language models","author":"Van Sonsbeek","year":"2023"},{"issue":"9","key":"10.1016\/j.eswa.2026.132008_bib0092","doi-asserted-by":"crossref","first-page":"2856","DOI":"10.1109\/TMI.2020.2978284","article-title":"A question-centric model for visual question answering in medical imaging","volume":"39","author":"Vu","year":"2020","journal-title":"IEEE Transactions on Medical Imaging"},{"key":"10.1016\/j.eswa.2026.132008_bib0093","doi-asserted-by":"crossref","DOI":"10.1016\/j.artmed.2022.102346","article-title":"Medical visual question answering based on question-type reasoning and semantic space constraint","volume":"131","author":"Wang","year":"2022","journal-title":"Artificial Intelligence in Medicine"},{"key":"10.1016\/j.eswa.2026.132008_bib0094","series-title":"Proceedings of the IEEE conference on computer vision and pattern recognition","first-page":"2097","article-title":"ChestX-ray8: Hospital-scale chest x-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases","author":"Wang","year":"2017"},{"issue":"1","key":"10.1016\/j.eswa.2026.132008_bib0095","doi-asserted-by":"crossref","first-page":"7866","DOI":"10.1038\/s41467-025-62385-7","article-title":"Towards generalist foundation model for radiology by leveraging web-scale 2D&3D medical data","volume":"16","author":"Wu","year":"2025","journal-title":"Nature Communications"},{"key":"10.1016\/j.eswa.2026.132008_bib0096","series-title":"The second tiny papers track at ICLR 2024","article-title":"Hallucination benchmark in medical visual question answering","author":"Wu","year":"2024"},{"key":"10.1016\/j.eswa.2026.132008_bib0097","article-title":"MKGF: A multi-modal knowledge graph based RAG framework to enhance LVLMs for medical visual question answering","author":"Wu","year":"2025","journal-title":"Neurocomputing"},{"key":"10.1016\/j.eswa.2026.132008_bib0098","series-title":"2023 IEEE international conference on image processing (ICIP)","first-page":"975","article-title":"FGCVQA: Fine-grained cross-attention for medical VQA","author":"Wu","year":"2023"},{"key":"10.1016\/j.eswa.2026.132008_bib0099","series-title":"Findings of the association for computational linguistics ACL 2024","first-page":"4977","article-title":"MLEVLM: Improve multi-level progressive capabilities based on multimodal large language model for medical visual question answering","author":"Xu","year":"2024"},{"key":"10.1016\/j.eswa.2026.132008_bib0100","series-title":"Findings of the association for computational linguistics ACL 2024","first-page":"5378","article-title":"Multi-modal concept alignment pre-training for generative medical visual question answering","author":"Yan","year":"2024"},{"key":"10.1016\/j.eswa.2026.132008_bib0101","series-title":"International conference on medical image computing and computer-assisted intervention","first-page":"209","article-title":"DermaVQA: A multilingual visual question answering dataset for dermatology","author":"Yim","year":"2024"},{"key":"10.1016\/j.eswa.2026.132008_bib0102","series-title":"International conference on medical image computing and computer-assisted intervention","first-page":"357","article-title":"PLMVQA: Applying pseudo labels for medical visual question answering with limited data","author":"Yu","year":"2023"},{"key":"10.1016\/j.eswa.2026.132008_bib0103","series-title":"Proceedings of the 31st ACM international conference on multimedia","first-page":"547","article-title":"RAMM: Retrieval-augmented biomedical visual question answering with multi-modal pre-training","author":"Yuan","year":"2023"},{"key":"10.1016\/j.eswa.2026.132008_bib0104","series-title":"International conference on medical image computing and computer-assisted intervention","first-page":"382","article-title":"Debiasing medical visual question answering via counterfactual training","author":"Zhan","year":"2023"},{"key":"10.1016\/j.eswa.2026.132008_bib0105","doi-asserted-by":"crossref","first-page":"3129","DOI":"10.1038\/s41591-024-03185-2","article-title":"A generalist vision\u2013language foundation model for diverse biomedical tasks","volume":"30","author":"Zhang","year":"2024","journal-title":"Nature Medicine"},{"issue":"1","key":"10.1016\/j.eswa.2026.132008_bib0106","doi-asserted-by":"crossref","DOI":"10.1056\/AIoa2400640","article-title":"A multimodal biomedical foundation model trained from fifteen million image-text pairs","volume":"2","author":"Zhang","year":"2024","journal-title":"NEJM AI"},{"key":"10.1016\/j.eswa.2026.132008_bib0107","unstructured":"Zhang, X., Wu, C., Zhao, Z., Lin, W., Zhang, Y., Wang, Y., & Xie, W. (2023). PMC-VQA: Visual instruction tuning for medical visual question answering. arXiv preprint arXiv:2305.10415."},{"key":"10.1016\/j.eswa.2026.132008_bib0108","series-title":"Proceedings of the computer vision and pattern recognition conference","first-page":"29623","article-title":"Alignment, mining and fusion: Representation alignment with hard negative mining and selective knowledge fusion for medical visual question answering","author":"Zou","year":"2025"},{"key":"10.1016\/j.eswa.2026.132008_bib0109","series-title":"Proceedings of the computer vision and pattern recognition conference","first-page":"180","article-title":"MVCM: Enhancing multi-view and cross-modality alignment for medical visual question answering and medical image-text retrieval","author":"Zou","year":"2025"}],"container-title":["Expert Systems with Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0957417426009218?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0957417426009218?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,4,14]],"date-time":"2026-04-14T08:45:42Z","timestamp":1776156342000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0957417426009218"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,7]]},"references-count":109,"alternative-id":["S0957417426009218"],"URL":"https:\/\/doi.org\/10.1016\/j.eswa.2026.132008","relation":{},"ISSN":["0957-4174"],"issn-type":[{"value":"0957-4174","type":"print"}],"subject":[],"published":{"date-parts":[[2026,7]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Task-specific models vs. large vision-language models in medical visual question answering: A survey","name":"articletitle","label":"Article Title"},{"value":"Expert Systems with Applications","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.eswa.2026.132008","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"132008"}}