{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,13]],"date-time":"2026-03-13T11:47:56Z","timestamp":1773402476571,"version":"3.50.1"},"reference-count":256,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100002383","name":"Research Center of the College of Computer and Information Sciences [King Saud University (KSU)]","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100002383","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100004919","name":"Center for Complex Engineering Systems [jointly between Massachusetts Institute of Technology (MIT) and King Abdulaziz City for Science and Technology (KACST)]","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100004919","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100011665","name":"Deanship of Scientific Research at King Saud University for funding and supporting this Research through the Initiative of Deanship of Scientific Research (DSR) Graduate Students Research Support","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100011665","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2023]]},"DOI":"10.1109\/access.2023.3335216","type":"journal-article","created":{"date-parts":[[2023,11,20]],"date-time":"2023-11-20T19:29:10Z","timestamp":1700508550000},"page":"136507-136540","source":"Crossref","is-referenced-by-count":8,"title":["A Critical Analysis of Benchmarks, Techniques, and Models in Medical Visual Question Answering"],"prefix":"10.1109","volume":"11","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-2831-416X","authenticated-orcid":false,"given":"Suheer","family":"Al-Hadhrami","sequence":"first","affiliation":[{"name":"Computer Science Department, King Saud University, Riyadh, Saudi Arabia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5981-6299","authenticated-orcid":false,"given":"Mohamed El Bachir","family":"Menai","sequence":"additional","affiliation":[{"name":"Computer Science Department, King Saud University, Riyadh, Saudi Arabia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9406-6809","authenticated-orcid":false,"given":"Saad","family":"Al-Ahmadi","sequence":"additional","affiliation":[{"name":"Computer Science Department, King Saud University, Riyadh, Saudi Arabia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2017-8565","authenticated-orcid":false,"given":"Ahmed","family":"Alnafessah","sequence":"additional","affiliation":[{"name":"King Abdulaziz City for Science and Technology, Riyadh, Saudi Arabia"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1007\/s10462-020-09832-7"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00915"},{"key":"ref3","first-page":"1","article-title":"Overview of ImageCLEF 2018 medical domain visual question answering task","volume-title":"Proc. CLEF Working Notes","author":"Hasan"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/j.image.2019.115648"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01014"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/wacv45572.2020.9093452"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/TMI.2020.2978284"},{"key":"ref8","article-title":"PathVQA: 30000+ questions for medical visual question answering","author":"He","year":"2020","journal-title":"arXiv:2003.10286"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.bionlp-1.6"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1038\/sdata.2018.251"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/s11227-017-2080-0"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-32251-9_57"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413761"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.2980024"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2017.05.001"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2017.06.005"},{"key":"ref17","article-title":"Survey of visual question answering: Datasets and techniques","author":"Gupta","year":"2017","journal-title":"arXiv:1705.03865"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2019.03.005"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1145\/3383465"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-16-1092-9_7"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ITCA52113.2020.00069"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1016\/j.imavis.2021.104327"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-82469-3_29"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1016\/j.artmed.2023.102611"},{"issue":"2","key":"ref25","first-page":"3919","article-title":"A survey on visual questioning answering: Datasets, approaches and models","volume":"9","author":"Sunny","year":"2020","journal-title":"Int. J. Sci. Technol. Res."},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.3233\/JIFS-222569"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1016\/j.artmed.2023.102611"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-16452-1_37"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.3390\/info12080334"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.alvr-1.3"},{"key":"ref31","first-page":"1","article-title":"VQA-med: Overview of the medical visual question answering task at ImageCLEF 2019","volume-title":"Proc. CLEF","author":"Abacha"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ISBI48211.2021.9434010"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/3460426.3463584"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"ref35","first-page":"1","article-title":"Overview of the VQA-med task at ImageCLEF 2020: Visual question answering and generation in the medical domain","volume-title":"Proc. CLEF Conf. Labs Eval. Forum","author":"Abacha"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.3390\/data3030025"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1145\/3477495.3531724"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-16449-1_4"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1016\/j.irbm.2013.01.010"},{"key":"ref40","article-title":"2018 Robotic scene segmentation challenge","author":"Allan","year":"2020","journal-title":"arXiv:2001.11190"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-59716-0_60"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/TMI.2016.2593957"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1016\/j.ipm.2022.103241"},{"key":"ref44","article-title":"Verb semantics and lexical selection","author":"Wu","year":"1994","journal-title":"arXiv:cmp-lg\/9406033"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1093\/bioinformatics\/btx238"},{"key":"ref46","first-page":"1","article-title":"NLM at ImageCLEF 2018 visual question answering in the medical domain","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Abacha"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.3115\/1073083.1073135"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.1999.790410"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2005.177"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP.2002.1038171"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1145\/3065386"},{"key":"ref52","article-title":"Very deep convolutional networks for large-scale image recognition","author":"Simonyan","year":"2014","journal-title":"arXiv:1409.1556"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref55","first-page":"1","article-title":"AIML at VQA-Med 2020: Knowledge inference via a skeleton-based sentence mapping approach for medical domain visual question answering","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Liao"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-87240-3_7"},{"key":"ref57","first-page":"1","article-title":"SYSU-HCP at VQA-Med 2021: A data-centric model with efficient training methodology for medical visual question answering","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","volume":"201","author":"Gong"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D16-1044"},{"key":"ref59","first-page":"1","article-title":"Hadamard product for low-rank bilinear pooling","volume-title":"Proc. 5th Int. Conf. Learn. Represent. (ICLR)","author":"Kim"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.285"},{"key":"ref61","first-page":"1","article-title":"Harendrakv at VQA-med 2020: Sequential VQA with attention for medical visual question answering","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Verma"},{"key":"ref62","first-page":"1","article-title":"Tlemcen university at ImageCLEF 2019 visual question answering task","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Bounaama"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1080\/01690969108406936"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1007\/BF02288367"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.21437\/ICSLP.2000-50"},{"key":"ref66","article-title":"Efficient estimation of word representations in vector space","author":"Mikolov","year":"2013","journal-title":"arXiv:1301.3781"},{"key":"ref67","first-page":"1","article-title":"Distributed representations of words and phrases and their compositionality","volume-title":"Proc. Adv. neural Inf. Process. Syst.","volume":"26","author":"Mikolov"},{"key":"ref68","volume-title":"Word2Vec","year":"2013"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1179"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1162"},{"key":"ref72","volume-title":"Challenge-Pathology Visual Question Answering-Grand Challenge","year":"2020"},{"key":"ref73","first-page":"1","article-title":"Deep neural networks and decision tree classifier for visual question answering in the medical domain","volume-title":"Proc. CLEF (Working Notes)","author":"Allaouzi"},{"key":"ref74","first-page":"1","article-title":"Employing inception-ResNet-v2 and Bi-LSTM for medical domain visual question answering","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Zhou"},{"key":"ref75","first-page":"1","article-title":"Just at VQA-med: A VGG-Seq2Seq model","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Talafha"},{"key":"ref76","first-page":"3294","article-title":"Skip-thought vectors","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"28","author":"Kiros"},{"key":"ref77","first-page":"5753","article-title":"XLNet: Generalized autoregressive pretraining for language understanding","volume-title":"Proc. 33rd Adv. Neural Inf. Process. Syst.","author":"Yang"},{"key":"ref78","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","author":"Devlin","year":"2018","journal-title":"arXiv:1810.04805"},{"key":"ref79","first-page":"1211","article-title":"Teams at VQA-Med 2021: BBN-orchestra for long-tailed medical visual question answering","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Eslami"},{"key":"ref80","first-page":"1346","article-title":"PUC Chile team at VQA-Med 2021: Approaching VQA as a classification task via fine-tuning a pretrained CNN","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Schilling"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2018.2817340"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.279"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-017-1038-2"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2017.8019436"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.12"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.11"},{"key":"ref87","first-page":"1","article-title":"Multimodal residual learning for visual QA","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"29","author":"Kim"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2018.2844789"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01258-8_2"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01237-3_28"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01081"},{"key":"ref92","article-title":"VisualBERT: A simple and performant baseline for vision and language","author":"Li","year":"2019","journal-title":"arXiv:1908.03557"},{"key":"ref93","first-page":"1","article-title":"UMASS at ImageCLEF medical visual question answering (Med-VQA) 2018 task","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Peng"},{"key":"ref94","first-page":"289","article-title":"Hierarchical question-image co-attention for visual question answering","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"29","author":"Lu"},{"key":"ref95","article-title":"ABC-CNN: An attention based convolutional neural network for visual question answering","author":"Chen","year":"2015","journal-title":"arXiv:1511.05960"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01225-0_10"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.499"},{"key":"ref98","first-page":"1","article-title":"Bilinear attention networks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"31","author":"Kim"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00637"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00644"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00473"},{"key":"ref102","first-page":"933","article-title":"Language modeling with gated convolutional networks","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Dauphin"},{"key":"ref103","first-page":"1","article-title":"Ensemble of streamlined bilinear visual question answering models for the imageclef 2019 challenge in the medical domain","volume-title":"Proc. CLEF Conf. Labs Eval. Forum","volume":"2380","author":"Vu"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"ref105","article-title":"RoBERTa: A robustly optimized BERT pretraining approach","author":"Liu","year":"2019","journal-title":"arXiv:1907.11692"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58577-8_7"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-1514"},{"key":"ref108","article-title":"ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks","author":"Lu","year":"2019","journal-title":"arXiv:1908.02265"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.7005"},{"key":"ref110","article-title":"VL-BERT: Pre-training of generic visual-linguistic representations","author":"Su","year":"2019","journal-title":"arXiv:1908.08530"},{"key":"ref111","article-title":"LAMP: Label augmented multimodal pretraining","author":"Guo","year":"2020","journal-title":"arXiv:2012.04446"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.707"},{"key":"ref113","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i10.17034"},{"key":"ref114","article-title":"Pixel-BERT: Aligning image pixels with text by deep multi-modal transformers","author":"Huang","year":"2020","journal-title":"arXiv:2004.00849"},{"key":"ref115","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i4.16431"},{"key":"ref116","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413518"},{"key":"ref117","article-title":"CAPT: Contrastive pre-training for learning denoised sequence representations","author":"Luo","year":"2020","journal-title":"arXiv:2010.06351"},{"key":"ref118","article-title":"UNIMO: Towards unified-modal understanding and generation via cross-modal contrastive learning","author":"Li","year":"2020","journal-title":"arXiv:2012.15409"},{"key":"ref119","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00553"},{"key":"ref120","article-title":"SemVLP: Vision-language pre-training by aligning semantics at multiple levels","author":"Li","year":"2021","journal-title":"arXiv:2103.07829"},{"key":"ref121","article-title":"Weak supervision helps emergence of word-object alignment and improves vision-language tasks","author":"Kervadec","year":"2019","journal-title":"arXiv:1912.03063"},{"key":"ref122","article-title":"InterBERT: Vision-and-language interaction for multi-modal pretraining","author":"Lin","year":"2020","journal-title":"arXiv:2003.13198"},{"key":"ref123","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58577-8_8"},{"key":"ref124","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00408"},{"key":"ref125","article-title":"ViLT: Vision-and-language transformer without convolution or region supervision","author":"Kim","year":"2021","journal-title":"arXiv:2102.03334"},{"key":"ref126","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01246"},{"key":"ref127","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford"},{"key":"ref128","first-page":"1","article-title":"Align before fuse: Vision and language representation learning with momentum distillation","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"34","author":"Li"},{"key":"ref129","article-title":"Florence: A new foundation model for computer vision","author":"Yuan","year":"2021","journal-title":"arXiv:2111.11432"},{"key":"ref130","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-1219"},{"key":"ref131","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.269"},{"key":"ref132","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58523-5_20"},{"key":"ref133","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01315"},{"key":"ref134","article-title":"ImageBERT: Cross-modal pre-training with large-scale weak-supervised image-text data","author":"Qi","year":"2020","journal-title":"arXiv:2001.07966"},{"key":"ref135","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-88480-2_63"},{"key":"ref136","article-title":"Bert can see out of the box: On the cross-modal transferability of text representations","author":"Scialom","year":"2020","journal-title":"arXiv:2002.10832"},{"key":"ref137","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2020.107563"},{"key":"ref138","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.264"},{"key":"ref139","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i15.17635"},{"key":"ref140","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2021.3069041"},{"key":"ref141","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01045"},{"key":"ref142","first-page":"1931","article-title":"Unifying vision-and-language tasks via text generation","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Cho"},{"key":"ref143","article-title":"Measuring social biases in grounded vision and language embeddings","author":"Ross","year":"2020","journal-title":"arXiv:2002.08911"},{"key":"ref144","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01522"},{"key":"ref145","first-page":"22680","article-title":"VLMixer: Unpaired vision-language pre-training via cross-modal cutmix","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Wang"},{"key":"ref146","doi-asserted-by":"publisher","DOI":"10.1145\/3447685"},{"key":"ref147","doi-asserted-by":"publisher","DOI":"10.1109\/BIBM49941.2020.9313289"},{"key":"ref148","article-title":"Publicly available clinical BERT embeddings","author":"Alsentzer","year":"2019","journal-title":"arXiv:1904.03323"},{"key":"ref149","first-page":"12888","article-title":"BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Li"},{"key":"ref150","first-page":"23318","article-title":"OFA: Unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework","volume-title":"Int. Conf. Mach. Learn.","author":"Wang"},{"key":"ref151","article-title":"CoCa: Contrastive captioners are image-text foundation models","author":"Yu","year":"2022","journal-title":"arXiv:2205.01917"},{"key":"ref152","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01838"},{"key":"ref153","article-title":"PaLI: A jointly-scaled multilingual language-image model","author":"Chen","year":"2022","journal-title":"arXiv:2209.06794"},{"key":"ref154","article-title":"BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models","author":"Li","year":"2023","journal-title":"arXiv:2301.12597"},{"key":"ref155","first-page":"1","article-title":"TUA1 at ImageCLEF 2019 VQA-Med: A classification and generation model based on transfer learning","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Zhou"},{"key":"ref156","first-page":"1","article-title":"Zhejiang university at ImageCLEF 2019 visual question answering in the medical domain","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Yan"},{"key":"ref157","first-page":"1","article-title":"Mit Manipal at ImageCLEF 2019 visual question answering in medical domain","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Thanki"},{"key":"ref158","first-page":"1","article-title":"LSTM in VQA-med, is it really needed? JCE study on the ImageCLEF 2019 dataset","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Turner"},{"key":"ref159","first-page":"1","article-title":"Medical visual question answering at image clef 2019-VQA med","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Bansal"},{"key":"ref160","first-page":"1","article-title":"Deep multimodal learning for medical visual question answering","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Shi"},{"key":"ref161","first-page":"1","article-title":"An Xception-GRU model for visual question answering in the medical domain","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Liu"},{"key":"ref162","first-page":"1","article-title":"Leveraging medical visual question answering with supporting facts","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Kornuta"},{"key":"ref163","first-page":"1","article-title":"An encoder\u2013decoder model for visual question answering in the medical domain","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Allaouzi"},{"key":"ref164","first-page":"1","article-title":"Just at ImageCLEF 2019 visual question answering in the medical domain","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Al-Sadi"},{"key":"ref165","first-page":"1","article-title":"Overview of the VQA-Med task at Imageclef 2020: Visual question answering and generation in the medical domain","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Abacha"},{"key":"ref166","first-page":"1","article-title":"NLM at VQA-Med 2020: Visual question answering and generation in the medical domain","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Sarrouti"},{"key":"ref167","first-page":"1","article-title":"Kdevqa at VQA-med 2020: Focusing on GLU-based classification","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Umada"},{"key":"ref168","first-page":"1","article-title":"Shengyan at VQA-med 2020: An encoder\u2013decoder model for medical domain visual question answering task","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Liu"},{"key":"ref169","first-page":"1","article-title":"Bumjun_Jung at VQA-med 2020: VQA model based on feature extraction and multi-modal feature fusion","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Jung"},{"key":"ref170","first-page":"1","article-title":"HCP-MIC at VQA-med 2020: Effective visual representation for medical visual question answering","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Chen"},{"key":"ref171","first-page":"1","article-title":"The inception team at VQA-med 2020: Pretrained VGG with data augmentation for medical VQA and VQG","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Al-Sadi"},{"key":"ref172","first-page":"1","article-title":"Yunnan university at VQA-med 2021: Pretrained biobert for medical domain visual question answering","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Xiao"},{"key":"ref173","first-page":"1","article-title":"Lijie at ImageCLEFmed VQA-med 2021: Attention model based on efficient interaction between multimodality","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Li"},{"key":"ref174","article-title":"TAM at VQA-med 2021: A hybrid model with feature extraction and fusion for medical visual question answering","author":"Li","year":"2021"},{"key":"ref175","first-page":"1329","article-title":"SSN MLRG at VQA-med 2021: An approach for VQA to solve abnormality related queries using improved datasets","volume-title":"Proc. CEUR Workshop","author":"Sitara"},{"key":"ref176","article-title":"VGG16: Visual generation of relevant natural language questions from radiology images for anomaly detection","author":"Chebbi","year":"2021"},{"key":"ref177","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2020.113993"},{"key":"ref178","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-63820-7_22"},{"key":"ref179","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-87196-3_20"},{"key":"ref180","doi-asserted-by":"publisher","DOI":"10.1109\/ISBI48211.2021.9434063"},{"key":"ref181","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-16-0171-2_24"},{"key":"ref182","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548122"},{"key":"ref183","doi-asserted-by":"publisher","DOI":"10.1016\/j.artmed.2022.102346"},{"key":"ref184","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20865-2_11"},{"key":"ref185","article-title":"PyTorchPipe: A framework for rapid prototyping of pipelines combining language and vision","author":"Kornuta","year":"2019","journal-title":"arXiv:1910.08654"},{"key":"ref186","doi-asserted-by":"publisher","DOI":"10.1109\/TENCON.2019.8929456"},{"key":"ref187","doi-asserted-by":"publisher","DOI":"10.1038\/s41598-021-98390-1"},{"key":"ref188","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2021.07.002"},{"key":"ref189","doi-asserted-by":"publisher","DOI":"10.1080\/01969722.2021.2018543"},{"key":"ref190","first-page":"1","article-title":"ImageCLEF 2020: An approach for visual question answering using VGG-LSTM for different datasets","volume-title":"Proc. Work. Notes CLEF Conf. Labs Eval. Forum","author":"Mohamed"},{"key":"ref191","doi-asserted-by":"publisher","DOI":"10.1109\/ICC45855.2022.9839076"},{"key":"ref192","doi-asserted-by":"publisher","DOI":"10.3390\/app13179735"},{"key":"ref193","volume-title":"Brain Tumor Dataset","year":"2017"},{"key":"ref194","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-43996-4_27"},{"key":"ref195","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.540"},{"key":"ref196","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.446"},{"key":"ref197","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.202"},{"key":"ref198","first-page":"1","article-title":"High-order attention models for visual question answering","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"30","author":"Schwartz"},{"key":"ref199","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.10"},{"key":"ref200","first-page":"1","article-title":"Visual question answering with question representation update (QRU)","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"29","author":"Li"},{"key":"ref201","article-title":"Simple baseline for visual question answering","author":"Zhou","year":"2015","journal-title":"arXiv:1512.02167"},{"key":"ref202","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.9"},{"key":"ref203","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46478-7_28"},{"key":"ref204","first-page":"1","article-title":"Exploring models and data for image question answering","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"28","author":"Ren"},{"key":"ref205","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v30i1.10442"},{"key":"ref206","first-page":"1","article-title":"Are you talking to a machine? Dataset and methods for multilingual image question","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"28","author":"Gao"},{"key":"ref207","article-title":"A focused dynamic attention model for visual question answering","author":"Ilievski","year":"2016","journal-title":"arXiv:1604.01485"},{"key":"ref208","article-title":"Explicit knowledge-based reasoning for visual question answering","author":"Wang","year":"2015","journal-title":"arXiv:1511.02570"},{"key":"ref209","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2017.2754246"},{"key":"ref210","first-page":"2397","article-title":"Dynamic memory networks for visual and textual question answering","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Xiong"},{"key":"ref211","article-title":"Visual madlibs: Fill in the blank image generation and question answering","author":"Yu","year":"2015","journal-title":"arXiv:1506.00278"},{"key":"ref212","first-page":"1","article-title":"Generative adversarial nets","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"27","author":"Goodfellow"},{"key":"ref213","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.145"},{"key":"ref214","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2017.2708709"},{"key":"ref215","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46484-8_44"},{"key":"ref216","article-title":"Show, ask, attend, and answer: A strong baseline for visual question answering","author":"Kazemi","year":"2017","journal-title":"arXiv:1704.03162"},{"key":"ref217","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46475-6_17"},{"key":"ref218","first-page":"1","article-title":"Dual attention network for visual question answering","volume-title":"Proc. ECCV 2nd Workshop Storytelling Images Videos (VisStory)","author":"Xu"},{"key":"ref219","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-68155-9_19"},{"key":"ref220","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00636"},{"key":"ref221","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2018\/126"},{"key":"ref222","article-title":"Dual recurrent attention units for visual question answering","author":"Osman","year":"2018","journal-title":"arXiv:1802.00209"},{"key":"ref223","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00729"},{"key":"ref224","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2018.04.031"},{"key":"ref225","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01246-5_29"},{"key":"ref226","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00642"},{"key":"ref227","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00444"},{"key":"ref228","article-title":"MemexQA: Visual memex question answering","author":"Jiang","year":"2017","journal-title":"arXiv:1708.01336"},{"key":"ref229","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00807"},{"key":"ref230","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2019.08.009"},{"key":"ref231","doi-asserted-by":"publisher","DOI":"10.1016\/j.jvcir.2020.102762"},{"key":"ref232","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-020-08790-0"},{"key":"ref233","doi-asserted-by":"publisher","DOI":"10.1007\/s00371-019-01786-4"},{"key":"ref234","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2020.107538"},{"key":"ref235","doi-asserted-by":"publisher","DOI":"10.1016\/j.knosys.2020.106639"},{"key":"ref236","doi-asserted-by":"publisher","DOI":"10.1016\/j.knosys.2020.106339"},{"key":"ref237","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2020.3029423"},{"key":"ref238","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2018.11.102"},{"key":"ref239","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2020.2995278"},{"key":"ref240","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2020.03.098"},{"key":"ref241","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2020.2988782"},{"key":"ref242","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.12240"},{"key":"ref243","article-title":"Textually enriched neural module networks for visual question answering","author":"Chandu","year":"2018","journal-title":"arXiv:1809.08697"},{"key":"ref244","article-title":"Attention on attention: Architectures for visual question answering (VQA)","author":"Singh","year":"2018","journal-title":"arXiv:1803.07724"},{"key":"ref245","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-018-6389-3"},{"key":"ref246","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-018-6097-z"},{"key":"ref247","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01267-0_14"},{"key":"ref248","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP.2018.8451516"},{"key":"ref249","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01231-1_1"},{"key":"ref250","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2018.11.049"},{"key":"ref251","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01251"},{"key":"ref252","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2021.3097502"},{"key":"ref253","doi-asserted-by":"publisher","DOI":"10.1109\/ICME51207.2021.9428098"},{"key":"ref254","doi-asserted-by":"publisher","DOI":"10.1145\/3404835.3462981"},{"key":"ref255","first-page":"1","article-title":"RUBi: Reducing unimodal biases for visual question answering","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"32","author":"Cadene"},{"key":"ref256","article-title":"Language bias in visual question answering: A survey and taxonomy","author":"Yuan","year":"2021","journal-title":"arXiv:2111.08531"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6287639\/10005208\/10323452.pdf?arnumber=10323452","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,12,20]],"date-time":"2023-12-20T00:45:15Z","timestamp":1703033115000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10323452\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023]]},"references-count":256,"URL":"https:\/\/doi.org\/10.1109\/access.2023.3335216","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023]]}}}