{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,4]],"date-time":"2026-05-04T07:41:42Z","timestamp":1777880502842,"version":"3.51.4"},"reference-count":54,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100003399","name":"Science and Technology Commission of Shanghai Municipality","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100003399","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Knowledge-Based Systems"],"published-print":{"date-parts":[[2026,5]]},"DOI":"10.1016\/j.knosys.2026.115688","type":"journal-article","created":{"date-parts":[[2026,3,5]],"date-time":"2026-03-05T07:47:27Z","timestamp":1772696847000},"page":"115688","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Anomaly-aware mutual promotion network for medical visual question answering"],"prefix":"10.1016","volume":"340","author":[{"ORCID":"https:\/\/orcid.org\/0009-0009-4547-9485","authenticated-orcid":false,"given":"Jiong","family":"Teng","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6641-7843","authenticated-orcid":false,"given":"Li","family":"Xi","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6433-7994","authenticated-orcid":false,"given":"Feihong","family":"Luo","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6270-7771","authenticated-orcid":false,"given":"Jing","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6215-4537","authenticated-orcid":false,"given":"Jing","family":"Wu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"78","reference":[{"issue":"1","key":"10.1016\/j.knosys.2026.115688_bib0001","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1038\/sdata.2018.251","article-title":"A dataset of clinically generated visual questions and answers about radiology images","volume":"5","author":"Lau","year":"2018","journal-title":"Sci. Data"},{"key":"10.1016\/j.knosys.2026.115688_bib0002","series-title":"2021 IEEE 18Th International Symposium on Biomedical Imaging (ISBI)","first-page":"1650","article-title":"Slake: a semantically-labeled knowledge-enhanced dataset for medical visual question answering","author":"Liu","year":"2021"},{"key":"10.1016\/j.knosys.2026.115688_bib0003","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2022.109763","article-title":"AMAM: An attention-based multimodal alignment model for medical visual question answering","volume":"255","author":"Pan","year":"2022","journal-title":"Knowl. Based Syst."},{"issue":"11","key":"10.1016\/j.knosys.2026.115688_bib0004","doi-asserted-by":"crossref","first-page":"3385","DOI":"10.1109\/TMI.2022.3185113","article-title":"Anomaly matters: an anomaly-Oriented model for medical visual question answering","volume":"41","author":"Cong","year":"2022","journal-title":"IEEE Trans. Med. Imag."},{"issue":"9","key":"10.1016\/j.knosys.2026.115688_bib0005","doi-asserted-by":"crossref","first-page":"2856","DOI":"10.1109\/TMI.2020.2978284","article-title":"A question-Centric model for visual question answering in medical imaging","volume":"39","author":"Vu","year":"2020","journal-title":"IEEE Trans. Med. Imag."},{"key":"10.1016\/j.knosys.2026.115688_bib0006","unstructured":"H. Pan, S. He, K. Zhang, B. Qu, C. Chen, K. Shi, Muvam: a multi-view attention-based model for medical visual question answering, arXiv: 2107.03216(2021)."},{"key":"10.1016\/j.knosys.2026.115688_bib0007","series-title":"Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2021: 24th International Conference, Strasbourg, France, September 27\u2013October 1, 2021, Proceedings, Part v 24","first-page":"64","article-title":"Multiple meta-model quantifying for medical visual question answering","author":"Do","year":"2021"},{"key":"10.1016\/j.knosys.2026.115688_bib0008","doi-asserted-by":"crossref","unstructured":"X. Hu, L. Gu, Q. An, M. Zhang, L. Liu, K. Kobayashi, T. Harada, R.M. Summers, Y. Zhu, Expert knowledge-Aware image difference graph representation learning for difference-Aware medical visual question answering, arXiv: 2307.11986(2023).","DOI":"10.1145\/3580305.3599819"},{"key":"10.1016\/j.knosys.2026.115688_bib0009","article-title":"Medical visual question answering via conditional reasoning and contrastive learning","author":"Liu","year":"2022","journal-title":"IEEE Trans. Med. Imag."},{"key":"10.1016\/j.knosys.2026.115688_bib0010","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2020.106339","article-title":"Visual question answering via combining inferential attention and semantic space mapping","volume":"207","author":"Liu","year":"2020","journal-title":"Knowl. Based Syst."},{"key":"10.1016\/j.knosys.2026.115688_bib0011","article-title":"CLVIN: Complete language-vision interaction network for visual question answering","author":"Chen","year":"2023","journal-title":"Knowl. Based Syst."},{"key":"10.1016\/j.knosys.2026.115688_bib0012","series-title":"Proceedings of the IEEE International Conference on Computer Vision","first-page":"2425","article-title":"Vqa: visual question answering","author":"Antol","year":"2015"},{"key":"10.1016\/j.knosys.2026.115688_bib0013","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2023.110879","article-title":"Question-conditioned debiasing with focal visual context fusion for visual question answering","volume":"278","author":"Liu","year":"2023","journal-title":"Knowl. Based Syst."},{"key":"10.1016\/j.knosys.2026.115688_bib0014","doi-asserted-by":"crossref","first-page":"6730","DOI":"10.1109\/TIP.2021.3097180","article-title":"Re-attention for visual question answering","volume":"30","author":"Guo","year":"2021","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.knosys.2026.115688_bib0015","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"2074","article-title":"Trar: routing the attention spans in transformer for visual question answering","author":"Zhou","year":"2021"},{"key":"10.1016\/j.knosys.2026.115688_bib0016","article-title":"Bilinear graph networks for visual question answering","author":"Guo","year":"2021","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"10.1016\/j.knosys.2026.115688_bib0017","article-title":"Bilinear attention networks","volume":"31","author":"Kim","year":"2018","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.knosys.2026.115688_bib0018","unstructured":"J.-H. Kim, K.-W. On, W. Lim, J. Kim, J.-W. Ha, B.-T. Zhang, Hadamard product for low-rank bilinear pooling, arXiv: 1610.04325(2016)."},{"key":"10.1016\/j.knosys.2026.115688_bib0019","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"299","article-title":"Dual attention networks for multimodal reasoning and matching","author":"Nam","year":"2017"},{"key":"10.1016\/j.knosys.2026.115688_bib0020","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"10313","article-title":"Relation-aware graph attention network for visual question answering","author":"Li","year":"2019"},{"key":"10.1016\/j.knosys.2026.115688_bib0021","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"6281","article-title":"Deep modular co-attention networks for visual question answering","author":"Yu","year":"2019"},{"key":"10.1016\/j.knosys.2026.115688_bib0022","first-page":"9694","article-title":"Align before fuse: vision and language representation learning with momentum distillation","volume":"34","author":"Li","year":"2021","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.knosys.2026.115688_bib0023","first-page":"32897","article-title":"Vlmo: unified vision-language pre-training with mixture-of-modality-experts","volume":"35","author":"Bao","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.knosys.2026.115688_bib0024","unstructured":"J. Yu, Z. Wang, V. Vasudevan, L. Yeung, M. Seyedhosseini, Y. Wu, Coca: contrastive captioners are image-text foundation models, arXiv: 2205.01917(2022)."},{"key":"10.1016\/j.knosys.2026.115688_bib0025","doi-asserted-by":"crossref","DOI":"10.1016\/j.artmed.2022.102346","article-title":"Medical visual question answering based on question-type reasoning and semantic space constraint","volume":"131","author":"Wang","year":"2022","journal-title":"Artif. Intell. Med."},{"key":"10.1016\/j.knosys.2026.115688_bib0026","doi-asserted-by":"crossref","unstructured":"T. van Sonsbeek, M.M. Derakhshani, I. Najdenkoska, C.G.M. Snoek, M. Worring, Open-ended medical visual question answering through prefix tuning of language models, arXiv: 2303.05977(2023).","DOI":"10.1007\/978-3-031-43904-9_70"},{"key":"10.1016\/j.knosys.2026.115688_bib0027","series-title":"2023 IEEE 20Th International Symposium on Biomedical Imaging (ISBI)","first-page":"1","article-title":"Self-Supervised vision-Language pretraining for medial visual question answering","author":"Li","year":"2023"},{"key":"10.1016\/j.knosys.2026.115688_bib0028","series-title":"Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2019: 22nd International Conference, Shenzhen, China, October 13\u201317, 2019, Proceedings, Part IV 22","first-page":"522","article-title":"Overcoming data limitation in medical visual question answering","author":"Nguyen","year":"2019"},{"key":"10.1016\/j.knosys.2026.115688_bib0029","series-title":"Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2021: 24th International Conference, Strasbourg, France, September 27\u2013October 1, 2021, Proceedings, Part II 24","first-page":"210","article-title":"Contrastive pre-training and representation distillation for medical visual question answering based on radiology images","author":"Liu","year":"2021"},{"key":"10.1016\/j.knosys.2026.115688_bib0030","series-title":"Proceedings of the 30Th ACM International Conference on Multimedia","first-page":"3569","article-title":"Caption-Aware medical VQA via semantic focusing and progressive cross-Modality comprehension","author":"Cong","year":"2022"},{"key":"10.1016\/j.knosys.2026.115688_bib0031","unstructured":"X. Huang, H. Gong, A dual-Attention learning network with word and sentence embedding for medical visual question answering, arXiv: 2210.00220(2022)."},{"key":"10.1016\/j.knosys.2026.115688_bib0032","series-title":"International Conference on Machine Learning","first-page":"23318","article-title":"Ofa: unifying architectures, tasks, and modalities through a simple sequence-to-sequence learning framework","author":"Wang","year":"2022"},{"key":"10.1016\/j.knosys.2026.115688_bib0033","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"5579","article-title":"Vinvl: revisiting visual representations in vision-language models","author":"Zhang","year":"2021"},{"key":"10.1016\/j.knosys.2026.115688_bib0034","series-title":"2021 IEEE 18Th International Symposium on Biomedical Imaging (ISBI)","first-page":"1033","article-title":"Mmbert: multimodal bert pretraining for improved medical vqa","author":"Khare","year":"2021"},{"key":"10.1016\/j.knosys.2026.115688_bib0035","first-page":"180","article-title":"Radiology objects in COntext (ROCO): a multimodal image dataset","author":"Pelka","year":"2018"},{"key":"10.1016\/j.knosys.2026.115688_bib0036","series-title":"Findings of the Association for Computational Linguistics: EACL 2023","first-page":"1151","article-title":"PubmedCLIP: how much does CLIP benefit visual question answering in the medical domain?","author":"Eslami","year":"2023"},{"key":"10.1016\/j.knosys.2026.115688_bib0037","series-title":"International Conference on Machine Learning","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021"},{"key":"10.1016\/j.knosys.2026.115688_bib0038","unstructured":"P. Li, G. Liu, L. Tan, J. Liao, S. Zhong, Self-supervised vision-language pretraining for medical visual question answering, arXiv: 2211.13594(2022)."},{"key":"10.1016\/j.knosys.2026.115688_bib0039","unstructured":"C. Zhan, P. Peng, H. Wang, T. Chen, H. Wang, UnICLAM: contrastive representation learning with adversarial masking for unified and interpretable medical vision question answering, arXiv: 2212.10729(2022)."},{"key":"10.1016\/j.knosys.2026.115688_bib0040","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"2286","article-title":"Dual-level collaborative transformer for image captioning","volume":"35","author":"Luo","year":"2021"},{"key":"10.1016\/j.knosys.2026.115688_bib0041","series-title":"Proceedings of the 29Th ACM International Conference on Multimedia","first-page":"2615","article-title":"Dual graph convolutional networks with transformer and curriculum learning for image captioning","author":"Dong","year":"2021"},{"key":"10.1016\/j.knosys.2026.115688_bib0042","series-title":"Proceedings of the 2021 International Conference on Multimedia Retrieval","first-page":"456","article-title":"Cross-modal self-attention with multi-task pre-training for medical visual question answering","author":"Gong","year":"2021"},{"key":"10.1016\/j.knosys.2026.115688_bib0043","series-title":"Proceedings of the 28Th ACM International Conference on Multimedia","first-page":"2345","article-title":"Medical visual question answering via conditional reasoning","author":"Zhan","year":"2020"},{"key":"10.1016\/j.knosys.2026.115688_bib0044","unstructured":"J. Ma, B. Wang, Segment anything in medical images, arXiv: 2304.12306(2023)."},{"issue":"11","key":"10.1016\/j.knosys.2026.115688_bib0045","doi-asserted-by":"crossref","first-page":"3332","DOI":"10.1109\/TMI.2022.3185008","article-title":"VQAMix: Conditional triplet mixup for medical visual question answering","volume":"41","author":"Gong","year":"2022","journal-title":"IEEE Trans. Med. Imag."},{"key":"10.1016\/j.knosys.2026.115688_bib0046","series-title":"2023 IEEE 20Th International Symposium on Biomedical Imaging (ISBI)","first-page":"1","article-title":"MF2-MVQA: A multi-Stage feature fusion method for medical visual question answering","author":"Song","year":"2023"},{"key":"10.1016\/j.knosys.2026.115688_bib0047","series-title":"Proceedings of the 2022 3Rd International Conference on Control, Robotics and Intelligent System","first-page":"1","article-title":"MMCN: Multi-Modal co-attention network for medical visual question answering","author":"Sun","year":"2022"},{"key":"10.1016\/j.knosys.2026.115688_bib0048","series-title":"ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"4838","article-title":"Type-aware medical visual question answering","author":"Zhang","year":"2022"},{"key":"10.1016\/j.knosys.2026.115688_bib0049","unstructured":"B. Lin, Z. Chen, M. Li, H. Lin, H. Xu, Y. Zhu, J. Liu, W. Cai, L. Yang, S. Zhao, et al., Towards medical artificial general intelligence via knowledge-Enhanced multimodal pretraining, arXiv: 2304.14204(2023)."},{"key":"10.1016\/j.knosys.2026.115688_bib0050","doi-asserted-by":"crossref","DOI":"10.1016\/j.media.2025.103464","article-title":"UnICLAM: contrastive representation learning with adversarial masking for unified and interpretable medical vision question answering","volume":"101","author":"Zhan","year":"2025","journal-title":"Med. Image Anal."},{"key":"10.1016\/j.knosys.2026.115688_bib0051","doi-asserted-by":"crossref","DOI":"10.1016\/j.media.2023.103018","article-title":"Mapping medical image-text to a joint space via masked modeling","volume":"91","author":"Chen","year":"2024","journal-title":"Med. Image Anal."},{"key":"10.1016\/j.knosys.2026.115688_bib0052","doi-asserted-by":"crossref","DOI":"10.1109\/TMI.2024.3425533","article-title":"Counterfactual causal-effect intervention for interpretable medical visual question answering","author":"Cai","year":"2024","journal-title":"IEEE Trans. Med. Imag."},{"key":"10.1016\/j.knosys.2026.115688_bib0053","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2023.121526","article-title":"Miter: medical image\u2013text joint adaptive pretraining with multi-level contrastive learning","volume":"238","author":"Shu","year":"2024","journal-title":"Expert Syst. Appl."},{"key":"10.1016\/j.knosys.2026.115688_bib0054","series-title":"International Conference on Medical Image Computing and Computer-Assisted Intervention","first-page":"525","article-title":"Pmc-clip: contrastive language-image pre-training using biomedical documents","author":"Lin","year":"2023"}],"container-title":["Knowledge-Based Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0950705126004284?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0950705126004284?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:13:33Z","timestamp":1777594413000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0950705126004284"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,5]]},"references-count":54,"alternative-id":["S0950705126004284"],"URL":"https:\/\/doi.org\/10.1016\/j.knosys.2026.115688","relation":{},"ISSN":["0950-7051"],"issn-type":[{"value":"0950-7051","type":"print"}],"subject":[],"published":{"date-parts":[[2026,5]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Anomaly-aware mutual promotion network for medical visual question answering","name":"articletitle","label":"Article Title"},{"value":"Knowledge-Based Systems","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.knosys.2026.115688","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"115688"}}