{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,26]],"date-time":"2026-03-26T10:59:10Z","timestamp":1774522750044,"version":"3.50.1"},"reference-count":44,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2026,2,16]],"date-time":"2026-02-16T00:00:00Z","timestamp":1771200000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,2,16]],"date-time":"2026-02-16T00:00:00Z","timestamp":1771200000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/100007785","name":"Jinan Science and Technology Bureau","doi-asserted-by":"publisher","award":["the 20 Planned Projects in Jinan (202228120)"],"award-info":[{"award-number":["the 20 Planned Projects in Jinan (202228120)"]}],"id":[{"id":"10.13039\/100007785","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int. J. Mach. Learn. &amp; Cyber."],"published-print":{"date-parts":[[2026,3]]},"DOI":"10.1007\/s13042-025-02976-4","type":"journal-article","created":{"date-parts":[[2026,2,16]],"date-time":"2026-02-16T10:25:39Z","timestamp":1771237539000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["IKIA: Image-Knowledge Internalization Assistance Model for Medical Visual Question Answering"],"prefix":"10.1007","volume":"17","author":[{"given":"Yurun","family":"Bi","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xingang","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yuteng","family":"Xiao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yudong","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2026,2,16]]},"reference":[{"key":"2976_CR1","unstructured":"Devlin J (2018) Bert: pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805"},{"key":"2976_CR2","doi-asserted-by":"crossref","unstructured":"Anderson P, He X, Buehler C et\u00a0al (2018) Bottom-up and top-down attention for image captioning and visual question answering. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 6077\u20136086","DOI":"10.1109\/CVPR.2018.00636"},{"key":"2976_CR3","doi-asserted-by":"crossref","unstructured":"Nguyen BD, Do TT, Nguyen BX et\u00a0al (2019) Overcoming data limitation in medical visual question answering. In: Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2019: 22nd International Conference, Shenzhen, China, October 13\u201317, 2019, Proceedings, Part IV 22, Springer, pp 522\u2013530","DOI":"10.1007\/978-3-030-32251-9_57"},{"key":"2976_CR4","doi-asserted-by":"publisher","DOI":"10.1016\/j.jvcir.2019.102628","volume":"64","author":"C Li","year":"2019","unstructured":"Li C, Li Z, Ge Z et al (2019) Knowledge driven temporal activity localization. J Vis Commun Image Represent 64:102628","journal-title":"J Vis Commun Image Represent"},{"issue":"1","key":"2976_CR5","doi-asserted-by":"publisher","first-page":"253","DOI":"10.1007\/s11280-022-01013-6","volume":"26","author":"M Li","year":"2023","unstructured":"Li M, Liu R, Wang F et al (2023) Auxiliary signal-guided knowledge encoder-decoder for medical report generation. World Wide Web 26(1):253\u2013270","journal-title":"World Wide Web"},{"key":"2976_CR6","doi-asserted-by":"crossref","unstructured":"Liu W, Zhou P, Zhao Z et\u00a0al (2020) K-bert: enabling language representation with knowledge graph. In: Proceedings of the AAAI Conference on Artificial Intelligence, pp 2901\u20132908","DOI":"10.1609\/aaai.v34i03.5681"},{"key":"2976_CR7","doi-asserted-by":"crossref","unstructured":"He B, Zhou D, Xiao J et\u00a0al (2019) Integrating graph contextualized knowledge into pre-trained language models. arXiv preprint arXiv:1912.00147","DOI":"10.18653\/v1\/2020.findings-emnlp.207"},{"key":"2976_CR8","doi-asserted-by":"publisher","DOI":"10.1016\/j.media.2022.102510","volume":"80","author":"S Yang","year":"2022","unstructured":"Yang S, Wu X, Ge S et al (2022) Knowledge matters: chest radiology report generation with general and specific knowledge. Med Image Anal 80:102510","journal-title":"Med Image Anal"},{"issue":"8","key":"2976_CR9","doi-asserted-by":"publisher","first-page":"2211","DOI":"10.1109\/TMI.2023.3245608","volume":"42","author":"S Yan","year":"2023","unstructured":"Yan S, Cheung WK, Chiu K et al (2023) Attributed abnormality graph embedding for clinically accurate x-ray report generation. IEEE Trans Med Imaging 42(8):2211\u20132222","journal-title":"IEEE Trans Med Imaging"},{"key":"2976_CR10","doi-asserted-by":"crossref","unstructured":"Yuan Z, Liu Y, Tan C et\u00a0al (2021) Improving biomedical pretrained language models with knowledge. arXiv preprint arXiv:2104.10344","DOI":"10.18653\/v1\/2021.bionlp-1.20"},{"issue":"1","key":"2976_CR11","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1038\/sdata.2018.251","volume":"5","author":"JJ Lau","year":"2018","unstructured":"Lau JJ, Gayen S, Ben Abacha A et al (2018) A dataset of clinically generated visual questions and answers about radiology images. Sci data 5(1):1\u201310","journal-title":"Sci data"},{"key":"2976_CR12","doi-asserted-by":"crossref","unstructured":"Liu B, Zhan LM, Xu L et\u00a0al (2021) Slake: a semantically-labeled knowledge-enhanced dataset for medical visual question answering. In: 2021 IEEE 18th international symposium on biomedical imaging (ISBI), IEEE, pp 1650\u20131654","DOI":"10.1109\/ISBI48211.2021.9434010"},{"key":"2976_CR13","doi-asserted-by":"publisher","DOI":"10.1016\/j.artmed.2023.102611","volume":"143","author":"Z Lin","year":"2023","unstructured":"Lin Z, Zhang D, Tao Q et al (2023) Medical visual question answering: a survey. Artif Intell Med 143:102611","journal-title":"Artif Intell Med"},{"key":"2976_CR14","doi-asserted-by":"crossref","unstructured":"Liu Y, Wang Z, Xu D et\u00a0al (2023) Q2atransformer: improving medical vqa via an answer querying decoder. In: International conference on information processing in medical imaging, Springer, pp 445\u2013456","DOI":"10.1007\/978-3-031-34048-2_34"},{"key":"2976_CR15","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2020.113993","volume":"164","author":"D Gupta","year":"2021","unstructured":"Gupta D, Suman S, Ekbal A (2021) Hierarchical deep multi-modal network for medical visual question answering. Expert Syst Appl 164:113993","journal-title":"Expert Syst Appl"},{"key":"2976_CR16","doi-asserted-by":"crossref","unstructured":"Zhang A, Tao W, Li Z et al (2022) Type-aware medical visual question answering. ICASSP 2022\u20132022 IEEE international conference on acoustics. IEEE, Speech and Signal Processing (ICASSP), pp 4838\u20134842","DOI":"10.1109\/ICASSP43922.2022.9747087"},{"key":"2976_CR17","doi-asserted-by":"crossref","unstructured":"Gong H, Chen G, Liu S et\u00a0al (2021) Cross-modal self-attention with multi-task pre-training for medical visual question answering. In: Proceedings of the 2021 international conference on multimedia retrieval, pp 456\u2013460","DOI":"10.1145\/3460426.3463584"},{"key":"2976_CR18","volume":"18","author":"JD Silva","year":"2023","unstructured":"Silva JD, Martins B, Magalh\u00e3es J (2023) Contrastive training of a multimodal encoder for medical visual question answering. Intell Syst Appl 18:200221","journal-title":"Intell Syst Appl"},{"key":"2976_CR19","doi-asserted-by":"crossref","unstructured":"Khare Y, Bagal V, Mathew M et\u00a0al (2021) Mmbert: multimodal bert pretraining for improved medical vqa. In: 2021 IEEE 18th international symposium on biomedical imaging (ISBI), IEEE, pp 1033\u20131036","DOI":"10.1109\/ISBI48211.2021.9434063"},{"issue":"9","key":"2976_CR20","doi-asserted-by":"publisher","first-page":"2856","DOI":"10.1109\/TMI.2020.2978284","volume":"39","author":"MH Vu","year":"2020","unstructured":"Vu MH, L\u00f6fstedt T, Nyholm T et al (2020) A question-centric model for visual question answering in medical imaging. IEEE Trans Med Imaging 39(9):2856\u20132868","journal-title":"IEEE Trans Med Imaging"},{"issue":"1","key":"2976_CR21","doi-asserted-by":"publisher","first-page":"19826","DOI":"10.1038\/s41598-021-98390-1","volume":"11","author":"D Sharma","year":"2021","unstructured":"Sharma D, Purushotham S, Reddy CK (2021) Medfusenet: an attention-based multimodal deep learning model for visual question answering in the medical domain. Sci Rep 11(1):19826","journal-title":"Sci Rep"},{"key":"2976_CR22","doi-asserted-by":"crossref","unstructured":"Do T, Nguyen BX, Tjiputra E et\u00a0al (2021) Multiple meta-model quantifying for medical visual question answering. In: Medical image computing and computer assisted intervention\u2013MICCAI 2021: 24th international conference, Strasbourg, France, September 27\u2013October 1, 2021, Proceedings, Part V 24, Springer, pp 64\u201374","DOI":"10.1007\/978-3-030-87240-3_7"},{"key":"2976_CR23","doi-asserted-by":"crossref","unstructured":"Jiang S, Zheng T, Zhang Y et al (2024) Med-moe: mixture of domain-specific experts for lightweight medical vision-language models. Findings of the Association for Computational Linguistics EMNLP 2024:3843\u20133860","DOI":"10.18653\/v1\/2024.findings-emnlp.221"},{"key":"2976_CR24","unstructured":"Liu J, Wang Z, Ye Q et\u00a0al (2023) Qilin-med-vl: towards chinese large vision-language model for general healthcare. arXiv preprint arXiv:2310.17956"},{"key":"2976_CR25","doi-asserted-by":"crossref","unstructured":"He X, Zhang Y, Mou L et\u00a0al (2020) Pathvqa: 30000+ questions for medical visual question answering. arXiv preprint arXiv:2003.10286","DOI":"10.36227\/techrxiv.13127537"},{"key":"2976_CR26","unstructured":"Liu B, Zou K, Zhan L et\u00a0al (2024) Gemex: a large-scale, groundable, and explainable medical vqa benchmark for chest x-ray diagnosis. arXiv preprint arXiv:2411.16778"},{"key":"2976_CR27","doi-asserted-by":"crossref","unstructured":"Cui Y, Yu Z, Wang C et\u00a0al (2021) Rosita: enhancing vision-and-language semantic alignments via cross-and intra-modal knowledge integration. In: Proceedings of the 29th ACM international conference on multimedia, pp 797\u2013806","DOI":"10.1145\/3474085.3475251"},{"key":"2976_CR28","doi-asserted-by":"crossref","unstructured":"Yu F, Tang J, Yin W et\u00a0al (2021) Ernie-vil: knowledge enhanced vision-language representations through scene graphs. In: Proceedings of the AAAI conference on artificial intelligence, pp 3208\u20133216","DOI":"10.1609\/aaai.v35i4.16431"},{"key":"2976_CR29","doi-asserted-by":"crossref","unstructured":"Chen Z, Li G, Wan X (2022) Align, reason and learn: Enhancing medical vision-and-language pre-training with knowledge. In: Proceedings of the 30th ACM international conference on multimedia, pp 5152\u20135161","DOI":"10.1145\/3503161.3547948"},{"key":"2976_CR30","doi-asserted-by":"crossref","unstructured":"Hu X, Gu L, An Q et\u00a0al (2023) Expert knowledge-aware image difference graph representation learning for difference-aware medical visual question answering. In: Proceedings of the 29th ACM SIGKDD conference on knowledge discovery and data mining, pp 4156\u20134165","DOI":"10.1145\/3580305.3599819"},{"key":"2976_CR31","unstructured":"Lin B, Chen Z, Li M et\u00a0al (2023) Towards medical artificial general intelligence via knowledge-enhanced multimodal pretraining. arXiv preprint arXiv:2304.14204"},{"key":"2976_CR32","doi-asserted-by":"crossref","unstructured":"Chen X, He Y, Xue C et\u00a0al (2023) Knowledge boosting: rethinking medical contrastive vision-language pre-training. In: International conference on medical image computing and computer-assisted intervention, Springer, pp 405\u2013415","DOI":"10.1007\/978-3-031-43907-0_39"},{"key":"2976_CR33","doi-asserted-by":"publisher","DOI":"10.1016\/j.engappai.2024.109561","volume":"139","author":"C Krai\u0161nikovi\u0107","year":"2025","unstructured":"Krai\u0161nikovi\u0107 C, Harb R, Plass M et al (2025) Fine-tuning language model embeddings to reveal domain knowledge: an explainable artificial intelligence perspective on medical decision making. Eng Appl Artif Intell 139:109561","journal-title":"Eng Appl Artif Intell"},{"key":"2976_CR34","unstructured":"Wu Y, Schuster M, Chen Z et\u00a0al (2016) Google\u2019s neural machine translation system: bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144"},{"key":"2976_CR35","unstructured":"Dosovitskiy A (2020) An image is worth 16x16 words: transformers for image recognition at scale. arXiv preprint arXiv:2010.11929"},{"key":"2976_CR36","unstructured":"Zhang X, Wu C, Zhao Z et\u00a0al (2023) Pmc-vqa: visual instruction tuning for medical visual question answering. arXiv preprint arXiv:2305.10415"},{"key":"2976_CR37","unstructured":"Loshchilov I, Hutter F (2017) Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101"},{"key":"2976_CR38","unstructured":"Kim JH, Jun J, Zhang BT (2018) Bilinear attention networks. Adv neural inf proc syst :31"},{"key":"2976_CR39","doi-asserted-by":"crossref","unstructured":"Liu B, Zhan LM, Wu XM (2021) Contrastive pre-training and representation distillation for medical visual question answering based on radiology images. In: Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2021: 24th International Conference, Strasbourg, France, September 27\u2013October 1, 2021, Proceedings, Part II 24, Springer, pp 210\u2013220","DOI":"10.1007\/978-3-030-87196-3_20"},{"issue":"2","key":"2976_CR40","doi-asserted-by":"publisher","DOI":"10.1016\/j.ipm.2022.103241","volume":"60","author":"J Huang","year":"2023","unstructured":"Huang J, Chen Y, Li Y et al (2023) Medical knowledge-based network for patient-oriented visual question answering. Inf Process Manag 60(2):103241","journal-title":"Inf Process Manag"},{"issue":"5","key":"2976_CR41","doi-asserted-by":"publisher","first-page":"1532","DOI":"10.1109\/TMI.2022.3232411","volume":"42","author":"B Liu","year":"2022","unstructured":"Liu B, Zhan LM, Xu L et al (2022) Medical visual question answering via conditional reasoning and contrastive learning. IEEE Trans Med Imaging 42(5):1532\u20131545","journal-title":"IEEE Trans Med Imaging"},{"key":"2976_CR42","doi-asserted-by":"crossref","unstructured":"Li P, Liu G, Tan L et\u00a0al (2023) Self-supervised vision-language pretraining for medial visual question answering. In: 2023 IEEE 20th international symposium on biomedical imaging (ISBI), IEEE, pp 1\u20135","DOI":"10.1109\/ISBI53787.2023.10230743"},{"key":"2976_CR43","doi-asserted-by":"publisher","first-page":"67","DOI":"10.1016\/j.nbt.2022.05.002","volume":"70","author":"H M\u00fcller","year":"2022","unstructured":"M\u00fcller H, Holzinger A, Plass M et al (2022) Explainability and causability for artificial intelligence-supported medical image analysis in the context of the european in vitro diagnostic regulation. New Biotechnol 70:67\u201372","journal-title":"New Biotechnol"},{"key":"2976_CR44","doi-asserted-by":"publisher","DOI":"10.1016\/j.ins.2023.119898","volume":"655","author":"J Del Ser","year":"2024","unstructured":"Del Ser J, Barredo-Arrieta A, D\u00edaz-Rodr\u00edguez N et al (2024) On generating trustworthy counterfactual explanations. Inf Sci 655:119898","journal-title":"Inf Sci"}],"container-title":["International Journal of Machine Learning and Cybernetics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s13042-025-02976-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s13042-025-02976-4","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s13042-025-02976-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,26]],"date-time":"2026-03-26T10:01:46Z","timestamp":1774519306000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s13042-025-02976-4"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,2,16]]},"references-count":44,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2026,3]]}},"alternative-id":["2976"],"URL":"https:\/\/doi.org\/10.1007\/s13042-025-02976-4","relation":{},"ISSN":["1868-8071","1868-808X"],"issn-type":[{"value":"1868-8071","type":"print"},{"value":"1868-808X","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,2,16]]},"assertion":[{"value":"3 December 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"16 September 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"16 February 2026","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no Conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}],"article-number":"101"}}