{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,28]],"date-time":"2026-03-28T17:28:50Z","timestamp":1774718930771,"version":"3.50.1"},"reference-count":49,"publisher":"Springer Science and Business Media LLC","issue":"4","license":[{"start":{"date-parts":[[2025,4,4]],"date-time":"2025-04-04T00:00:00Z","timestamp":1743724800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,4,4]],"date-time":"2025-04-04T00:00:00Z","timestamp":1743724800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["SN COMPUT. SCI."],"DOI":"10.1007\/s42979-025-03868-8","type":"journal-article","created":{"date-parts":[[2025,4,5]],"date-time":"2025-04-05T15:59:24Z","timestamp":1743868764000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["DSAF: A Dual-Stage Attention Based Multimodal Fusion Framework for Medical Visual Question Answering"],"prefix":"10.1007","volume":"6","author":[{"ORCID":"https:\/\/orcid.org\/0009-0000-5034-1151","authenticated-orcid":false,"given":"K.","family":"Mukesh","sequence":"first","affiliation":[]},{"given":"S. L.","family":"Jayaprakash","sequence":"additional","affiliation":[]},{"given":"R.","family":"Prasanna Kumar","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,4,4]]},"reference":[{"key":"3868_CR1","doi-asserted-by":"crossref","unstructured":"Liao Z, Hengel A, Verjans JW. Medical visual question answering. In: Intelligence-based cardiology and cardiac surgery; 2024. p. 157\u2013162.","DOI":"10.1016\/B978-0-323-90534-3.00002-0"},{"key":"3868_CR2","doi-asserted-by":"crossref","first-page":"104482","DOI":"10.1016\/j.jbi.2023.104482","volume":"146","author":"Z Sun","year":"2023","unstructured":"Sun Z, Lin M, Zhu Q, Xie Q, Wang F, Lu Z, Peng Y. A scoping review on multimodal deep learning in biomedical images and texts. J Biomed Inf. 2023;146:104482.","journal-title":"J Biomed Inf."},{"key":"3868_CR3","first-page":"1","volume":"56","author":"F Zhao","year":"2024","unstructured":"Zhao F, Zhang C, Geng B. Deep multimodal data fusion. ACM Comput Surv. 2024;56:1\u201336.","journal-title":"ACM Comput Surv."},{"issue":"3","key":"3868_CR4","doi-asserted-by":"crossref","first-page":"1169","DOI":"10.3390\/app14031169","volume":"14","author":"H Ma","year":"2024","unstructured":"Ma H, Fan B, Ng BK, Lam C-T. VL-few: vision language alignment for multimodal few-shot meta learning. Appl Sci. 2024;14(3):1169.","journal-title":"Appl Sci."},{"key":"3868_CR5","doi-asserted-by":"crossref","first-page":"111502","DOI":"10.1016\/j.knosys.2024.111502","volume":"289","author":"L Li","year":"2024","unstructured":"Li L, Pan H, Liang Y, Shao M, Xie S, Lu S, Liao S. PMFN-SSL: self-supervised learning-based progressive multimodal fusion network for cancer diagnosis and prognosis. Knowled-Based Syst. 2024;289:111502.","journal-title":"Knowled-Based Syst."},{"key":"3868_CR6","doi-asserted-by":"crossref","unstructured":"Ionescu B, M\u00fcller H, Dr\u0103gulinescu A-M, Yim W-W, Ben Abacha A, Snider N, Adams G, Yetisgen M, R\u00fcckert J, Herrera A. Overview of the ImageCLEF 2023: multimedia retrieval in medical, social media and internet applications. In: International conference of the cross-language evaluation forum for European languages. Springer; 2023. p. 370\u2013396","DOI":"10.1007\/978-3-031-42448-9_25"},{"issue":"1","key":"3868_CR7","doi-asserted-by":"crossref","first-page":"19826","DOI":"10.1038\/s41598-021-98390-1","volume":"11","author":"D Sharma","year":"2021","unstructured":"Sharma D, Purushotham S, Reddy CK. MedFuseNet: an attention-based multimodal deep learning model for visual question answering in the medical domain. Sci Rep. 2021;11(1):19826.","journal-title":"Sci Rep."},{"key":"3868_CR8","doi-asserted-by":"crossref","unstructured":"Gong H, Chen G, Liu S, Yu Y, Li G. Cross-modal self-attention with multi-task pre-training for medical visual question answering. In: Proceedings of the 2021 international conference on multimedia retrieval; 2021. p. 456\u2013460.","DOI":"10.1145\/3460426.3463584"},{"key":"3868_CR9","doi-asserted-by":"crossref","unstructured":"Khare Y, Bagal V, Mathew M, Devi A, Priyakumar UD, Jawahar C, MMBERT: multimodal bert pretraining for improved medical VQA. In: 2021 IEEE 18th international symposium on biomedical imaging (ISBI). IEEE; 2021. p. 1033\u20136.","DOI":"10.1109\/ISBI48211.2021.9434063"},{"issue":"12","key":"3868_CR10","doi-asserted-by":"crossref","first-page":"5947","DOI":"10.1109\/TNNLS.2018.2817340","volume":"29","author":"Z Yu","year":"2018","unstructured":"Yu Z, Yu J, Xiang C, Fan J, Tao D. Beyond bilinear: Generalized multimodal factorized high-order pooling for visual question answering. IEEE Trans Neural Netw Learn Syst. 2018;29(12):5947\u201359.","journal-title":"IEEE Trans Neural Netw Learn Syst."},{"key":"3868_CR11","doi-asserted-by":"crossref","unstructured":"Fukui A, Park DH, Yang D, Rohrbach A, Darrell T, Rohrbach M. Multimodal compact bilinear pooling for visual question answering and visual grounding. arXiv preprint arXiv:1606.01847; 2016.","DOI":"10.18653\/v1\/D16-1044"},{"key":"3868_CR12","doi-asserted-by":"crossref","unstructured":"Yang Z, He X, Gao J, Deng L, Smola A. Stacked attention networks for image question answering. In: Proceedings of the IEEE conference on computer vision and pattern recognition; 2016. p. 21\u201329.","DOI":"10.1109\/CVPR.2016.10"},{"issue":"3","key":"3868_CR13","doi-asserted-by":"crossref","first-page":"1045","DOI":"10.3390\/s22031045","volume":"22","author":"F Yan","year":"2022","unstructured":"Yan F, Silamu W, Li Y. Deep modular bilinear attention network for visual question answering. Sensors. 2022;22(3):1045.","journal-title":"Sensors."},{"key":"3868_CR14","doi-asserted-by":"crossref","first-page":"107956","DOI":"10.1016\/j.patcog.2021.107956","volume":"117","author":"Y Liu","year":"2021","unstructured":"Liu Y, Zhang X, Zhang Q, Li C, Huang F, Tang X, Li Z. Dual self-attention with co-attention networks for visual question answering. Pattern Recogn. 2021;117:107956.","journal-title":"Pattern Recogn."},{"issue":"3","key":"3868_CR15","doi-asserted-by":"crossref","first-page":"380","DOI":"10.3390\/bioengineering10030380","volume":"10","author":"Y Bazi","year":"2023","unstructured":"Bazi Y, Rahhal MMA, Bashmal L, Zuair M. Vision-language model for visual question answering in medical imagery. Bioengineering. 2023;10(3):380.","journal-title":"Bioengineering."},{"key":"3868_CR16","unstructured":"Alexey D. An image is worth $$16\\times 16$$ words: transformers for image recognition at scale. arXiv preprint arXiv: 2010.11929; 2020."},{"key":"3868_CR17","doi-asserted-by":"crossref","first-page":"110084","DOI":"10.1016\/j.patcog.2023.110084","volume":"147","author":"C Chen","year":"2024","unstructured":"Chen C, Han D, Chang C-C. MPCCT: multimodal vision-language learning paradigm with context-based compact transformer. Pattern Recogn. 2024;147:110084.","journal-title":"Pattern Recogn."},{"key":"3868_CR18","doi-asserted-by":"crossref","unstructured":"Chen Z, Du Y, Hu J, Liu Y, Li G, Wan X, Chang T-H. Multi-modal masked autoencoders for medical vision-and-language pre-training. In: International conference on medical image computing and computer-assisted intervention. Berlin: Springer; 2022. p. 679\u2013689.","DOI":"10.1007\/978-3-031-16443-9_65"},{"issue":"2","key":"3868_CR19","doi-asserted-by":"crossref","first-page":"103241","DOI":"10.1016\/j.ipm.2022.103241","volume":"60","author":"J Huang","year":"2023","unstructured":"Huang J, Chen Y, Li Y, Yang Z, Gong X, Wang FL, Xu X, Liu W. Medical knowledge-based network for patient-oriented visual question answering. Inf Process Manag. 2023;60(2):103241.","journal-title":"Inf Process Manag."},{"key":"3868_CR20","doi-asserted-by":"crossref","first-page":"121526","DOI":"10.1016\/j.eswa.2023.121526","volume":"238","author":"C Shu","year":"2024","unstructured":"Shu C, Zhu Y, Tang X, Xiao J, Chen Y, Li X, Zhang Q, Lu Z. MITER: medical image-text joint adaptive pretraining with multi-level contrastive learning. Expert Syst Appl. 2024;238:121526.","journal-title":"Expert Syst Appl."},{"key":"3868_CR21","unstructured":"Zhang X, Wu C, Zhao Z, Lin W, Zhang Y, Wang Y, Xie W. PMC-VQA: visual instruction tuning for medical visual question answering. arXiv preprint arXiv:2305.10415; 2023."},{"issue":"1","key":"3868_CR22","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1038\/s41597-018-0002-5","volume":"5","author":"JJ Lau","year":"2018","unstructured":"Lau JJ, Gayen S, Ben Abacha A, Demner-Fushman D. A dataset of clinically generated visual questions and answers about radiology images. Sci Data. 2018;5(1):1\u201310.","journal-title":"Sci Data."},{"key":"3868_CR23","doi-asserted-by":"crossref","unstructured":"Liu B, Zhan L-M, Xu L, Ma L, Yang Y, Wu X-M, Slake: a semantically-labeled knowledge-enhanced dataset for medical visual question answering. In: 2021 IEEE 18th international symposium on biomedical imaging (ISBI). IEEE; 2021. p, 1650\u20134.","DOI":"10.1109\/ISBI48211.2021.9434010"},{"key":"3868_CR24","doi-asserted-by":"crossref","unstructured":"Liu B, Zhan L-M, Wu X-M. Contrastive pre-training and representation distillation for medical visual question answering based on radiology images. In: Medical image computing and computer assisted intervention\u2014MICCAI 2021: 24th International Conference, Strasbourg, France, September 27\u2013October 1, 2021, Proceedings, Part II 24. Berlin: Springer; 2021. p. 210\u2013220.","DOI":"10.1007\/978-3-030-87196-3_20"},{"key":"3868_CR25","doi-asserted-by":"crossref","unstructured":"Li P, Liu G, Tan L, Liao J, Zhong S, Self-supervised vision-language pretraining for medial visual question answering. In: 2023 IEEE 20th international symposium on biomedical imaging (ISBI). IEEE; 2023. p. 1\u20135.","DOI":"10.1109\/ISBI53787.2023.10230743"},{"key":"3868_CR26","doi-asserted-by":"crossref","unstructured":"He X, Zhang Y, Mou L, Xing E, Xie P. Pathvqa: 30000+ questions for medical visual question answering. arXiv preprint arXiv:2003.10286; 2020.","DOI":"10.36227\/techrxiv.13127537.v1"},{"issue":"4","key":"3868_CR27","doi-asserted-by":"crossref","first-page":"5803","DOI":"10.3233\/JIFS-222569","volume":"44","author":"SS Noor Mohamed","year":"2023","unstructured":"Noor Mohamed SS, Srinivasan K. A comprehensive interpretation for medical VQA: datasets, techniques, and challenges. J Intell Fuzzy Syst. 2023;44(4):5803\u201319.","journal-title":"J Intell Fuzzy Syst."},{"key":"3868_CR28","doi-asserted-by":"crossref","unstructured":"Guo H, Liu L, Su X, Zhang H. Medical visual question answering via targeted choice contrast and multimodal entity matching. In: International conference on neural information processing. Berlin: Springer; 2022. p. 343\u2013354.","DOI":"10.1007\/978-3-031-30108-7_29"},{"key":"3868_CR29","doi-asserted-by":"crossref","first-page":"102667","DOI":"10.1016\/j.artmed.2023.102667","volume":"144","author":"Y Li","year":"2023","unstructured":"Li Y, Yang Q, Wang FL, Lee L-K, Qu Y, Hao T. Asymmetric cross-modal attention network with multimodal augmented mixup for medical visual question answering. Artif Intell Med. 2023;144:102667.","journal-title":"Artif Intell Med."},{"key":"3868_CR30","doi-asserted-by":"crossref","unstructured":"Hao X, Zhu Y, Appalaraju S, Zhang A, Zhang W, Li B, Li M. Mixgen: a new multi-modal data augmentation. In: Proceedings of the IEEE\/CVF Winter conference on applications of computer vision; 2023. p. 379\u2013389.","DOI":"10.1109\/WACVW58289.2023.00042"},{"key":"3868_CR31","doi-asserted-by":"crossref","unstructured":"Singh J, Mahapatra D, Bathula DR. Medical VQA: mixup helps keeping it simple. In: International conference on image and vision computing New Zealand. Berlin: Springer; 2022. p. 402\u2013414","DOI":"10.1007\/978-3-031-25825-1_29"},{"issue":"11","key":"3868_CR32","doi-asserted-by":"crossref","first-page":"3332","DOI":"10.1109\/TMI.2022.3185008","volume":"41","author":"H Gong","year":"2022","unstructured":"Gong H, Chen G, Mao M, Li Z, Li G. Vqamix: conditional triplet mixup for medical visual question answering. IEEE Trans Med Imaging. 2022;41(11):3332\u201343.","journal-title":"IEEE Trans Med. Imaging."},{"key":"3868_CR33","doi-asserted-by":"crossref","unstructured":"Yuan Z, Jin Q, Tan C, Zhao Z, Yuan H, Huang F, Huang S. RAMM: retrieval-augmented biomedical visual question answering with multi-modal pre-training. In: Proceedings of the 31st ACM international conference on multimedia; 2023. p. 547\u2013556.","DOI":"10.1145\/3581783.3611830"},{"issue":"12","key":"3868_CR34","doi-asserted-by":"crossref","first-page":"13696","DOI":"10.1007\/s11227-023-05195-2","volume":"79","author":"L Cai","year":"2023","unstructured":"Cai L, Fang H, Li Z. Pre-trained multilevel fuse network based on vision-conditioned reasoning and bilinear attentions for medical image visual question answering. J Supercomput. 2023;79(12):13696\u2013723.","journal-title":"J Supercomput."},{"key":"3868_CR35","doi-asserted-by":"crossref","unstructured":"Huang X, Gong H. A dual-attention learning network with word and sentence embedding for medical visual question answering. IEEE Trans. Med. Imaging. 2023.","DOI":"10.1109\/TMI.2023.3322868"},{"key":"3868_CR36","doi-asserted-by":"crossref","unstructured":"Asri HS, Safabakhsh R. Advanced visual and textual co-context aware attention network with dependent multimodal fusion block for visual question answering. Multimed Tools Appl. 2024;1\u201328.","DOI":"10.1007\/s11042-024-18871-z"},{"key":"3868_CR37","doi-asserted-by":"crossref","unstructured":"Liu B, Zhan L-M, Wu X-M. Contrastive pre-training and representation distillation for medical visual question answering based on radiology images. In: Medical image computing and computer assisted intervention\u2014MICCAI 2021: 24th International Conference, Strasbourg, France, September 27\u2013October 1, 2021, Proceedings, Part II 24. Springer; 2021. p. 210\u2013220.","DOI":"10.1007\/978-3-030-87196-3_20"},{"key":"3868_CR38","doi-asserted-by":"crossref","unstructured":"Ben-Younes H, Cadene R, Cord M, Thome N. MUTAN: Multimodal tucker fusion for visual question answering. In: Proceedings of the IEEE international conference on computer vision; 2017. p. 2612\u20132620.","DOI":"10.1109\/ICCV.2017.285"},{"key":"3868_CR39","doi-asserted-by":"crossref","unstructured":"Long S, Yang Z, Li Y, Qian X, Zeng K, Hao T. MAMF: a multi-level attention-based multimodal fusion model for medical visual question answering. In: International conference on neural computing for advanced applications. Berlin: Springer; 2023. p. 202\u2013214.","DOI":"10.1007\/978-981-99-5847-4_15"},{"key":"3868_CR40","doi-asserted-by":"crossref","first-page":"109763","DOI":"10.1016\/j.knosys.2022.109763","volume":"255","author":"H Pan","year":"2022","unstructured":"Pan H, He S, Zhang K, Qu B, Chen C, Shi K. AMAM: an attention-based multimodal alignment model for medical visual question answering. Knowl-Based Syst. 2022;255:109763.","journal-title":"Knowl-Based Syst."},{"issue":"9","key":"3868_CR41","doi-asserted-by":"crossref","first-page":"2856","DOI":"10.1109\/TMI.2020.2978284","volume":"39","author":"MH Vu","year":"2020","unstructured":"Vu MH, L\u00f6fstedt T, Nyholm T, Sznitman R. A question-centric model for visual question answering in medical imaging. IEEE Trans Med Imaging. 2020;39(9):2856\u201368.","journal-title":"IEEE Trans Med Imaging."},{"key":"3868_CR42","doi-asserted-by":"crossref","first-page":"103018","DOI":"10.1016\/j.media.2023.103018","volume":"91","author":"Z Chen","year":"2024","unstructured":"Chen Z, Du Y, Hu J, Liu Y, Li G, Wan X, Chang T-H. Mapping medical image-text to a joint space via masked modeling. Med Image Anal. 2024;91:103018.","journal-title":"Med Image Anal."},{"key":"3868_CR43","doi-asserted-by":"crossref","unstructured":"Joshi V, Mitra P, Bose S. Multi-modal multi-head self-attention for medical VQA. Multimed Tools Appl. 2023;1\u201324.","DOI":"10.1007\/s11042-023-17162-3"},{"key":"3868_CR44","doi-asserted-by":"crossref","unstructured":"Sun M, Xu Q, Wang E, Wang W, Tan L, Zhao XY. MMCN: multi-modal co-attention network for medical visual question answering. In: Proceedings of the 2022 3rd international conference on control, robotics and intelligent system; 2022. p. 1\u20136.","DOI":"10.1145\/3562007.3562008"},{"key":"3868_CR45","doi-asserted-by":"crossref","unstructured":"Sharma H, Srivastava S. Integrating multimodal features by a two-way co-attention mechanism for visual question answering. Multimed Tools Appl. 2023;1\u201319.","DOI":"10.1007\/s11042-023-17945-8"},{"issue":"4","key":"3868_CR46","doi-asserted-by":"crossref","first-page":"1234","DOI":"10.1093\/bioinformatics\/btz682","volume":"36","author":"J Lee","year":"2020","unstructured":"Lee J, Yoon W, Kim S, Kim D, Kim S, So CH, Kang J. BioBERT: a pre-trained biomedical language representation model for biomedical text mining. Bioinformatics (Oxf, Engl). 2020;36(4):1234\u201340.","journal-title":"Bioinformatics (Oxf, Engl)."},{"key":"3868_CR47","doi-asserted-by":"crossref","unstructured":"Lewis P, Ott M, Du J, Stoyanov V. Pretrained language models for biomedical and clinical tasks: understanding and extending the state-of-the-art. In: Proceedings of the 3rd clinical natural language processing workshop; 2020. p. 146\u2013157.","DOI":"10.18653\/v1\/2020.clinicalnlp-1.17"},{"key":"3868_CR48","doi-asserted-by":"crossref","unstructured":"Nguyen BD, Do T-T, Nguyen BX, Do T, Tjiputra E, Tran QD. Overcoming data limitation in medical visual question answering. In: Medical image computing and computer assisted intervention\u2014MICCAI 2019: 22nd international conference, Shenzhen, China, October 13\u201317, 2019, Proceedings, Part IV 22. Berlin: Springer; 2019. p. 522\u2013530.","DOI":"10.1007\/978-3-030-32251-9_57"},{"key":"3868_CR49","doi-asserted-by":"crossref","unstructured":"Zhan L-M, Liu B, Fan L, Chen J, Wu X-M. Medical visual question answering via conditional reasoning. In: Proceedings of the 28th ACM international conference on multimedia; 2020. p. 2345\u20132354.","DOI":"10.1145\/3394171.3413761"}],"container-title":["SN Computer Science"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s42979-025-03868-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s42979-025-03868-8\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s42979-025-03868-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,4,9]],"date-time":"2025-04-09T17:03:17Z","timestamp":1744218197000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s42979-025-03868-8"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,4,4]]},"references-count":49,"journal-issue":{"issue":"4","published-online":{"date-parts":[[2025,4]]}},"alternative-id":["3868"],"URL":"https:\/\/doi.org\/10.1007\/s42979-025-03868-8","relation":{},"ISSN":["2661-8907"],"issn-type":[{"value":"2661-8907","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,4,4]]},"assertion":[{"value":"3 April 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"7 March 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"4 April 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors have no financial or non-financial conflict of interest to disclose.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}},{"value":"Not applicable.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Research Involving Human and\/or Animals"}},{"value":"Not applicable.","order":4,"name":"Ethics","group":{"name":"EthicsHeading","label":"Informed Consent"}}],"article-number":"349"}}