{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,9]],"date-time":"2025-12-09T18:41:08Z","timestamp":1765305668176,"version":"3.46.0"},"reference-count":90,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"2","license":[{"start":{"date-parts":[[2025,2,1]],"date-time":"2025-02-01T00:00:00Z","timestamp":1738368000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,2,1]],"date-time":"2025-02-01T00:00:00Z","timestamp":1738368000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,2,1]],"date-time":"2025-02-01T00:00:00Z","timestamp":1738368000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"Zhejiang Provincial Natural Science Foundation of China","award":["LY23F020005"],"award-info":[{"award-number":["LY23F020005"]}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62002314"],"award-info":[{"award-number":["62002314"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE J. Biomed. Health Inform."],"published-print":{"date-parts":[[2025,2]]},"DOI":"10.1109\/jbhi.2024.3492141","type":"journal-article","created":{"date-parts":[[2024,11,6]],"date-time":"2024-11-06T13:42:09Z","timestamp":1730900529000},"page":"1357-1370","source":"Crossref","is-referenced-by-count":1,"title":["Consistency Conditioned Memory Augmented Dynamic Diagnosis Model for Medical Visual Question Answering"],"prefix":"10.1109","volume":"29","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-4348-2671","authenticated-orcid":false,"given":"Ting","family":"Yu","sequence":"first","affiliation":[{"name":"School of Information Science and Technology, Hangzhou Normal University, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-7331-3619","authenticated-orcid":false,"given":"Binhui","family":"Ge","sequence":"additional","affiliation":[{"name":"School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5931-0527","authenticated-orcid":false,"given":"Shuhui","family":"Wang","sequence":"additional","affiliation":[{"name":"Key Laboratory of Intelligent Information Processing, Institute of Computing Technology, Chinese Academy of Sciences, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5598-1692","authenticated-orcid":false,"given":"Yan","family":"Yang","sequence":"additional","affiliation":[{"name":"Key Laboratory of Complex Systems Modeling and Simulation, School of Computer Science and Technology, Hangzhou Dianzi University, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7542-296X","authenticated-orcid":false,"given":"Qingming","family":"Huang","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, University of Chinese Academy of Sciences, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1922-7283","authenticated-orcid":false,"given":"Jun","family":"Yu","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Technology, Harbin Institute of Technology, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02207"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/JBHI.2018.2872581"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00635"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00271"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3296889"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02208"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02247"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01819"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01045"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02217"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01837"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01831"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00650"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02318"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01123"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2024.3390984"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/JBHI.2022.3153671"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/JBHI.2022.3148820"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/JBHI.2021.3089287"},{"key":"ref20","first-page":"1","article-title":"Deep multimodal learning for medical visual question answering","volume-title":"Proc. CLEF 2021 Conf. Labs Eval. Forum-Work. Notes","author":"Shi","year":"2019"},{"key":"ref21","first-page":"1","article-title":"Employing inception-resnet-V2 and Bi-LSTM for medical domain visual question answering","volume-title":"Proc. CLEF 2021 Conf. Labs Eval. Forum- Work. Notes","author":"Zhou","year":"2018"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-16452-1_37"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413761"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ISBI48211.2021.9434010"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.279"},{"article-title":"Simple baseline for visual question answering","year":"2015","author":"Zhou","key":"ref26"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.9"},{"key":"ref28","article-title":"Exploring models and data for image question answering","volume-title":"Proc. Int. Conf. Adv. Neural Inf. Process. Syst.","volume":"28","author":"Ren","year":"2015"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2023.109339"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2020.2995959"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2019.2940677"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.670"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"article-title":"Very deep convolutional networks for large-scale image recognition","year":"2014","author":"Simonyan","key":"ref34"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.499"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.540"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.10"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.12"},{"key":"ref39","first-page":"2397","article-title":"Dynamic memory networks for visual and textual question answering","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Xiong","year":"2016"},{"key":"ref40","first-page":"1571","article-title":"Bilinear attention networks","volume-title":"Proc. Int. Conf. Adv. Neural Inf. Process. Syst.","volume":"31","author":"Kim","year":"2018"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00636"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.344"},{"key":"ref43","first-page":"3070","article-title":"Multimodal graph networks for compositional generalization in visual question answering","volume-title":"Proc. Int. Conf. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Saqur","year":"2020"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2018\/126"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2020.3017530"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2022.3205212"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58577-8_8"},{"article-title":"ImageBERT: Cross-modal pre-training with large-scale weak-supervised image-text data","year":"2020","author":"Qi","key":"ref48"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i4.16431"},{"key":"ref50","first-page":"13","article-title":"ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks","volume-title":"Proc. Int. Conf. Adv. Neural Inf. Process. Syst.","volume":"32","author":"Lu","year":"2019"},{"key":"ref51","first-page":"6616","article-title":"Large-scale adversarial training for vision-and-language representation learning","volume-title":"Proc. Int. Conf. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Gan","year":"2020"},{"key":"ref52","first-page":"12888","article-title":"Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Li","year":"2022"},{"key":"ref53","first-page":"9694","article-title":"Align before fuse: Vision and language representation learning with momentum distillation","volume-title":"Proc. Int. Conf. Adv. Neural Inf. Process. Syst.","volume":"34","author":"Li","year":"2021"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00644"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58577-8_7"},{"key":"ref56","doi-asserted-by":"crossref","DOI":"10.18653\/v1\/D19-1514","article-title":"LXMERT: Learning cross-modality encoder representations from transformers","volume-title":"Proc. Conf. Empirical Methods Natural Lang. Process.","author":"Tan","year":"2019"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-98932-7_28"},{"issue":"6","key":"ref58","first-page":"1","article-title":"VQA-MED: Overview of the medical visual question answering task at imageclef 2019","volume-title":"Proc. CLEF 2021 Conf. Labs Eval. Forum- Work. Notes","volume":"2","author":"Abacha","year":"2019"},{"key":"ref59","first-page":"1","article-title":"Overview of the VQA-med task at imageclef 2021: Visual question answering and generation in the medical domain","volume-title":"Proc. CLEF 2021 Conf. Labs Eval. Forum- Work. Notes","author":"Abacha","year":"2021"},{"key":"ref60","first-page":"361","article-title":"Localized questions in medical visual question answering","volume-title":"Proc. Med. Image Comput. Comput. Assisted Intervention-MICCAI 2023: 26th Int. Conf.","author":"Tascon-Morales","year":"2023"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1038\/sdata.2018.251"},{"key":"ref62","first-page":"1","article-title":"NLM at imageCLEF 2018 visual question answering in the medical domain","volume-title":"Proc. CLEF 2021 Conf. Labs Eval. Forum- Work. Notes","author":"Abacha","year":"2018"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-32251-9_57"},{"key":"ref64","first-page":"1126","article-title":"Model-agnostic meta-learning for fast adaptation of deep networks","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Finn","year":"2017"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-21735-7_7"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/TMI.2023.3322868"},{"article-title":"PMC-VQA: Visual instruction tuning for medical visual question answering","year":"2023","author":"Zhang","key":"ref67"},{"key":"ref68","doi-asserted-by":"crossref","first-page":"2518","DOI":"10.18653\/v1\/2023.findings-acl.158","article-title":"Retrieving multimodal prompts for generative visual question answering","volume-title":"Findings Assoc. Comput. Linguistics: ACL 2023","author":"Ossowski","year":"2023"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1621"},{"key":"ref70","first-page":"5860","article-title":"Sunny and dark outside?! Improving answer consistency in VQA through entailed question generation","volume-title":"Proc. Conf. Empirical Methods Natural Lang. Process. 9th Int. Joint Conf. Natural Lang. Process.","author":"Ray","year":"2019"},{"key":"ref71","first-page":"2383","article-title":"SQuAD: 100,000+ questions for machine comprehension of text","volume-title":"Proc. Conf. Empirical Methods Natural Lang. Process.","author":"Rajpurkar","year":"2016"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01002"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01663"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00681"},{"article-title":"Learning from lexical perturbations for consistent visual question answering","year":"2020","author":"Whitehead","key":"ref75"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00504"},{"article-title":"Memory networks","year":"2014","author":"Weston","key":"ref77"},{"key":"ref78","first-page":"1378","article-title":"Ask me anything: Dynamic memory networks for natural language processing","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Kumar","year":"2016"},{"key":"ref79","first-page":"2440","article-title":"End-to-end memory networks","volume-title":"Proc. Int. Conf. Adv. Neural Inf. Process. Syst.","volume":"28","author":"Sukhbaatar","year":"2015"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00246"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02190"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02238"},{"volume-title":"Feedforward Neural Network Methodology","year":"1999","author":"Fine","key":"ref83"},{"key":"ref84","first-page":"3519","article-title":"Similarity of neural network representations revisited","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Kornblith","year":"2019"},{"article-title":"Similarity of neural network models: A survey of functional and representational measures","year":"2023","author":"Klabunde","key":"ref85"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.3390\/data3030025"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1016\/j.irbm.2013.01.010"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33018102"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-eacl.88"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1186\/s40537-019-0197-0"}],"container-title":["IEEE Journal of Biomedical and Health Informatics"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6221020\/10879093\/10746333.pdf?arnumber=10746333","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,9]],"date-time":"2025-12-09T18:34:10Z","timestamp":1765305250000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10746333\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,2]]},"references-count":90,"journal-issue":{"issue":"2"},"URL":"https:\/\/doi.org\/10.1109\/jbhi.2024.3492141","relation":{},"ISSN":["2168-2194","2168-2208"],"issn-type":[{"type":"print","value":"2168-2194"},{"type":"electronic","value":"2168-2208"}],"subject":[],"published":{"date-parts":[[2025,2]]}}}