{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,31]],"date-time":"2026-03-31T06:13:51Z","timestamp":1774937631160,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":34,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,8,24]],"date-time":"2024-08-24T00:00:00Z","timestamp":1724457600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,8,25]]},"DOI":"10.1145\/3637528.3671644","type":"proceedings-article","created":{"date-parts":[[2024,8,25]],"date-time":"2024-08-25T04:55:12Z","timestamp":1724561712000},"page":"5218-5229","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":7,"title":["RJUA-MedDQA: A Multimodal Benchmark for Medical Document Question Answering and Clinical Reasoning"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0008-1180-5513","authenticated-orcid":false,"given":"Congyun","family":"Jin","sequence":"first","affiliation":[{"name":"Ant Group, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1160-2635","authenticated-orcid":false,"given":"Ming","family":"Zhang","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University School of Medicine Affiliated Renji Hospital, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0105-732X","authenticated-orcid":false,"given":"Weixiao","family":"Ma","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University School of Medicine Affiliated Renji Hospital, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-0559-5305","authenticated-orcid":false,"given":"Yujiao","family":"Li","sequence":"additional","affiliation":[{"name":"Ant Group, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-4300-8315","authenticated-orcid":false,"given":"Yingbo","family":"Wang","sequence":"additional","affiliation":[{"name":"Ant Group, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-2901-1278","authenticated-orcid":false,"given":"Yabo","family":"Jia","sequence":"additional","affiliation":[{"name":"Ant Group, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-7631-8920","authenticated-orcid":false,"given":"Yuliang","family":"Du","sequence":"additional","affiliation":[{"name":"Ant Group, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6357-6726","authenticated-orcid":false,"given":"Tao","family":"Sun","sequence":"additional","affiliation":[{"name":"Ant Group, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4323-7166","authenticated-orcid":false,"given":"Haowen","family":"Wang","sequence":"additional","affiliation":[{"name":"Ant Group, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-0802-3932","authenticated-orcid":false,"given":"Cong","family":"Fan","sequence":"additional","affiliation":[{"name":"Ant Group, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7596-4945","authenticated-orcid":false,"given":"Jinjie","family":"Gu","sequence":"additional","affiliation":[{"name":"Ant Group, Hangzhou, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4075-6147","authenticated-orcid":false,"given":"Chenfei","family":"Chi","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University School of Medicine Affiliated Renji Hospital, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-5946-0351","authenticated-orcid":false,"given":"Xiangguo","family":"Lv","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University School of Medicine Affiliated Renji Hospital, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4999-4662","authenticated-orcid":false,"given":"Fangzhou","family":"Li","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University School of Medicine Affiliated Renji Hospital, Qingdao, Shandong, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0124-9433","authenticated-orcid":false,"given":"Wei","family":"Xue","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University School of Medicine Affiliated Renji Hospital, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-4379-3002","authenticated-orcid":false,"given":"Yiran","family":"Huang","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University School of Medicine Affiliated Renji Hospital, Shanghai, Shanghai, China"}]}],"member":"320","published-online":{"date-parts":[[2024,8,24]]},"reference":[{"key":"e_1_3_2_2_2_1","unstructured":"Jinze Bai Shuai Bai Shusheng Yang Shijie Wang Sinan Tan Peng Wang Junyang Lin Chang Zhou and Jingren Zhou. 2023. Qwen-VL: A Versatile Vision-Language Model for Understanding Localization Text Reading and Beyond. arxiv: 2308.12966 [cs.CV]"},{"key":"e_1_3_2_2_3_1","volume-title":"CLEF 2020 Working Notes (CEUR Workshop Proceedings). CEUR-WS.org $$http:\/\/ceur-ws.org$$","author":"Abacha Asma Ben","year":"2020","unstructured":"Asma Ben Abacha, Vivek V. Datla, Sadid A. Hasan, Dina Demner-Fushman, and Henning M\u00fcller. 2020. Overview of the VQA-Med Task at ImageCLEF 2020: Visual Question Answering and Generation in the Medical Domain. In CLEF 2020 Working Notes (CEUR Workshop Proceedings). CEUR-WS.org $$http:\/\/ceur-ws.org$$, Thessaloniki, Greece."},{"key":"e_1_3_2_2_4_1","volume-title":"Working Notes of CLEF 2019 (CEUR Workshop Proceedings","volume":"272","author":"Abacha Asma Ben","year":"2019","unstructured":"Asma Ben Abacha, Sadid A. Hasan, Vivek V. Datla, Joey Liu, Dina Demner-Fushman, and Henning Muller. 2019. VQA-Med: Overview of the Medical Visual Question Answering Task at ImageCLEF 2019. In Working Notes of CLEF 2019 (CEUR Workshop Proceedings, Vol. 2380). CEUR-WS.org, Lugano, Switzerland. https:\/\/ceur-ws.org\/Vol-2380\/paper_272.pdf"},{"key":"e_1_3_2_2_5_1","volume-title":"CLEF 2021 Working Notes (CEUR Workshop Proceedings). CEUR-WS.org","author":"Abacha Asma Ben","year":"2021","unstructured":"Asma Ben Abacha, Mourad Sarrouti, Dina Demner-Fushman, Sadid A. Hasan, and Henning M\u00fcller. 2021. Overview of the VQA-Med Task at ImageCLEF 2021: Visual Question Answering and Generation in the Medical Domain. In CLEF 2021 Working Notes (CEUR Workshop Proceedings). CEUR-WS.org, Bucharest, Romania."},{"key":"e_1_3_2_2_6_1","volume-title":"ICDAR 2019 Competition on Scene Text Visual Question Answering. arxiv","author":"Biten Ali Furkan","year":"2019","unstructured":"Ali Furkan Biten, Rub\u00e8n Tito, Andres Mafla, Lluis Gomez, Mar\u00e7al Rusi\u00f1ol, Minesh Mathew, C. V. Jawahar, Ernest Valveny, and Dimosthenis Karatzas. 2019. ICDAR 2019 Competition on Scene Text Visual Question Answering. arxiv: 1907.00490 [cs.CV]"},{"key":"e_1_3_2_2_7_1","volume-title":"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arxiv","author":"Devlin Jacob","year":"2019","unstructured":"Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arxiv: 1810.04805 [cs.CL]"},{"key":"e_1_3_2_2_8_1","volume-title":"PDFVQA: A New Dataset for Real-World VQA on PDF Documents. arxiv: 2304.06447 [cs.CV]","author":"Ding Yihao","year":"2023","unstructured":"Yihao Ding, Siwen Luo, Hyunsuk Chung, and Soyeon Caren Han. 2023. PDFVQA: A New Dataset for Real-World VQA on PDF Documents. arxiv: 2304.06447 [cs.CV]"},{"key":"e_1_3_2_2_9_1","volume-title":"Overview of ImageCLEF 2018 Medical Domain Visual Question Answering Task. In Conference and Labs of the Evaluation Forum. https:\/\/api.semanticscholar.org\/CorpusID:51943124","author":"Hasan Sadid A.","unstructured":"Sadid A. Hasan, Yuan Ling, Oladimeji Farri, Joey Liu, Henning M\u00fcller, and Matthew P. Lungren. 2018. Overview of ImageCLEF 2018 Medical Domain Visual Question Answering Task. In Conference and Labs of the Evaluation Forum. https:\/\/api.semanticscholar.org\/CorpusID:51943124"},{"key":"e_1_3_2_2_10_1","doi-asserted-by":"crossref","unstructured":"Kai He Rui Mao Qika Lin Yucheng Ruan Xiang Lan Mengling Feng and Erik Cambria. 2023. A Survey of Large Language Models for Healthcare: from Data Technology and Applications to Accountability and Ethics. arxiv: 2310.05694 [cs.CL]","DOI":"10.2139\/ssrn.4809363"},{"key":"e_1_3_2_2_11_1","volume-title":"PathVQA: 30000 Questions for Medical Visual Question Answering. arxiv","author":"He Xuehai","year":"2003","unstructured":"Xuehai He, Yichen Zhang, Luntian Mou, Eric Xing, and Pengtao Xie. 2020. PathVQA: 30000 Questions for Medical Visual Question Answering. arxiv: 2003.10286 [cs.CL]"},{"key":"e_1_3_2_2_12_1","unstructured":"Xu Zhang Jian Huang. 2022. Chinese Urological and Andrological Diseases Diagnosis and Treatment Guidelines: 2022 Edition."},{"key":"e_1_3_2_2_13_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1"},{"key":"e_1_3_2_2_14_1","doi-asserted-by":"publisher","DOI":"10.1038\/sdata.2018.251"},{"key":"e_1_3_2_2_15_1","volume-title":"ROUGE: A Package for Automatic Evaluation of Summaries. In Text Summarization Branches Out","author":"Lin Chin-Yew","year":"2004","unstructured":"Chin-Yew Lin. 2004. ROUGE: A Package for Automatic Evaluation of Summaries. In Text Summarization Branches Out. Association for Computational Linguistics, Barcelona, Spain, 74--81. https:\/\/aclanthology.org\/W04--1013"},{"key":"e_1_3_2_2_16_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.artmed.2023.102611"},{"key":"e_1_3_2_2_17_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.artmed.2023.102611"},{"key":"e_1_3_2_2_18_1","volume-title":"SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering. arxiv: 2102.09542 [cs.CV]","author":"Liu Bo","year":"2021","unstructured":"Bo Liu, Li-Ming Zhan, Li Xu, Lin Ma, Yan Yang, and Xiao-Ming Wu. 2021. SLAKE: A Semantically-Labeled Knowledge-Enhanced Dataset for Medical Visual Question Answering. arxiv: 2102.09542 [cs.CV]"},{"key":"e_1_3_2_2_19_1","unstructured":"Haotian Liu Chunyuan Li Yuheng Li and Yong Jae Lee. 2023. Improved Baselines with Visual Instruction Tuning. arxiv: 2310.03744 [cs.CV]"},{"key":"e_1_3_2_2_20_1","doi-asserted-by":"crossref","unstructured":"Wenge Liu Yi Cheng Hao Wang Jianheng Tang Yafei Liu Ruihui Zhao Wenjie Li Yefeng Zheng and Xiaodan Liang. 2022. \"My nose is running.\"\"Are you also coughing?\": Building A Medical Diagnosis Agent with Interpretable Inquiry Logics. arxiv: 2204.13953 [cs.CL]","DOI":"10.24963\/ijcai.2022\/592"},{"key":"e_1_3_2_2_21_1","unstructured":"Pan Lu Swaroop Mishra Tony Xia Liang Qiu Kai-Wei Chang Song-Chun Zhu Oyvind Tafjord Peter Clark and Ashwin Kalyan. 2022. Learn to Explain: Multimodal Reasoning via Thought Chains for Science Question Answering. arxiv: 2209.09513 [cs.CL]"},{"key":"e_1_3_2_2_22_1","volume-title":"Dimosthenis Karatzas, Ernest Valveny, and C. V Jawahar.","author":"Mathew Minesh","year":"2021","unstructured":"Minesh Mathew, Viraj Bagal, Rub\u00e8n P\u00e9rez Tito, Dimosthenis Karatzas, Ernest Valveny, and C. V Jawahar. 2021. InfographicVQA. arxiv: 2104.12756 [cs.CV]"},{"key":"e_1_3_2_2_23_1","doi-asserted-by":"crossref","unstructured":"Minesh Mathew Dimosthenis Karatzas and C. V. Jawahar. 2021. DocVQA: A Dataset for VQA on Document Images. arxiv: 2007.00398 [cs.CV]","DOI":"10.1109\/WACV48630.2021.00225"},{"key":"e_1_3_2_2_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/jbhi.2022.3207502"},{"key":"e_1_3_2_2_25_1","doi-asserted-by":"crossref","unstructured":"Nandita Naik Christopher Potts and Elisa Kreiss. 2023. Context-VQA: Towards Context-Aware and Purposeful Visual Question Answering. arxiv: 2307.15745 [cs.CL]","DOI":"10.1109\/ICCVW60793.2023.00301"},{"key":"e_1_3_2_2_27_1","doi-asserted-by":"publisher","DOI":"10.1145\/3534678.3539043"},{"key":"e_1_3_2_2_28_1","doi-asserted-by":"crossref","unstructured":"Dustin Schwenk Apoorv Khandelwal Christopher Clark Kenneth Marino and Roozbeh Mottaghi. 2022. A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge. arxiv: 2206.01718 [cs.CV]","DOI":"10.1007\/978-3-031-20074-8_9"},{"key":"e_1_3_2_2_29_1","unstructured":"Alon Talmor Ori Yoran Amnon Catav Dan Lahav Yizhong Wang Akari Asai Gabriel Ilharco Hannaneh Hajishirzi and Jonathan Berant. 2021. MultiModalQA: Complex Question Answering over Text Tables and Images. arxiv: 2104.06039 [cs.CL]"},{"key":"e_1_3_2_2_30_1","doi-asserted-by":"crossref","unstructured":"Ryota Tanaka Kyosuke Nishida Kosuke Nishida Taku Hasegawa Itsumi Saito and Kuniko Saito. 2023. SlideVQA: A Dataset for Document Visual Question Answering on Multiple Images. arxiv: 2301.04883 [cs.CL]","DOI":"10.1609\/aaai.v37i11.26598"},{"key":"e_1_3_2_2_31_1","unstructured":"Ryota Tanaka Kyosuke Nishida and Sen Yoshida. 2021. VisualMRC: Machine Reading Comprehension on Document Images. arxiv: 2101.11272 [cs.CL]"},{"key":"e_1_3_2_2_32_1","volume-title":"Apollo: An Lightweight Multilingual Medical LLM towards Democratizing Medical AI to 6B People. arxiv: 2403.03640 [cs.CL]","author":"Wang Xidong","year":"2024","unstructured":"Xidong Wang, Nuo Chen, Junyin Chen, Yan Hu, Yidong Wang, Xiangbo Wu, Anningzhe Gao, Xiang Wan, Haizhou Li, and Benyou Wang. 2024. Apollo: An Lightweight Multilingual Medical LLM towards Democratizing Medical AI to 6B People. arxiv: 2403.03640 [cs.CL]"},{"key":"e_1_3_2_2_33_1","volume-title":"Lu Fan, and Xiao-Ming Wu.","author":"Xu Li","year":"2023","unstructured":"Li Xu, Bo Liu, Ameer Hamza Khan, Lu Fan, and Xiao-Ming Wu. 2023. Multi-modal Pre-training for Medical Vision-language Understanding and Generation: An Empirical Study with A New Benchmark. arxiv: 2306.06494 [cs.CV]"},{"key":"e_1_3_2_2_34_1","unstructured":"Zhengyuan Yang Linjie Li Kevin Lin Jianfeng Wang Chung-Ching Lin Zicheng Liu and Lijuan Wang. 2023. The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision). arxiv: 2309.17421 [cs.CV]"},{"key":"e_1_3_2_2_35_1","unstructured":"Qinghao Ye Haiyang Xu Jiabo Ye Ming Yan Anwen Hu Haowei Liu Qi Qian Ji Zhang Fei Huang and Jingren Zhou. 2023. mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration. arxiv: 2311.04257 [cs.CL]"},{"key":"e_1_3_2_2_36_1","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548422"}],"event":{"name":"KDD '24: The 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining","location":"Barcelona Spain","acronym":"KDD '24","sponsor":["SIGMOD ACM Special Interest Group on Management of Data","SIGKDD ACM Special Interest Group on Knowledge Discovery in Data"]},"container-title":["Proceedings of the 30th ACM SIGKDD Conference on Knowledge Discovery and Data Mining"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3637528.3671644","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3637528.3671644","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T00:06:00Z","timestamp":1750291560000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3637528.3671644"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,8,24]]},"references-count":34,"alternative-id":["10.1145\/3637528.3671644","10.1145\/3637528"],"URL":"https:\/\/doi.org\/10.1145\/3637528.3671644","relation":{},"subject":[],"published":{"date-parts":[[2024,8,24]]},"assertion":[{"value":"2024-08-24","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}