{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,11]],"date-time":"2025-09-11T19:30:57Z","timestamp":1757619057254,"version":"3.44.0"},"publisher-location":"Singapore","reference-count":31,"publisher":"Springer Nature Singapore","isbn-type":[{"type":"print","value":"9789819698172"},{"type":"electronic","value":"9789819698189"}],"license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-981-96-9818-9_4","type":"book-chapter","created":{"date-parts":[[2025,7,19]],"date-time":"2025-07-19T12:24:20Z","timestamp":1752927860000},"page":"40-51","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["MedFLM: Medical Visual Question Answering Based on Fine-Tuned Large Language Model"],"prefix":"10.1007","author":[{"given":"Yuheng","family":"Peng","sequence":"first","affiliation":[]},{"given":"Aiguo","family":"Chen","sequence":"additional","affiliation":[]},{"given":"Chengcheng","family":"Sun","sequence":"additional","affiliation":[]},{"given":"Jie","family":"Zhong","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,7,20]]},"reference":[{"issue":"8","key":"4_CR1","doi-asserted-by":"publisher","first-page":"1229","DOI":"10.1038\/s41591-020-0942-0","volume":"26","author":"P Tschandl","year":"2020","unstructured":"Tschandl, P., et al.: Human\u2013computer collaboration for skin cancer recognition. Nat. Med. 26(8), 1229\u20131234 (2020)","journal-title":"Nat. Med."},{"key":"4_CR2","doi-asserted-by":"crossref","unstructured":"Lau, Jason J., et al.: A dataset of clinically generated visual questions and answers about radiology images. Sci. data 5(1), 1\u201310 (2018)","DOI":"10.1038\/sdata.2018.251"},{"key":"4_CR3","doi-asserted-by":"crossref","unstructured":"Liu, B., et al.: SLAKE: a semantically-labeled knowledge-enhanced dataset for medical visual question answering. In: 2021 IEEE 18th International Symposium on Biomedical Imaging (ISBI), pp. 1650\u20131654 (2021)","DOI":"10.1109\/ISBI48211.2021.9434010"},{"key":"4_CR4","doi-asserted-by":"crossref","unstructured":"Do, T., et al.: Multiple meta-model quantifying for medical visual question answering. In: Medical Image Computing and Computer Assisted Intervention (MICCAI 2021), pp. 64\u201374 (2021)","DOI":"10.1007\/978-3-030-87240-3_7"},{"key":"4_CR5","unstructured":"Zhang, X., et al.: PMC-VQA: visual instruction tuning for medical visual question answering. arXiv preprint arXiv:2305.10415 (2023)"},{"key":"4_CR6","doi-asserted-by":"crossref","unstructured":"Lin, W., et al.: PMC-CLIP: contrastive language-image pre-training using biomedical documents. In: International Conference on Medical Image Computing and Computer-Assisted Intervention, pp. 525\u2013536 (2023)","DOI":"10.1007\/978-3-031-43993-3_51"},{"key":"4_CR7","unstructured":"Dai, W., et al.: InstructBLIP: towards general-purpose vision-language models with instruction tuning. arXiv preprint arXiv:2305.06500 (2023)"},{"key":"4_CR8","first-page":"28541","volume":"36","author":"C Li","year":"2024","unstructured":"Li, C., et al.: LLaVA-Med: training a large language-and-vision assistant for biomedicine in one day. Adv. Neural. Inf. Process. Syst. 36, 28541\u201328564 (2024)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"4_CR9","unstructured":"Li, J., et al.: BLIP-2: bootstrapping language-image pre-training with frozen image encoders and large language models. In: International Conference on Machine Learning, pp. 19730\u201319742 (2023)"},{"key":"4_CR10","first-page":"1877","volume":"33","author":"T Brown","year":"2020","unstructured":"Brown, T., et al.: Language models are few-shot learners. Adv. Neural. Inf. Process. Syst. 33, 1877\u20131901 (2020)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"4_CR11","unstructured":"Touvron, H. et al.: Llama: open and efficient foundation language models. arXiv preprint arXiv:2302.13971 (2023)"},{"key":"4_CR12","unstructured":"Bubeck, S. et al.: Sparks of artificial general intelligence: early experiments with gpt-4. arXiv preprint arXiv:2303.12712 (2023)"},{"key":"4_CR13","unstructured":"Nori, H. et al.: Capabilities of gpt-4 on medical challenge problems. arXiv preprint arXiv:2303.13375 (2023)"},{"key":"4_CR14","doi-asserted-by":"crossref","unstructured":"Yang, Y. et al.: Language in a bottle: language model guided concept bottlenecks for interpretable image classification. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 19187\u201319197 (2023)","DOI":"10.1109\/CVPR52729.2023.01839"},{"key":"4_CR15","doi-asserted-by":"crossref","unstructured":"Song, S., et al.: MF2-MVQA: A multi-stage feature fusion method for medical visual question answering. arXiv preprint arXiv:2211.05991 (2022)","DOI":"10.1109\/ISBI53787.2023.10230530"},{"key":"4_CR16","doi-asserted-by":"crossref","unstructured":"Li, P., et al.: Self-supervised vision-language pretraining for medical visual question answering. In: 2023 IEEE 20th International Symposium on Biomedical Imaging (ISBI), pp. 1\u20135 (2023)","DOI":"10.1109\/ISBI53787.2023.10230743"},{"key":"4_CR17","doi-asserted-by":"crossref","unstructured":"Yuan, Z., et al.: RAMM: retrieval-augmented biomedical visual question answering with multi-modal pre-training. arXiv preprint arXiv:2303.00534 (2023)","DOI":"10.1145\/3581783.3611830"},{"key":"4_CR18","doi-asserted-by":"crossref","unstructured":"Van Sonsbeek, T., et al.: Open-ended medical visual question answering through prefix tuning of language models. In: MICCAI 2023, pp. 726\u2013736, Springer (2023)","DOI":"10.1007\/978-3-031-43904-9_70"},{"issue":"8","key":"4_CR19","first-page":"9","volume":"1","author":"A Radford","year":"2019","unstructured":"Radford, A., et al.: Language models are unsupervised multitask learners. OpenAI Blog 1(8), 9 (2019)","journal-title":"OpenAI Blog"},{"key":"4_CR20","unstructured":"Moor, M., et al.: Med-Flamingo: a multimodal medical few-shot learner. arXiv preprint arXiv:2307.15189 (2023)"},{"key":"4_CR21","first-page":"23716","volume":"35","author":"J Alayrac","year":"2022","unstructured":"Alayrac, J., et al.: Flamingo: a visual language model for few-shot learning. Adv. Neural. Inf. Process. Syst. 35, 23716\u201323736 (2022)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"4_CR22","unstructured":"Chiang, W. et al.: Vicuna: an open-source chatbot impressing gpt-4 with 90%* chatgpt quality. https:\/\/vicuna.lmsys.org Accessed 14 Apr 2023"},{"key":"4_CR23","doi-asserted-by":"crossref","unstructured":"He, K., et al.: Deep residual learning for image recognition. In: IEEE conference on computer vision and pattern recognition, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"4_CR24","unstructured":"Ba, J. et al.: Layer normalization. arXiv preprint arXiv:1607.06450 (2016)"},{"key":"4_CR25","unstructured":"He, X. et al.: Pathvqa: 30000+ questions for medical visual question answering. arXiv preprint arXiv:2003.10286 (2020)"},{"key":"4_CR26","unstructured":"Dosovitskiy, A., et al.: An image is worth 16x16 words: transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020)"},{"key":"4_CR27","doi-asserted-by":"crossref","unstructured":"Nguyen, B.D., et al.: Overcoming data limitation in medical visual question answering. In: Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2019: 22nd International Conference, pp. 522\u2013530 (2019)","DOI":"10.1007\/978-3-030-32251-9_57"},{"key":"4_CR28","doi-asserted-by":"crossref","unstructured":"Cong, F., et al.: Caption-aware medical VQA via semantic focusing and progressive cross-modality comprehension. In: Proceedings of the 30th ACM International Conference on Multimedia, pp. 3569\u20133577 (2022)","DOI":"10.1145\/3503161.3548122"},{"issue":"4","key":"4_CR29","doi-asserted-by":"publisher","first-page":"2816","DOI":"10.1109\/TETCI.2023.3311333","volume":"8","author":"J Liu","year":"2023","unstructured":"Liu, J., et al.: Parameter-efficient transfer learning for medical visual question answering. IEEE Trans. Emerging Top. Comput. Intell. 8(4), 2816\u20132826 (2023)","journal-title":"IEEE Trans. Emerging Top. Comput. Intell."},{"key":"4_CR30","doi-asserted-by":"crossref","unstructured":"Wang, C., et al. Multicenter knowledge transfer calibration with rapid 0th-Order TSK fuzzy system for small sample epileptic EEG signals. IEEE Trans. Fuzzy Syst. (2024)","DOI":"10.1109\/TFUZZ.2024.3443878"},{"key":"4_CR31","doi-asserted-by":"crossref","unstructured":"Wang, C., et al. Consistency and complementarity jointly regularized subspace support vector data description for multimodal data. Int. J. Intell. Syst. 2024(1), 1989706 (2024)","DOI":"10.1155\/2024\/1989706"}],"container-title":["Lecture Notes in Computer Science","Advanced Intelligent Computing Technology and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-96-9818-9_4","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,7]],"date-time":"2025-09-07T14:53:22Z","timestamp":1757256802000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-96-9818-9_4"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"ISBN":["9789819698172","9789819698189"],"references-count":31,"URL":"https:\/\/doi.org\/10.1007\/978-981-96-9818-9_4","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2025]]},"assertion":[{"value":"20 July 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICIC","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Intelligent Computing","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Ningbo","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"26 July 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 July 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"21","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"icic2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/www.ic-icc.cn\/icg\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}