{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,15]],"date-time":"2026-04-15T04:04:07Z","timestamp":1776225847409,"version":"3.50.1"},"publisher-location":"Cham","reference-count":26,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783032232403","type":"print"},{"value":"9783032232410","type":"electronic"}],"license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-23241-0_3","type":"book-chapter","created":{"date-parts":[[2026,4,15]],"date-time":"2026-04-15T03:15:20Z","timestamp":1776222920000},"page":"40-54","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Multimodal Intelligence for\u00a0Healthcare: Combining Text and\u00a0Medical Images Through Vision-Language Models"],"prefix":"10.1007","author":[{"given":"Charanpreet","family":"Kaur","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Nishtha","family":"Hooda","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2026,4,16]]},"reference":[{"key":"3_CR1","doi-asserted-by":"crossref","unstructured":"Johnson, A.E.W., et al.: MIMIC-CXR-JPG, a large publicly available database of labeled chest radiographs. arXiv preprint arXiv:1901.07042 (2019)","DOI":"10.1038\/s41597-019-0322-0"},{"key":"3_CR2","doi-asserted-by":"publisher","first-page":"60","DOI":"10.1016\/j.media.2017.07.005","volume":"42","author":"G Litjens","year":"2017","unstructured":"Litjens, G., et al.: A survey on deep learning in medical image analysis. Med. Image Anal. 42, 60\u201388 (2017)","journal-title":"Med. Image Anal."},{"key":"3_CR3","unstructured":"Ye, J., Tang, H.: Multimodal large language models for medicine: a comprehensive survey. arXiv preprint arXiv:2504.21051 (2025)"},{"key":"3_CR4","unstructured":"Li, Y., et al.: A systematic evaluation of GPT-4V\u2019s multimodal capability for medical image analysis. arXiv preprint arXiv:2310.20381 (2023)"},{"key":"3_CR5","doi-asserted-by":"crossref","unstructured":"Hou, B., et al.: Ratchet: medical transformer for chest x-ray diagnosis and reporting. In: International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham (2021)","DOI":"10.1007\/978-3-030-87234-2_28"},{"key":"3_CR6","doi-asserted-by":"publisher","first-page":"1339612","DOI":"10.3389\/fradi.2024.1339612","volume":"4","author":"N Aksoy","year":"2024","unstructured":"Aksoy, N., et al.: Beyond images: an integrative multi-modal approach to chest x ray report generation. Front. Radiol. 4, 1339612 (2024)","journal-title":"Front. Radiol."},{"key":"3_CR7","doi-asserted-by":"publisher","unstructured":"Ma, R., Cheng, Q., Yao, J., et al.: Multimodal machine learning enables AI chatbot to diagnose ophthalmic diseases and provide high-quality medical responses. Npj Digit. Med. 8, 64 (2025). https:\/\/doi.org\/10.1038\/s41746-025-01461-0","DOI":"10.1038\/s41746-025-01461-0"},{"key":"3_CR8","doi-asserted-by":"crossref","unstructured":"Shaaban, M.A., Khan, A., Yaqub, M.: MedPromptX: grounded multimodal prompting for chest X-ray diagnosis. arXiv preprint arXiv:2403.15585 (2024)","DOI":"10.1007\/978-3-031-84525-3_18"},{"key":"3_CR9","doi-asserted-by":"crossref","unstructured":"Lee, S., et al.: CXR-LLAVA: a multimodal large language model for interpreting chest X-ray images. Eur. Radiol. 1\u201313 (2025)","DOI":"10.1007\/s00330-024-11339-6"},{"key":"3_CR10","unstructured":"Riju, T.I., et al.: Eyes on the image: gaze supervised multimodal learning for chest X-ray diagnosis and report generation. arXiv preprint arXiv:2508.13068 (2025)"},{"key":"3_CR11","doi-asserted-by":"crossref","unstructured":"Lu, M.Y., et al.: A multimodal generative AI copilot for human pathology. Nature 634(8033), 466\u2013473 (2024)","DOI":"10.1038\/s41586-024-07618-3"},{"key":"3_CR12","doi-asserted-by":"crossref","unstructured":"Chen, Y., et al.: MIMO: a medical vision language model with visual referring multimodal input and pixel grounding multimodal output. In: Proceedings of the Computer Vision and Pattern Recognition Conference (2025)","DOI":"10.1109\/CVPR52734.2025.02303"},{"key":"3_CR13","unstructured":"Moor, M., et al.: Med-flamingo: a multimodal medical few-shot learner. Mach. Learn. Health (ML4H). PMLR (2023)"},{"key":"3_CR14","doi-asserted-by":"crossref","unstructured":"Huang, X., et al.: Towards a multimodal large language model with pixel-level insight for biomedicine. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 39, no. 4 (2025)","DOI":"10.1609\/aaai.v39i4.32394"},{"key":"3_CR15","unstructured":"Nguyen, D.M.H., et al.: Logra-med: long context multi-graph alignment for medical vision-language model. arXiv preprint arXiv:2410.02615 (2024)"},{"key":"3_CR16","doi-asserted-by":"crossref","unstructured":"Goswami, D., Subedi, R., Chakraborty, S.: MediVLM: a vision language model for radiology report generation from medical images. In: Findings of the Association for Computational Linguistics: EMNLP, p. 2025 (2025)","DOI":"10.18653\/v1\/2025.findings-emnlp.544"},{"key":"3_CR17","doi-asserted-by":"crossref","unstructured":"Hu, Y., et al.: Omnimedvqa: a new large-scale comprehensive evaluation benchmark for medical LVLM. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (2024)","DOI":"10.1109\/CVPR52733.2024.02093"},{"key":"3_CR18","unstructured":"Li, J., et al.: Blip-2: bootstrapping language-image pre-training with frozen image encoders and large language models. In: International Conference on Machine Learning. PMLR (2023)"},{"key":"3_CR19","doi-asserted-by":"crossref","unstructured":"Dai, W., et al.: InstructBLIP: towards general-purpose vision-language models with instruction tuning. In: Advances in Neural Information Processing Systems, vol. 36, pp. 49250\u201349267 (2023)","DOI":"10.52202\/075280-2142"},{"key":"3_CR20","unstructured":"Zhang, S., et al.: BioMedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs. arXiv preprint arXiv:2303.00915 (2023)"},{"key":"3_CR21","doi-asserted-by":"crossref","unstructured":"Cherti, M., et al.: Reproducible scaling laws for contrastive language-image learning. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (2023)","DOI":"10.1109\/CVPR52729.2023.00276"},{"key":"3_CR22","unstructured":"Kim, W., Son, B., Kim, I.: ViLT: vision-and-language transformer without convolution or region supervision. In: International Conference on Machine Learning. PMLR (2021)"},{"key":"3_CR23","unstructured":"Lau, J.J., et al.: A dataset of clinically generated visual questions and answers about radiology images. Sci. Data"},{"key":"3_CR24","doi-asserted-by":"crossref","unstructured":"Chen, J., et al.: HuatuoGPT-vision, towards injecting medical visual knowledge into multimodal LLMs at scale. arXiv preprint arXiv:2406.19280 (2024)","DOI":"10.18653\/v1\/2024.emnlp-main.418"},{"key":"3_CR25","doi-asserted-by":"crossref","unstructured":"Liu, B., et al.: SLAKE: a semantically-labeled knowledge-enhanced dataset for medical visual question answering. In: 2021 IEEE 18th International Symposium on Biomedical Imaging (ISBI). IEEE (2021)","DOI":"10.1109\/ISBI48211.2021.9434010"},{"key":"3_CR26","unstructured":"Zhang, T., et al.: BERTscore: evaluating text generation with BERT. arXiv preprint arXiv:1904.09675 (2019)"}],"container-title":["Lecture Notes in Computer Science","Big Data Analytics in Astronomy, Science, and Engineering"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-23241-0_3","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,15]],"date-time":"2026-04-15T03:15:28Z","timestamp":1776222928000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-23241-0_3"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"ISBN":["9783032232403","9783032232410"],"references-count":26,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-23241-0_3","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]},"assertion":[{"value":"16 April 2026","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"BDA","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Big Data Analytics","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Aizu","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Japan","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"15 December 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"17 December 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"13","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"bigda2025a","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/web-ext.u-aizu.ac.jp\/labs\/is-ds\/BDA2025-Aizu.html","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}