{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,15]],"date-time":"2026-05-15T01:09:08Z","timestamp":1778807348050,"version":"3.51.4"},"reference-count":56,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Medical Image Analysis"],"published-print":{"date-parts":[[2026,6]]},"DOI":"10.1016\/j.media.2026.104077","type":"journal-article","created":{"date-parts":[[2026,4,8]],"date-time":"2026-04-08T23:21:44Z","timestamp":1775690504000},"page":"104077","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Read like a radiologist: Efficient vision-language model for 3D medical imaging interpretation"],"prefix":"10.1016","volume":"111","author":[{"ORCID":"https:\/\/orcid.org\/0009-0001-6018-1283","authenticated-orcid":false,"given":"Changsun","family":"Lee","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9223-3172","authenticated-orcid":false,"given":"Sangjoon","family":"Park","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5457-4523","authenticated-orcid":false,"given":"Cheong-Il","family":"Shin","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6485-0333","authenticated-orcid":false,"given":"Woo Hee","family":"Choi","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1701-0478","authenticated-orcid":false,"given":"Hyun Jeong","family":"Park","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9566-7489","authenticated-orcid":false,"given":"Jeong Eun","family":"Lee","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9763-9609","authenticated-orcid":false,"given":"Jong Chul","family":"Ye","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"78","reference":[{"key":"10.1016\/j.media.2026.104077_b1","series-title":"Gpt-4 technical report","author":"Achiam","year":"2023"},{"key":"10.1016\/j.media.2026.104077_b2","doi-asserted-by":"crossref","first-page":"23716","DOI":"10.52202\/068431-1723","article-title":"Flamingo: A visual language model for few-shot learning","volume":"35","author":"Alayrac","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.media.2026.104077_b3","series-title":"Rexgroundingct: A 3d chest ct dataset for segmentation of findings from free-text reports","author":"Baharoon","year":"2025"},{"key":"10.1016\/j.media.2026.104077_b4","series-title":"M3d: Advancing 3d medical image analysis with multi-modal large language models","author":"Bai","year":"2024"},{"key":"10.1016\/j.media.2026.104077_b5","series-title":"From generalist to specialist: Adapting vision language models via task-specific visual instruction tuning","author":"Bai","year":"2024"},{"key":"10.1016\/j.media.2026.104077_b6","series-title":"Longformer: The long-document transformer","author":"Beltagy","year":"2020"},{"key":"10.1016\/j.media.2026.104077_b7","series-title":"Merlin: A vision language foundation model for 3D computed tomography","author":"Blankemeier","year":"2024"},{"issue":"1","key":"10.1016\/j.media.2026.104077_b8","doi-asserted-by":"crossref","first-page":"171","DOI":"10.1007\/s13244-016-0534-1","article-title":"Error and discrepancy in radiology: Inevitable or avoidable?","volume":"8","author":"Brady","year":"2017","journal-title":"Insights Into Imaging"},{"key":"10.1016\/j.media.2026.104077_b9","series-title":"The Essential Physics of Medical Imaging","author":"Bushberg","year":"2011"},{"key":"10.1016\/j.media.2026.104077_b10","doi-asserted-by":"crossref","unstructured":"Caron, M., Touvron, H., Misra, I., J\u00e9gou, H., Mairal, J., Bojanowski, P., Joulin, A., 2021. Emerging properties in self-supervised vision transformers. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision. pp. 9650\u20139660.","DOI":"10.1109\/ICCV48922.2021.00951"},{"key":"10.1016\/j.media.2026.104077_b11","series-title":"Training small multimodal models to bridge biomedical competency gap: A case study in radiology imaging","author":"Chaves","year":"2024"},{"key":"10.1016\/j.media.2026.104077_b12","series-title":"3D-CT-GPT: Generating 3D radiology reports through integration of large vision-language models","author":"Chen","year":"2024"},{"key":"10.1016\/j.media.2026.104077_b13","unstructured":"Chiang, W.-L., Li, Z., Lin, Z., Sheng, Y., Wu, Z., Zhang, H., Zheng, L., Zhuang, S., Zhuang, Y., Gonzalez, J.E., et al., 2023. Vicuna: An open-source chatbot impressing gpt-4 with 90%* chatgpt quality. See https:\/\/vicuna.lmsys.org (Accessed 14 April 2023) 2, 6."},{"key":"10.1016\/j.media.2026.104077_b14","series-title":"Rethinking attention with performers","author":"Choromanski","year":"2020"},{"key":"10.1016\/j.media.2026.104077_b15","doi-asserted-by":"crossref","DOI":"10.5626\/JCSE.2012.6.2.168","article-title":"Design and development of a multimodal biomedical information retrieval system","volume":"6","author":"Demner-Fushman","year":"2012","journal-title":"J. Comput. Sci. Eng."},{"key":"10.1016\/j.media.2026.104077_b16","series-title":"An image is worth 16x16 words: Transformers for image recognition at scale","author":"Dosovitskiy","year":"2020"},{"key":"10.1016\/j.media.2026.104077_b17","doi-asserted-by":"crossref","first-page":"40","DOI":"10.1016\/j.media.2017.05.001","article-title":"3D deeply supervised network for automated segmentation of volumetric medical images","volume":"41","author":"Dou","year":"2017","journal-title":"Med. Image Anal."},{"key":"10.1016\/j.media.2026.104077_b18","first-page":"110746","article-title":"Segvol: Universal and interactive volumetric medical image segmentation","volume":"37","author":"Du","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.media.2026.104077_b19","series-title":"A foundation model utilizing chest CT volumes and radiology reports for supervised-level zero-shot detection of abnormalities","author":"Hamamci","year":"2024"},{"key":"10.1016\/j.media.2026.104077_b20","series-title":"International Conference on Medical Image Computing and Computer-Assisted Intervention","first-page":"476","article-title":"Ct2rep: Automated radiology report generation for 3d medical imaging","author":"Hamamci","year":"2024"},{"key":"10.1016\/j.media.2026.104077_b21","doi-asserted-by":"crossref","unstructured":"Hatamizadeh, A., Tang, Y., Nath, V., Yang, D., Myronenko, A., Landman, B., Roth, H.R., Xu, D., 2022. Unetr: Transformers for 3d medical image segmentation. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision. pp. 574\u2013584.","DOI":"10.1109\/WACV51458.2022.00181"},{"issue":"10","key":"10.1016\/j.media.2026.104077_b22","doi-asserted-by":"crossref","first-page":"10TR01","DOI":"10.1088\/1361-6560\/ad387d","article-title":"Advancing medical imaging with language models: Featuring a spotlight on ChatGPT","volume":"69","author":"Hu","year":"2024","journal-title":"Phys. Med. Biol."},{"key":"10.1016\/j.media.2026.104077_b23","series-title":"CheXpert: A large chest radiograph dataset with uncertainty labels and expert comparison","author":"Irvin","year":"2019"},{"issue":"2","key":"10.1016\/j.media.2026.104077_b24","doi-asserted-by":"crossref","first-page":"203","DOI":"10.1038\/s41592-020-01008-z","article-title":"NnU-Net: A self-configuring method for deep learning-based biomedical image segmentation","volume":"18","author":"Isensee","year":"2021","journal-title":"Nature Methods"},{"key":"10.1016\/j.media.2026.104077_b25","doi-asserted-by":"crossref","first-page":"317","DOI":"10.1038\/s41597-019-0322-0","article-title":"MIMIC-CXR, a de-identified publicly available database of chest radiographs with free-text reports","volume":"6","author":"Johnson","year":"2019","journal-title":"Sci. Data"},{"key":"10.1016\/j.media.2026.104077_b26","series-title":"Computed Tomography: Fundamentals, System Technology, Image Quality, Applications","author":"Kalender","year":"2011"},{"key":"10.1016\/j.media.2026.104077_b27","doi-asserted-by":"crossref","first-page":"105","DOI":"10.1007\/s10590-009-9059-4","article-title":"The METEOR metric for automatic evaluation of machine translation","volume":"23","author":"Lavie","year":"2009","journal-title":"Mach. Transl."},{"key":"10.1016\/j.media.2026.104077_b28","series-title":"LLM-CXR: Instruction-finetuned LLM for CXR image understanding and generation","author":"Lee","year":"2023"},{"key":"10.1016\/j.media.2026.104077_b29","article-title":"Llava-med: Training a large language-and-vision assistant for biomedicine in one day","volume":"36","author":"Li","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.media.2026.104077_b30","doi-asserted-by":"crossref","first-page":"60","DOI":"10.1016\/j.media.2017.07.005","article-title":"A survey on deep learning in medical image analysis","volume":"42","author":"Litjens","year":"2017","journal-title":"Med. Image Anal."},{"key":"10.1016\/j.media.2026.104077_b31","article-title":"Visual instruction tuning","volume":"36","author":"Liu","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.media.2026.104077_b32","doi-asserted-by":"crossref","unstructured":"Liu, F., Wu, X., Ge, S., Fan, W., Zou, Y., 2021. Exploring and distilling posterior and prior knowledge for radiology report generation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition. pp. 13753\u201313762.","DOI":"10.1109\/CVPR46437.2021.01354"},{"issue":"8033","key":"10.1016\/j.media.2026.104077_b33","doi-asserted-by":"crossref","first-page":"466","DOI":"10.1038\/s41586-024-07618-3","article-title":"A multimodal generative AI copilot for human pathology","volume":"634","author":"Lu","year":"2024","journal-title":"Nature"},{"key":"10.1016\/j.media.2026.104077_b34","series-title":"Foundation models for video understanding: A survey","author":"Madan","year":"2024"},{"key":"10.1016\/j.media.2026.104077_b35","series-title":"MRI from Picture to Proton","author":"McRobbie","year":"2017"},{"issue":"12","key":"10.1016\/j.media.2026.104077_b36","doi-asserted-by":"crossref","first-page":"6070","DOI":"10.1109\/JBHI.2022.3207502","article-title":"Multi-modal understanding and generation for medical images and text via vision-language pre-training","volume":"26","author":"Moon","year":"2022","journal-title":"IEEE J. Biomed. Health Informatics"},{"key":"10.1016\/j.media.2026.104077_b37","doi-asserted-by":"crossref","unstructured":"Papineni, K., Roukos, S., Ward, T., Zhu, W.-J., 2002. Bleu: A method for automatic evaluation of machine translation. In: Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. pp. 311\u2013318.","DOI":"10.3115\/1073083.1073135"},{"key":"10.1016\/j.media.2026.104077_b38","doi-asserted-by":"crossref","DOI":"10.1016\/j.media.2023.103021","article-title":"Self-supervised multi-modal training from uncurated images and reports enables monitoring AI in radiology","volume":"91","author":"Park","year":"2024","journal-title":"Med. Image Anal."},{"key":"10.1016\/j.media.2026.104077_b39","doi-asserted-by":"crossref","DOI":"10.1109\/ACCESS.2022.3210468","article-title":"An accurate and explainable deep learning system improves interobserver agreement in the interpretation of chest radiograph","volume":"10","author":"Pham","year":"2022","journal-title":"IEEE Access"},{"issue":"1","key":"10.1016\/j.media.2026.104077_b40","doi-asserted-by":"crossref","first-page":"87","DOI":"10.1038\/s41698-021-00225-9","article-title":"Genetic mutation and biological pathway prediction based on whole slide images in breast carcinoma using deep learning","volume":"5","author":"Qu","year":"2021","journal-title":"NPJ Precis. Oncol."},{"key":"10.1016\/j.media.2026.104077_b41","series-title":"International Conference on Machine Learning","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021"},{"key":"10.1016\/j.media.2026.104077_b42","unstructured":"Rouge, L.C., 2004. A package for automatic evaluation of summaries. In: Proceedings of Workshop on Text Summarization of ACL. Vol. 5, Spain."},{"key":"10.1016\/j.media.2026.104077_b43","unstructured":"Taori, R., Gulrajani, I., Zhang, T., Dubois, Y., Li, X., Guestrin, C., Liang, P., Hashimoto, T.B., 2023. Stanford alpaca: An instruction-following llama model (2023). URL: https:\/\/github.com\/tatsu-lab\/stanford_alpaca 1."},{"issue":"12","key":"10.1016\/j.media.2026.104077_b44","doi-asserted-by":"crossref","first-page":"1399","DOI":"10.1038\/s41551-022-00936-9","article-title":"Expert-level detection of pathologies from unannotated chest X-ray images via self-supervised learning","volume":"6","author":"Tiu","year":"2022","journal-title":"Nat. Biomed. Eng."},{"issue":"3","key":"10.1016\/j.media.2026.104077_b45","doi-asserted-by":"crossref","DOI":"10.1056\/AIoa2300138","article-title":"Towards generalist biomedical AI","volume":"1","author":"Tu","year":"2024","journal-title":"NEJM AI"},{"key":"10.1016\/j.media.2026.104077_b46","series-title":"Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2019: 22nd International Conference, Shenzhen, China, October 13\u201317, 2019, Proceedings, Part VI 22","first-page":"175","article-title":"Volumetric attention for 3D medical image segmentation and detection","author":"Wang","year":"2019"},{"key":"10.1016\/j.media.2026.104077_b47","series-title":"Linformer: Self-attention with linear complexity","author":"Wang","year":"2020"},{"key":"10.1016\/j.media.2026.104077_b48","series-title":"Medclip: Contrastive learning from unpaired medical images and text","author":"Wang","year":"2022"},{"key":"10.1016\/j.media.2026.104077_b49","series-title":"Towards generalist foundation model for radiology","author":"Wu","year":"2023"},{"key":"10.1016\/j.media.2026.104077_b50","doi-asserted-by":"crossref","unstructured":"Xie, Z., Zhang, Z., Cao, Y., Lin, Y., Bao, J., Yao, Z., Dai, Q., Hu, H., 2022. Simmim: A simple framework for masked image modeling. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition. pp. 9653\u20139663.","DOI":"10.1109\/CVPR52688.2022.00943"},{"key":"10.1016\/j.media.2026.104077_b51","series-title":"Medtrinity-25m: A large-scale multimodal dataset with multigranular annotations for medicine","author":"Xie","year":"2024"},{"issue":"4","key":"10.1016\/j.media.2026.104077_b52","article-title":"RadBERT: Adapting transformer-based language models to radiology","volume":"4","author":"Yan","year":"2022","journal-title":"Radiol.: Artif. Intell."},{"key":"10.1016\/j.media.2026.104077_b53","series-title":"International Conference on Medical Image Computing and Computer-Assisted Intervention","first-page":"101","article-title":"Cxr-clip: Toward large scale chest x-ray language-image pre-training","author":"You","year":"2023"},{"key":"10.1016\/j.media.2026.104077_b54","first-page":"17283","article-title":"Big bird: Transformers for longer sequences","volume":"33","author":"Zaheer","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.media.2026.104077_b55","series-title":"RadGenome-Chest CT: A grounded vision-language dataset for chest CT analysis","author":"Zhang","year":"2024"},{"key":"10.1016\/j.media.2026.104077_b56","first-page":"1","article-title":"A generalist vision\u2013language foundation model for diverse biomedical tasks","author":"Zhang","year":"2024","journal-title":"Nature Med."}],"container-title":["Medical Image Analysis"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1361841526001465?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1361841526001465?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,15]],"date-time":"2026-05-15T00:08:14Z","timestamp":1778803694000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S1361841526001465"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6]]},"references-count":56,"alternative-id":["S1361841526001465"],"URL":"https:\/\/doi.org\/10.1016\/j.media.2026.104077","relation":{},"ISSN":["1361-8415"],"issn-type":[{"value":"1361-8415","type":"print"}],"subject":[],"published":{"date-parts":[[2026,6]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Read like a radiologist: Efficient vision-language model for 3D medical imaging interpretation","name":"articletitle","label":"Article Title"},{"value":"Medical Image Analysis","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.media.2026.104077","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"104077"}}