{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,2]],"date-time":"2026-06-02T23:05:13Z","timestamp":1780441513580,"version":"3.54.1"},"reference-count":16,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2026,4,4]],"date-time":"2026-04-04T00:00:00Z","timestamp":1775260800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2026,6,3]],"date-time":"2026-06-03T00:00:00Z","timestamp":1780444800000},"content-version":"vor","delay-in-days":60,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"funder":[{"name":"Rad AI"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["npj Digit. Med."],"abstract":"<jats:title>Abstract<\/jats:title>\n                  <jats:p>\n                    A retrospective, blinded evaluation of 200 oncologic computed tomography reports compared original radiologist-authored impressions, impressions generated by a custom domain-specific AI model fine-tuned on institutional data, and impressions generated by a general-purpose large language model. Ten clinicians, including original radiologists (\n                    <jats:italic>n<\/jats:italic>\n                    \u2009=\u20094), independent radiologists (\n                    <jats:italic>n<\/jats:italic>\n                    \u2009=\u20093), and oncologists (\n                    <jats:italic>n<\/jats:italic>\n                    \u2009=\u20093), rated impressions for completeness, correctness, conciseness, clarity, clinical utility, and patient harm. Original and independent radiologists assigned lower preference to generic model impressions (Cohen\u2019s h 1.04\u20131.22 and 0.66\u20130.69,\n                    <jats:italic>p<\/jats:italic>\n                    \u2009&lt;\u20090.001). Original radiologists slightly preferred their own impressions to the custom model (\n                    <jats:italic>h<\/jats:italic>\n                    \u2009=\u20090.18, p\u2009=\u20090.0716), while independent radiologists showed no preference (\n                    <jats:italic>h<\/jats:italic>\n                    \u2009=\u2009\u22120.03, p\u2009=\u20090.78). Oncologists demonstrated no significant preference among impression types (\n                    <jats:italic>h<\/jats:italic>\n                    \u2009=\u20090.04\u20130.12, all\n                    <jats:italic>p<\/jats:italic>\n                    \u2009&gt;\u20090.20). Custom model impressions achieved near parity with human impressions; original radiologists rated their own impressions slightly more complete (\n                    <jats:italic>r<\/jats:italic>\n                    \u2009=\u20090.22,\n                    <jats:italic>p<\/jats:italic>\n                    \u2009=\u20090.0016). Generic model impressions were longer (75.1\u2009\u00b1\u200920.4 words), slightly more complete (\n                    <jats:italic>r<\/jats:italic>\n                    \u2009=\u20090.18\u20130.39,\n                    <jats:italic>p<\/jats:italic>\n                    \u2009&lt;\u20090.001\u20130.01), but significantly less concise (\n                    <jats:italic>r<\/jats:italic>\n                    \u2009=\u20090.85\u20130.87,\n                    <jats:italic>p<\/jats:italic>\n                    \u2009&lt;\u20090.001). Patient harm ratings were uniformly low (likelihood 1.01\u20131.14; extent 1.05\u20131.21). Inter-rater reliability ranged from \u22120.09 to 0.67 (\n                    <jats:italic>\u03b1<\/jats:italic>\n                    \u2009=\u20090.67 conciseness;\n                    <jats:italic>\u03b1<\/jats:italic>\n                    \u2009=\u2009\u22120.09\u20130.03 clinical utility\/correctness).\n                  <\/jats:p>","DOI":"10.1038\/s41746-026-02586-6","type":"journal-article","created":{"date-parts":[[2026,4,4]],"date-time":"2026-04-04T10:28:25Z","timestamp":1775298505000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Comparison of AI-generated radiology impressions: a multi-stakeholder evaluation"],"prefix":"10.1038","volume":"9","author":[{"given":"Sharang","family":"Phadke","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Nivedita","family":"Suresh","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zachary","family":"Allen","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Anjali","family":"Balagopal","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Stephen","family":"Chan","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Anish","family":"Shah","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Megan","family":"Winter","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Cesar","family":"Lam","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Trevor","family":"Rose","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Cyrillo","family":"Araujo","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Abraham","family":"Ahmed","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Iman","family":"Imanirad","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Lincoln","family":"Berland","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Andrew","family":"Del Gaizo","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2026,4,4]]},"reference":[{"key":"2586_CR1","doi-asserted-by":"publisher","first-page":"121","DOI":"10.1186\/s13244-020-00925-z","volume":"11","author":"RJM Bruls","year":"2020","unstructured":"Bruls, R. J. M. & Kwee, R. M. Workload for radiologists during on-call hours: dramatic increase in the past 15 years. Insights Imaging 11, 121 (2020).","journal-title":"Insights Imaging"},{"key":"2586_CR2","doi-asserted-by":"publisher","DOI":"10.1016\/j.ejrad.2022.110195","volume":"149","author":"CD Lantsman","year":"2022","unstructured":"Lantsman, C. D. et al. Trend in radiologist workload compared to number of admissions in the emergency department. Eur. J. Radiol. 149, 110195 (2022).","journal-title":"Eur. J. Radiol."},{"key":"2586_CR3","doi-asserted-by":"publisher","first-page":"42","DOI":"10.1186\/s41747-018-0071-4","volume":"2","author":"D Pinto dos Santos","year":"2018","unstructured":"Pinto dos Santos, D. & Bae\u00dfler, B. Big data, artificial intelligence, and structured reporting. Eur. Radio. Exp. 2, 42 (2018).","journal-title":"Eur. Radio. Exp."},{"key":"2586_CR4","doi-asserted-by":"publisher","first-page":"3173","DOI":"10.1007\/s00330-021-08431-6","volume":"32","author":"M Gabelloni","year":"2022","unstructured":"Gabelloni, M. et al. Bridging gaps between images and data: a systematic update on imaging biobanks. Eur. Radiol. 32, 3173\u20133186 (2022).","journal-title":"Eur. Radiol."},{"key":"2586_CR5","doi-asserted-by":"crossref","unstructured":"Zhang Y., Ding D. Y., Qian T., Manning C. D. & Langlotz C. P. Learning to summarize radiology findings. Proc. Assoc. Comput. Linguist. 204\u2013213 (2018).","DOI":"10.18653\/v1\/W18-5623"},{"key":"2586_CR6","doi-asserted-by":"publisher","first-page":"190","DOI":"10.1007\/s11604-023-01487-y","volume":"42","author":"T Nakaura","year":"2024","unstructured":"Nakaura, T. et al. Preliminary assessment of automated radiology report generation with generative pre-trained transformers. Jpn J. Radiol. 42, 190\u2013200 (2024).","journal-title":"Jpn J. Radiol."},{"key":"2586_CR7","volume":"310","author":"Z Sun","year":"2024","unstructured":"Sun, Z. et al. Evaluating GPT-4 on impressions generation in radiology reports. Radiology 310, e231259 (2024).","journal-title":"Radiology"},{"key":"2586_CR8","doi-asserted-by":"publisher","first-page":"1134","DOI":"10.1038\/s41591-024-02855-5","volume":"30","author":"D Van Veen","year":"2024","unstructured":"Van Veen, D. et al. Adapted large language models can outperform medical experts in clinical text summarization. Nat. Med. 30, 1134\u20131142 (2024).","journal-title":"Nat. Med."},{"key":"2586_CR9","unstructured":"Kaviani, P. et al. Artificial intelligence-generated smart impression from large-scale radiology datasets. medRxiv. 2024."},{"key":"2586_CR10","doi-asserted-by":"crossref","first-page":"65","DOI":"10.1038\/s41746-023-00812-z","volume":"6","author":"G Bedi","year":"2023","unstructured":"Bedi, G. et al. Automated analysis of free text medical records using large language models. NPJ Digit Med. 6, 65 (2023).","journal-title":"NPJ Digit Med."},{"key":"2586_CR11","unstructured":"Arora, S. et al. Benchmarking large language models for clinical text understanding. J. Am. Med. Inform. Assoc. (2024)."},{"key":"2586_CR12","doi-asserted-by":"publisher","first-page":"e25","DOI":"10.1097\/MLR.0000000000000679","volume":"55","author":"KE Walsh","year":"2017","unstructured":"Walsh, K. E. et al. Measuring harm in healthcare: optimizing adverse event review. Med Care. 55, e25\u2013e31 (2017).","journal-title":"Med Care."},{"key":"2586_CR13","unstructured":"Van Veen, D. et al. Physician evaluation frameworks for clinical text summarization. Nat. Med. (2024)."},{"key":"2586_CR14","first-page":"411","volume":"30","author":"K Krippendorff","year":"2004","unstructured":"Krippendorff, K. Reliability in content analysis: some common misconceptions and recommendations. Hum. Commun. Res. 30, 411\u2013433 (2004).","journal-title":"Hum. Commun. Res."},{"key":"2586_CR15","doi-asserted-by":"crossref","unstructured":"Li, D. & Chong J. Laterality: a potential pitfall in applying multimodal large language models to radiology. Radiology. 313, e241421 (2024).","DOI":"10.1148\/radiol.241421"},{"key":"2586_CR16","doi-asserted-by":"crossref","unstructured":"Huisman, M. &, Rasoolzadeh N. LLMs for radiology reports: from general purpose to lightweight domain adaptation. Radiology. 316 (2025).","DOI":"10.1148\/radiol.252524"}],"container-title":["npj Digital Medicine"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/www.nature.com\/articles\/s41746-026-02586-6","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/www.nature.com\/articles\/s41746-026-02586-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/www.nature.com\/articles\/s41746-026-02586-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,6,2]],"date-time":"2026-06-02T22:17:54Z","timestamp":1780438674000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.nature.com\/articles\/s41746-026-02586-6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,4,4]]},"references-count":16,"journal-issue":{"issue":"1","published-online":{"date-parts":[[2026,12]]}},"alternative-id":["2586"],"URL":"https:\/\/doi.org\/10.1038\/s41746-026-02586-6","relation":{"has-preprint":[{"id-type":"doi","id":"10.21203\/rs.3.rs-8476600\/v1","asserted-by":"object"}]},"ISSN":["2398-6352"],"issn-type":[{"value":"2398-6352","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,4,4]]},"assertion":[{"value":"30 December 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"17 March 2026","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"4 April 2026","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"S.P., N.S., J.A., A.B., and A.D.G. are or were employees of Rad AI and may hold equity in the company, which developed the domain-specific impression generation model evaluated in this study. S.C. and L.B. have a contractual relationship with Rad AI. The other authors declare no competing financial or non-financial interests.","order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interests"}}],"article-number":"426"}}