{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,30]],"date-time":"2026-03-30T16:20:41Z","timestamp":1774887641911,"version":"3.50.1"},"reference-count":27,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2026,2,24]],"date-time":"2026-02-24T00:00:00Z","timestamp":1771891200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0"},{"start":{"date-parts":[[2026,3,30]],"date-time":"2026-03-30T00:00:00Z","timestamp":1774828800000},"content-version":"vor","delay-in-days":34,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["BMC Med Inform Decis Mak"],"DOI":"10.1186\/s12911-026-03381-9","type":"journal-article","created":{"date-parts":[[2026,2,24]],"date-time":"2026-02-24T09:06:38Z","timestamp":1771923998000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Simulated evaluation of large language model stepwise diagnostic reasoning with real-world chest pain encounters and Bayesian networks"],"prefix":"10.1186","volume":"26","author":[{"given":"Conrad W.","family":"Safranek","sequence":"first","affiliation":[]},{"given":"Vimig","family":"Socrates","sequence":"additional","affiliation":[]},{"given":"Donald","family":"Wright","sequence":"additional","affiliation":[]},{"given":"Thomas","family":"Huang","sequence":"additional","affiliation":[]},{"given":"Alaa","family":"Alashi","sequence":"additional","affiliation":[]},{"given":"Kent","family":"McCann","sequence":"additional","affiliation":[]},{"given":"R. Andrew","family":"Taylor","sequence":"additional","affiliation":[]},{"given":"David","family":"Chartash","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2026,2,24]]},"reference":[{"key":"3381_CR1","first-page":"118","volume":"640","author":"T Tu","year":"2025","unstructured":"Tu T, Schaekermann M, Palepu A, Saab K, Freyberg J, Tanno R, et al. Towards conversational diagnostic artificial intelligence. Nature. 2025;640:118.","journal-title":"Nature"},{"key":"3381_CR2","unstructured":"Johri S, Jeong J, Tran BA, Schlessinger DI, Wongvibulsin S, Cai ZR, et al. CRAFT-MD: a conversational evaluation framework for comprehensive assessment of clinical LLMs. AAAI 2024 Spring Symp Clin Foundation Model. 2024. Accessed: 2024-Nov-21."},{"issue":"1","key":"3381_CR3","doi-asserted-by":"publisher","first-page":"17118","DOI":"10.1038\/s41598-024-67429-4","volume":"14","author":"S Zhang","year":"2024","unstructured":"Zhang S, Song J. A chatbot based question and answer system for the auxiliary diagnosis of chronic diseases based on large language model. Sci Rep. 2024;14(1):17118. Accessed: 2024-Nov-21.","journal-title":"Sci Rep"},{"key":"3381_CR4","first-page":"664","volume":"106","author":"GP Hammer","year":"2009","unstructured":"Hammer GP, du Prel J-B, Blettner M. Avoiding bias in observational studies. Deutsches \u00c4rzteblatt Int. 2009, Oct;106:664\u201368.","journal-title":"Deutsches \u00c4rzteblatt Int"},{"key":"3381_CR5","doi-asserted-by":"publisher","first-page":"172","DOI":"10.1007\/978-3-319-19551-3_22","volume-title":"Artificial intelligence in medicine","author":"F Sambo","year":"2015","unstructured":"Sambo F, Facchinetti A, Hakaste L, Kravic J, Di Camillo B, Fico G, et al. A Bayesian network for probabilistic reasoning and imputation of missing risk factors in type 2 diabetes. In: Holmes JH, Bellazzi R, Sacchi L, Peek N, editors. Artificial intelligence in medicine. Springer International Publishing; 2015. p. 172\u201376."},{"issue":"3366","key":"3381_CR6","doi-asserted-by":"publisher","first-page":"9","DOI":"10.1126\/science.130.3366.9","volume":"130","author":"RS Ledley","year":"1959","unstructured":"Ledley RS, Lusted LB. Reasoning foundations of medical diagnosis: symbolic logic, probability, and value theory aid our understanding of how physicians reason. Science. 1959;130(3366):9\u201321.","journal-title":"Science"},{"key":"3381_CR7","doi-asserted-by":"publisher","first-page":"201","DOI":"10.1016\/j.artmed.2003.11.001","volume":"30","author":"PJF Lucas","year":"2004","unstructured":"Lucas PJF, van der Gaag LC, Abu-Hanna A. Bayesian networks in biomedicine and health-care. Artif Intel Med. 2004, Mar;30:201\u201314. Accessed: 2025-05-30.","journal-title":"Artif Intel Med"},{"issue":"9","key":"3381_CR8","doi-asserted-by":"publisher","first-page":"2613","DOI":"10.1038\/s41591-024-03097-1","volume":"30","author":"P Hager","year":"2024","unstructured":"Hager P, Jungmann F, Holland R, Bhagat K, Hubrecht I, Knauer M, et al. Evaluation and mitigation of the limitations of large language models in clinical decision-making. Nat Med. 2024;30(9):2613\u201322.","journal-title":"Nat Med"},{"key":"3381_CR9","unstructured":"Schmidgall S, Ziaei R, Harris C, Reis E, Jopling J, Moor M. Agentclinic: a multimodal agent benchmark to evaluate ai in simulated clinical environments. 2025."},{"key":"3381_CR10","unstructured":"Sun Z, Luo C, Liu Z, Huang Z. Conversational disease diagnosis via external planner-controlled large language models. 2024."},{"issue":"7","key":"3381_CR11","doi-asserted-by":"publisher","first-page":"1029","DOI":"10.1001\/jamainternmed.2016.2498","volume":"176","author":"RY Hsia","year":"2016","unstructured":"Hsia RY, Hale Z, Tabas JA. A national study of the prevalence of life-threatening diagnoses in patients with chest pain. JAMA Intern Med. 2016;176(7):1029\u201332.","journal-title":"JAMA Intern Med"},{"key":"3381_CR12","doi-asserted-by":"crossref","unstructured":"Gulati M, Levy PD, Mukherjee D, Amsterdam E, Bhatt DL, Birtcher KK, et al. 2021 AHA\/ACC\/ASE\/CHEST\/SAEM\/SCCT\/SCMR guideline for the evaluation and diagnosis of chest pain: a report of the American college of cardiology\/American heart association joint committee on clinical practice guidelines. J Am Coll Cardiol. 2021, Nov;78:e187\u2013285. Clinical Practice Guideline.","DOI":"10.1161\/CIR.0000000000001029"},{"key":"3381_CR13","unstructured":"Agency for Healthcare Research and Quality, HCUP Clinical Classifications Software Refined (CCSR) for ICD-10-CM Diagnoses, V2021.2."},{"issue":"4\u20135","key":"3381_CR14","doi-asserted-by":"publisher","first-page":"260","DOI":"10.1016\/j.clinbiochem.2014.09.012","volume":"48","author":"AB Storrow","year":"2015","unstructured":"Storrow AB, Nowak RM, Diercks DB, Singer AJ, Wu AHB, Kulstad E, et al. Absolute and relative changes (delta) in troponin I for early diagnosis of myocardial infarction: results of a prospective multicenter trial. Clin Biochem. 2015;48(4\u20135):260\u201367.","journal-title":"Clin Biochem"},{"key":"3381_CR15","doi-asserted-by":"crossref","unstructured":"Margolin AA, Nemenman I, Basso K, Wiggins C, Stolovitzky G, Favera RD, et al. ARACNE: an Algorithm for the Reconstruction of gene regulatory networks in a mammalian Cellular context. BMC Bioinf. 2006;7(1):S7.","DOI":"10.1186\/1471-2105-7-S1-S7"},{"key":"3381_CR16","doi-asserted-by":"publisher","DOI":"10.1002\/0471200611.ch16","volume-title":"Inequalities in information theory","author":"T Cover","year":"2001","unstructured":"Cover T, Thomas J. Inequalities in information theory. John Wiley and Sons, Ltd; 2001."},{"key":"3381_CR17","doi-asserted-by":"publisher","first-page":"61","DOI":"10.1186\/1471-2288-13-61","volume":"13","author":"N Wongpakaran","year":"2013","unstructured":"Wongpakaran N, Wongpakaran T, Wedding D, Gwet KL. A comparison of cohen\u2019s kappa and gwet\u2019s ac1 when calculating inter-rater reliability coefficients: a study conducted with personality disorder samples. BMC Med Res Methodol. 2013;13:61.","journal-title":"BMC Med Res Methodol"},{"issue":"3","key":"3381_CR18","doi-asserted-by":"publisher","first-page":"214","DOI":"10.1109\/32.221135","volume":"19","author":"E Gansner","year":"1993","unstructured":"Gansner E, Koutsofios E, North S, Vo K-P. A technique for drawing directed graphs. IEEE Trans Softw Eng. 1993;19(3):214\u201330.","journal-title":"IEEE Trans Softw Eng"},{"issue":"1","key":"3381_CR19","doi-asserted-by":"publisher","first-page":"97","DOI":"10.3390\/e22010097","volume":"22","author":"WA Benish","year":"2020","unstructured":"Benish WA. A review of the application of information theory to clinical diagnostic testing. Entropy. 2020;22(1):97.","journal-title":"Entropy"},{"key":"3381_CR20","doi-asserted-by":"crossref","unstructured":"Webber W, Moffat A, Zobel J. A similarity measure for indefinite rankings. ACM Trans Inf Syst 2010;28(4):20:1\u201338.","DOI":"10.1145\/1852102.1852106"},{"key":"3381_CR21","unstructured":"Kojima T, Gu SS, Reid M, Matsuo Y, Iwasawa Y. Large language models are zero-shot reasoners. 2023."},{"key":"3381_CR22","doi-asserted-by":"publisher","first-page":"172","DOI":"10.1038\/s41586-023-06291-2","volume":"620","author":"K Singhal","year":"2023","unstructured":"Singhal K, Azizi S, Tu T, et al. Large language models encode clinical knowledge. Nature. 2023, Aug;620:172\u201380. Published online 12 Jul 2023; received 25 Jan 2023; accepted 05 Jun 2023.","journal-title":"Nature"},{"issue":"1","key":"3381_CR23","doi-asserted-by":"publisher","first-page":"77","DOI":"10.1016\/j.ajem.2016.10.005","volume":"35","author":"RF Riley","year":"2017","unstructured":"Riley RF, Miller CD, Russell GB, Harper EN, Hiestand BC, Hoekstra JW, et al. Cost analysis of the heart pathway randomized control trial. The Am J Emerg Med. 2017;35(1):77\u201381. Epub 2016 Oct 5.","journal-title":"The Am J Emerg Med"},{"key":"3381_CR24","doi-asserted-by":"crossref","unstructured":"Li SS, Balachandran V, Feng S, Ilgen JS, Pierson E, Koh PW, et al. MEDIQ: question\u2013asking llms and a benchmark for reliable interactive clinical reasoning. Adv Neural Inf Process Syst. 2024.","DOI":"10.52202\/079017-0908"},{"key":"3381_CR25","doi-asserted-by":"crossref","unstructured":"Zakka C, Shad R, Chaurasia A, Dalal AR, Kim JL, Moor M, et al. Almanac: retrieval-augmented language models for clinical medicine. Nejm Ai. 2024;1(2).","DOI":"10.1056\/AIoa2300068"},{"key":"3381_CR26","doi-asserted-by":"crossref","unstructured":"Rabaey P, Deleu J, Heytens S, Demeester T. Clinical reasoning over tabular data and text with bayesian networks. 2024.","DOI":"10.1007\/978-3-031-66538-7_24"},{"key":"3381_CR27","unstructured":"Barth VBDO, Maciel CD. Integrating natural language models with bayesian networks for explainable machine learning. Proc the 24th Congresso Brasileiro de Autom\u00e1tica (CBA 2024), (S\u00e3o Carlos, Brazil), Sociedade Brasileira de Autom\u00e1tica, 2024. Accessed: 2025-Jun-06."}],"container-title":["BMC Medical Informatics and Decision Making"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/article\/10.1186\/s12911-026-03381-9","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1186\/s12911-026-03381-9.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1186\/s12911-026-03381-9.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,30]],"date-time":"2026-03-30T15:40:30Z","timestamp":1774885230000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1186\/s12911-026-03381-9"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,2,24]]},"references-count":27,"journal-issue":{"issue":"1","published-online":{"date-parts":[[2026,12]]}},"alternative-id":["3381"],"URL":"https:\/\/doi.org\/10.1186\/s12911-026-03381-9","relation":{},"ISSN":["1472-6947"],"issn-type":[{"value":"1472-6947","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,2,24]]},"assertion":[{"value":"11 August 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"5 February 2026","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"24 February 2026","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The Yale University Human Research Protection Program determined the study to be exempt research under 45\u00a0CFR\u00a046.104(d)(4) (secondary research use of identifiable private information with appropriate safeguards) under Human Investigation Committee #2000035077; the requirement for informed consent was waived. All methods were performed in accordance with the Declaration of Helsinki and relevant guidelines and regulations.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethics approval and consent to participate"}},{"value":"Not applicable. This manuscript contains no identifiable individual participant data (text, images, or video).","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Consent for publication"}},{"value":"The authors declare no competing interests.","order":4,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interests"}}],"article-number":"97"}}