{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T17:37:07Z","timestamp":1782927427310,"version":"3.54.5"},"reference-count":34,"publisher":"Oxford University Press (OUP)","issue":"12","license":[{"start":{"date-parts":[[2020,9,16]],"date-time":"2020-09-16T00:00:00Z","timestamp":1600214400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/academic.oup.com\/journals\/pages\/open_access\/funder_policies\/chorus\/standard_publication_model"}],"funder":[{"name":"Stanford\u2019s Presence Center\u2019s AI in Medicine: Inclusion & Equity Initiative"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2020,12,9]]},"abstract":"<jats:title>Abstract<\/jats:title>\n               <jats:sec>\n                  <jats:title>Objective<\/jats:title>\n                  <jats:p>The development of machine learning (ML) algorithms to address a variety of issues faced in clinical practice has increased rapidly. However, questions have arisen regarding biases in their development that can affect their applicability in specific populations. We sought to evaluate whether studies developing ML models from electronic health record (EHR) data report sufficient demographic data on the study populations to demonstrate representativeness and reproducibility.<\/jats:p>\n               <\/jats:sec>\n               <jats:sec>\n                  <jats:title>Materials and Methods<\/jats:title>\n                  <jats:p>We searched PubMed for articles applying ML models to improve clinical decision-making using EHR data. We limited our search to papers published between 2015 and 2019.<\/jats:p>\n               <\/jats:sec>\n               <jats:sec>\n                  <jats:title>Results<\/jats:title>\n                  <jats:p>Across the 164 studies reviewed, demographic variables were inconsistently reported and\/or included as model inputs. Race\/ethnicity was not reported in 64%; gender and age were not reported in 24% and 21% of studies, respectively. Socioeconomic status of the population was not reported in 92% of studies. Studies that mentioned these variables often did not report if they were included as model inputs. Few models (12%) were validated using external populations. Few studies (17%) open-sourced their code. Populations in the ML studies include higher proportions of White and Black yet fewer Hispanic subjects compared to the general US population.<\/jats:p>\n               <\/jats:sec>\n               <jats:sec>\n                  <jats:title>Discussion<\/jats:title>\n                  <jats:p>The demographic characteristics of study populations are poorly reported in the ML literature based on EHR data. Demographic representativeness in training data and model transparency is necessary to ensure that ML models are deployed in an equitable and reproducible manner. Wider adoption of reporting guidelines is warranted to improve representativeness and reproducibility.<\/jats:p>\n               <\/jats:sec>","DOI":"10.1093\/jamia\/ocaa164","type":"journal-article","created":{"date-parts":[[2020,7,1]],"date-time":"2020-07-01T03:19:07Z","timestamp":1593573547000},"page":"1878-1884","source":"Crossref","is-referenced-by-count":65,"title":["Reporting of demographic data and representativeness in machine learning models using electronic health records"],"prefix":"10.1093","volume":"27","author":[{"given":"Selen","family":"Bozkurt","sequence":"first","affiliation":[{"name":"Department of Medicine, Stanford University, Stanford, California, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Eli M","family":"Cahan","sequence":"additional","affiliation":[{"name":"Department of Medicine, Stanford University, Stanford, California, USA"},{"name":"NYU School of Medicine, New York, New York, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Martin G","family":"Seneviratne","sequence":"additional","affiliation":[{"name":"Department of Medicine, Stanford University, Stanford, California, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ran","family":"Sun","sequence":"additional","affiliation":[{"name":"Department of Medicine, Stanford University, Stanford, California, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Juan A","family":"Lossio-Ventura","sequence":"additional","affiliation":[{"name":"Department of Medicine, Stanford University, Stanford, California, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"John P A","family":"Ioannidis","sequence":"additional","affiliation":[{"name":"Department of Medicine, Stanford University, Stanford, California, USA"},{"name":"Department of Epidemiology and Population Health, School of Medicine, Stanford University, Stanford, California, USA"},{"name":"Department of Biomedical Data Science, Stanford University, Stanford, California, USA"},{"name":"Department of Statistics, Stanford University, Stanford, California, USA"},{"name":"Meta-Research Innovation Center at Stanford, Stanford University, Stanford, California, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Tina","family":"Hernandez-Boussard","sequence":"additional","affiliation":[{"name":"Department of Medicine, Stanford University, Stanford, California, USA"},{"name":"Department of Biomedical Data Science, Stanford University, Stanford, California, USA"},{"name":"Department of Surgery, Stanford University, Stanford, California, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"286","published-online":{"date-parts":[[2020,9,16]]},"reference":[{"issue":"6","key":"2020121009234774200_ocaa164-B1","doi-asserted-by":"crossref","first-page":"757","DOI":"10.1002\/msj.21351","article-title":"Future of electronic health records: implications for decision support","volume":"79","author":"Rothman","year":"2012","journal-title":"Mt Sinai J Med"},{"issue":"5","key":"2020121009234774200_ocaa164-B2","doi-asserted-by":"crossref","first-page":"236","DOI":"10.1038\/s42256-019-0052-1","article-title":"Pathologist-level interpretable whole-slide cancer diagnosis with deep learning","volume":"1","author":"Zhang","year":"2019","journal-title":"Nat Mach Intell"},{"issue":"11","key":"2020121009234774200_ocaa164-B3","doi-asserted-by":"crossref","first-page":"e1002686","DOI":"10.1371\/journal.pmed.1002686","article-title":"Deep learning for chest radiograph diagnosis: a retrospective comparison of the CheXNeXt algorithm to practicing radiologists","volume":"15","author":"Rajpurkar","year":"2018","journal-title":"PLoS Med"},{"issue":"3","key":"2020121009234774200_ocaa164-B4","doi-asserted-by":"crossref","first-page":"158","DOI":"10.1038\/s41551-018-0195-0","article-title":"Prediction of cardiovascular risk factors from retinal fundus photographs via deep learning","volume":"2","author":"Poplin","year":"2018","journal-title":"Nat Biomed Eng"},{"issue":"12","key":"2020121009234774200_ocaa164-B5","doi-asserted-by":"crossref","first-page":"e1002721","DOI":"10.1371\/journal.pmed.1002721","article-title":"Better medicine through machine learning: what\u2019s real, and what\u2019s artificial?","volume":"15","author":"Saria","year":"2018","journal-title":"PLoS Med"},{"issue":"11","key":"2020121009234774200_ocaa164-B6","doi-asserted-by":"crossref","first-page":"1544","DOI":"10.1001\/jamainternmed.2018.3763","article-title":"Potential biases in machine learning algorithms using electronic health record data","volume":"178","author":"Gianfrancesco","year":"2018","journal-title":"JAMA Intern Med"},{"issue":"11","key":"2020121009234774200_ocaa164-B7","doi-asserted-by":"crossref","first-page":"981","DOI":"10.1056\/NEJMp1714229","article-title":"Implementing machine learning in health care\u2014addressing ethical challenges","volume":"378","author":"Char","year":"2018","journal-title":"N Engl J Med"},{"key":"2020121009234774200_ocaa164-B8","doi-asserted-by":"crossref","first-page":"78","DOI":"10.1038\/s41746-019-0157-2","article-title":"Putting the data before the algorithm in big data addressing personalized healthcare","volume":"2","author":"Cahan","year":"2019","journal-title":"NPJ Digit Med"},{"issue":"11","key":"2020121009234774200_ocaa164-B9","doi-asserted-by":"crossref","first-page":"1247","DOI":"10.1001\/jamadermatol.2018.2348","article-title":"Machine learning and health care disparities in dermatology","volume":"154","author":"Adamson","year":"2018","journal-title":"JAMA Dermatol"},{"issue":"1","key":"2020121009234774200_ocaa164-B10","doi-asserted-by":"crossref","first-page":"W1","DOI":"10.7326\/M18-1377","article-title":"PROBAST: a tool to assess risk of bias and applicability of prediction model studies: explanation and elaboration","volume":"170","author":"Moons","year":"2019","journal-title":"Ann Intern Med"},{"issue":"1","key":"2020121009234774200_ocaa164-B11","doi-asserted-by":"crossref","first-page":"16","DOI":"10.1186\/s41512-019-0060-y","article-title":"Methodological standards for the development and evaluation of clinical prediction rules: a review of the literature","volume":"3","author":"Cowley","year":"2019","journal-title":"Diagn Progn Res"},{"issue":"1","key":"2020121009234774200_ocaa164-B12","doi-asserted-by":"crossref","first-page":"0021","DOI":"10.1038\/s41562-016-0021","article-title":"A manifesto for reproducible science","volume":"1","author":"Munaf\u00f2","year":"2017","journal-title":"Nat Hum Behav"},{"key":"2020121009234774200_ocaa164-B13","author":"Vollmer"},{"issue":"5","key":"2020121009234774200_ocaa164-B14","doi-asserted-by":"crossref","first-page":"1239","DOI":"10.1016\/j.chest.2018.04.037","article-title":"Big data and data science in critical care","volume":"154","author":"Sanchez-Pinto","year":"2018","journal-title":"Chest"},{"key":"2020121009234774200_ocaa164-B15","first-page":"295","volume-title":"Medical Malpractice and Black-Box Medicine.","author":"Price"},{"issue":"1","key":"2020121009234774200_ocaa164-B16","doi-asserted-by":"crossref","first-page":"198","DOI":"10.1093\/jamia\/ocw042","article-title":"Opportunities and challenges in developing risk prediction models with electronic health records data: a systematic review","volume":"24","author":"Goldstein","year":"2017","journal-title":"J Am Med Inform Assoc"},{"issue":"10","key":"2020121009234774200_ocaa164-B17","doi-asserted-by":"crossref","first-page":"1419","DOI":"10.1093\/jamia\/ocy068","article-title":"Opportunities and challenges in developing deep learning models using electronic health records data: a systematic review","volume":"25","author":"Xiao","year":"2018","journal-title":"J Am Med Inform Assoc"},{"issue":"10","key":"2020121009234774200_ocaa164-B18","doi-asserted-by":"crossref","first-page":"e1","DOI":"10.1016\/j.jclinepi.2009.06.006","article-title":"The PRISMA statement for reporting systematic reviews and meta-analyses of studies that evaluate health care interventions: explanation and elaboration","volume":"62","author":"Liberati","year":"2009","journal-title":"J Clin Epidemiol"},{"key":"2020121009234774200_ocaa164-B19","first-page":"569","article-title":"Assessing the collective population representativeness of related type 2 diabetes trials by combining public data from ClinicalTrials.gov and NHANES","volume":"216","author":"He","year":"2015","journal-title":"Stud Health Technol Inform"},{"issue":"8","key":"2020121009234774200_ocaa164-B20","doi-asserted-by":"crossref","first-page":"774","DOI":"10.1016\/S0895-4356(01)00341-9","article-title":"Internal validation of predictive models: efficiency of some procedures for logistic regression analysis","volume":"54","author":"Steyerberg","year":"2001","journal-title":"J Clin Epidemiol"},{"key":"2020121009234774200_ocaa164-B21","doi-asserted-by":"crossref","first-page":"i3140","DOI":"10.1136\/bmj.i3140","article-title":"External validation of clinical prediction models using big datasets from e-health records or IPD meta-analysis: opportunities and challenges","volume":"353","author":"Riley","year":"2016","journal-title":"BMJ"},{"key":"2020121009234774200_ocaa164-B22","doi-asserted-by":"crossref","first-page":"66","DOI":"10.1016\/j.jbi.2016.01.007","article-title":"Multivariate analysis of the population representativeness of related clinical studies","volume":"60","author":"He","year":"2016","journal-title":"J Biomed Inform"},{"issue":"6464","key":"2020121009234774200_ocaa164-B23","doi-asserted-by":"crossref","first-page":"447","DOI":"10.1126\/science.aax2342","article-title":"Dissecting racial bias in an algorithm used to manage the health of populations","volume":"366","author":"Obermeyer","year":"2019","journal-title":"Science"},{"key":"2020121009234774200_ocaa164-B24","doi-asserted-by":"crossref","first-page":"41","DOI":"10.1038\/s41746-020-0253-3","article-title":"Presenting machine learning model information to clinical end users with model facts labels","volume":"3","author":"Sendak","year":"2020","journal-title":"NPJ Digit Med"},{"issue":"1","key":"2020121009234774200_ocaa164-B25","doi-asserted-by":"crossref","first-page":"495","DOI":"10.1186\/s13063-015-1023-4","article-title":"A literature review on the representativeness of randomized controlled trial samples and implications for the external validity of trial results","volume":"16","author":"Kennedy-Martin","year":"2015","journal-title":"Trials"},{"key":"2020121009234774200_ocaa164-B26","year":"2019"},{"issue":"8 Suppl 3","key":"2020121009234774200_ocaa164-B27","doi-asserted-by":"crossref","first-page":"S30","DOI":"10.1097\/MLR.0b013e31829b1dbd","article-title":"Caveats for the use of operational electronic health record data in comparative effectiveness research","volume":"51","author":"Hersh","year":"2013","journal-title":"Med Care"},{"issue":"6","key":"2020121009234774200_ocaa164-B28","doi-asserted-by":"crossref","first-page":"e011060","DOI":"10.1136\/bmjopen-2016-011060","article-title":"Utility of models to predict 28-day or 30-day unplanned hospital readmissions: an updated systematic review","volume":"6","author":"Zhou","year":"2016","journal-title":"BMJ Open"},{"issue":"10","key":"2020121009234774200_ocaa164-B29","doi-asserted-by":"crossref","first-page":"1820","DOI":"10.1377\/hlthaff.2017.0546","article-title":"Progress in interoperability: measuring US hospitals\u2019 engagement in sharing patient data","volume":"36","author":"Holmgren","year":"2017","journal-title":"Health Aff (Millwood)"},{"key":"2020121009234774200_ocaa164-B30","first-page":"574","article-title":"Observational Health Data Sciences and Informatics (OHDSI): opportunities for observational researchers","volume":"216","author":"Hripcsak","year":"2015","journal-title":"Stud Health Technol Inform"},{"issue":"9","key":"2020121009234774200_ocaa164-B31","doi-asserted-by":"crossref","first-page":"1337","DOI":"10.1038\/s41591-019-0548-6","article-title":"Do no harm: a roadmap for responsible machine learning for health care","volume":"25","author":"Wiens","year":"2019","journal-title":"Nat Med"},{"issue":"10","key":"2020121009234774200_ocaa164-B32","doi-asserted-by":"crossref","first-page":"e1001885","DOI":"10.1371\/journal.pmed.1001885","article-title":"The Reporting of studies Conducted using Observational Routinely collected health Data (RECORD) statement","volume":"12","author":"Benchimol","year":"2015","journal-title":"PLoS Med"},{"key":"2020121009234774200_ocaa164-B33","doi-asserted-by":"crossref","first-page":"m689","DOI":"10.1136\/bmj.m689","article-title":"Artificial intelligence versus clinicians: systematic review of design, reporting standards, and claims of deep learning studies","volume":"368","author":"Nagendran","year":"2020","journal-title":"BMJ"},{"key":"2020121009234774200_ocaa164-B34","doi-asserted-by":"crossref","DOI":"10.1093\/jamia\/ocaa088","article-title":"MINIMAR: MINimum Information for Medical AI Reporting\u2014developing reporting standards for artificial intelligence in healthcare","author":"Hernandez-Boussard","year":"2020","journal-title":"J Am Med Inform Assoc"}],"container-title":["Journal of the American Medical Informatics Association"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/academic.oup.com\/jamia\/article-pdf\/27\/12\/1878\/34838631\/ocaa164.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"http:\/\/academic.oup.com\/jamia\/article-pdf\/27\/12\/1878\/34838631\/ocaa164.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,12,10]],"date-time":"2020-12-10T14:24:41Z","timestamp":1607610281000},"score":1,"resource":{"primary":{"URL":"https:\/\/academic.oup.com\/jamia\/article\/27\/12\/1878\/5906103"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020,9,16]]},"references-count":34,"journal-issue":{"issue":"12","published-online":{"date-parts":[[2020,9,16]]},"published-print":{"date-parts":[[2020,12,9]]}},"URL":"https:\/\/doi.org\/10.1093\/jamia\/ocaa164","relation":{},"ISSN":["1527-974X"],"issn-type":[{"value":"1527-974X","type":"electronic"}],"subject":[],"published-other":{"date-parts":[[2020,12]]},"published":{"date-parts":[[2020,9,16]]}}}