{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,14]],"date-time":"2026-02-14T09:54:31Z","timestamp":1771062871309,"version":"3.50.1"},"reference-count":41,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2021,1,21]],"date-time":"2021-01-21T00:00:00Z","timestamp":1611187200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2021,1,21]],"date-time":"2021-01-21T00:00:00Z","timestamp":1611187200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"funder":[{"DOI":"10.13039\/100005190","name":"Melanoma Research Alliance","doi-asserted-by":"publisher","award":["622732"],"award-info":[{"award-number":["622732"]}],"id":[{"id":"10.13039\/100005190","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100005190","name":"Melanoma Research Alliance","doi-asserted-by":"publisher","award":["622732"],"award-info":[{"award-number":["622732"]}],"id":[{"id":"10.13039\/100005190","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100015136","name":"UCSF Helen Diller Family Comprehensive Cancer Center","doi-asserted-by":"crossref","id":[{"id":"10.13039\/100015136","id-type":"DOI","asserted-by":"crossref"}]},{"name":"UCSF Summer Explore Fellowship, Marguerite Schoeneman Award, Alameda-Contra Costa Medical Association Summer Fellowship, UCSF\/UCB Joint Medical Program Thesis Grant"},{"DOI":"10.13039\/100000862","name":"Doris Duke Charitable Foundation","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100000862","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["npj Digit. Med."],"abstract":"<jats:title>Abstract<\/jats:title><jats:p>Artificial intelligence models match or exceed dermatologists in melanoma image classification. Less is known about their robustness against real-world variations, and clinicians may incorrectly assume that a model with an acceptable area under the receiver operating characteristic curve or related performance metric is ready for clinical use. Here, we systematically assessed the performance of dermatologist-level convolutional neural networks (CNNs) on real-world non-curated images by applying computational \u201cstress tests\u201d. Our goal was to create a proxy environment in which to comprehensively test the generalizability of off-the-shelf CNNs developed without training or evaluation protocols specific to individual clinics. We found inconsistent predictions on images captured repeatedly in the same setting or subjected to simple transformations (e.g., rotation). Such transformations resulted in false positive or negative predictions for 6.5\u201322% of skin lesions across test datasets. Our findings indicate that models meeting conventionally reported metrics need further validation with computational stress tests to assess clinic readiness.<\/jats:p>","DOI":"10.1038\/s41746-020-00380-6","type":"journal-article","created":{"date-parts":[[2021,1,21]],"date-time":"2021-01-21T11:03:39Z","timestamp":1611227019000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":40,"title":["Stress testing reveals gaps in clinic readiness of image-based diagnostic artificial intelligence models"],"prefix":"10.1038","volume":"4","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-4088-2488","authenticated-orcid":false,"given":"Albert T.","family":"Young","sequence":"first","affiliation":[]},{"given":"Kristen","family":"Fernandez","sequence":"additional","affiliation":[]},{"given":"Jacob","family":"Pfau","sequence":"additional","affiliation":[]},{"given":"Rasika","family":"Reddy","sequence":"additional","affiliation":[]},{"given":"Nhat Anh","family":"Cao","sequence":"additional","affiliation":[]},{"given":"Max Y.","family":"von Franque","sequence":"additional","affiliation":[]},{"given":"Arjun","family":"Johal","sequence":"additional","affiliation":[]},{"given":"Benjamin V.","family":"Wu","sequence":"additional","affiliation":[]},{"given":"Rachel R.","family":"Wu","sequence":"additional","affiliation":[]},{"given":"Jennifer Y.","family":"Chen","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7163-9237","authenticated-orcid":false,"given":"Raj P.","family":"Fadadu","sequence":"additional","affiliation":[]},{"given":"Juan A.","family":"Vasquez","sequence":"additional","affiliation":[]},{"given":"Andrew","family":"Tam","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1240-2192","authenticated-orcid":false,"given":"Michael J.","family":"Keiser","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3568-1921","authenticated-orcid":false,"given":"Maria L.","family":"Wei","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2021,1,21]]},"reference":[{"key":"380_CR1","doi-asserted-by":"publisher","first-page":"115","DOI":"10.1038\/nature21056","volume":"542","author":"A Esteva","year":"2017","unstructured":"Esteva, A. et al. Dermatologist-level classification of skin cancer with deep neural networks. Nature 542, 115\u2013118 (2017).","journal-title":"Nature"},{"key":"380_CR2","doi-asserted-by":"publisher","first-page":"900","DOI":"10.1038\/s41591-020-0842-3","volume":"26","author":"Y Liu","year":"2020","unstructured":"Liu, Y. et al. A deep learning system for differential diagnosis of skin diseases. Nat. Med. 26, 900\u2013908 (2020).","journal-title":"Nat. Med."},{"key":"380_CR3","doi-asserted-by":"publisher","first-page":"29","DOI":"10.1001\/jamadermatol.2019.3807","volume":"156","author":"SS Han","year":"2020","unstructured":"Han, S. S. et al. Keratinocytic skin cancer detection on the face using region-based convolutional neural network. JAMA Dermatol. 156, 29\u201337 (2020).","journal-title":"JAMA Dermatol."},{"key":"380_CR4","doi-asserted-by":"publisher","first-page":"1753","DOI":"10.1016\/j.jid.2020.01.019","volume":"140","author":"SS Han","year":"2020","unstructured":"Han, S.S. et al. Augmented intelligence dermatology: deep neural networks empower medical professionals in diagnosing skin cancer and predicting treatment options for 134 skin disorders.J. Invest. Dermatol. 140, 1753\u20131761 (2020).","journal-title":"J. Invest. Dermatol."},{"key":"380_CR5","doi-asserted-by":"publisher","first-page":"1291","DOI":"10.1001\/jamadermatol.2019.1375","volume":"155","author":"V Dick","year":"2019","unstructured":"Dick, V., Sinz, C., Mittlb\u00f6ck, M., Kittler, H. & Tschandl, P. Accuracy of computer-aided diagnosis of melanoma. JAMA Dermatol. 155, 1291 (2019).","journal-title":"JAMA Dermatol."},{"key":"380_CR6","doi-asserted-by":"publisher","first-page":"1229","DOI":"10.1038\/s41591-020-0942-0","volume":"26","author":"P Tschandl","year":"2020","unstructured":"Tschandl, P. et al. Human\u2013computer collaboration for skin cancer recognition.Nat. Med. 26, 1229\u20131234 (2020).","journal-title":"Nat. Med."},{"key":"380_CR7","doi-asserted-by":"publisher","first-page":"85","DOI":"10.1007\/s13671-019-0259-8","volume":"8","author":"M Xiong","year":"2019","unstructured":"Xiong, M., Pfau, J., Young, A. T. & Wei, M. L. Artificial intelligence in teledermatology. Curr. Dermatol. Rep. 8, 85\u201390 (2019).","journal-title":"Curr. Dermatol. Rep."},{"key":"380_CR8","doi-asserted-by":"publisher","first-page":"501","DOI":"10.1001\/jamadermatol.2019.5014","volume":"156","author":"CA Nelson","year":"2020","unstructured":"Nelson, C.A. et al. Patient perspectives on the use of artificial intelligence for skin cancer screening: a qualitative study.JAMA Dermatol. 156, 501\u2013512 (2020).","journal-title":"JAMA Dermatol."},{"key":"380_CR9","doi-asserted-by":"publisher","first-page":"2277","DOI":"10.1016\/j.jid.2018.04.040","volume":"138","author":"C Navarrete-Dechent","year":"2018","unstructured":"Navarrete-Dechent, C. et al. Automated dermatological diagnosis: hype or reality? J. Invest. Dermatol. 138, 2277\u20132279 (2018).","journal-title":"J. Invest. Dermatol."},{"key":"380_CR10","doi-asserted-by":"publisher","first-page":"1504","DOI":"10.1016\/j.jid.2020.02.026","volume":"140","author":"AT Young","year":"2020","unstructured":"Young, A.T., Xiong, M., Pfau, J., Keiser, M.J. & Wei, M.L. Artificial intelligence in dermatology: a primer.J. Investigative Dermatol. 140, 1504\u20131512 (2020).","journal-title":"J. Investigative Dermatol."},{"key":"380_CR11","doi-asserted-by":"publisher","first-page":"128","DOI":"10.1097\/EDE.0b013e3181c30fb2","volume":"21","author":"EW Steyerberg","year":"2010","unstructured":"Steyerberg, E. W. et al. Assessing the performance of prediction models: a framework for traditional and novel measures. Epidemiology 21, 128\u2013138 (2010).","journal-title":"Epidemiology"},{"key":"380_CR12","doi-asserted-by":"publisher","unstructured":"Mendonca, T., Ferreira, P. M., Marques, J. S., Marcal, A. R. S. & Rozeira, J. PH2 - a dermoscopic image database for research and benchmarking. In Proc. Annual International Conference of the IEEE Engineering in Medicine and Biology Society, EMBS. 5437\u20135440 (IEEE, 2013), https:\/\/doi.org\/10.1109\/EMBC.2013.6610779.","DOI":"10.1109\/EMBC.2013.6610779"},{"key":"380_CR13","doi-asserted-by":"publisher","first-page":"30","DOI":"10.1016\/j.ejca.2018.12.016","volume":"111","author":"TJ Brinker","year":"2019","unstructured":"Brinker, T. J. et al. Comparing artificial intelligence algorithms to 157 German dermatologists: the melanoma classification benchmark. Eur. J. Cancer 111, 30\u201337 (2019).","journal-title":"Eur. J. Cancer"},{"key":"380_CR14","doi-asserted-by":"publisher","first-page":"148","DOI":"10.1016\/j.ejca.2019.02.005","volume":"111","author":"TJ Brinker","year":"2019","unstructured":"Brinker, T. J. et al. A convolutional neural network trained with dermoscopic images performed on par with 145 dermatologists in a clinical melanoma image classification task. Eur. J. Cancer 111, 148\u2013154 (2019).","journal-title":"Eur. J. Cancer"},{"key":"380_CR15","doi-asserted-by":"publisher","first-page":"47","DOI":"10.1016\/j.ejca.2019.04.001","volume":"113","author":"TJ Brinker","year":"2019","unstructured":"Brinker, T. J. et al. Deep learning outperformed 136 of 157 dermatologists in a head-to-head dermoscopic melanoma image classification task. Eur. J. Cancer 113, 47\u201354 (2019).","journal-title":"Eur. J. Cancer"},{"key":"380_CR16","unstructured":"Guo, C., Pleiss, G., Sun, Y. & Weinberger, K. Q. On calibration of modern neural networks. In Proc. 34th International Conference on Machine Learning. 1321\u20131330 (ICML\u201917 2017)."},{"key":"380_CR17","unstructured":"Ziyin, L. et al. Deep Gamblers: Learning to Abstain with Portfolio Theory. Preprint at https:\/\/arxiv.org\/abs\/1907.00208 (2019)."},{"key":"380_CR18","doi-asserted-by":"publisher","unstructured":"Van Molle, P. et al. Quantifying uncertainty of deep neural networks in skin lesion classification. In Uncertainty for Safe Utilization of Machine Learning in Medical Imaging and Clinical Image-Based Procedures. 52\u201361 (Springer, Cham, 2019), https:\/\/doi.org\/10.1007\/978-3-030-32689-0_6.","DOI":"10.1007\/978-3-030-32689-0_6"},{"key":"380_CR19","unstructured":"Mozafari, A. S., Gomes, H. S., Le\u00e3o, W. & Gagn\u00e9, C. Unsupervised temperature scaling: an unsupervised post-processing calibration method of deepnetworks. Preprint at https:\/\/arxiv.org\/abs\/1907.00208 (2019)."},{"key":"380_CR20","doi-asserted-by":"publisher","first-page":"1135","DOI":"10.1001\/jamadermatol.2019.1735","volume":"155","author":"JK Winkler","year":"2019","unstructured":"Winkler, J. K. et al. Association between surgical skin markings in dermoscopic images and diagnostic performance of a deep learning convolutional neural network for melanoma recognition. JAMA Dermatol. 155, 1135\u20131141 (2019).","journal-title":"JAMA Dermatol."},{"key":"380_CR21","doi-asserted-by":"crossref","unstructured":"Mohseni, S., Pitale, M., Yadawa, J. & Wang, Z. Self-supervised learning for generalizable out-of-distribution detection. In Proc. AAAI Conference on Artificial Intelligence. 5216\u20135223 (AAAI, 2020).","DOI":"10.1609\/aaai.v34i04.5966"},{"key":"380_CR22","doi-asserted-by":"publisher","first-page":"e271","DOI":"10.1016\/S2589-7500(19)30123-2","volume":"1","author":"X Liu","year":"2019","unstructured":"Liu, X. et al. A comparison of deep learning performance against health-care professionals in detecting diseases from medical imaging: a systematic review and meta-analysis. Lancet Digit. Heal. 1, e271\u2013e297 (2019).","journal-title":"Lancet Digit. Heal."},{"key":"380_CR23","doi-asserted-by":"publisher","first-page":"137","DOI":"10.1016\/j.annonc.2019.10.013","volume":"31","author":"HA Haenssle","year":"2020","unstructured":"Haenssle, H. A. et al. Man against machine reloaded: performance of a market-approved convolutional neural network in classifying a broad spectrum of skin lesions in comparison with 96 dermatologists working under less artificial conditions.Ann. Oncol. 31, 137\u2013143 (2020).","journal-title":"Ann. Oncol."},{"key":"380_CR24","doi-asserted-by":"publisher","DOI":"10.1038\/sdata.2018.161","volume":"5","author":"P Tschandl","year":"2018","unstructured":"Tschandl, P., Rosendahl, C. & Kittler, H. The HAM10000 dataset, a large collection of multi-source dermatoscopic images of common pigmented skin lesions. Sci. Data 5, 180161 (2018).","journal-title":"Sci. Data"},{"key":"380_CR25","doi-asserted-by":"publisher","first-page":"211","DOI":"10.1007\/s11263-015-0816-y","volume":"115","author":"O Russakovsky","year":"2015","unstructured":"Russakovsky, O. et al. ImageNet large scale visual recognition challenge. Int. J. Comput. Vis. 115, 211\u2013252 (2015).","journal-title":"Int. J. Comput. Vis."},{"key":"380_CR26","unstructured":"Hendrycks, D., Lee, K. & Mazeika, M. Using pre-training can improve model robustness and uncertainty. Preprint at https:\/\/arxiv.org\/abs\/1901.09960 (2019)."},{"key":"380_CR27","unstructured":"Engstrom, L., Tran, B., Tsipras, D., Schmidt, L. & Madry, A. Exploring the Landscape of Spatial Robustness. Preprint at https:\/\/arxiv.org\/abs\/1712.02779 (2019)."},{"key":"380_CR28","doi-asserted-by":"crossref","unstructured":"Lafarge, M. W., Bekkers, E. J., Pluim, J. P. W., Duits, R. & Veta, M. Roto-translation equivariant convolutional networks: Application to histopathologyimage analysis. Med. Image Anal. 68, (2021).","DOI":"10.1016\/j.media.2020.101849"},{"key":"380_CR29","doi-asserted-by":"crossref","unstructured":"Xie, Q., Luong, M.-T., Hovy, E. & Le, Q. V. Self-training with Noisy Student improves ImageNet classification. Preprint at https:\/\/arxiv.org\/abs\/1911.04252 (2020).","DOI":"10.1109\/CVPR42600.2020.01070"},{"key":"380_CR30","unstructured":"Balunovi\u0107, M., Baader, M., Singh, G., Gehr, T. & Vechev, M. Certifying geometric robustness of neural networks. In 33rd Conference on Neural Information Processing Systems (NeurIPS, 2019)."},{"key":"380_CR31","unstructured":"Mukhoti, J. et al. Calibrating Deep Neural Networks using Focal Loss. Preprint at https:\/\/arxiv.org\/abs\/2002.09437 (2020)."},{"key":"380_CR32","unstructured":"Gutman, D. et al. Skin lesion analysis toward melanoma detection: a challenge. In International Symposium on Biomedical Imaging (ISBI, 2016)."},{"key":"380_CR33","unstructured":"DermNet NZ \u2013 All About the Skin | DermNet NZ. https:\/\/dermnetnz.org\/."},{"key":"380_CR34","unstructured":"Dermofit Image Library - Edinburgh Innovations. https:\/\/licensing.eri.ed.ac.uk\/i\/software\/dermofit-image-library.html."},{"key":"380_CR35","doi-asserted-by":"crossref","unstructured":"Hu, J., Shen, L., Albanie, S., Sun, G. & Wu, E. Squeeze-and-excitation networks. In Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 7132\u20137141 (IEEE, 2017).","DOI":"10.1109\/CVPR.2018.00745"},{"key":"380_CR36","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S. & Sun, J. Deep residual learning for image recognition. In Proc. IEEE Computer Society Conference on Computer Vision and Pattern Recognition. 770\u2013778 (IEEE, 2016).","DOI":"10.1109\/CVPR.2016.90"},{"key":"380_CR37","doi-asserted-by":"crossref","unstructured":"Hendrycks, D., Zhao, K., Basart, S., Steinhardt, J. & Song, D. Natural Adversarial Examples. Preprint at https:\/\/arxiv.org\/abs\/1907.07174 (2020).","DOI":"10.1109\/CVPR46437.2021.01501"},{"key":"380_CR38","doi-asserted-by":"publisher","first-page":"377","DOI":"10.1016\/j.jbi.2008.08.010","volume":"42","author":"PA Harris","year":"2009","unstructured":"Harris, P. A. et al. Research electronic data capture (REDCap)-a metadata-driven methodology and workflow process for providing translational research informatics support. J. Biomed. Inform. 42, 377\u2013381 (2009).","journal-title":"J. Biomed. Inform."},{"key":"380_CR39","doi-asserted-by":"publisher","first-page":"103208","DOI":"10.1016\/j.jbi.2019.103208","volume":"95","author":"PA Harris","year":"2019","unstructured":"Harris, P. A. et al. The REDCap consortium: building an international community of software platform partners. J. Biomed. Inform. 95, 103208 (2019).","journal-title":"J. Biomed. Inform."},{"key":"380_CR40","doi-asserted-by":"publisher","first-page":"837","DOI":"10.2307\/2531595","volume":"44","author":"ER DeLong","year":"1988","unstructured":"DeLong, E. R., DeLong, D. M. & Clarke-Pearson, D. L. Comparing the areas under two or more correlated receiver operating characteristic curves: a nonparametric approach. Biometrics 44, 837\u2013845 (1988).","journal-title":"Biometrics"},{"key":"380_CR41","unstructured":"R Core Team. R: A Language and Environment for Statistical Computing. http:\/\/www.r-project.org\/index.html (2020)."}],"container-title":["npj Digital Medicine"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/www.nature.com\/articles\/s41746-020-00380-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/www.nature.com\/articles\/s41746-020-00380-6","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/www.nature.com\/articles\/s41746-020-00380-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,12,3]],"date-time":"2022-12-03T19:12:06Z","timestamp":1670094726000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.nature.com\/articles\/s41746-020-00380-6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,1,21]]},"references-count":41,"journal-issue":{"issue":"1","published-online":{"date-parts":[[2021,12]]}},"alternative-id":["380"],"URL":"https:\/\/doi.org\/10.1038\/s41746-020-00380-6","relation":{},"ISSN":["2398-6352"],"issn-type":[{"value":"2398-6352","type":"electronic"}],"subject":[],"published":{"date-parts":[[2021,1,21]]},"assertion":[{"value":"26 August 2020","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"9 December 2020","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 January 2021","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"The authors declare no competing interests.","order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interests"}}],"article-number":"10"}}