{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,28]],"date-time":"2025-11-28T11:32:32Z","timestamp":1764329552418,"version":"3.46.0"},"reference-count":168,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2025,11,28]],"date-time":"2025-11-28T00:00:00Z","timestamp":1764288000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2025,11,28]],"date-time":"2025-11-28T00:00:00Z","timestamp":1764288000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["BMC Med Inform Decis Mak"],"DOI":"10.1186\/s12911-025-03266-3","type":"journal-article","created":{"date-parts":[[2025,11,28]],"date-time":"2025-11-28T11:27:03Z","timestamp":1764329223000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Augmenting small tabular health data for training prognostic ensemble machine learning models using generative models"],"prefix":"10.1186","volume":"25","author":[{"given":"Dan","family":"Liu","sequence":"first","affiliation":[]},{"given":"Samer El","family":"Kababji","sequence":"additional","affiliation":[]},{"given":"Nicholas","family":"Mitsakakis","sequence":"additional","affiliation":[]},{"given":"Lisa","family":"Pilgram","sequence":"additional","affiliation":[]},{"given":"Thomas D.","family":"Walters","sequence":"additional","affiliation":[]},{"given":"Mark","family":"Clemons","sequence":"additional","affiliation":[]},{"given":"Gregory R.","family":"Pond","sequence":"additional","affiliation":[]},{"given":"Alaa","family":"El-Hussuna","sequence":"additional","affiliation":[]},{"given":"Khaled El","family":"Emam","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,11,28]]},"reference":[{"key":"3266_CR1","doi-asserted-by":"publisher","first-page":"8","DOI":"10.1016\/j.jclinepi.2022.11.015","volume":"154","author":"CL Andaur Navarro","year":"2023","unstructured":"Andaur Navarro CL, Damen JAA, van Smeden M, et al. Systematic review identifies the design and methodological conduct of studies on machine learning-based prediction models. J Educ Chang Clin Epidemiol. 2023;154:8\u201322. https:\/\/doi.org\/10.1016\/j.jclinepi.2022.11.015.","journal-title":"J Educ Chang Clin Epidemiol"},{"key":"3266_CR2","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1186\/s12874-022-01577-x","volume":"22","author":"P Dhiman","year":"2022","unstructured":"Dhiman P, Ma J, Andaur Navarro CL, et al. Methodological conduct of prognostic prediction models developed using machine learning in oncology: a systematic review. BMC Med Res Methodol. 2022;22:1\u201316. https:\/\/doi.org\/10.1186\/s12874-022-01577-x.","journal-title":"BMC Med Res Methodol"},{"key":"3266_CR3","doi-asserted-by":"publisher","unstructured":"van der Ploeg T, Austin PC, Steyerberg EW. Modern modelling techniques are data hungry: a simulation study for predicting dichotomous endpoints. BMC Med Res Methodol. 2014;14:137. https:\/\/doi.org\/10.1186\/1471-2288-14-137.","DOI":"10.1186\/1471-2288-14-137"},{"key":"3266_CR4","doi-asserted-by":"crossref","unstructured":"Tsegaye B, Snell KIE, Archer L, et al. Larger sample sizes are needed when developing a clinical prediction Model using machine learning in oncology. Methodological Systematic Rev. 2024.","DOI":"10.2139\/ssrn.4816525"},{"key":"3266_CR5","doi-asserted-by":"publisher","unstructured":"Mumuni A, Mumuni F. Data augmentation: a comprehensive survey of modern approaches. Array. 2022;16:100258. https:\/\/doi.org\/10.1016\/j.array.2022.100258.","DOI":"10.1016\/j.array.2022.100258"},{"key":"3266_CR6","unstructured":"Jordon J, Szpruch L, Houssiau F, et al. Synthetic data \u2013 what, why and how? 2022."},{"key":"3266_CR7","doi-asserted-by":"publisher","unstructured":"Shorten C, Khoshgoftaar TM. A survey on image data augmentation for deep learning. J Big Data. 2019;6:60. https:\/\/doi.org\/10.1186\/s40537-019-0197-0.","DOI":"10.1186\/s40537-019-0197-0"},{"key":"3266_CR8","doi-asserted-by":"publisher","unstructured":"Goceri E. Medical image data augmentation: techniques, comparisons and interpretations. Artif Intell Rev. 2023;56:12561\u2013605. https:\/\/doi.org\/10.1007\/s10462-023-10453-z.","DOI":"10.1007\/s10462-023-10453-z"},{"key":"3266_CR9","doi-asserted-by":"publisher","unstructured":"Naveed H, Anwar S, Hayat M, et al. Survey: image mixing and deleting for data augmentation. Eng Appl Artif Intel. 2024;131:107791. https:\/\/doi.org\/10.1016\/j.engappai.2023.107791.","DOI":"10.1016\/j.engappai.2023.107791"},{"key":"3266_CR10","doi-asserted-by":"crossref","unstructured":"Feng SY, Gangal V, Wei J, et al. A survey of data augmentation approaches for NLP. 2021.","DOI":"10.18653\/v1\/2021.findings-acl.84"},{"key":"3266_CR11","doi-asserted-by":"publisher","unstructured":"Chlap P, Min H, Vandenberg N, et al. A review of medical image data augmentation techniques for deep learning applications. J Med Imag Radiat Oncol. 2021;65:545\u201363. https:\/\/doi.org\/10.1111\/1754-9485.13261.","DOI":"10.1111\/1754-9485.13261"},{"key":"3266_CR12","doi-asserted-by":"crossref","unstructured":"Wong SC, Gatt A, Stamatescu V, et al. Understanding data augmentation for classification: when to warp? Cornell University Archive (arXiv) 2016.","DOI":"10.1109\/DICTA.2016.7797091"},{"key":"3266_CR13","unstructured":"GAN-based synthetic brain MR image generation |. IEEE Conference Publication |. IEEE Xplore. https:\/\/ieeexplore-ieee-org.proxy.bib.uottawa.ca\/abstract\/document\/8363678. Accessed 12 Aug 2024."},{"key":"3266_CR14","doi-asserted-by":"publisher","unstructured":"Dar SUH, Yurt M, Karacan L, et al. Image synthesis in multi-contrast mri with conditional generative adversarial networks. IEEE Trans Med Imag. 2019;38:2375\u201388. https:\/\/doi.org\/10.1109\/TMI.2019.2901750.","DOI":"10.1109\/TMI.2019.2901750"},{"key":"3266_CR15","doi-asserted-by":"crossref","unstructured":"Zhuang P, Schwing AG, Koyejo O. FMRI data augmentation via synthesis. 2019 IEEE 16th International Symposium on Biomedical Imaging (ISBI 2019). 2019:1783\u201387.","DOI":"10.1109\/ISBI.2019.8759585"},{"key":"3266_CR16","doi-asserted-by":"crossref","unstructured":"Huo J, Vakharia V, Wu C, et al. Brain lesion synthesis via progressive adversarial variational auto-encoder. In: Zhao C, Svoboda D, et al., eds. Simulation and synthesis in medical imaging. Cham: Springer International Publishing; 2022. p. 101\u201311.","DOI":"10.1007\/978-3-031-16980-9_10"},{"key":"3266_CR17","doi-asserted-by":"publisher","unstructured":"Pesteie M, Abolmaesumi P, Rohling RN. Adaptive augmentation of medical data using independently conditional variational auto-encoders. IEEE Trans Med Imag. 2019;38:2807\u201320. https:\/\/doi.org\/10.1109\/TMI.2019.2914656.","DOI":"10.1109\/TMI.2019.2914656"},{"key":"3266_CR18","doi-asserted-by":"crossref","unstructured":"Milletari F, Navab N, Ahmadi S-A. V-Net: fully convolutional neural networks for volumetric medical image segmentation. 2016 Fourth International Conference on 3D Vision (3DV). 2016:565\u201371.","DOI":"10.1109\/3DV.2016.79"},{"key":"3266_CR19","doi-asserted-by":"publisher","unstructured":"Elbattah M, Loughnane C, Gu\u00e9rin J-L, et al. Variational autoencoder for image-based augmentation of eye-tracking data. J Imag. 2021;7:83. https:\/\/doi.org\/10.3390\/jimaging7050083.","DOI":"10.3390\/jimaging7050083"},{"key":"3266_CR20","doi-asserted-by":"crossref","unstructured":"Gao Y, Tang Z, Zhou M, et al. Enabling data diversity: efficient automatic augmentation via regularized adversarial training. 2021.","DOI":"10.1007\/978-3-030-78191-0_7"},{"key":"3266_CR21","unstructured":"Zhu J-Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks. 2020."},{"key":"3266_CR22","doi-asserted-by":"crossref","unstructured":"Sharma A, Hamarneh G. Missing mri pulse sequence synthesis using multi-modal generative adversarial network. 2019.","DOI":"10.1109\/TMI.2019.2945521"},{"key":"3266_CR23","doi-asserted-by":"crossref","unstructured":"Jiang J, Y-C H, Tyagi N, et al. Tumor-Aware, Adversarial domain adaptation from CT to MRI for lung cancer segmentation. In: Frangi AF, Schnabel JA, Davatzikos C, et al., editors. Medical image computing and computer assisted intervention \u2013 MICCAI 2018. Cham: Springer International Publishing; 2018. p. 777\u201385.","DOI":"10.1007\/978-3-030-00934-2_86"},{"key":"3266_CR24","unstructured":"Shin H-C, Tenenholtz NA, Rogers JK, et al. Medical image synthesis for data augmentation and anonymization using generative adversarial networks. https:\/\/arxiv.org\/abs\/1807.10225 [cs, stat]. Published Online First: 2018, July, 26."},{"key":"3266_CR25","unstructured":"Ho J, Jain A, Abbeel P. Denoising diffusion probabilistic models. 2020."},{"key":"3266_CR26","unstructured":"Dhariwal P, Nichol A. Diffusion models beat GANs on image synthesis. 2021."},{"key":"3266_CR27","unstructured":"Podell D, English Z, Lacey K, et al. SDXL: improving latent diffusion models for High-resolution image synthesis. 2023."},{"key":"3266_CR28","unstructured":"Yang L, Yu Z, Meng C, et al. Mastering text-to-image diffusion: recaptioning. Plann, And Generating With Multimodal LLMs. 2024."},{"key":"3266_CR29","doi-asserted-by":"publisher","unstructured":"Duong H-T, Nguyen-Thi T-A. A review: preprocessing techniques and data augmentation for sentiment analysis. Comput Soc Netw. 2021;8:1. https:\/\/doi.org\/10.1186\/s40649-020-00080-x.","DOI":"10.1186\/s40649-020-00080-x"},{"key":"3266_CR30","doi-asserted-by":"publisher","unstructured":"Takahashi R, Matsubara T, Uehara K. Data augmentation using random image cropping and patching for deep CNNs. IEEE Trans Circuits Syst Video Technol. 2020;30:2917\u201331. https:\/\/doi.org\/10.1109\/TCSVT.2019.2935128.","DOI":"10.1109\/TCSVT.2019.2935128"},{"key":"3266_CR31","doi-asserted-by":"crossref","unstructured":"Gibadullin A, editor. Digital and Information Technologies in Economics and Management: Proceedings of the International Scientific and Practical Conference \u201cDigital and Information Technologies in Economics and Management\u201d. (DITEM2023). Cham: Springer Nature Switzerland 2024.","DOI":"10.1007\/978-3-031-55349-3"},{"key":"3266_CR32","doi-asserted-by":"publisher","first-page":"125","DOI":"10.3390\/info11020125","volume":"11","author":"A Buslaev","year":"2020","unstructured":"Buslaev A, Parinov A, Khvedchenya E, et al. Albumentations: fast and flexible image augmentations. Information. 2020;11:125. https:\/\/doi.org\/10.3390\/info11020125.","journal-title":"Information"},{"key":"3266_CR33","doi-asserted-by":"publisher","first-page":"10123","DOI":"10.1007\/s00521-023-08459-3","volume":"35","author":"G Iglesias","year":"2023","unstructured":"Iglesias G, Talavera E, Gonz\u00e1lez-Prieto \u00c1, et al. Data augmentation techniques in time series domain: a survey and taxonomy. Neural Comput Applic. 2023;35:10123\u201345. https:\/\/doi.org\/10.1007\/s00521-023-08459-3.","journal-title":"Neural Comput Applic"},{"key":"3266_CR34","doi-asserted-by":"publisher","unstructured":"Systematic literature review of preprocessing techniques for imbalanced data. https:\/\/doi.org\/10.1049\/iet-sen.2018.5193.","DOI":"10.1049\/iet-sen.2018.5193"},{"key":"3266_CR35","unstructured":"Wen Q, Sun L, Yang F, et al. Time series data augmentation for deep learning: a survey. arXiv.org. 2020. https:\/\/arxiv.org\/abs\/2002.12478v4. Accessed 9 Nov 2024."},{"key":"3266_CR36","doi-asserted-by":"publisher","unstructured":"Iwana BK, Uchida S. An empirical survey of data augmentation for time series classification with neural networks. PLoS ONE. 2021;16:e0254841. https:\/\/doi.org\/10.1371\/journal.pone.0254841.","DOI":"10.1371\/journal.pone.0254841"},{"key":"3266_CR37","doi-asserted-by":"crossref","unstructured":"Banko M, Brill E. Scaling to very very large corpora for natural language disambiguation. Proceedings of the 39th Annual Meeting on Association for Computational Linguistics - ACL\u201901. Toulouse, France: Association for Computational Linguistics: 2001:26\u201333.","DOI":"10.3115\/1073012.1073017"},{"key":"3266_CR38","doi-asserted-by":"crossref","unstructured":"Taylor L, Nitschke G. Improving deep learning with generic data augmentation. 2018 IEEE Symposium Series on Computational Intelligence (SSCI). 2018:1542\u201347.","DOI":"10.1109\/SSCI.2018.8628742"},{"key":"3266_CR39","doi-asserted-by":"crossref","unstructured":"Alzantot M, Sharma Y, Elgohary A, et al. Generating natural language adversarial examples. 2018.","DOI":"10.18653\/v1\/D18-1316"},{"key":"3266_CR40","doi-asserted-by":"crossref","unstructured":"Tobin J, Fong R, Ray A, et al. Domain randomization for transferring deep neural networks from simulation to the real world. 2017.","DOI":"10.1109\/IROS.2017.8202133"},{"key":"3266_CR41","doi-asserted-by":"crossref","unstructured":"Simard PY, Steinkraus D, Platt JC. Best practices for convolutional neural networks applied to visual document analysis. Seventh International Conference on Document Analysis and Recognition. Edinburgh, UK: IEEE Comput. Soc; 2003 2003 Proceedings.958\u201363.","DOI":"10.1109\/ICDAR.2003.1227801"},{"key":"3266_CR42","doi-asserted-by":"publisher","first-page":"135","DOI":"10.3390\/data8090135","volume":"8","author":"W Wang","year":"2023","unstructured":"Wang W, Pai T-W. Enhancing small tabular clinical trial dataset through hybrid data augmentation: combining SMOTE and WCGAN-GP. Data. 2023;8:135. https:\/\/doi.org\/10.3390\/data8090135.","journal-title":"Data"},{"key":"3266_CR43","doi-asserted-by":"publisher","first-page":"8793","DOI":"10.3390\/app13158793","volume":"13","author":"D Papadopoulos","year":"2023","unstructured":"Papadopoulos D, Karalis VD. Variational autoencoders for data augmentation in clinical studies. Appl Sci. 2023;13:8793. https:\/\/doi.org\/10.3390\/app13158793.","journal-title":"Appl Sci"},{"key":"3266_CR44","unstructured":"Shafquat A, Mezey J, Beigi M, et al. An interpretable data augmentation framework for improving generative modeling of synthetic clinical trial data. ICML 3rd Workshop on Interpretable Machine Learning in Healthcare (IMLH). 2023."},{"key":"3266_CR45","doi-asserted-by":"publisher","first-page":"101171","DOI":"10.1016\/j.imu.2023.101171","volume":"37","author":"MSK Inan","year":"2023","unstructured":"Inan MSK, Hossain S, Uddin MN. Data augmentation guided breast cancer diagnosis and prognosis using an integrated deep-generative framework based on breast tumor\u2019s morphological information. Inf Med Unlocked. 2023;37:101171. https:\/\/doi.org\/10.1016\/j.imu.2023.101171.","journal-title":"Inf Med Unlocked"},{"key":"3266_CR46","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1038\/s41746-023-00822-x","volume":"6","author":"G Nikolentzos","year":"2023","unstructured":"Nikolentzos G, Vazirgiannis M, Xypolopoulos C, et al. Synthetic electronic health records generated with variational graph autoencoders. NPJ Digit Med. 2023;6:1\u201312. https:\/\/doi.org\/10.1038\/s41746-023-00822-x.","journal-title":"NPJ Digit Med"},{"key":"3266_CR47","doi-asserted-by":"publisher","unstructured":"Zhang Q, Wei Y, Hou J, et al. AEGAN-Pathifier: a data augmentation method to improve cancer classification for imbalanced gene expression data. BMC Bioinf. 2024;25. https:\/\/doi.org\/10.1186\/s12859-024-06013-z.","DOI":"10.1186\/s12859-024-06013-z"},{"key":"3266_CR48","doi-asserted-by":"publisher","unstructured":"Li R, Wu J, Li G, et al. Mdwgan-gp: data augmentation for gene expression data based on multiple discriminator WGAN-GP. BMC Bioinf. 2023;24. https:\/\/doi.org\/10.1186\/s12859-023-05558-9.","DOI":"10.1186\/s12859-023-05558-9"},{"key":"3266_CR49","doi-asserted-by":"crossref","unstructured":"Groen D, De Mulatier C, Paszynski M, et al, editors. Proceedings, part iii. Computational Science \u2013 ICCS 2022: 22nd International Conference. London, UK,. Cham: Springer International Publishing; 2022 2022 June 21\u201323.","DOI":"10.1007\/978-3-031-08757-8"},{"key":"3266_CR50","doi-asserted-by":"publisher","first-page":"16325","DOI":"10.1007\/s00521-022-07417-9","volume":"34","author":"F Han","year":"2022","unstructured":"Han F, Zhu S, Ling Q, et al. Gene-CWGAN: a data enhancement method for gene expression profile based on improved CWGAN-GP. Neural Comput & Applic. 2022;34:16325\u201339. https:\/\/doi.org\/10.1007\/s00521-022-07417-9.","journal-title":"Neural Comput Applic"},{"key":"3266_CR51","doi-asserted-by":"publisher","first-page":"275","DOI":"10.5909\/JBE.2023.28.3.275","volume":"28","author":"H Bong","year":"2023","unstructured":"Bong H, Oh M. Conditional variational autoencoder-based generative Model for gene expression data augmentation. J Retailing Broadcast Eng. 2023;28:275\u201384. https:\/\/doi.org\/10.5909\/JBE.2023.28.3.275.","journal-title":"J Retailing Broadcast Eng"},{"key":"3266_CR52","unstructured":"van Breugel B, van der Schaar M. Why tabular foundation models should Be a research priority. arXiv.org. 2024. https:\/\/arxiv.org\/abs\/2405.01147v2. Accessed 1 Dec 2024."},{"key":"3266_CR53","doi-asserted-by":"publisher","first-page":"109414","DOI":"10.1016\/j.compbiomed.2024.109414","volume":"184","author":"F Traquete","year":"2025","unstructured":"Traquete F, Sousa Silva M, Ferreira AEN. Enhancing supervised analysis of imbalanced untargeted metabolomics datasets using a CWGAN-GP framework for data augmentation. Comput Biol Med. 2025;184:109414. https:\/\/doi.org\/10.1016\/j.compbiomed.2024.109414.","journal-title":"Comput Biol Med"},{"key":"3266_CR54","doi-asserted-by":"publisher","first-page":"105916","DOI":"10.1016\/j.compbiomed.2022.105916","volume":"148","author":"FJ Moreno-Barea","year":"2022","unstructured":"Moreno-Barea FJ, Franco L, Elizondo D, et al. Application of data augmentation techniques towards metabolomics. Comput Biol Med. 2022;148:105916. https:\/\/doi.org\/10.1016\/j.compbiomed.2022.105916.","journal-title":"Comput Biol Med"},{"key":"3266_CR55","doi-asserted-by":"publisher","unstructured":"Juwara L, El-Hussuna A, El Emam K. An evaluation of synthetic data augmentation for mitigating covariate bias in health data. Patterns. Published Online First: 2024. https:\/\/doi.org\/10.1016\/j.patter.2024.100946.","DOI":"10.1016\/j.patter.2024.100946"},{"key":"3266_CR56","doi-asserted-by":"publisher","unstructured":"El Emam K, Mosquera L, Zheng C. Optimizing the synthesis of clinical trial data using sequential trees. J Am Med Inf Assoc. https:\/\/doi.org\/10.1093\/jamia\/ocaa249. Published Online First: 13 November 2020.","DOI":"10.1093\/jamia\/ocaa249"},{"key":"3266_CR57","unstructured":"Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial nets. Adv Neural Inf Process Syst. 2014;2672\u201380."},{"key":"3266_CR58","unstructured":"Kingma DP, Welling MA-EVB. 2013."},{"key":"3266_CR59","unstructured":"Sabay A, Harris L, Bejugama V, et al. Overcoming small data limitations in heart disease prediction by using surrogate data. SMU Data Sci Rev. 2018;1:Article 12."},{"key":"3266_CR60","doi-asserted-by":"crossref","unstructured":"Nakhwan M, Duangsoithong R. Comparison analysis of Data augmentation using bootstrap, GANs and autoencoder. 2022 14th International Conference on Knowledge and Smart Technology (KST). 2022:18\u201323.","DOI":"10.1109\/KST53302.2022.9729065"},{"key":"3266_CR61","doi-asserted-by":"crossref","unstructured":"Zhao Y, Duangsoithong R. Empirical analysis using feature selection and bootstrap data for small sample size problems. 2019 16th International Conference on Electrical Engineering\/Electronics, Computer, Telecommunications and Information Technology (ECTI-CON); 2019. p. 814\u2013817.","DOI":"10.1109\/ECTI-CON47248.2019.8955366"},{"key":"3266_CR62","unstructured":"Pederson M. Exploring the value of GANs for synthetic tabular Data generation in healthcare with a focus on Data quality. 2023."},{"key":"3266_CR63","doi-asserted-by":"publisher","first-page":"108389","DOI":"10.1016\/j.compbiomed.2024.108389","volume":"174","author":"M Ahmadian","year":"2024","unstructured":"Ahmadian M, Bodalal Z, van der Hulst HJ, et al. Overcoming data scarcity in radiomics\/radiogenomics using synthetic radiomic features. Comput Biol Med. 2024;174:108389. https:\/\/doi.org\/10.1016\/j.compbiomed.2024.108389.","journal-title":"Comput Biol Med"},{"key":"3266_CR64","doi-asserted-by":"crossref","unstructured":"Yoo J, Park J, Wang A, et al. On the performance of generative adversarial network (GAN) variants: a clinical data study. arXiv:200909579 [cs]. Published Online First: 20 September 2020.","DOI":"10.1109\/ICTC49870.2020.9289248"},{"key":"3266_CR65","unstructured":"Ke G, Meng Q, Finley T, et al. LightGBM: a highly efficient gradient boosting decision tree. In: Guyon I, Luxburg U, et al., editors. Advances in neural information processing Systems 30 Curran associates, Inc. 2017. p. 3146\u201354."},{"key":"3266_CR66","doi-asserted-by":"publisher","unstructured":"Rousset A, Dellamonica D, Menuet R, et al. Can machine learning bring cardiovascular risk assessment to the next level? Eur Heart J Digit Health. https:\/\/doi.org\/10.1093\/ehjdh\/ztab093. Published Online First: 15 November 2021.","DOI":"10.1093\/ehjdh\/ztab093"},{"key":"3266_CR67","doi-asserted-by":"publisher","first-page":"e0174944","DOI":"10.1371\/journal.pone.0174944","volume":"12","author":"SF Weng","year":"2017","unstructured":"Weng SF, Reps J, Kai J, et al. Can machine-learning improve cardiovascular risk prediction using routine clinical data? PLoS ONE. 2017;12:e0174944. https:\/\/doi.org\/10.1371\/journal.pone.0174944.","journal-title":"PLoS One"},{"key":"3266_CR68","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1038\/s41746-020-00349-5","volume":"3","author":"RK Akyea","year":"2020","unstructured":"Akyea RK, Qureshi N, Kai J, et al. Performance and clinical utility of supervised machine-learning approaches in detecting familial hypercholesterolaemia in primary care. NPJ Digit Med. 2020;3:1\u20139. https:\/\/doi.org\/10.1038\/s41746-020-00349-5.","journal-title":"NPJ Digit Med"},{"key":"3266_CR69","doi-asserted-by":"publisher","first-page":"e1918962","DOI":"10.1001\/jamanetworkopen.2019.18962","volume":"3","author":"RJ Desai","year":"2020","unstructured":"Desai RJ, Wang SV, Vaduganathan M, et al. Comparison of machine learning methods with traditional models for use of administrative claims with electronic medical Records to predict heart failure outcomes. JAMA Netw Open Open. 2020;3:e1918962. https:\/\/doi.org\/10.1001\/jamanetworkopen.2019.18962.","journal-title":"JAMA Netw Open Open"},{"key":"3266_CR70","doi-asserted-by":"publisher","first-page":"1","DOI":"10.2147\/TCRM.S236498","volume":"16","author":"Y Li","year":"2020","unstructured":"Li Y, Jiang L, He J, et al. Machine learning to predict the 1-year mortality rate after acute anterior myocardial infarction in Chinese patients. TCRM. 2020;16:1\u20136. https:\/\/doi.org\/10.2147\/TCRM.S236498.","journal-title":"TCRM"},{"key":"3266_CR71","doi-asserted-by":"publisher","first-page":"84","DOI":"10.1016\/j.inffus.2021.11.011","volume":"81","author":"R Shwartz-Ziv","year":"2022","unstructured":"Shwartz-Ziv R, Armon A. Tabular data: deep learning is not all you need. Inf Fusion. 2022;81:84\u201390. https:\/\/doi.org\/10.1016\/j.inffus.2021.11.011.","journal-title":"Inf Fusion"},{"key":"3266_CR72","unstructured":"Grinsztajn L, Oyallon E, Varoquaux G. Why do tree-based models still outperform deep learning on typical tabular data? Adv Neural Inf Process Syst. 2022;35:507\u201320. https:\/\/papers.nips.cc\/paper_files\/paper\/2022\/hash\/0378c7692da36807bdec87ab043cdadc-Abstract-Datasets_and_Benchmarks.html."},{"key":"3266_CR73","unstructured":"Snoek J, Larochelle H, Adams RP. Practical Bayesian optimization of machine learning algorithms. Proceedings of the 25th International Conference on Neural Information Processing Systems -. Red Hook, NY, USA: Curran Associates Inc; 2012:2951\u201359 2."},{"key":"3266_CR74","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-19-5170-1","volume-title":"Hyperparameter tuning for machine and deep learning with r: a practical Guide","author":"E Bartz","year":"2023","unstructured":"Bartz E, Bartz-Beielstein T, Zaefferer M, et al., editors. Hyperparameter tuning for machine and deep learning with r: a practical Guide. Singapore: Springer Nature; 2023."},{"key":"3266_CR75","unstructured":"Bischl B, Binder M, Lang M, et al. Hyperparameter optimization: foundations, algorithms, best practices and open challenges. arXiv.org. 2021. https:\/\/arxiv.org\/abs\/2107.05847v3. Accessed 9 Dec 2023."},{"key":"3266_CR76","unstructured":"Binder M, Pfisterer F, Bischl B. Collecting empirical data about hyperparameters for data driven AutoML. 7th ICML Workshop on Automated Machine Learning. 2020."},{"key":"3266_CR77","unstructured":"K\u00fchn D, Probst P, Thomas J, et al. Automatic exploration of machine learning experiments on OpenML. arXiv.org. 2018. https:\/\/arxiv.org\/abs\/1806.10961v3. Accessed 9 Dec 2023."},{"key":"3266_CR78","doi-asserted-by":"publisher","unstructured":"Johnson JM, Khoshgoftaar TM. Medical provider embeddings for healthcare fraud detection. SN Comput Sci. 2021;2. https:\/\/doi.org\/10.1007\/s42979-021-00656-y.","DOI":"10.1007\/s42979-021-00656-y"},{"key":"3266_CR79","unstructured":"Van Calster B, Collins GS, Vickers AJ, et al. Performance evaluation of predictive ai models to support medical decisions: overview and guidance. arXiv.org. 2024. https:\/\/arxiv.org\/abs\/2412.10288v1. Accessed 25 Dec 2024."},{"key":"3266_CR80","doi-asserted-by":"publisher","first-page":"e0118432","DOI":"10.1371\/journal.pone.0118432","volume":"10","author":"T Saito","year":"2015","unstructured":"Saito T, Rehmsmeier M. The precision-recall plot is more informative than the roc plot when evaluating binary classifiers on imbalanced datasets. PLoS One. 2015;10:e0118432. https:\/\/doi.org\/10.1371\/journal.pone.0118432.","journal-title":"PLoS One"},{"key":"3266_CR81","doi-asserted-by":"publisher","first-page":"855","DOI":"10.1016\/j.jclinepi.2015.02.010","volume":"68","author":"B Ozenne","year":"2015","unstructured":"Ozenne B, Subtil F, Maucort-Boulch D. The precision\u2013recall curve overcame the optimism of the receiver operating characteristic curve in rare diseases. J Clin Epidemiol. 2015;68:855\u201359. https:\/\/doi.org\/10.1016\/j.jclinepi.2015.02.010.","journal-title":"J Clin Epidemiol"},{"key":"3266_CR82","unstructured":"Choi E, Xiao C, Stewart WF, et al. MiME: multilevel medical embedding of electronic health Records for predictive healthcare. 2018."},{"key":"3266_CR83","doi-asserted-by":"crossref","unstructured":"Hsu C-C, Karnwal S, Mullainathan S, et al. Characterizing the value of information in medical notes. In: Cohn T, He Y, Liu Y, editors. Findings of the association for computational linguistics: eMNLP 2020. Online: Association for Computational Linguistics 2020:2062\u201372.","DOI":"10.18653\/v1\/2020.findings-emnlp.187"},{"key":"3266_CR84","unstructured":"Imbalanced learning: foundations, algorithms, and applications | IEEE eBooks |. https:\/\/ieeexplore-ieee-org.proxy.bib.uottawa.ca\/book\/6542371. IEEE Xplore. Accessed 27 Aug 2025."},{"key":"3266_CR85","unstructured":"F1 score vs roc auc vs accuracy vs pr auc: which evaluation metric should you choose? https:\/\/neptune.ai\/blog\/f1-score-accuracy-roc-auc-pr-auc. Accessed 27 Aug 2025."},{"key":"3266_CR86","doi-asserted-by":"crossref","unstructured":"Davis J, Goadrich M. The relationship between precision-recall and ROC curves. Proceedings of the 23rd international conference on Machine learning. New York, NY, USA: Association for Computing Machinery 2006:233\u201340.","DOI":"10.1145\/1143844.1143874"},{"key":"3266_CR87","doi-asserted-by":"publisher","unstructured":"He H, Garcia EA. Learning from imbalanced data. IEEE Trans Knowl Data Eng. 2009;21:1263\u201384. https:\/\/doi.org\/10.1109\/TKDE.2008.239.","DOI":"10.1109\/TKDE.2008.239"},{"key":"3266_CR88","unstructured":"Brownlee J. Imbalanced classification with Python: better metrics, balance skewed classes, cost-sensitive learning. Mach Learn Mastery. 2020."},{"key":"3266_CR89","unstructured":"Branco P, Torgo L, Ribeiro R. A survey of predictive modelling under imbalanced distributions. arXiv:150501658 [cs]. Published Online First: 13 May 2015."},{"key":"3266_CR90","doi-asserted-by":"publisher","first-page":"100994","DOI":"10.1016\/j.patter.2024.100994","volume":"5","author":"E Richardson","year":"2024","unstructured":"Richardson E, Trevizani R, Greenbaum JA, et al. The receiver operating characteristic curve accurately assesses imbalanced datasets. Patterns. 2024;5:100994. https:\/\/doi.org\/10.1016\/j.patter.2024.100994.","journal-title":"Patterns"},{"key":"3266_CR91","doi-asserted-by":"publisher","first-page":"74","DOI":"10.1007\/978-3-030-50423-6_6","volume":"12140","author":"J Brabec","year":"2020","unstructured":"Brabec J, Kom\u00e1rek T, Franc V, et al. On Model evaluation under non-constant class imbalance. Comput Sci \u2013 ICCS 2020. 2020;12140:74\u201387. https:\/\/doi.org\/10.1007\/978-3-030-50423-6_6.","journal-title":"Comput Sci \u2013 ICCS 2020"},{"key":"3266_CR92","unstructured":"McDermott MBA, Zhang H, Hansen LH, et al. A closer look at AUROC and AUPRC under class imbalance. 2025."},{"key":"3266_CR93","doi-asserted-by":"crossref","unstructured":"Boyd K, Eng KH, Page CD. Area under the precision-recall curve: point estimates and confidence intervals. In: Blockeel H, Kersting K, Nijssen S, et al., editors. Machine learning and knowledge discovery in databases. Berlin, Heidelberg: Springer; 2013. p. 451\u201366.","DOI":"10.1007\/978-3-642-40994-3_29"},{"key":"3266_CR94","doi-asserted-by":"publisher","first-page":"429","DOI":"10.1016\/j.ins.2019.11.004","volume":"513","author":"F Thabtah","year":"2020","unstructured":"Thabtah F, Hammoud S, Kamalov F, et al. Data imbalance in classification: experimental evaluation. Inf Sci. 2020;513:429\u201341. https:\/\/doi.org\/10.1016\/j.ins.2019.11.004.","journal-title":"Inf Sci"},{"key":"3266_CR95","doi-asserted-by":"publisher","first-page":"120253","DOI":"10.1016\/j.neuroimage.2023.120253","volume":"277","author":"P Th\u00f6lke","year":"2023","unstructured":"Th\u00f6lke P, Mantilla-Ramos Y-J, Abdelhedi H, et al. Class imbalance should not throw you off balance: choosing the right classifiers and performance metrics for brain decoding with imbalanced data. NeuroImage. 2023;277:120253. https:\/\/doi.org\/10.1016\/j.neuroimage.2023.120253.","journal-title":"NeuroImage"},{"key":"3266_CR96","doi-asserted-by":"publisher","first-page":"16256","DOI":"10.1038\/s41598-025-01031-0","volume":"15","author":"R Suguna","year":"2025","unstructured":"Suguna R, Suriya Prakash J, Aditya Pai H, et al. Mitigating class imbalance in churn prediction with ensemble methods and smote. Sci Rep. 2025;15:16256. https:\/\/doi.org\/10.1038\/s41598-025-01031-0.","journal-title":"Sci Rep"},{"key":"3266_CR97","doi-asserted-by":"publisher","first-page":"5979","DOI":"10.1038\/s41598-022-09954-8","volume":"12","author":"SA Hicks","year":"2022","unstructured":"Hicks SA, Str\u00fcmke I, Thambawita V, et al. On evaluation metrics for medical applications of artificial intelligence. Sci Rep. 2022;12:5979. https:\/\/doi.org\/10.1038\/s41598-022-09954-8.","journal-title":"Sci Rep"},{"key":"3266_CR98","unstructured":"Abdelhamid M, Desai A. Balancing the scales: a comprehensive study on tackling class imbalance in binary classification. 2024."},{"key":"3266_CR99","doi-asserted-by":"publisher","first-page":"3232","DOI":"10.1016\/j.csda.2011.06.006","volume":"55","author":"J Drechsler","year":"2011","unstructured":"Drechsler J, Reiter JP. An empirical evaluation of easily implemented, nonparametric methods for generating synthetic datasets. Comput Stat Data Anal. 2011;55:3232\u201343. https:\/\/doi.org\/10.1016\/j.csda.2011.06.006.","journal-title":"Comput Stat Data Anal"},{"key":"3266_CR100","unstructured":"Nowok B. Utility of synthetic microdata generated using tree-based methods. Helsinki; 2015."},{"key":"3266_CR101","first-page":"441","volume":"21","author":"J Reiter","year":"2005","unstructured":"Reiter J. Using cart to generate partially synthetic, public use microdata. J Off Stat. 2005;21:441\u201362.","journal-title":"J Off Stat"},{"key":"3266_CR102","doi-asserted-by":"publisher","first-page":"801","DOI":"10.1093\/jamia\/ocaa303","volume":"28","author":"D Kaur","year":"2021","unstructured":"Kaur D, Sobiesk M, Patil S, et al. Application of Bayesian networks to generate synthetic health data. J Am Med Inf Assoc. 2021;28:801\u201311. https:\/\/doi.org\/10.1093\/jamia\/ocaa303.","journal-title":"J Am Med Inf Assoc"},{"key":"3266_CR103","doi-asserted-by":"publisher","first-page":"8603","DOI":"10.3934\/mbe.2021426","volume":"18","author":"G Gogoshin","year":"2021","unstructured":"Gogoshin G, Branciamore S, Rodin AS. Synthetic data generation with probabilistic bayesian networks. Math Biosci Eng. 2021;18:8603\u201321. https:\/\/doi.org\/10.3934\/mbe.2021426.","journal-title":"Math Biosci Eng"},{"key":"3266_CR104","unstructured":"Martins LNA, Gon\u00e7alves FB, Galletti TP. Generation and analysis of synthetic data via Bayesian networks: a robust approach for uncertainty quantification via Bayesian paradigm. 2024."},{"key":"3266_CR105","doi-asserted-by":"crossref","unstructured":"Deeva I, Andriushchenko PD, Kalyuzhnaya AV, et al. Bayesian networks-based personal data synthesis. Proceedings of the 6th EAI International Conference on Smart Objects and Technologies for Social Good. New York, NY, USA: Association for Computing Machinery 2020:6\u201311.","DOI":"10.1145\/3411170.3411243"},{"key":"3266_CR106","unstructured":"Xu L, Skoularidou M, Cuesta-Infante A, et al. Modeling tabular data using conditional gan. Adv Neural Inf Process Syst. 2019."},{"key":"3266_CR107","doi-asserted-by":"publisher","first-page":"60","DOI":"10.1038\/s41746-024-01359-3","volume":"8","author":"B Kaabachi","year":"2025","unstructured":"Kaabachi B, Despraz J, Meurers T, et al. A scoping review of privacy and utility metrics in medical synthetic data. NPJ Digit Med. 2025;8:60. https:\/\/doi.org\/10.1038\/s41746-024-01359-3.","journal-title":"NPJ Digit Med"},{"key":"3266_CR108","unstructured":"Qian Z, Cebere B-C, van der Schaar M. Synthcity: facilitating innovative use cases of synthetic data in different data modalities. arXiv. 2023; https:\/\/doi.org\/2301.07573."},{"key":"3266_CR109","doi-asserted-by":"publisher","first-page":"651","DOI":"10.1198\/106186006X133933","volume":"15","author":"T Hothorn","year":"2006","unstructured":"Hothorn T, Hornik K, Zeileis A. Unbiased recursive partitioning: a conditional inference framework. J Comput Graph Stat. 2006;15:651\u201374. https:\/\/doi.org\/10.1198\/106186006X133933.","journal-title":"J Comput Graph Stat"},{"key":"3266_CR110","doi-asserted-by":"crossref","unstructured":"Read J, Pfahringer B, Holmes G, et al. Classifier chains for multi-label classification. In: Buntine W, Grobelnik M, Mladeni\u0107 D, et al., editors. Machine learning and knowledge discovery in databases. Berlin, Heidelberg: Springer; 2009. p. 254\u201369.","DOI":"10.1007\/978-3-642-04174-7_17"},{"key":"3266_CR111","doi-asserted-by":"publisher","first-page":"410","DOI":"10.1037\/pspp0000208","volume":"121","author":"RC Arslan","year":"2021","unstructured":"Arslan RC, Schilling KM, Gerlach TM, et al. Using 26,000 diary entries to show ovulatory changes in sexual desire and behavior. J Pers Soc Psychol. 2021;121:410\u201331. https:\/\/doi.org\/10.1037\/pspp0000208.","journal-title":"J Pers Soc Psychol"},{"key":"3266_CR112","doi-asserted-by":"publisher","unstructured":"Bonn\u00e9ry D, Feng Y, Henneberger AK, et al. The promise and limitations of synthetic data as a strategy to expand access to state-level multi-agency longitudinal data. J Res Educ Eff. 2019;12:616\u201347. https:\/\/doi.org\/10.1080\/19345747.2019.1631421.","DOI":"10.1080\/19345747.2019.1631421"},{"key":"3266_CR113","unstructured":"Freiman M, Lauger A, Reiter J. Data synthesis and perturbation for the American community survey at the U.S. 2017. https:\/\/www.census.gov\/library\/working-papers\/2018\/adrm\/formal-privacy-synthetic-data-acs.html. Census Bureau. US Census Bureau."},{"key":"3266_CR114","doi-asserted-by":"publisher","first-page":"67","DOI":"10.29012\/jpc.v7i3.407","volume":"7","author":"GM Raab","year":"2016","unstructured":"Raab GM, Nowok B, Dibben C. Practical data synthesis for large samples. J Privacy And Confidentiality. 2016;7:67\u201397. https:\/\/doi.org\/10.29012\/jpc.v7i3.407.","journal-title":"J Privacy And Confidentiality"},{"key":"3266_CR115","doi-asserted-by":"publisher","first-page":"785","DOI":"10.3233\/SJI-150153","volume":"33","author":"B Nowok","year":"2017","unstructured":"Nowok B, Raab GM, Dibben C. Providing bespoke synthetic data for the Uk longitudinal studies and other sensitive data with the synthpop package for R 1. Stat J IAOS. 2017;33:785\u201396. https:\/\/doi.org\/10.3233\/SJI-150153.","journal-title":"Stat J IAOS"},{"key":"3266_CR116","doi-asserted-by":"publisher","first-page":"e53275","DOI":"10.7554\/eLife.53275","volume":"9","author":"DS Quintana","year":"2020","unstructured":"Quintana DS. A synthetic dataset primer for the biobehavioural sciences to promote reproducibility and hypothesis generation. eLife. 2020;9:e53275. https:\/\/doi.org\/10.7554\/eLife.53275.","journal-title":"eLife"},{"key":"3266_CR117","volume-title":"Machine learning: a probabilistic perspective","author":"KP Murphy","year":"2012","unstructured":"Murphy KP. Machine learning: a probabilistic perspective. MIT Press; 2012."},{"key":"3266_CR118","doi-asserted-by":"publisher","first-page":"375","DOI":"10.3390\/info12090375","volume":"12","author":"S Bourou","year":"2021","unstructured":"Bourou S, El Saer A, Velivassaki T-H, et al. A review of tabular data synthesis using GANs on an ids dataset. Information. 2021;12:375. https:\/\/doi.org\/10.3390\/info12090375.","journal-title":"Information"},{"key":"3266_CR119","doi-asserted-by":"crossref","unstructured":"Wan Z, Zhang Y, He H. Variational autoencoder based synthetic data generation for imbalanced learning. 2017 IEEE Symposium Series on Computational Intelligence (SSCI). 2017:1\u20137.","DOI":"10.1109\/SSCI.2017.8285168"},{"key":"3266_CR120","unstructured":"Ishfaq H, Hoogi A, Rubin D. Tvae: triplet-based variational Autoencoder using metric learning. 2023."},{"key":"3266_CR121","volume-title":"Advances in neural information processing systems","author":"K Sohn","year":"2015","unstructured":"Sohn K, Lee H, Yan X. Learning structured output representation using deep conditional generative models. In: Advances in neural information processing systems. Curran Associates, Inc; 2015."},{"key":"3266_CR122","unstructured":"Salim A. Synthetic patient generation: a deep learning approach using variational autoencoders. 2018."},{"key":"3266_CR123","doi-asserted-by":"publisher","unstructured":"S B, Gyanchandani M, Wadhvani R, et al. Data complexity measures for classification of a multi-concept dataset. Multimed Tools Appl. https:\/\/doi.org\/10.1007\/s11042-024-18965-8. Published Online First: 8 April 2024.","DOI":"10.1007\/s11042-024-18965-8"},{"key":"3266_CR124","doi-asserted-by":"publisher","first-page":"289","DOI":"10.1109\/34.990132","volume":"24","author":"T Kam Ho","year":"2002","unstructured":"Kam Ho T, Basu M. Complexity measures of supervised classification problems. IEEE Trans Pattern Anal Mach Intell. 2002;24:289\u2013300. https:\/\/doi.org\/10.1109\/34.990132.","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"3266_CR125","doi-asserted-by":"publisher","first-page":"2455","DOI":"10.1177\/0962280218784726","volume":"28","author":"van Smeden M","year":"2019","unstructured":"van Smeden M, Moons KG, de Groot Ja, et al. Sample size for binary logistic prediction models: beyond events per variable criteria. Stat Methods Med Res. 2019;28:2455\u201374. https:\/\/doi.org\/10.1177\/0962280218784726.","journal-title":"Stat Methods Med Res"},{"key":"3266_CR126","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-19425-7","volume-title":"Regression modeling strategies: with applications to linear models, logistic and ordinal regression, and survival analysis","author":"FE Harrell","year":"2015","unstructured":"Harrell FE. Regression modeling strategies: with applications to linear models, logistic and ordinal regression, and survival analysis. Cham: Springer International Publishing; 2015."},{"key":"3266_CR127","doi-asserted-by":"publisher","unstructured":"da Silveira Lty, Ferreira JC, Patino CM. Mixed-effects model: a useful statistical tool for longitudinal and cluster studies. J Bras Pneumol. 49:e20230137. https:\/\/doi.org\/10.36416\/1806-3756\/e20230137.","DOI":"10.36416\/1806-3756\/e20230137"},{"key":"3266_CR128","doi-asserted-by":"publisher","first-page":"111","DOI":"10.1111\/j.2517-6161.1974.tb00994.x","volume":"36","author":"M Stone","year":"1974","unstructured":"Stone M. Cross-validatory choice and assessment of statistical predictions. J R Stat Soc Ser B Stat Methodol. 1974;36:111\u201347.","journal-title":"J R Stat Soc Ser B Stat Methodol"},{"key":"3266_CR129","doi-asserted-by":"publisher","first-page":"91","DOI":"10.1186\/1471-2105-7-91","volume":"7","author":"S Varma","year":"2006","unstructured":"Varma S, Simon R. Bias in error estimation when using cross-validation for model selection. BMC Bioinf. 2006;7:91. https:\/\/doi.org\/10.1186\/1471-2105-7-91.","journal-title":"BMC Bioinf"},{"key":"3266_CR130","doi-asserted-by":"publisher","unstructured":"Krstajic D, Buturovic LJ, Leahy DE, et al. Cross-validation pitfalls when selecting and assessing regression and classification models. J Cheminform. 2014;6:10. https:\/\/doi.org\/10.1186\/1758-2946-6-10.","DOI":"10.1186\/1758-2946-6-10"},{"key":"3266_CR131","unstructured":"Alaa A, Breugel BV, Saveliev ES, et al. How faithful is your synthetic data? sample-level metrics for evaluating and auditing generative models. Proceedings of the 39th International Conference on Machine Learning. PMLR: 2022:290\u2013306."},{"key":"3266_CR132","unstructured":"Sajjadi MSM, Bachem O, Lucic M, et al. Assessing generative models via precision and recall. arXiv:180600035 [cs, stat]. Published Online First: 28 October 2018."},{"key":"3266_CR133","unstructured":"A novel definition of the multivariate coefficient of variation - PubMed. https:\/\/pubmed.ncbi.nlm.nih.gov\/20976696\/. Accessed 7 Aug 2024."},{"key":"3266_CR134","doi-asserted-by":"publisher","first-page":"235","DOI":"10.1016\/0022-5193(74)90053-8","volume":"45","author":"L Van Valen","year":"1974","unstructured":"Van Valen L. Multivariate structural statistics in natural history. J Theor Biol. 1974;45:235\u201347. https:\/\/doi.org\/10.1016\/0022-5193(74)90053-8.","journal-title":"J Theor Biol"},{"key":"3266_CR135","volume-title":"Unbiased estimators and their applications: volume 1: univariate case","author":"VG Voinov","year":"2012","unstructured":"Voinov VG, Nikulin MS. Unbiased estimators and their applications: volume 1: univariate case. Springer Science & Business Media; 2012."},{"key":"3266_CR136","volume-title":"P. 1,Senonian and Maestrichtian Ostracoda","author":"RA Reyment","year":"1960","unstructured":"Reyment RA. Studies on Nigerian upper Cretaceous and lower tertiary ostracoda. In: P. 1,Senonian and Maestrichtian Ostracoda. Almqvist & Wiksell; 1960."},{"key":"3266_CR137","doi-asserted-by":"publisher","first-page":"29","DOI":"10.1016\/j.fss.2020.11.018","volume":"421","author":"E Allaj","year":"2021","unstructured":"Allaj E. Measuring variability and association for categorical data. Fuzzy Sets And Syst. 2021;421:29\u201343. https:\/\/doi.org\/10.1016\/j.fss.2020.11.018.","journal-title":"Fuzzy Sets And Syst"},{"key":"3266_CR138","unstructured":"Kamulete VM. Test for non-negligible adverse shifts. Proceedings of the Thirty-Eighth Conference on Uncertainty in Artificial Intelligence. PMLR. 2022:959\u201368."},{"key":"3266_CR139","doi-asserted-by":"publisher","unstructured":"Hariri S, Carrasco Kind M, Brunner RJ. Extended isolation forest. IEEE Transactions on Knowledge and Data Engineering. 2019;1\u20131. https:\/\/doi.org\/10.1109\/TKDE.2019.2947676.","DOI":"10.1109\/TKDE.2019.2947676"},{"key":"3266_CR140","doi-asserted-by":"crossref","unstructured":"Liu FT, Ting KM, Zhou Z-H. Isolation forest. 2008 Eighth IEEE International Conference on Data Mining. Pisa, Italy: IEEE 2008:413\u201322.","DOI":"10.1109\/ICDM.2008.17"},{"key":"3266_CR141","doi-asserted-by":"publisher","first-page":"e853","DOI":"10.1016\/S2589-7500(22)00188-1","volume":"4","author":"HA de","year":"2022","unstructured":"de HA, Steyerberg EW, van CB. Interpreting area under the receiver operating characteristic curve. The Lancet Digit Health. 2022;4:e853\u20135. https:\/\/doi.org\/10.1016\/S2589-7500(22)00188-1.","journal-title":"The Lancet Digit Health"},{"key":"3266_CR142","doi-asserted-by":"publisher","first-page":"2200302","DOI":"10.1002\/bimj.202200302","volume":"65","author":"RD Riley","year":"2023","unstructured":"Riley RD, Collins GS. Stability of clinical prediction models developed using statistical or machine learning methods. Biom J. 2023;65:2200302. https:\/\/doi.org\/10.1002\/bimj.202200302.","journal-title":"Biom J"},{"key":"3266_CR143","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1038\/s41746-024-01360-w","volume":"7","author":"K Zantvoort","year":"2024","unstructured":"Zantvoort K, Nacke B, G\u00f6rlich D, et al. Estimation of minimal data sets sizes for machine learning predictions in digital mental health interventions. NPJ Digit Med. 2024;7:1\u201310. https:\/\/doi.org\/10.1038\/s41746-024-01360-w.","journal-title":"NPJ Digit Med"},{"key":"3266_CR144","doi-asserted-by":"publisher","first-page":"15","DOI":"10.1007\/s44163-021-00016-y","volume":"1","author":"S James","year":"2021","unstructured":"James S, Harbron C, Branson J, et al. Synthetic data use: exploring use cases to optimise data utility. Discov Artif Intell. 2021;1:15. https:\/\/doi.org\/10.1007\/s44163-021-00016-y.","journal-title":"Discov Artif Intell"},{"key":"3266_CR145","doi-asserted-by":"publisher","first-page":"260","DOI":"10.3390\/a17060260","volume":"17","author":"OA Montesinos-L\u00f3pez","year":"2024","unstructured":"Montesinos-L\u00f3pez OA, Sivakumar A, Huerta Prado GI, et al. Exploring data augmentation algorithm to improve genomic prediction of top-ranking cultivars. Algorithms. 2024;17:260. https:\/\/doi.org\/10.3390\/a17060260.","journal-title":"Algorithms"},{"key":"3266_CR146","doi-asserted-by":"publisher","first-page":"286","DOI":"10.3390\/genes15030286","volume":"15","author":"OA Montesinos-L\u00f3pez","year":"2024","unstructured":"Montesinos-L\u00f3pez OA, Solis-Camacho MA, Crespo-Herrera L, et al. Data augmentation enhances plant-genomic-enabled predictions. Genes. 2024;15:286. https:\/\/doi.org\/10.3390\/genes15030286.","journal-title":"Genes"},{"key":"3266_CR147","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1186\/s12859-024-05787-6","volume":"25","author":"H Lee","year":"2024","unstructured":"Lee H, Ozbulak U, Park H, et al. Assessing the reliability of point mutation as data augmentation for deep learning with genomic data. BMC Bioinf. 2024;25:1\u201319. https:\/\/doi.org\/10.1186\/s12859-024-05787-6.","journal-title":"BMC Bioinf"},{"key":"3266_CR148","doi-asserted-by":"publisher","first-page":"489","DOI":"10.1007\/s12065-019-00283-w","volume":"14","author":"P Chaudhari","year":"2021","unstructured":"Chaudhari P, Agarwal H, Bhateja V. Data augmentation for cancer classification in oncogenomics: an improved KNN based approach. Evol Intel. 2021;14:489\u201398. https:\/\/doi.org\/10.1007\/s12065-019-00283-w.","journal-title":"Evol Intel"},{"key":"3266_CR149","doi-asserted-by":"publisher","first-page":"2289","DOI":"10.1016\/j.csbj.2024.05.025","volume":"23","author":"C Moeckel","year":"2024","unstructured":"Moeckel C, Mareboina M, Konnaris MA, et al. A survey of k-mer methods and applications in bioinformatics. Comput Struct Biotechnol J. 2024;23:2289\u2013303. https:\/\/doi.org\/10.1016\/j.csbj.2024.05.025.","journal-title":"Comput Struct Biotechnol J"},{"key":"3266_CR150","doi-asserted-by":"publisher","first-page":"msaf047","DOI":"10.1093\/molbev\/msaf047","volume":"42","author":"MD Roberts","year":"2025","unstructured":"Roberts MD, Davis O, Josephs EB, et al. K-mer-based approaches to bridging pangenomics and population genetics. Mol Biol And Evol. 2025;42:msaf047. https:\/\/doi.org\/10.1093\/molbev\/msaf047.","journal-title":"Mol Biol And Evol"},{"key":"3266_CR151","doi-asserted-by":"publisher","first-page":"485","DOI":"10.1038\/ejhg.2009.209","volume":"18","author":"R Moonesinghe","year":"2010","unstructured":"Moonesinghe R, Liu T, Khoury MJ. Evaluation of the discriminative accuracy of genomic profiling in the prediction of common complex diseases. Eur J Hum Genet. 2010;18:485\u201389. https:\/\/doi.org\/10.1038\/ejhg.2009.209.","journal-title":"Eur J Hum Genet"},{"key":"3266_CR152","doi-asserted-by":"publisher","first-page":"20","DOI":"10.1186\/gm20","volume":"1","author":"ACJ Janssens","year":"2009","unstructured":"Janssens ACJ, van Duijn CM. Genome-based prediction of common diseases: methodological considerations for future research. Genome Med. 2009;1:20. https:\/\/doi.org\/10.1186\/gm20.","journal-title":"Genome Med"},{"key":"3266_CR153","doi-asserted-by":"publisher","first-page":"15286","DOI":"10.1038\/s41598-019-51258-x","volume":"9","author":"L Lello","year":"2019","unstructured":"Lello L, Raben TG, Yong SY, et al. Genomic prediction of 16 complex disease risks including heart attack, diabetes, breast and prostate cancer. Sci Rep. 2019;9:15286. https:\/\/doi.org\/10.1038\/s41598-019-51258-x.","journal-title":"Sci Rep"},{"key":"3266_CR154","doi-asserted-by":"publisher","first-page":"e1000864","DOI":"10.1371\/journal.pgen.1000864","volume":"6","author":"NR Wray","year":"2010","unstructured":"Wray NR, Yang J, Goddard ME, et al. The genetic interpretation of area under the roc curve in genomic profiling. PLoS Genet. 2010;6:e1000864. https:\/\/doi.org\/10.1371\/journal.pgen.1000864.","journal-title":"PLoS Genet"},{"key":"3266_CR155","unstructured":"Manousakas D, Ayd\u00f6re S. On the usefulness of synthetic tabular data generation. arXiv.org. 2023. https:\/\/arxiv.org\/abs\/2306.15636v1. Accessed 9 Dec 2024."},{"key":"3266_CR156","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1038\/s41746-023-00834-7","volume":"6","author":"J Li","year":"2023","unstructured":"Li J, Cairns BJ, Li J, et al. Generating synthetic mixed-type longitudinal electronic health records for artificial intelligent applications. NPJ Digit Med. 2023;6:1\u201318. https:\/\/doi.org\/10.1038\/s41746-023-00834-7.","journal-title":"NPJ Digit Med"},{"key":"3266_CR157","doi-asserted-by":"publisher","first-page":"1165","DOI":"10.3390\/e23091165","volume":"23","author":"K Bhanot","year":"2021","unstructured":"Bhanot K, Qi M, Erickson JS, et al. The problem of fairness in synthetic healthcare data. Entropy. 2021;23:1165. https:\/\/doi.org\/10.3390\/e23091165.","journal-title":"Entropy"},{"key":"3266_CR158","doi-asserted-by":"crossref","unstructured":"Wyllie S, Shumailov I, Papernot N. Fairness feedback loops: training on synthetic data amplifies bias. arXiv.org. 2024. https:\/\/arxiv.org\/abs\/2403.07857v1. Accessed 1 Dec 2024.","DOI":"10.1145\/3630106.3659029"},{"key":"3266_CR159","doi-asserted-by":"publisher","first-page":"6978","DOI":"10.1038\/s41598-024-57207-7","volume":"14","author":"K El Emam","year":"2024","unstructured":"El Emam K, Mosquera L, Fang X, et al. An evaluation of the replicability of analyses using synthetic health data. Sci Rep. 2024;14:6978. https:\/\/doi.org\/10.1038\/s41598-024-57207-7.","journal-title":"Sci Rep"},{"key":"3266_CR160","doi-asserted-by":"publisher","first-page":"322","DOI":"10.1186\/s12911-021-01688-3","volume":"21","author":"S Han","year":"2021","unstructured":"Han S, Williamson BD, Fong Y. Improving random forest predictions in small datasets from two-phase sampling designs. Bmc Med Inf Decis. 2021;21:322. https:\/\/doi.org\/10.1186\/s12911-021-01688-3.","journal-title":"Bmc Med Inf Decis"},{"key":"3266_CR161","doi-asserted-by":"publisher","first-page":"121549","DOI":"10.1016\/j.eswa.2023.121549","volume":"237","author":"Z Sun","year":"2024","unstructured":"Sun Z, Wang G, Li P, et al. An improved random forest based on the classification accuracy and correlation measurement of decision trees. Expert Syst With Appl. 2024;237:121549. https:\/\/doi.org\/10.1016\/j.eswa.2023.121549.","journal-title":"Expert Syst With Appl"},{"key":"3266_CR162","unstructured":"Wang Y, Wu H, Nettleton D. Stability of random forests and coverage of random-forest prediction intervals."},{"key":"3266_CR163","doi-asserted-by":"publisher","first-page":"319","DOI":"10.1038\/s41586-024-08328-6","volume":"637","author":"N Hollmann","year":"2025","unstructured":"Hollmann N, M\u00fcller S, Purucker L, et al. Accurate predictions on small data with a tabular foundation model. Nature. 2025;637:319\u201326. https:\/\/doi.org\/10.1038\/s41586-024-08328-6.","journal-title":"Nature"},{"key":"3266_CR164","unstructured":"HCUP State Inpatient Databases (SID). Healthcare Cost and Utilization Project (HCUP). Rockville, MD: Agency for Healthcare Research and Quality; 2005-2009. p. http:\/\/www.hcup-us.ahrq.gov\/sidoverview.jsp."},{"key":"3266_CR165","unstructured":"Johnson A, Pollard T, Mark R. MIMIC-III clinical database (version 1.4). 2016."},{"key":"3266_CR166","doi-asserted-by":"publisher","first-page":"160035","DOI":"10.1038\/sdata.2016.35","volume":"3","author":"AEW Johnson","year":"2016","unstructured":"Johnson AEW, Pollard TJ, Shen L, et al. MIMIC-III, a freely accessible critical care database. Sci Data. 2016;3:160035. https:\/\/doi.org\/10.1038\/sdata.2016.35.","journal-title":"Sci Data"},{"key":"3266_CR167","doi-asserted-by":"publisher","unstructured":"Goldberger AL, Amaral LAN, Glass L, et al. PhysioBank, PhysioToolkit, and PhysioNet: components of a New research resource for complex physiologic signals. Circulation. 2000;101. https:\/\/doi.org\/10.1161\/01.CIR.101.23.e215.","DOI":"10.1161\/01.CIR.101.23.e215"},{"key":"3266_CR168","unstructured":"Texas Hospital Inpatient Discharge Public Use Data File. First Quarter, 2012, 1st quarter 2012. Austin, Texas: Texas Department of State Health Services, Center for Health Statistics."}],"container-title":["BMC Medical Informatics and Decision Making"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1186\/s12911-025-03266-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1186\/s12911-025-03266-3\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1186\/s12911-025-03266-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,28]],"date-time":"2025-11-28T11:27:31Z","timestamp":1764329251000},"score":1,"resource":{"primary":{"URL":"https:\/\/bmcmedinformdecismak.biomedcentral.com\/articles\/10.1186\/s12911-025-03266-3"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,28]]},"references-count":168,"journal-issue":{"issue":"1","published-online":{"date-parts":[[2025,12]]}},"alternative-id":["3266"],"URL":"https:\/\/doi.org\/10.1186\/s12911-025-03266-3","relation":{},"ISSN":["1472-6947"],"issn-type":[{"value":"1472-6947","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,11,28]]},"assertion":[{"value":"4 July 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"28 October 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"28 November 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"This project was approved by the Research Ethics Board of the Children\u2019s Hospital of Eastern Ontario Research Institute protocol 24\/80x. The hot flashes data analysis was approved by the Ottawa Health Sciences Research Ethics Board protocols OHSN REB #20210727-01\u2009H and OHSN REB #20210827-01\u2009H. For the DCCG dataset, Danish Data Protection Agency (Datatilsynet) approval was obtained (RN-2018\u201394).Because the datasets used in this study were de-identified, obtaining participant consent was waived by the Research Ethics Board of the Children\u2019s Hospital of Eastern Ontario Research Institute.This project adhered to the Declaration of Helsinki.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethics approval and consent to participate"}},{"value":"Not applicable.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Consent for publication"}},{"value":"KEE was the Scholar-in-Residence at the Office of the Information and Privacy Commissioner of Ontario when most of the work reported here was being conducted. KEE held shares in Aetion, which provided the sequential synthesis generative model software that was used in this study, when the study was conducted. Both of these have expired.","order":4,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interests"}}],"article-number":"435"}}