{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,27]],"date-time":"2026-05-27T22:29:58Z","timestamp":1779920998959,"version":"3.53.1"},"reference-count":34,"publisher":"Frontiers Media SA","license":[{"start":{"date-parts":[[2025,3,19]],"date-time":"2025-03-19T00:00:00Z","timestamp":1742342400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"content-domain":{"domain":["frontiersin.org"],"crossmark-restriction":true},"short-container-title":["Front. Artif. Intell."],"abstract":"<jats:sec><jats:title>Introduction<\/jats:title><jats:p>AI fairness seeks to improve the transparency and explainability of AI systems by ensuring that their outcomes genuinely reflect the best interests of users. Data augmentation, which involves generating synthetic data from existing datasets, has gained significant attention as a solution to data scarcity. In particular, diffusion models have become a powerful technique for generating synthetic data, especially in fields like computer vision.<\/jats:p><\/jats:sec><jats:sec><jats:title>Methods<\/jats:title><jats:p>This paper explores the potential of diffusion models to generate synthetic tabular data to improve AI fairness. The Tabular Denoising Diffusion Probabilistic Model (Tab-DDPM), a diffusion model adaptable to any tabular dataset and capable of handling various feature types, was utilized with different amounts of generated data for data augmentation. Additionally, reweighting samples from AIF360 was employed to further enhance AI fairness. Five traditional machine learning models\u2014Decision Tree (DT), Gaussian Naive Bayes (GNB), K-Nearest Neighbors (KNN), Logistic Regression (LR), and Random Forest (RF)\u2014were used to validate the proposed approach.<\/jats:p><\/jats:sec><jats:sec><jats:title>Results and discussion<\/jats:title><jats:p>Experimental results demonstrate that the synthetic data generated by Tab-DDPM improves fairness in binary classification.<\/jats:p><\/jats:sec>","DOI":"10.3389\/frai.2025.1530397","type":"journal-article","created":{"date-parts":[[2025,3,19]],"date-time":"2025-03-19T07:14:56Z","timestamp":1742368496000},"update-policy":"https:\/\/doi.org\/10.3389\/crossmark-policy","source":"Crossref","is-referenced-by-count":6,"title":["Data augmentation via diffusion model to enhance AI fairness"],"prefix":"10.3389","volume":"8","author":[{"given":"Christina","family":"Hastings Blow","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Lijun","family":"Qian","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Camille","family":"Gibson","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Pamela","family":"Obiomon","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xishuang","family":"Dong","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"1965","published-online":{"date-parts":[[2025,3,19]]},"reference":[{"key":"B1","doi-asserted-by":"publisher","first-page":"525","DOI":"10.1007\/s11831-019-09388-y","article-title":"Applications of generative adversarial networks (GANS): an updated review","volume":"28","author":"Alqahtani","year":"2021","journal-title":"Arch. Comput. Methods Eng"},{"key":"B2","doi-asserted-by":"crossref","first-page":"254","DOI":"10.1201\/9781003278290-37","article-title":"\u201cMachine bias,\u201d","volume-title":"Ethics of Data and Analytics","author":"Angwin","year":"2022"},{"key":"B3","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3502287","article-title":"A systematic review on data scarcity problem in deep learning: solution and applications","volume":"54","author":"Bansal","year":"2022","journal-title":"ACM Comput. Surv"},{"key":"B4","article-title":"\u201cAdult,\u201d","author":"Becker","year":"1996","journal-title":"UCI Machine Learning Repository"},{"key":"B5","doi-asserted-by":"publisher","first-page":"4","DOI":"10.1147\/JRD.2019.2942287","article-title":"AI fairness 360: an extensible toolkit for detecting and mitigating algorithmic bias","volume":"63","author":"Bellamy","year":"2019","journal-title":"IBM J. Res. Dev"},{"key":"B6","first-page":"13","article-title":"\u201cA neural probabilistic language model,\u201d","author":"Bengio","year":"2000","journal-title":"Advances in Neural Information Processing Systems"},{"key":"B7","doi-asserted-by":"publisher","first-page":"3826","DOI":"10.3390\/app14093826","article-title":"Comprehensive validation on reweighting samples for bias mitigation via aif360","volume":"14","author":"Blow","year":"2024","journal-title":"Appl. Sci"},{"key":"B8","doi-asserted-by":"crossref","first-page":"13","DOI":"10.1109\/ICDMW.2009.83","article-title":"\u201cBuilding classifiers with independency constraints,\u201d","volume-title":"2009 IEEE International Conference on Data Mining Workshops","author":"Calders","year":"2009"},{"key":"B9","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3616865","article-title":"Fairness in machine learning: a survey","volume":"56","author":"Caton","year":"2020","journal-title":"ACM Comput. Surv"},{"key":"B10","article-title":"On the design fundamentals of diffusion models: a survey","author":"Chang","year":"2023","journal-title":"arXiv preprint arXiv:2306.04542"},{"key":"B11","doi-asserted-by":"publisher","first-page":"113","DOI":"10.1109\/CVPR.2019.00020","article-title":"\u201cAutoaugment: learning augmentation strategies from data,\u201d","author":"Cubuk","year":"2019","journal-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition"},{"key":"B12","article-title":"Tabular data augmentation for machine learning: progress and prospects of embracing generative AI","author":"Cui","year":"2024","journal-title":"arXiv preprint arXiv:2407.21523"},{"key":"B13","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3317573","article-title":"A case study of the augmentation and evaluation of training data for deep learning","volume":"11","author":"Ding","year":"2019","journal-title":"J. Data Inf. Qual"},{"key":"B14","doi-asserted-by":"publisher","first-page":"259","DOI":"10.1145\/2783258.2783311","article-title":"\u201cCertifying and removing disparate impact,\u201d","author":"Feldman","year":"2015","journal-title":"Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining"},{"key":"B15","doi-asserted-by":"publisher","first-page":"139","DOI":"10.1145\/3422622","article-title":"Generative adversarial networks","volume":"63","author":"Goodfellow","year":"2020","journal-title":"Commun. ACM"},{"key":"B16","article-title":"Synthetic data from diffusion models improve drug discovery prediction","author":"Hu","year":"2024","journal-title":"arXiv preprint arXiv:2405.03799"},{"key":"B17","article-title":"Sharp nearby, fuzzy far away: How neural language models use context","author":"Khandelwal","year":"2018","journal-title":"arXiv preprint arXiv:1805.04623"},{"key":"B18","article-title":"Auto-encoding variational bayes","author":"Kingma","year":"2013","journal-title":"arXiv preprint arXiv:1312.6114"},{"key":"B19","doi-asserted-by":"publisher","first-page":"307","DOI":"10.1561\/2200000056","article-title":"An introduction to variational autoencoders","volume":"12","author":"Kingma","year":"2019","journal-title":"Found. Trends Mach. Learn"},{"key":"B20","doi-asserted-by":"crossref","first-page":"27","DOI":"10.1007\/978-94-017-1183-8_2","article-title":"\u201cHidden markov models in speech and language processing,\u201d","volume-title":"Corpus-Based Methods in Language and Speech Processing","author":"Knill","year":"1997"},{"key":"B21","first-page":"17564","article-title":"\u201cTabddpm: modelling tabular data with diffusion models,\u201d","volume-title":"International Conference on Machine Learning","author":"Kotelnikov","year":"2023"},{"key":"B22","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3555803","article-title":"Trustworthy AI: from principles to practices","volume":"55","author":"Li","year":"","journal-title":"ACM Comput. Surv"},{"key":"B23","article-title":"Diffusion models for non-autoregressive text generation: a survey","author":"Li","year":"","journal-title":"arXiv preprint arXiv:2303.06574"},{"key":"B24","doi-asserted-by":"crossref","first-page":"1045","DOI":"10.21437\/Interspeech.2010-343","article-title":"\u201cRecurrent neural network based language model,\u201d","volume-title":"Interspeech","author":"Mikolov","year":"2010"},{"key":"B25","first-page":"36","author":"Nguyen","year":"2024"},{"key":"B26","first-page":"8162","article-title":"\u201cImproved denoising diffusion probabilistic models,\u201d","author":"Nichol","year":"2021","journal-title":"International Conference on Machine Learning"},{"key":"B27","doi-asserted-by":"crossref","first-page":"659","DOI":"10.1007\/978-0-387-73003-5_196","article-title":"\u201cGaussian mixture models,\u201d","volume-title":"Encyclopedia of Biometrics","author":"Reynolds","year":"2009"},{"key":"B28","article-title":"A framework for fairness: a systematic review of existing fair AI solutions","author":"Richardson","year":"2021","journal-title":"arXiv preprint arXiv:2112.05700"},{"key":"B29","article-title":"Holistic survey of privacy and fairness in machine learning","author":"Shaham","year":"2023","journal-title":"arXiv preprint arXiv:2307.15838"},{"key":"B30","first-page":"32","article-title":"\u201cGenerative modeling by estimating gradients of the data distribution,\u201d","author":"Song","year":"2019","journal-title":"Advances in Neural Information Processing Systems"},{"key":"B31","article-title":"Score-based generative modeling through stochastic differential equations","author":"Song","year":"2020","journal-title":"arXiv preprint arXiv:2011.13456"},{"key":"B32","first-page":"11287","article-title":"\u201cScore-based generative modeling in latent space,\u201d","author":"Vahdat","year":"2021","journal-title":"Advances in Neural Information Processing Systems"},{"key":"B33","article-title":"Diffusion models for tabular data imputation and synthetic data generation","author":"Villaiz\u00e1n-Vallelado","year":"2024","journal-title":"arXiv preprint arXiv:2407.02549"},{"key":"B34","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3554729","article-title":"Diffusion models: a comprehensive survey of methods and applications","volume":"56","author":"Yang","year":"2023","journal-title":"ACM Comput. Surv"}],"container-title":["Frontiers in Artificial Intelligence"],"original-title":[],"link":[{"URL":"https:\/\/www.frontiersin.org\/articles\/10.3389\/frai.2025.1530397\/full","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,3,19]],"date-time":"2025-03-19T07:15:02Z","timestamp":1742368502000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.frontiersin.org\/articles\/10.3389\/frai.2025.1530397\/full"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,3,19]]},"references-count":34,"alternative-id":["10.3389\/frai.2025.1530397"],"URL":"https:\/\/doi.org\/10.3389\/frai.2025.1530397","relation":{},"ISSN":["2624-8212"],"issn-type":[{"value":"2624-8212","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,3,19]]},"article-number":"1530397"}}