{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,7,30]],"date-time":"2025-07-30T11:44:20Z","timestamp":1753875860590,"version":"3.41.2"},"reference-count":32,"publisher":"Oxford University Press (OUP)","issue":"5","license":[{"start":{"date-parts":[[2025,5,13]],"date-time":"2025-05-13T00:00:00Z","timestamp":1747094400000},"content-version":"vor","delay-in-days":12,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"funder":[{"DOI":"10.13039\/100000002","name":"National Institutes of Health","doi-asserted-by":"publisher","award":["R01ES035625"],"award-info":[{"award-number":["R01ES035625"]}],"id":[{"id":"10.13039\/100000002","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,5,6]]},"abstract":"<jats:title>Abstract<\/jats:title>\n               <jats:sec>\n                  <jats:title>Motivation<\/jats:title>\n                  <jats:p>Feature selection is a critical task in machine learning and statistics. However, existing feature selection methods either (i) rely on parametric methods such as linear or generalized linear models, (ii) lack theoretical false discovery control, or (iii) identify few true positives.<\/jats:p>\n               <\/jats:sec>\n               <jats:sec>\n                  <jats:title>Results<\/jats:title>\n                  <jats:p>We introduce a general feature selection method with finite-sample false discovery control based on applying integrated path stability selection (IPSS) to arbitrary feature importance scores. The method is nonparametric whenever the importance scores are nonparametric, and it estimates q-values, which are better suited to high-dimensional data than P-values. We focus on two special cases using importance scores from gradient boosting (IPSSGB) and random forests (IPSSRF). Extensive nonlinear simulations with RNA sequencing data show that both methods accurately control the false discovery rate and detect more true positives than existing methods. Both methods are also efficient, running in under 20\u2009s when there are 500 samples and 5000 features. We apply IPSSGB and IPSSRF to detect microRNAs and genes related to cancer, finding that they yield better predictions with fewer features than existing approaches.<\/jats:p>\n               <\/jats:sec>\n               <jats:sec>\n                  <jats:title>Availability and implementation<\/jats:title>\n                  <jats:p>All code and data used in this work are available on GitHub (https:\/\/github.com\/omelikechi\/ipss_bioinformatics) and permanently archived on Zenodo (https:\/\/doi.org\/10.5281\/zenodo.15335289). A Python package for implementing IPSS is available on GitHub (https:\/\/github.com\/omelikechi\/ipss) and PyPI (https:\/\/pypi.org\/project\/ipss\/). An R implementation of IPSS is also available on GitHub (https:\/\/github.com\/omelikechi\/ipssR).<\/jats:p>\n               <\/jats:sec>","DOI":"10.1093\/bioinformatics\/btaf299","type":"journal-article","created":{"date-parts":[[2025,5,13]],"date-time":"2025-05-13T14:47:26Z","timestamp":1747147646000},"source":"Crossref","is-referenced-by-count":0,"title":["Nonparametric IPSS: fast, flexible feature selection with false discovery control"],"prefix":"10.1093","volume":"41","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-1052-7300","authenticated-orcid":false,"given":"Omar","family":"Melikechi","sequence":"first","affiliation":[{"name":"Department of Biostatistics, Harvard T.H. Chan School of Public Health , Boston, MA, 02115,","place":["United States"]}]},{"given":"David B","family":"Dunson","sequence":"additional","affiliation":[{"name":"Department of Statistical Science, Duke University , Durham, NC, 27708,","place":["United States"]}]},{"given":"Jeffrey W","family":"Miller","sequence":"additional","affiliation":[{"name":"Department of Biostatistics, Harvard T.H. Chan School of Public Health , Boston, MA, 02115,","place":["United States"]}]}],"member":"286","published-online":{"date-parts":[[2025,5,13]]},"reference":[{"key":"2025052819562753600_btaf299-B1","doi-asserted-by":"crossref","first-page":"197","DOI":"10.1007\/s11749-016-0481-7","article-title":"A random forest guided tour","volume":"25","author":"Biau","year":"2016","journal-title":"Test"},{"key":"2025052819562753600_btaf299-B2","doi-asserted-by":"crossref","first-page":"5","DOI":"10.1023\/A:1010933404324","article-title":"Random forests","volume":"45","author":"Breiman","year":"2001","journal-title":"Mach Learn"},{"key":"2025052819562753600_btaf299-B3","doi-asserted-by":"crossref","first-page":"551","DOI":"10.1111\/rssb.12265","article-title":"Panning for gold: \u2018model-x\u2019 knockoffs for high dimensional controlled variable selection","volume":"80","author":"Candes","year":"2018","journal-title":"J R Stat Soc Ser B Stat Methodol"},{"first-page":"785","year":"2016","author":"Chen","key":"2025052819562753600_btaf299-B4"},{"key":"2025052819562753600_btaf299-B5","first-page":"1","article-title":"Scalable and efficient hypothesis testing with random forests","volume":"23","author":"Coleman","year":"2022","journal-title":"J Mach Learn Res"},{"key":"2025052819562753600_btaf299-B6","doi-asserted-by":"crossref","first-page":"492","DOI":"10.1093\/bib\/bbx124","article-title":"Evaluation of variable selection methods for random forests and omics data sets","volume":"20","author":"Degenhardt","year":"2019","journal-title":"Brief Bioinform"},{"key":"2025052819562753600_btaf299-B7","doi-asserted-by":"crossref","first-page":"466","DOI":"10.14569\/IJACSA.2022.0130454","article-title":"Is deep learning on tabular data enough? An assessment","volume":"13","author":"Fayaz","year":"2022","journal-title":"IJACSA"},{"key":"2025052819562753600_btaf299-B8","doi-asserted-by":"crossref","first-page":"1189","DOI":"10.1214\/aos\/1013203451","article-title":"Greedy function approximation: a gradient boosting machine","volume":"29","author":"Friedman","year":"2001","journal-title":"Ann Stat"},{"key":"2025052819562753600_btaf299-B9","doi-asserted-by":"crossref","first-page":"2225","DOI":"10.1016\/j.patrec.2010.03.014","article-title":"Variable selection using random forests","volume":"31","author":"Genuer","year":"2010","journal-title":"Pattern Recogn Lett"},{"key":"2025052819562753600_btaf299-B10","first-page":"507","article-title":"Why do tree-based models still outperform deep learning on typical tabular data?","volume":"35","author":"Grinsztajn","year":"2022","journal-title":"Adv Neural Inform Process Syst"},{"key":"2025052819562753600_btaf299-B11","doi-asserted-by":"crossref","DOI":"10.1007\/978-0-387-84858-7","volume-title":"The Elements of Statistical Learning: Data Mining, Inference, and Prediction","author":"Hastie","year":"2009"},{"key":"2025052819562753600_btaf299-B12","doi-asserted-by":"crossref","first-page":"144","DOI":"10.1186\/s12859-015-0575-3","article-title":"Controlling false discoveries in high-dimensional situations: boosting with stability selection","volume":"16","author":"Hofner","year":"2015","journal-title":"BMC Bioinform"},{"key":"2025052819562753600_btaf299-B13","doi-asserted-by":"crossref","first-page":"885","DOI":"10.1007\/s11634-016-0276-4","article-title":"A computationally fast variable importance test for random forests for high-dimensional data","volume":"12","author":"Janitza","year":"2018","journal-title":"Adv Data Anal Classif"},{"key":"2025052819562753600_btaf299-B14","doi-asserted-by":"crossref","first-page":"976","DOI":"10.1093\/bioinformatics\/btaa770","article-title":"Knockoff boosted tree for model-free variable selection","volume":"37","author":"Jiang","year":"2021","journal-title":"Bioinformatics"},{"key":"2025052819562753600_btaf299-B15","first-page":"271","article-title":"Boruta\u2014a system for feature selection","volume":"101","author":"Kursa","year":"2010","journal-title":"Fund Inform"},{"key":"2025052819562753600_btaf299-B16","doi-asserted-by":"crossref","first-page":"107747","DOI":"10.1016\/j.compbiolchem.2022.107747","article-title":"Robust biomarker screening from gene expression data by stable machine learning-recursive feature elimination methods","volume":"100","author":"Li","year":"2022","journal-title":"Comput Biol Chem"},{"key":"2025052819562753600_btaf299-B17","first-page":"1","article-title":"Understanding variable importances in forests of randomized trees","volume":"26","author":"Louppe","year":"2013","journal-title":"Adv Neural Inform Process Syst"},{"key":"2025052819562753600_btaf299-B18","first-page":"1","article-title":"DeepPINK: reproducible feature selection in deep neural networks","volume":"31","author":"Lu","year":"2018","journal-title":"Adv Neural Inform Process Syst"},{"key":"2025052819562753600_btaf299-B19","first-page":"1","article-title":"A unified approach to interpreting model predictions","volume":"30","author":"Lundberg","year":"2017","journal-title":"Adv Neural Inform Process Syst"},{"key":"2025052819562753600_btaf299-B20","doi-asserted-by":"crossref","first-page":"417","DOI":"10.1111\/j.1467-9868.2010.00740.x","article-title":"Stability selection","volume":"72","author":"Meinshausen","year":"2010","journal-title":"J R Stat Soc Ser B Stat Methodol"},{"year":"2024","author":"Melikechi","key":"2025052819562753600_btaf299-B21"},{"key":"2025052819562753600_btaf299-B22","doi-asserted-by":"crossref","first-page":"381","DOI":"10.1007\/s11060-015-2050-4","article-title":"Expression and prognostic value of the WEE1 kinase in gliomas","volume":"127","author":"Music","year":"2016","journal-title":"J Neurooncol"},{"key":"2025052819562753600_btaf299-B23","first-page":"1","article-title":"On the stability of feature selection algorithms","volume":"18","author":"Nogueira","year":"2018","journal-title":"J Mach Learn Res"},{"key":"2025052819562753600_btaf299-B24","doi-asserted-by":"crossref","first-page":"4329","DOI":"10.1158\/0008-5472.CAN-11-0640","article-title":"FoxM1: a master regulator of tumor metastasis","volume":"71","author":"Raychaudhuri","year":"2011","journal-title":"Cancer Res"},{"key":"2025052819562753600_btaf299-B25","doi-asserted-by":"crossref","first-page":"55","DOI":"10.1111\/j.1467-9868.2011.01034.x","article-title":"Variable selection with error control: another look at stability selection","volume":"75","author":"Shah","year":"2013","journal-title":"J R Stat Soc Ser B Stat Methodol"},{"key":"2025052819562753600_btaf299-B26","doi-asserted-by":"crossref","first-page":"84","DOI":"10.1016\/j.inffus.2021.11.011","article-title":"Tabular data: deep learning is not all you need","volume":"81","author":"Shwartz-Ziv","year":"2022","journal-title":"Inform Fusion"},{"key":"2025052819562753600_btaf299-B27","doi-asserted-by":"crossref","first-page":"93","DOI":"10.1016\/j.eswa.2019.05.028","article-title":"A comparison of random forest variable selection methods for classification prediction modeling","volume":"134","author":"Speiser","year":"2019","journal-title":"Expert Syst Appl"},{"key":"2025052819562753600_btaf299-B28","doi-asserted-by":"crossref","first-page":"2013","DOI":"10.1214\/aos\/1074290335","article-title":"The positive false discovery rate: a bayesian interpretation and the q-value","volume":"31","author":"Storey","year":"2003","journal-title":"Ann Stat"},{"key":"2025052819562753600_btaf299-B29","doi-asserted-by":"crossref","first-page":"9440","DOI":"10.1073\/pnas.1530509100","article-title":"Statistical significance for genomewide studies","volume":"100","author":"Storey","year":"2003","journal-title":"Proc Natl Acad Sci USA"},{"key":"2025052819562753600_btaf299-B30","doi-asserted-by":"crossref","first-page":"1575","DOI":"10.1007\/s10115-023-02010-5","article-title":"Feature selection techniques for machine learning: a survey of more than two decades of research","volume":"66","author":"Theng","year":"2024","journal-title":"Knowl Inf Syst"},{"key":"2025052819562753600_btaf299-B31","doi-asserted-by":"crossref","first-page":"D956","DOI":"10.1093\/nar\/gkx1090","article-title":"Linkedomics: analyzing multi-omics data within and across 32 cancer types","volume":"46","author":"Vasaikar","year":"2018","journal-title":"Nucleic Acids Res"},{"key":"2025052819562753600_btaf299-B32","doi-asserted-by":"crossref","first-page":"1113","DOI":"10.1038\/ng.2764","article-title":"The cancer genome atlas pan-cancer analysis project","volume":"45","author":"Weinstein","year":"2013","journal-title":"Nature Genetics"}],"container-title":["Bioinformatics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/academic.oup.com\/bioinformatics\/advance-article-pdf\/doi\/10.1093\/bioinformatics\/btaf299\/63166536\/btaf299.pdf","content-type":"application\/pdf","content-version":"am","intended-application":"syndication"},{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article-pdf\/41\/5\/btaf299\/63166536\/btaf299.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article-pdf\/41\/5\/btaf299\/63166536\/btaf299.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,28]],"date-time":"2025-05-28T23:56:42Z","timestamp":1748476602000},"score":1,"resource":{"primary":{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article\/doi\/10.1093\/bioinformatics\/btaf299\/8129569"}},"subtitle":[],"editor":[{"given":"Anthony","family":"Mathelier","sequence":"additional","affiliation":[]}],"short-title":[],"issued":{"date-parts":[[2025,5]]},"references-count":32,"journal-issue":{"issue":"5","published-print":{"date-parts":[[2025,5,6]]}},"URL":"https:\/\/doi.org\/10.1093\/bioinformatics\/btaf299","relation":{},"ISSN":["1367-4811"],"issn-type":[{"type":"electronic","value":"1367-4811"}],"subject":[],"published-other":{"date-parts":[[2025,5]]},"published":{"date-parts":[[2025,5]]},"article-number":"btaf299"}}