{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,14]],"date-time":"2026-04-14T21:49:26Z","timestamp":1776203366427,"version":"3.50.1"},"reference-count":34,"publisher":"Oxford University Press (OUP)","issue":"5","license":[{"start":{"date-parts":[[2023,4,17]],"date-time":"2023-04-17T00:00:00Z","timestamp":1681689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"funder":[{"name":"National Health and Medical Research Council Fellowship","award":["1154970"],"award-info":[{"award-number":["1154970"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023,5,4]]},"abstract":"<jats:title>Abstract<\/jats:title>\n                  <jats:sec>\n                    <jats:title>Motivation<\/jats:title>\n                    <jats:p>Mass spectrometry proteomics is a powerful tool in biomedical research but its usefulness is limited by the frequent occurrence of missing values in peptides that cannot be reliably quantified (detected) for particular samples. Many analysis strategies have been proposed for missing values where the discussion often focuses on distinguishing whether values are missing completely at random (MCAR), missing at random (MAR) or missing not at random (MNAR).<\/jats:p>\n                  <\/jats:sec>\n                  <jats:sec>\n                    <jats:title>Results<\/jats:title>\n                    <jats:p>Statistical models and algorithms are proposed for estimating the detection probabilities and for evaluating how much statistical information can or cannot be recovered from the missing value pattern. The probability that an intensity is detected is shown to be accurately modeled as a logit-linear function of the underlying intensity, showing that missing value process is intermediate between MAR and censoring. The detection probability asymptotes to 100% for high intensities, showing that missing values unrelated to intensity are rare. The rule applies globally to each dataset and is appropriate for both high and lowly expressed peptides. A probability model is developed that allows the distribution of unobserved intensities to be inferred from the observed values. The detection probability model is incorporated into a likelihood-based approach for assessing differential expression and successfully recovers statistical power compared to omitting the missing values from the analysis. In contrast, imputation methods are shown to perform poorly, either reducing statistical power or increasing the false discovery rate to unacceptable levels.<\/jats:p>\n                  <\/jats:sec>\n                  <jats:sec>\n                    <jats:title>Availability and implementation<\/jats:title>\n                    <jats:p>Data and code to reproduce the results shown in this article are available from https:\/\/mengbo-li.github.io\/protDP\/.<\/jats:p>\n                  <\/jats:sec>","DOI":"10.1093\/bioinformatics\/btad200","type":"journal-article","created":{"date-parts":[[2023,4,17]],"date-time":"2023-04-17T10:25:25Z","timestamp":1681727125000},"source":"Crossref","is-referenced-by-count":21,"title":["Neither random nor censored: estimating intensity-dependent probabilities for missing values in label-free proteomics"],"prefix":"10.1093","volume":"39","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-9666-5810","authenticated-orcid":false,"given":"Mengbo","family":"Li","sequence":"first","affiliation":[{"name":"Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research , Parkville, Victoria 3052, Australia"},{"name":"Department of Medical Biology, The University of Melbourne , Parkville, Victoria 3010, Australia"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9221-2892","authenticated-orcid":false,"given":"Gordon K","family":"Smyth","sequence":"additional","affiliation":[{"name":"Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research , Parkville, Victoria 3052, Australia"},{"name":"School of Mathematics and Statistics, The University of Melbourne , Parkville, Victoria 3010, Australia"}]}],"member":"286","published-online":{"date-parts":[[2023,4,17]]},"reference":[{"key":"2023051210265297600_btad200-B1","doi-asserted-by":"crossref","first-page":"35","DOI":"10.1038\/nrg3356","article-title":"Next-generation proteomics: towards an integrative view of proteome dynamics","volume":"14","author":"Altelaar","year":"2013","journal-title":"Nat Rev Genet"},{"key":"2023051210265297600_btad200-B2","doi-asserted-by":"crossref","first-page":"e10798","DOI":"10.15252\/msb.202110798","article-title":"Ultra-high sensitivity mass spectrometry quantifies single-cell proteome changes upon perturbation","volume":"18","author":"Brunner","year":"2022","journal-title":"Mol Syst Biol"},{"key":"2023051210265297600_btad200-B3","doi-asserted-by":"crossref","first-page":"1367","DOI":"10.1038\/nbt.1511","article-title":"MaxQuant enables high peptide identification rates, individualized ppb-range mass accuracies and proteome-wide protein quantification","volume":"26","author":"Cox","year":"2008","journal-title":"Nat Biotechnol"},{"key":"2023051210265297600_btad200-B4","doi-asserted-by":"crossref","first-page":"2513","DOI":"10.1074\/mcp.M113.031591","article-title":"Accurate proteome-wide label-free quantification by delayed normalization and maximal peptide ratio extraction, termed MaxLFQ","volume":"13","author":"Cox","year":"2014","journal-title":"Mol Cell Proteomics"},{"key":"2023051210265297600_btad200-B5","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1186\/s12859-022-04659-1","article-title":"Mechanism-aware imputation: a two-step approach in handling missing values in metabolomics","volume":"23","author":"Dekermanjian","year":"2022","journal-title":"BMC Bioinformatics"},{"key":"2023051210265297600_btad200-B6","doi-asserted-by":"crossref","first-page":"41","DOI":"10.1038\/s41592-019-0638-x","article-title":"DIA-NN: neural networks and interference correction enable deep proteome coverage in high throughput","volume":"17","author":"Demichev","year":"2020","journal-title":"Nat Methods"},{"key":"2023051210265297600_btad200-B7","doi-asserted-by":"crossref","first-page":"9650","DOI":"10.3390\/ijms22179650","article-title":"Multiple imputation approaches applied to the missing value problem in bottom-up proteomics","volume":"22","author":"Gardner","year":"2021","journal-title":"IJMS"},{"key":"2023051210265297600_btad200-B8","doi-asserted-by":"crossref","first-page":"221","DOI":"10.1090\/S0025-5718-69-99647-1","article-title":"Calculation of gauss quadrature rules","volume":"23","author":"Golub","year":"1969","journal-title":"Math Comp"},{"key":"2023051210265297600_btad200-B9","author":"Hediyeh-zadeh","year":"2020"},{"key":"2023051210265297600_btad200-B10","doi-asserted-by":"crossref","first-page":"2028","DOI":"10.1093\/bioinformatics\/btp362","article-title":"A statistical framework for protein quantitation in bottom-up MS-based proteomics","volume":"25","author":"Karpievitch","year":"2009","journal-title":"Bioinformatics"},{"key":"2023051210265297600_btad200-B11","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1186\/1471-2105-13-S16-S5","article-title":"Normalization and missing value imputation for label-free LC-MS analysis","volume":"13","author":"Karpievitch","year":"2012","journal-title":"BMC Bioinformatics"},{"key":"2023051210265297600_btad200-B12","doi-asserted-by":"crossref","first-page":"157","DOI":"10.1198\/jasa.2011.tm10104","article-title":"A semiparametric estimation of mean functionals with nonignorable missing data","volume":"106","author":"Kim","year":"2011","journal-title":"J Am Stat Assoc"},{"key":"2023051210265297600_btad200-B13","doi-asserted-by":"crossref","first-page":"2200092","DOI":"10.1002\/pmic.202200092","article-title":"Dealing with missing values in proteomics data","volume":"22","author":"Kong","year":"2022","journal-title":"Proteomics"},{"key":"2023051210265297600_btad200-B14","doi-asserted-by":"crossref","first-page":"1116","DOI":"10.1021\/acs.jproteome.5b00981","article-title":"Accounting for the multiple natures of missing values in label-free quantitative proteomics data sets to compare imputation strategies","volume":"15","author":"Lazar","year":"2016","journal-title":"J Proteome Res"},{"key":"2023051210265297600_btad200-B15","doi-asserted-by":"crossref","first-page":"4193","DOI":"10.1021\/ac0498563","article-title":"A model for random sampling and estimation of relative protein abundance in shotgun proteomics","volume":"76","author":"Liu","year":"2004","journal-title":"Anal Chem"},{"key":"2023051210265297600_btad200-B16","doi-asserted-by":"crossref","first-page":"bbaa112","DOI":"10.1093\/bib\/bbaa112","article-title":"Proper imputation of missing values in proteomics datasets for differential expression analysis","volume":"22","author":"Liu","year":"2021","journal-title":"Brief Bioinform"},{"key":"2023051210265297600_btad200-B17","doi-asserted-by":"crossref","first-page":"228","DOI":"10.1007\/s12561-009-9013-2","article-title":"Bayesian analysis of iTRAQ data with nonrandom missingness: identification of differentially expressed proteins","volume":"1","author":"Luo","year":"2009","journal-title":"Stat Biosci"},{"key":"2023051210265297600_btad200-B18","doi-asserted-by":"crossref","first-page":"1229","DOI":"10.1038\/s41592-020-00998-0","article-title":"diaPASEF: parallel accumulation\u2013serial fragmentation combined with data-independent acquisition","volume":"17","author":"Meier","year":"2020","journal-title":"Nat Methods"},{"key":"2023051210265297600_btad200-B19","doi-asserted-by":"crossref","first-page":"1130","DOI":"10.1038\/nbt.3685","article-title":"A multicenter study benchmarks software tools for label-free proteome quantification","volume":"34","author":"Navarro","year":"2016","journal-title":"Nat Biotechnol"},{"key":"2023051210265297600_btad200-B20","doi-asserted-by":"crossref","first-page":"787","DOI":"10.1038\/nmeth1088","article-title":"Analysis and validation of proteomic data generated by tandem mass spectrometry","volume":"4","author":"Nesvizhskii","year":"2007","journal-title":"Nat Methods"},{"key":"2023051210265297600_btad200-B21","doi-asserted-by":"crossref","first-page":"2075","DOI":"10.1214\/18-AOAS1144","article-title":"The effects of nonignorable missing data on label-free mass spectrometry proteomics experiments","volume":"12","author":"O\u2019Brien","year":"2018","journal-title":"Ann Appl Stat"},{"key":"2023051210265297600_btad200-B22","doi-asserted-by":"crossref","first-page":"D543","DOI":"10.1093\/nar\/gkab1038","article-title":"The PRIDE database resources in 2022: a hub for mass spectrometry-based proteomics evidences","volume":"50","author":"Perez-Riverol","year":"2022","journal-title":"Nucleic Acids Res"},{"key":"2023051210265297600_btad200-B23","doi-asserted-by":"crossref","first-page":"1058","DOI":"10.1074\/mcp.TIR119.001720","article-title":"MaxQuant software for ion mobility enhanced shotgun proteomics","volume":"19","author":"Prianichnikov","year":"2020","journal-title":"Mol Cell Proteomics"},{"key":"2023051210265297600_btad200-B24","doi-asserted-by":"crossref","first-page":"173","DOI":"10.3390\/metabo12020173","article-title":"A modular and expandable ecosystem for metabolomics data annotation in R","volume":"12","author":"Rainer","year":"2022","journal-title":"Metabolites"},{"key":"2023051210265297600_btad200-B25","doi-asserted-by":"crossref","first-page":"e47","DOI":"10.1093\/nar\/gkv007","article-title":"Limma powers differential expression analyses for RNA-sequencing and microarray studies","volume":"43","author":"Ritchie","year":"2015","journal-title":"Nucleic Acids Res"},{"key":"2023051210265297600_btad200-B26","first-page":"1","article-title":"Comparative assessment and novel strategy on methods for imputing proteomics data","volume":"12","author":"Shen","year":"2022","journal-title":"Sci Rep"},{"key":"2023051210265297600_btad200-B27","doi-asserted-by":"crossref","first-page":"1563","DOI":"10.1038\/s41587-021-00968-7","article-title":"MaxDIA enables library-based and library-free data-independent acquisition proteomics","volume":"39","author":"Sinitcyn","year":"2021","journal-title":"Nat Biotechnol"},{"key":"2023051210265297600_btad200-B28","doi-asserted-by":"crossref","first-page":"1998","DOI":"10.1093\/bioinformatics\/bts306","article-title":"Application of survival analysis methodology to the quantitative analysis of LC-MS proteomics data","volume":"28","author":"Tekwe","year":"2012","journal-title":"Bioinformatics"},{"key":"2023051210265297600_btad200-B29","doi-asserted-by":"crossref","first-page":"731","DOI":"10.1038\/nmeth.3901","article-title":"The perseus computational platform for comprehensive analysis of (prote)omics data","volume":"13","author":"Tyanova","year":"2016","journal-title":"Nat Methods"},{"key":"2023051210265297600_btad200-B30","doi-asserted-by":"crossref","first-page":"e83","DOI":"10.1093\/nar\/gkaa498","article-title":"NAguideR: performing and prioritizing missing value imputations for consistent bottom-up proteomic analyses","volume":"48","author":"Wang","year":"2020","journal-title":"Nucleic Acids Res"},{"key":"2023051210265297600_btad200-B31","doi-asserted-by":"crossref","first-page":"1993","DOI":"10.1021\/pr501138h","article-title":"Review, evaluation, and discussion of the challenges of missing value imputation for mass spectrometry-based label-free global proteomics","volume":"14","author":"Webb-Robertson","year":"2015","journal-title":"J Proteome Res"},{"key":"2023051210265297600_btad200-B32","first-page":"1","article-title":"Missing value imputation approach for mass spectrometry-based metabolomics data","volume":"8","author":"Wei","year":"2018","journal-title":"Sci Rep"},{"key":"2023051210265297600_btad200-B33","doi-asserted-by":"crossref","first-page":"135","DOI":"10.1093\/bioinformatics\/btw580","article-title":"DAPAR & ProStaR: software to perform statistical analyses in quantitative discovery proteomics","volume":"33","author":"Wieczorek","year":"2017","journal-title":"Bioinformatics"},{"key":"2023051210265297600_btad200-B34","doi-asserted-by":"crossref","first-page":"2343","DOI":"10.1021\/cr3003533","article-title":"Protein analysis by shotgun\/bottom-up proteomics","volume":"113","author":"Zhang","year":"2013","journal-title":"Chem Rev"}],"container-title":["Bioinformatics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/academic.oup.com\/bioinformatics\/advance-article-pdf\/doi\/10.1093\/bioinformatics\/btad200\/49989285\/btad200.pdf","content-type":"application\/pdf","content-version":"am","intended-application":"syndication"},{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article-pdf\/39\/5\/btad200\/50288269\/btad200.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article-pdf\/39\/5\/btad200\/50288269\/btad200.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,5,12]],"date-time":"2023-05-12T06:28:02Z","timestamp":1683872882000},"score":1,"resource":{"primary":{"URL":"https:\/\/academic.oup.com\/bioinformatics\/article\/doi\/10.1093\/bioinformatics\/btad200\/7126416"}},"subtitle":[],"editor":[{"given":"Janet","family":"Kelso","sequence":"additional","affiliation":[]}],"short-title":[],"issued":{"date-parts":[[2023,4,17]]},"references-count":34,"journal-issue":{"issue":"5","published-print":{"date-parts":[[2023,5,4]]}},"URL":"https:\/\/doi.org\/10.1093\/bioinformatics\/btad200","relation":{"has-preprint":[{"id-type":"doi","id":"10.1101\/2022.07.02.498573","asserted-by":"object"}]},"ISSN":["1367-4811"],"issn-type":[{"value":"1367-4811","type":"electronic"}],"subject":[],"published-other":{"date-parts":[[2023,5,1]]},"published":{"date-parts":[[2023,4,17]]},"article-number":"btad200"}}