{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T22:18:34Z","timestamp":1774045114533,"version":"3.50.1"},"reference-count":53,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,2,10]],"date-time":"2026-02-10T00:00:00Z","timestamp":1770681600000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"funder":[{"DOI":"10.13039\/100007631","name":"Canadian Institute for Advanced Research","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100007631","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100013373","name":"Alberta Machine Intelligence Institute","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100013373","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100000038","name":"Natural Sciences and Engineering Research Council of Canada","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100000038","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100009192","name":"Alberta Innovates","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100009192","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Journal of Biomedical Informatics"],"published-print":{"date-parts":[[2026,4]]},"DOI":"10.1016\/j.jbi.2026.104994","type":"journal-article","created":{"date-parts":[[2026,2,10]],"date-time":"2026-02-10T16:46:40Z","timestamp":1770742000000},"page":"104994","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Learning dynamic binary treatment policies under treatment selection bias: A Conservative Q-Learning approach with representation balancing"],"prefix":"10.1016","volume":"176","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-0436-8921","authenticated-orcid":false,"given":"Animesh Kumar","family":"Paul","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8327-934X","authenticated-orcid":false,"given":"Russell","family":"Greiner","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.jbi.2026.104994_b1","doi-asserted-by":"crossref","DOI":"10.1111\/1467-9868.00389","article-title":"Optimal dynamic treatment regimes","author":"Murphy","year":"2003","journal-title":"J. R. Stat. Soc. Ser. B Stat. Methodol."},{"key":"10.1016\/j.jbi.2026.104994_b2","doi-asserted-by":"crossref","DOI":"10.1007\/978-1-4614-7428-9","article-title":"Statistical Methods for Dynamic Treatment Regimes","author":"Chakraborty","year":"2013"},{"key":"10.1016\/j.jbi.2026.104994_b3","article-title":"Reinforcement Learning in Healthcare: A Survey","author":"Yu","year":"2022","journal-title":"ACM Comput. Surv."},{"issue":"4","key":"10.1016\/j.jbi.2026.104994_b4","doi-asserted-by":"crossref","first-page":"860.e7","DOI":"10.1016\/j.jcrc.2015.03.025","article-title":"Associations of fluid overload with mortality and kidney recovery in patients with acute kidney injury: A systematic review and meta-analysis","volume":"30","author":"Zhang","year":"2015","journal-title":"J. Crit. Care"},{"key":"10.1016\/j.jbi.2026.104994_b5","series-title":"Causal Inference: What If","author":"Hernan","year":"2024"},{"issue":"5","key":"10.1016\/j.jbi.2026.104994_b6","doi-asserted-by":"crossref","first-page":"550","DOI":"10.1097\/00001648-200009000-00011","article-title":"Marginal structural models and causal inference in epidemiology","volume":"11","author":"Robins","year":"2000","journal-title":"Epidemiology"},{"issue":"2","key":"10.1016\/j.jbi.2026.104994_b7","article-title":"Dynamic regime marginal structural mean models for estimation of optimal dynamic treatment regimes, part I: Main content","volume":"6","author":"Orellana","year":"2010","journal-title":"Int. J. Biostat."},{"issue":"510","key":"10.1016\/j.jbi.2026.104994_b8","doi-asserted-by":"crossref","first-page":"583","DOI":"10.1080\/01621459.2014.937488","article-title":"New Statistical Learning Methods for Estimating Optimal Dynamic Treatment Regimes","volume":"110","author":"Zhao","year":"2015","journal-title":"J. Amer. Statist. Assoc."},{"issue":"1","key":"10.1016\/j.jbi.2026.104994_b9","doi-asserted-by":"crossref","first-page":"145","DOI":"10.1111\/biom.12539","article-title":"Adaptive contrast weighted learning for multi-stage multi-treatment decision-making","volume":"73","author":"Tao","year":"2017","journal-title":"Biometrics"},{"issue":"3","key":"10.1016\/j.jbi.2026.104994_b10","doi-asserted-by":"crossref","first-page":"1914","DOI":"10.1214\/18-AOAS1137","article-title":"Tree-based reinforcement learning for estimating optimal dynamic treatment regimes","volume":"12","author":"Tao","year":"2018","journal-title":"Ann. Appl. Stat."},{"issue":"1","key":"10.1016\/j.jbi.2026.104994_b11","doi-asserted-by":"crossref","first-page":"36","DOI":"10.1093\/pan\/mpp036","article-title":"An Introduction to the Augmented Inverse Propensity Weighted Estimator","volume":"18","author":"Glynn","year":"2010","journal-title":"Political Anal."},{"key":"10.1016\/j.jbi.2026.104994_b12","first-page":"1179","article-title":"Conservative Q-Learning for Offline Reinforcement Learning","volume":"33","author":"Kumar","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.jbi.2026.104994_b13","series-title":"Offline Reinforcement Learning: Tutorial, Review, and Perspectives on Open Problems","author":"Levine","year":"2020"},{"key":"10.1016\/j.jbi.2026.104994_b14","series-title":"34th International Conference on Machine Learning, ICML 2017","first-page":"4709","article-title":"Estimating individual treatment effect: Generalization bounds and algorithms","volume":"6","author":"Shalit","year":"2017"},{"key":"10.1016\/j.jbi.2026.104994_b15","doi-asserted-by":"crossref","DOI":"10.2307\/1428011","article-title":"Integral probability metrics and their generating classes of functions","author":"M\u00fcller","year":"1997","journal-title":"Adv. in Appl. Probab."},{"key":"10.1016\/j.jbi.2026.104994_b16","series-title":"IEEE International Symposium on Information Theory - Proceedings","article-title":"Non-parametric estimation of integral probability metrics","author":"Sriperumbudur","year":"2010"},{"key":"10.1016\/j.jbi.2026.104994_b17","doi-asserted-by":"crossref","DOI":"10.1002\/wics.1375","article-title":"Energy distance","author":"Rizzo","year":"2016","journal-title":"Wiley Interdiscip. Rev.: Comput. Stat."},{"key":"10.1016\/j.jbi.2026.104994_b18","first-page":"130536","article-title":"EpiCare: A Reinforcement Learning Benchmark for Dynamic Treatment Regimes","volume":"37","author":"Hargrave","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.jbi.2026.104994_b19","series-title":"DTR-Bench: An in silico Environment and Benchmark Platform for Reinforcement Learning Based Dynamic Treatment Regime","author":"Luo","year":"2024"},{"key":"10.1016\/j.jbi.2026.104994_b20","doi-asserted-by":"crossref","DOI":"10.1016\/j.cmpb.2025.108754","article-title":"Reinforcement learning using neural networks in estimating an optimal dynamic treatment regime in patients with sepsis","volume":"266","author":"Liang","year":"2025","journal-title":"Comput. Methods Programs Biomed."},{"key":"10.1016\/j.jbi.2026.104994_b21","series-title":"A Conservative Q-Learning approach for handling distribution shift in sepsis treatment strategies","author":"Kaushik","year":"2022"},{"issue":"9","key":"10.1016\/j.jbi.2026.104994_b22","doi-asserted-by":"crossref","first-page":"4763","DOI":"10.1109\/JBHI.2022.3183854","article-title":"Supervised Optimal Chemotherapy Regimen Based on Offline Reinforcement Learning","volume":"26","author":"Shiranthika","year":"2022","journal-title":"IEEE J. Biomed. Health Informatics"},{"key":"10.1016\/j.jbi.2026.104994_b23","series-title":"Proceedings of the 37th AAAI Conference on Artificial Intelligence, AAAI 2023","first-page":"15696","article-title":"Towards Safe Mechanical Ventilation Treatment Using Deep Offline Reinforcement Learning","volume":"vol. 37","author":"Kondrup","year":"2023"},{"key":"10.1016\/j.jbi.2026.104994_b24","series-title":"Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining","first-page":"4673","article-title":"Deep Offline Reinforcement Learning for Real-world Treatment Optimization Applications","author":"Nambiar","year":"2023"},{"key":"10.1016\/j.jbi.2026.104994_b25","doi-asserted-by":"crossref","DOI":"10.1016\/j.smhl.2024.100519","article-title":"Smart pain relief: Harnessing conservative Q learning for personalized and dynamic pain management","volume":"34","author":"Huang","year":"2024","journal-title":"Smart Health"},{"issue":"1","key":"10.1016\/j.jbi.2026.104994_b26","doi-asserted-by":"crossref","first-page":"459","DOI":"10.1109\/JBHI.2023.3321099","article-title":"Towards Real-World Applications of Personalized Anesthesia Using Policy Constraint Q Learning for Propofol Infusion Control","volume":"28","author":"Cai","year":"2024","journal-title":"IEEE J. Biomed. Health Inform."},{"issue":"1","key":"10.1016\/j.jbi.2026.104994_b27","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1038\/s41746-025-01709-9","article-title":"A distributional reinforcement learning model for optimal glucose control after cardiac surgery","volume":"8","author":"Desman","year":"2025","journal-title":"Npj Digit. Med."},{"issue":"1","key":"10.1016\/j.jbi.2026.104994_b28","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1038\/s41746-025-01498-1","article-title":"Personalized decision making for coronary artery disease treatment using offline reinforcement learning","volume":"8","author":"Ghasemi","year":"2025","journal-title":"Npj Digit. Med."},{"issue":"1","key":"10.1016\/j.jbi.2026.104994_b29","doi-asserted-by":"crossref","first-page":"63","DOI":"10.1007\/s44230-025-00093-7","article-title":"Offline Safe Reinforcement Learning for Sepsis Treatment: Tackling Variable-Length Episodes with Sparse Rewards","volume":"5","author":"Tu","year":"2025","journal-title":"Human-Centric Intell. Syst. 2025 5:1"},{"key":"10.1016\/j.jbi.2026.104994_b30","series-title":"Proceedings of the National Conference on Artificial Intelligence","article-title":"High confidence off-policy evaluation","author":"Thomas","year":"2015"},{"key":"10.1016\/j.jbi.2026.104994_b31","series-title":"Proceedings of Machine Learning Research","first-page":"33432","article-title":"Position: Reinforcement Learning in Dynamic Treatment Regimes Needs Critical Reexamination","volume":"vol. 235","author":"Luo","year":"2024"},{"key":"10.1016\/j.jbi.2026.104994_b32","doi-asserted-by":"crossref","DOI":"10.1002\/bimj.201700181","article-title":"A cure-rate model for Q-learning: Estimating an adaptive immunosuppressant treatment strategy for allogeneic hematopoietic cell transplant patients","author":"Moodie","year":"2019","journal-title":"Biom. J."},{"issue":"531","key":"10.1016\/j.jbi.2026.104994_b33","doi-asserted-by":"crossref","first-page":"1531","DOI":"10.1080\/01621459.2019.1629939","article-title":"Estimating Optimal Dynamic Treatment Regimes With Survival Outcomes","volume":"115","author":"Simoneau","year":"2020","journal-title":"J. Amer. Statist. Assoc."},{"key":"10.1016\/j.jbi.2026.104994_b34","article-title":"Individualized fluid administration for critically ill patients with sepsis with an interpretable dynamic treatment regimen model","author":"Zhang","year":"2020","journal-title":"Sci. Rep."},{"key":"10.1016\/j.jbi.2026.104994_b35","doi-asserted-by":"crossref","DOI":"10.1002\/sim.9155","article-title":"Restricted sub-tree learning to estimate an optimal dynamic treatment regime using observational data","author":"Speth","year":"2021","journal-title":"Stat. Med."},{"key":"10.1016\/j.jbi.2026.104994_b36","doi-asserted-by":"crossref","DOI":"10.1177\/09622802231158733","article-title":"Estimating individualized treatment rules in longitudinal studies with covariate-driven observation times","author":"Coulombe","year":"2023","journal-title":"Stat. Methods Med. Res."},{"issue":"25","key":"10.1016\/j.jbi.2026.104994_b37","first-page":"723","article-title":"A Kernel Two-Sample Test","volume":"13","author":"Gretton","year":"2012","journal-title":"J. Mach. Learn. Res."},{"key":"10.1016\/j.jbi.2026.104994_b38","series-title":"Advances in Neural Information Processing Systems","article-title":"Matching on balanced nonlinear representations for treatment effects estimation","author":"Li","year":"2017"},{"key":"10.1016\/j.jbi.2026.104994_b39","doi-asserted-by":"crossref","DOI":"10.1016\/j.jmva.2003.12.002","article-title":"A new test for multivariate normality","author":"Sz\u00e9kely","year":"2005","journal-title":"J. Multivariate Anal."},{"key":"10.1016\/j.jbi.2026.104994_b40","doi-asserted-by":"crossref","DOI":"10.1016\/S0047-259X(03)00079-4","article-title":"On a new multivariate two-sample test","author":"Baringhaus","year":"2004","journal-title":"J. Multivariate Anal."},{"key":"10.1016\/j.jbi.2026.104994_b41","doi-asserted-by":"crossref","DOI":"10.1016\/j.jbi.2021.103940","article-title":"On learning disentangled representations for individual treatment effect estimation","author":"Chu","year":"2021","journal-title":"J. Biomed. Inform."},{"key":"10.1016\/j.jbi.2026.104994_b42","doi-asserted-by":"crossref","first-page":"i60","DOI":"10.1093\/bioinformatics\/btac221","article-title":"BITES: balanced individual treatment effect for survival data","volume":"38","author":"Schrod","year":"2022","journal-title":"Bioinformatics"},{"key":"10.1016\/j.jbi.2026.104994_b43","series-title":"Enhancing modified treatment policy effect estimation with weighted energy distance","author":"Jiang","year":"2023"},{"key":"10.1016\/j.jbi.2026.104994_b44","series-title":"Advances in Neural Information Processing Systems","article-title":"An effective framework for estimating individualized treatment rules","volume":"37","author":"Lee","year":"2024"},{"key":"10.1016\/j.jbi.2026.104994_b45","series-title":"Proceedings of Machine Learning Research","first-page":"856","article-title":"Towards Representation Learning for Weighting Problems in Design-Based Causal Inference","volume":"244","author":"Clivio","year":"2024"},{"issue":"1","key":"10.1016\/j.jbi.2026.104994_b46","doi-asserted-by":"crossref","first-page":"132","DOI":"10.1007\/s12561-023-09394-6","article-title":"Covariate-Balancing-Aware Interpretable Deep Learning Models for Treatment Effect Estimation","volume":"17","author":"Chen","year":"2025","journal-title":"Stat. Biosci."},{"issue":"3","key":"10.1016\/j.jbi.2026.104994_b47","doi-asserted-by":"crossref","first-page":"491","DOI":"10.1142\/S0219530520400035","article-title":"Balanced joint maximum mean discrepancy for deep transfer learning","volume":"19","author":"Meng","year":"2021","journal-title":"Anal. Appl. (Singap.)"},{"key":"10.1016\/j.jbi.2026.104994_b48","series-title":"A Unified Joint Maximum Mean Discrepancy for Domain Adaptation","author":"Wang","year":"2021"},{"key":"10.1016\/j.jbi.2026.104994_b49","first-page":"1","article-title":"Domain-adversarial training of neural networks","volume":"17","author":"Ganin","year":"2016","journal-title":"J. Mach. Learn. Res."},{"key":"10.1016\/j.jbi.2026.104994_b50","series-title":"34th International Conference on Machine Learning, ICML 2017","first-page":"298","article-title":"Wasserstein generative adversarial networks","volume":"1","author":"Arjovsky","year":"2017"},{"issue":"434","key":"10.1016\/j.jbi.2026.104994_b51","doi-asserted-by":"crossref","first-page":"444","DOI":"10.1080\/01621459.1996.10476902","article-title":"Identification of Causal Effects Using Instrumental Variables","volume":"91","author":"Angrist","year":"1996","journal-title":"J. Amer. Statist. Assoc."},{"issue":"13","key":"10.1016\/j.jbi.2026.104994_b52","doi-asserted-by":"crossref","first-page":"2297","DOI":"10.1002\/sim.6128","article-title":"Instrumental variable methods for causal inference","volume":"33","author":"Baiocchi","year":"2014","journal-title":"Stat. Med."},{"issue":"4","key":"10.1016\/j.jbi.2026.104994_b53","doi-asserted-by":"crossref","first-page":"987","DOI":"10.1093\/biomet\/asy038","article-title":"Identifying Causal Effects With Proxy Variables of an Unmeasured Confounder","volume":"105","author":"Miao","year":"2018","journal-title":"Biometrika"}],"container-title":["Journal of Biomedical Informatics"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1532046426000183?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1532046426000183?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T20:39:13Z","timestamp":1774039153000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S1532046426000183"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,4]]},"references-count":53,"alternative-id":["S1532046426000183"],"URL":"https:\/\/doi.org\/10.1016\/j.jbi.2026.104994","relation":{},"ISSN":["1532-0464"],"issn-type":[{"value":"1532-0464","type":"print"}],"subject":[],"published":{"date-parts":[[2026,4]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Learning dynamic binary treatment policies under treatment selection bias: A Conservative Q-Learning approach with representation balancing","name":"articletitle","label":"Article Title"},{"value":"Journal of Biomedical Informatics","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.jbi.2026.104994","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 The Authors. Published by Elsevier Inc.","name":"copyright","label":"Copyright"}],"article-number":"104994"}}