{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,5]],"date-time":"2026-06-05T05:16:19Z","timestamp":1780636579120,"version":"3.54.1"},"reference-count":77,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Pattern Anal. Mach. Intell."],"published-print":{"date-parts":[[2023]]},"DOI":"10.1109\/tpami.2022.3232363","type":"journal-article","created":{"date-parts":[[2023,1,3]],"date-time":"2023-01-03T21:53:08Z","timestamp":1672782788000},"page":"1-15","source":"Crossref","is-referenced-by-count":4,"title":["Invariant Policy Learning: A Causal Perspective"],"prefix":"10.1109","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-1581-259X","authenticated-orcid":false,"given":"Sorawit","family":"Saengkyongam","sequence":"first","affiliation":[{"name":"Department of Mathematical Sciences, University of Copenhagen, Denmark"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Nikolaj","family":"Thams","sequence":"additional","affiliation":[{"name":"Department of Mathematical Sciences, University of Copenhagen, Denmark"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1487-7511","authenticated-orcid":false,"given":"Jonas","family":"Peters","sequence":"additional","affiliation":[{"name":"Department of Mathematical Sciences, University of Copenhagen, Denmark"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6203-9777","authenticated-orcid":false,"given":"Niklas","family":"Pfister","sequence":"additional","affiliation":[{"name":"Department of Mathematical Sciences, University of Copenhagen, Denmark"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2021.3094760"},{"key":"ref57","first-page":"1255","article-title":"On causal and anticausal learning","author":"sch\u00f6lkopf","year":"2012","journal-title":"Proc 29th Int Conf Mach Learn"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1023\/A:1010933404324"},{"key":"ref56","first-page":"18 935","article-title":"Exploiting independent instruments: Identification and distribution generalization","author":"saengkyongam","year":"2022","journal-title":"Proc 39th Int Conf Mach Learn"},{"key":"ref15","first-page":"10 902","article-title":"General transportability of soft interventions: Completeness results","volume":"33","author":"correa","year":"2020","journal-title":"Adv Neural Inf Process Syst"},{"key":"ref59","first-page":"21","article-title":"Invariant policy optimization: Towards stronger generalization in reinforcement learning","author":"sonar","year":"2021","journal-title":"Proc Conf Learn Dyn Control"},{"key":"ref14","doi-asserted-by":"crossref","first-page":"753","DOI":"10.1056\/NEJMoa0809329","article-title":"Estimation of the warfarin dose with clinical and pharmacogenetic data","volume":"360","author":"consortium","year":"2009","journal-title":"New England J Med"},{"key":"ref58","first-page":"518","article-title":"Contextual bandits with latent confounders: An NMF approach","author":"sen","year":"2017","journal-title":"Proc Conf Artif Intell Statist"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1214\/21-AOAS1487"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.1905688116"},{"key":"ref11","first-page":"3207","article-title":"Counterfactual reasoning and learning systems: The example of computational advertising","volume":"14","author":"bottou","year":"2013","journal-title":"J Mach Learn Res"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1111\/rssb.12398"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1214\/21-AOS2064"},{"key":"ref54","first-page":"1309","article-title":"Invariant models for causal transfer learning","volume":"19","author":"rojas-carulla","year":"2018","journal-title":"J Mach Learn Res"},{"key":"ref17","article-title":"Causal discovery for causal bandits utilizing separating sets","author":"de kroon","year":"2020"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1111\/j.1751-5823.2002.tb00354.x"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1080\/01621459.1961.10482090"},{"key":"ref18","first-page":"1097","article-title":"Doubly robust policy evaluation and learning","author":"dudik","year":"2011","journal-title":"Proc 28th Int Conf Mach Learn"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1080\/01621459.2018.1491403"},{"key":"ref50","author":"peters","year":"2017","journal-title":"Elements of Causal Inference Foundations and Learning Algorithms"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511803161"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1093\/biomet\/82.4.669"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/ICDMW.2011.169"},{"key":"ref47","author":"pearl","year":"2016","journal-title":"Causal Inference in Statistics A Primer"},{"key":"ref42","first-page":"10","article-title":"Domain generalization via invariant feature representation","author":"muandet","year":"2013","journal-title":"Proc 30th Int Conf Mach Learn"},{"key":"ref41","first-page":"411","article-title":"Strong completeness and faithfulness in Bayesian networks","author":"meek","year":"1995","journal-title":"Proc 11th Conf Uncertainty Artif Intell"},{"key":"ref44","first-page":"8260","article-title":"Regularizing towards causal invariance: Linear models with proxies","author":"oberst","year":"2021","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref43","doi-asserted-by":"crossref","first-page":"2111","DOI":"10.1016\/S1573-4412(05)80005-4","article-title":"Chapter 36 large sample estimation and hypothesis testing","volume":"4","author":"newey","year":"1994","journal-title":"Handbook of Econometrics"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1111\/rssb.12167"},{"key":"ref8","first-page":"2966","article-title":"Optimization over continuous and multi-dimensional decisions with observational data","author":"bertsimas","year":"2018","journal-title":"Proc Int Conf Neural Inf Process"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.1510507113"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1145\/1557019.1557040"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2021\/591"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.3982\/ECTA15732"},{"key":"ref6","first-page":"280","article-title":"Transportability from multiple environments with limited experiments: Completeness results","author":"bareinboim","year":"2014","journal-title":"Proc Int Conf Neural Inf Process"},{"key":"ref5","first-page":"1342","article-title":"Bandits with unobserved confounders: A causal approach","author":"bareinboim","year":"2015","journal-title":"Proc Int Conf Neural Inf Process"},{"key":"ref40","first-page":"10869","article-title":"Domain adaptation by using causal inference to predict invariant conditional distributions","author":"magliacane","year":"2018","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref35","article-title":"The epoch-greedy algorithm for multi-armed bandits with side information","author":"langford","year":"2008","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.2307\/2280779"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1002\/net.3230200503"},{"key":"ref36","first-page":"1189","article-title":"Causal bandits: Learning good interventions via causal inference","author":"lattimore","year":"2016","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref31","first-page":"1243","article-title":"Policy evaluation and optimization with continuous treatments","author":"kallus","year":"2018","journal-title":"Proc Int Conf Artif Intell Statist"},{"key":"ref75","first-page":"11 214","article-title":"Invariant causal prediction for block MDPs","author":"zhang","year":"2020","journal-title":"Proc 37th Int Conf Mach Learn"},{"key":"ref30","first-page":"8909","article-title":"Balanced policy evaluation and learning","author":"kallus","year":"2018","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref74","article-title":"Counterfactual learning of continuous stochastic policies","author":"zenati","year":"2020"},{"key":"ref33","first-page":"740","article-title":"Efficient reinforcement learning in factored MDPs","author":"kearns","year":"1999","journal-title":"Proc 16th Int Joint Conf Artif Intell"},{"key":"ref77","article-title":"Offline multi-action policy learning: Generalization and optimization","volume":"1050","author":"zhou","year":"2022","journal-title":"Operations Res"},{"key":"ref32","first-page":"22 293","article-title":"Confounding-robust policy evaluation in infinite-horizon reinforcement learning","author":"kallus","year":"2020","journal-title":"Adv Neural Inf Process Syst"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1145\/1015330.1015332"},{"key":"ref2","article-title":"Invariant risk minimization","author":"arjovsky","year":"2019"},{"key":"ref1","article-title":"Concrete problems in ai safety","author":"amodei","year":"2016"},{"key":"ref39","first-page":"10210","article-title":"Generalized transportability: Synthesis of experiments from heterogeneous domains","author":"lee","year":"2020","journal-title":"Proc 34th AAAI Conf Artif Intell"},{"key":"ref38","first-page":"2573","article-title":"Structural causal bandits: Where to intervene?","author":"lee","year":"2018","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref71","first-page":"5339","article-title":"Generalizing to unseen domains via adversarial data augmentation","author":"volpi","year":"2018","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1111\/j.2517-6161.1996.tb02080.x"},{"key":"ref73","first-page":"23519","article-title":"Towards a theoretical framework of out-of-distribution generalization","author":"ye","year":"2021","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref72","first-page":"5512","article-title":"Causal bandits with propagating inference","author":"yabe","year":"2018","journal-title":"Proc 35th Int Conf Mach Learn"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1613\/jair.1000"},{"key":"ref68","article-title":"Statistical testing under distributional shifts","author":"thams","year":"2021"},{"key":"ref23","first-page":"1523","article-title":"Multiagent planning with factored MDPs","author":"guestrin","year":"2002","journal-title":"Proc Int Conf Neural Inf Process"},{"key":"ref67","first-page":"430","article-title":"Bandits with partially observable confounded data","author":"tennenholtz","year":"2021","journal-title":"Proc Conf Uncertainty Artif Intell"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1093\/ectj\/utab031"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1515\/jci-2017-0016"},{"key":"ref69","article-title":"Finding minimal d-separators","author":"tian","year":"1998"},{"key":"ref20","first-page":"1437","article-title":"A comprehensive survey on safe reinforcement learning","volume":"16","author":"garc?a","year":"2015","journal-title":"J Mach Learn Res"},{"key":"ref64","first-page":"814","article-title":"Counterfactual risk minimization: Learning from logged bandit feedback","author":"swaminathan","year":"2015","journal-title":"Proc 32nd Int Conf Mach Learn"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.7551\/mitpress\/9780262017091.001.0001"},{"key":"ref22","first-page":"723","article-title":"A kernel two-sample test","volume":"13","author":"gretton","year":"2012","journal-title":"J Mach Learn Res"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i06.6590"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.3389\/fgene.2019.00524"},{"key":"ref65","first-page":"3231","article-title":"The self-normalized estimator for counterfactual learning","author":"swaminathan","year":"2015","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i06.6579"},{"key":"ref27","first-page":"2259","article-title":"Causal graph based decomposition of factored MDPs","volume":"7","author":"jonsson","year":"2006","journal-title":"J Mach Learn Res"},{"key":"ref29","first-page":"12697","article-title":"Learning causal effects via weighted empirical risk minimization","author":"jung","year":"2020","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref60","author":"spirtes","year":"2000","journal-title":"Causation Prediction and Search"},{"key":"ref62","first-page":"3118","article-title":"Preventing failures due to dataset shift: Learning predictive models that transport","author":"subbaswamy","year":"2019","journal-title":"Proc 22nd Int Conf Artif Intell Statist"},{"key":"ref61","first-page":"2217","article-title":"Learning from logged implicit exploration data","author":"strehl","year":"2010","journal-title":"Proc Adv Neural Inf Process Syst"}],"container-title":["IEEE Transactions on Pattern Analysis and Machine Intelligence"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/34\/4359286\/10005169.pdf?arnumber=10005169","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,6,7]],"date-time":"2023-06-07T02:27:11Z","timestamp":1686104831000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10005169\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023]]},"references-count":77,"URL":"https:\/\/doi.org\/10.1109\/tpami.2022.3232363","relation":{},"ISSN":["0162-8828","2160-9292","1939-3539"],"issn-type":[{"value":"0162-8828","type":"print"},{"value":"2160-9292","type":"electronic"},{"value":"1939-3539","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023]]}}}