{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,30]],"date-time":"2025-03-30T06:47:24Z","timestamp":1743317244557,"version":"3.37.3"},"reference-count":53,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"10","license":[{"start":{"date-parts":[[2024,10,1]],"date-time":"2024-10-01T00:00:00Z","timestamp":1727740800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2024,10,1]],"date-time":"2024-10-01T00:00:00Z","timestamp":1727740800000},"content-version":"am","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2024,10,1]],"date-time":"2024-10-01T00:00:00Z","timestamp":1727740800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,10,1]],"date-time":"2024-10-01T00:00:00Z","timestamp":1727740800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100000148","name":"Division of Electrical, Communications and Cyber Systems","doi-asserted-by":"publisher","award":["ECCS- 2335876"],"award-info":[{"award-number":["ECCS- 2335876"]}],"id":[{"id":"10.13039\/100000148","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000121","name":"Division of Mathematical Sciences","doi-asserted-by":"publisher","award":["DMS-1953686"],"award-info":[{"award-number":["DMS-1953686"]}],"id":[{"id":"10.13039\/100000121","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Princeton Language and Intelligence"},{"name":"National Science Foundation Cyber-Physical Systems","award":["CPS-2312093"],"award-info":[{"award-number":["CPS-2312093"]}]},{"name":"Genmab"},{"DOI":"10.13039\/100020457","name":"C3.ai Digital Transformation Institute","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100020457","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000145","name":"Division of Information and Intelligent Systems","doi-asserted-by":"publisher","award":["IIS-2107304"],"award-info":[{"award-number":["IIS-2107304"]}],"id":[{"id":"10.13039\/100000145","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000006","name":"Office of Naval Research","doi-asserted-by":"publisher","award":["1006977"],"award-info":[{"award-number":["1006977"]}],"id":[{"id":"10.13039\/100000006","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Inform. Theory"],"published-print":{"date-parts":[[2024,10]]},"DOI":"10.1109\/tit.2024.3416202","type":"journal-article","created":{"date-parts":[[2024,6,18]],"date-time":"2024-06-18T17:35:48Z","timestamp":1718732148000},"page":"7251-7272","source":"Crossref","is-referenced-by-count":1,"title":["Efficient Reinforcement Learning With Impaired Observability: Learning to Act With Delayed and Missing State Observations"],"prefix":"10.1109","volume":"70","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-9924-7843","authenticated-orcid":false,"given":"Minshuo","family":"Chen","sequence":"first","affiliation":[{"name":"Department of Electrical and Computer Engineering, Princeton University, Princeton, NJ, USA"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-0279-5393","authenticated-orcid":false,"given":"Jie","family":"Meng","sequence":"additional","affiliation":[{"name":"Department of Management Science and Engineering, Stanford University, Stanford, CA, USA"}]},{"given":"Yu","family":"Bai","sequence":"additional","affiliation":[{"name":"Salesforce AI Research, Palo Alto, CA, USA"}]},{"given":"Yinyu","family":"Ye","sequence":"additional","affiliation":[{"name":"Department of Management Science and Engineering, Stanford University, Stanford, CA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2062-131X","authenticated-orcid":false,"given":"H.","family":"Vincent Poor","sequence":"additional","affiliation":[{"name":"Department of Electrical and Computer Engineering, Princeton University, Princeton, NJ, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2101-9507","authenticated-orcid":false,"given":"Mengdi","family":"Wang","sequence":"additional","affiliation":[{"name":"Department of Electrical and Computer Engineering, Princeton University, Princeton, NJ, USA"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1287\/opre.21.5.1071"},{"key":"ref2","volume":"1","author":"Bertsekas","year":"2012","journal-title":"Dynamic Programming and Optimal Control"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/tnn.1998.712192"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1017\/9781108571401"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1287\/moor.12.3.441"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9781316471104"},{"key":"ref7","first-page":"18530","article-title":"Sample-efficient reinforcement learning of undercomplete POMDPs","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Jin"},{"key":"ref8","article-title":"Provably efficient reinforcement learning in partially observable dynamical systems","author":"Uehara","year":"2022","journal-title":"arXiv:2206.12020"},{"key":"ref9","article-title":"PAC reinforcement learning for predictive state representations","author":"Zhan","year":"2022","journal-title":"arXiv:2207.05738"},{"key":"ref10","article-title":"Partially observable RL with B-stability: Unified structural condition and sharp sample-efficient algorithms","author":"Chen","year":"2022","journal-title":"arXiv:2209.14990"},{"key":"ref11","article-title":"Optimistic MLE\u2014A generic model-based algorithm for partially observable sequential decision making","author":"Liu","year":"2022","journal-title":"arXiv:2209.14997"},{"key":"ref12","article-title":"GEC: A unified framework for interactive decision making in MDP, POMDP, and beyond","author":"Zhong","year":"2022","journal-title":"arXiv:2211.01962"},{"key":"ref13","article-title":"Lower bounds for learning in revealing POMDPs","author":"Chen","year":"2023","journal-title":"arXiv:2302.01333"},{"key":"ref14","first-page":"1","article-title":"Missing data and uncertainty in batch reinforcement learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Lizotte"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TIE.2014.2367456"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2021.06.022"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-74958-5_41"},{"key":"ref18","article-title":"A reduction-based framework for sequential decision making with delayed feedback","author":"Yang","year":"2023","journal-title":"arXiv:2302.01477"},{"key":"ref19","first-page":"6095","article-title":"Delayed feedback in generalised linear bandits revisited","volume-title":"Proc. Int. Conf. Artif. Intell. Statist.","author":"Howson"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1023\/A:1017984413808"},{"key":"ref21","first-page":"213","article-title":"R-max-a general polynomial time algorithm for near-optimal reinforcement learning","volume":"3","author":"Brafman","year":"2002","journal-title":"J. Mach. Learn. Res."},{"key":"ref22","first-page":"1563","article-title":"Near-optimal regret bounds for reinforcement learning","volume":"11","author":"Jaksch","year":"2010","journal-title":"J. Mach. Learn. Res."},{"key":"ref23","first-page":"2818","article-title":"Sample complexity of episodic fixed-horizon reinforcement learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"28","author":"Dann"},{"key":"ref24","first-page":"263","article-title":"Minimax regret bounds for reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Azar"},{"key":"ref25","article-title":"Optimistic posterior sampling for reinforcement learning: Worst-case regret bounds","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"30","author":"Agrawal"},{"key":"ref26","first-page":"4868","article-title":"Is Q-learning provably efficient?","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"31","author":"Jin"},{"key":"ref27","first-page":"1507","article-title":"Policy certificates: Towards accountable reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Dann"},{"key":"ref28","first-page":"7304","article-title":"Tighter problem-dependent regret bounds in reinforcement learning without domain knowledge using value function bounds","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Zanette"},{"key":"ref29","first-page":"15198","article-title":"Almost optimal model-free reinforcement learning via reference-advantage decomposition","volume-title":"Proc. NIPS","volume":"33","author":"Zhang"},{"key":"ref30","first-page":"578","article-title":"Episodic reinforcement learning in finite MDPs: Minimax lower bounds revisited","volume-title":"Proc. Algorithmic Learn. Theory","author":"Domingues"},{"key":"ref31","first-page":"873","article-title":"Distributed delayed stochastic optimization","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"24","author":"Agarwal"},{"key":"ref32","article-title":"Efficient optimal learning for contextual bandits","author":"Dudik","year":"2011","journal-title":"arXiv:1106.2369"},{"key":"ref33","first-page":"1453","article-title":"Online learning under delayed feedback","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Joulani"},{"key":"ref34","article-title":"Stochastic bandit models for delayed conversions","author":"Vernade","year":"2017","journal-title":"arXiv:1706.09186"},{"key":"ref35","first-page":"9712","article-title":"Linear bandits with stochastic delayed feedback","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Vernade"},{"key":"ref36","first-page":"3348","article-title":"Stochastic bandits with arm-dependent delays","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Gael"},{"key":"ref37","first-page":"5969","article-title":"Stochastic multi-armed bandits with unrestricted delay distributions","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Lancewicki"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1007\/s00521-009-0295-6"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1016\/j.artmed.2010.05.002"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1056\/NEJMsr1203730"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1186\/s40537-021-00516-9"},{"key":"ref42","article-title":"Contextual bandit with missing rewards","author":"Bouneffouf","year":"2020","journal-title":"arXiv:2007.06368"},{"key":"ref43","first-page":"17665","article-title":"Sequence model imitation learning with unobserved contexts","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"35","author":"Swamy"},{"key":"ref44","first-page":"31877","article-title":"Hindsight learning for MDPs with exogenous inputs","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Sinclair"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1111\/j.2517-6161.1959.tb00309.x"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1287\/opre.20.4.904"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1057\/palgrave.jors.2600745"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2003.809799"},{"key":"ref49","first-page":"18733","article-title":"Learning in POMDPs is sample-efficient with hindsight observability","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Lee"},{"key":"ref50","first-page":"1225","article-title":"Bayes-adaptive POMDPs","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"20","author":"Ross"},{"key":"ref51","first-page":"1","article-title":"Model-based Bayesian reinforcement learning in partially observable domains","volume-title":"Proc. Int. Symp. Artif. Intell. Math.","author":"Poupart"},{"article-title":"Inequalities for the L1 deviation of the empirical distribution","year":"2003","author":"Weissman","key":"ref52"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1017\/9781108627771"}],"container-title":["IEEE Transactions on Information Theory"],"original-title":[],"link":[{"URL":"https:\/\/ieeexplore.ieee.org\/ielam\/18\/10682502\/10560059-aam.pdf","content-type":"application\/pdf","content-version":"am","intended-application":"syndication"},{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/18\/10682502\/10560059.pdf?arnumber=10560059","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,9,18]],"date-time":"2024-09-18T17:55:12Z","timestamp":1726682112000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10560059\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,10]]},"references-count":53,"journal-issue":{"issue":"10"},"URL":"https:\/\/doi.org\/10.1109\/tit.2024.3416202","relation":{},"ISSN":["0018-9448","1557-9654"],"issn-type":[{"type":"print","value":"0018-9448"},{"type":"electronic","value":"1557-9654"}],"subject":[],"published":{"date-parts":[[2024,10]]}}}