{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,10,30]],"date-time":"2024-10-30T08:54:41Z","timestamp":1730278481430,"version":"3.28.0"},"reference-count":37,"publisher":"IEEE","license":[{"start":{"date-parts":[[2022,11,1]],"date-time":"2022-11-01T00:00:00Z","timestamp":1667260800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,11,1]],"date-time":"2022-11-01T00:00:00Z","timestamp":1667260800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022,11,1]]},"DOI":"10.1109\/itw54588.2022.9965820","type":"proceedings-article","created":{"date-parts":[[2022,12,7]],"date-time":"2022-12-07T20:47:00Z","timestamp":1670446020000},"page":"137-142","source":"Crossref","is-referenced-by-count":0,"title":["Regret Analysis for RL using Renewal Bandit Feedback"],"prefix":"10.1109","author":[{"given":"Sujay","family":"Bhatt","sequence":"first","affiliation":[{"name":"Baidu Research,Cognitive Computing Lab,USA,WA 98004"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Guanhua","family":"Fang","sequence":"additional","affiliation":[{"name":"Baidu Research,Cognitive Computing Lab,USA,WA 98004"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ping","family":"Li","sequence":"additional","affiliation":[{"name":"Baidu Research,Cognitive Computing Lab,USA,WA 98004"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Gennady","family":"Samorodnitsky","sequence":"additional","affiliation":[{"name":"Cornell University,School of ORIE,Ithaca,USA,NY 14853"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"article-title":"Primal-dual ? learning: Sample complexity and sublinear run time for ergodic markov decision problems","year":"2017","author":"wang","key":"ref33"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2013.2292137"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1287\/moor.1090.0396"},{"key":"ref30","first-page":"1925","article-title":"Nearly optimal catoni&#x2019;s m-estimator for infinite variance","author":"bhatt","year":"2022","journal-title":"International Conference on Machine Learning"},{"key":"ref37","first-page":"3385","article-title":"No-regret reinforcement learning with heavy-tailed rewards","author":"zhuang","year":"2021","journal-title":"International Conference on Artificial Intelligence and Statistics"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1016\/j.jcss.2007.08.009"},{"journal-title":"Markov Processes for Stochastic Modeling","year":"2013","author":"kijima","key":"ref35"},{"key":"ref34","first-page":"10170","article-title":"Model-free reinforcement learning in infinite-horizon average-reward markov decision processes","author":"wei","year":"2020","journal-title":"International Conference on Machine Learning"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1017\/9781108571401"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1016\/0196-8858(85)90002-8"},{"key":"ref12","first-page":"49","article-title":"Logarithmic online regret bounds for undiscounted reinforcement learning","volume":"19","author":"ortner","year":"2007","journal-title":"Advances in neural information processing systems"},{"key":"ref13","article-title":"Near-optimal regret bounds for reinforcement learning","volume":"11","author":"jaksch","year":"2010","journal-title":"Journal of Machine Learning Research"},{"article-title":"Improved analysis of UCRL2 with empirical Bernstein Inequality","year":"2020","author":"fruit","key":"ref14"},{"key":"ref15","first-page":"1056","article-title":"Tightening exploration in upper confidence reinforcement learning","author":"bourel","year":"2020","journal-title":"International Conference on Machine Learning"},{"article-title":"Regal: A regularization based algorithm for reinforcement learning in weakly communicating MDPs","year":"2012","author":"bartlett","key":"ref16"},{"article-title":"Learning unknown Markov decision processes: A thompson sampling approach","year":"2017","author":"ouyang","key":"ref17"},{"key":"ref18","first-page":"263","article-title":"Minimax regret bounds for reinforcement learning","author":"azar","year":"2017","journal-title":"International Conference on Machine Learning"},{"article-title":"Unifying PAC and Regret: Uniform PAC bounds for episodic reinforcement learning","year":"2017","author":"dann","key":"ref19"},{"key":"ref28","first-page":"1","article-title":"Fast learning for renewal optimization in online task scheduling","volume":"22","author":"neely","year":"2021","journal-title":"Journal of Machine Learning Research"},{"article-title":"Model-based reinforcement learning for atari","year":"2019","author":"kaiser","key":"ref4"},{"article-title":"Continuous-time multi-armed bandits with controlled restarts","year":"2020","author":"cayci","key":"ref27"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1038\/nature24270"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1017\/S0001867800037046"},{"journal-title":"Markov Decision Processes Discrete Stochastic Dynamic Programming","year":"2014","author":"puterman","key":"ref29"},{"article-title":"A framework for reinforcement learning and planning","year":"2020","author":"moerland","key":"ref5"},{"journal-title":"Introduction to Probability Models","year":"2014","author":"ross","key":"ref8"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9781139626514"},{"key":"ref2","first-page":"1","article-title":"Guided policy search","author":"levine","year":"2013","journal-title":"International Conference on Machine Learning"},{"journal-title":"Reinforcement Learning An Introduction","year":"2018","author":"sutton","key":"ref1"},{"journal-title":"REINFORCEMENT LEARNING AND OPTIMAL CONTROL","year":"2019","author":"bertsekas","key":"ref9"},{"key":"ref20","first-page":"4528","article-title":"Is reinforcement learning more difficult than bandits&#x0192; a near-optimal algorithm escaping the curse of horizon","author":"zhang","year":"2021","journal-title":"Conference on Learning Theory"},{"key":"ref22","first-page":"1889","article-title":"Trust region policy optimization","author":"schulman","year":"2015","journal-title":"International Conference on Machine Learning"},{"article-title":"Playing atari with deep reinforcement learning","year":"2013","author":"mnih","key":"ref21"},{"article-title":"Proximal policy optimization algorithms","year":"2017","author":"schulman","key":"ref24"},{"key":"ref23","first-page":"1928","article-title":"Asynchronous methods for deep reinforcement learning","author":"mnih","year":"2016","journal-title":"International Conference on Machine Learning"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1145\/3309697.3331515"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1137\/S0363012997331639"}],"event":{"name":"2022 IEEE Information Theory Workshop (ITW)","start":{"date-parts":[[2022,11,1]]},"location":"Mumbai, India","end":{"date-parts":[[2022,11,9]]}},"container-title":["2022 IEEE Information Theory Workshop (ITW)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9965754\/9965755\/09965820.pdf?arnumber=9965820","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,12,26]],"date-time":"2022-12-26T19:42:40Z","timestamp":1672083760000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9965820\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,11,1]]},"references-count":37,"URL":"https:\/\/doi.org\/10.1109\/itw54588.2022.9965820","relation":{},"subject":[],"published":{"date-parts":[[2022,11,1]]}}}