{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,12]],"date-time":"2025-12-12T13:44:57Z","timestamp":1765547097583,"version":"3.28.0"},"reference-count":51,"publisher":"IEEE","license":[{"start":{"date-parts":[[2023,5,29]],"date-time":"2023-05-29T00:00:00Z","timestamp":1685318400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,5,29]],"date-time":"2023-05-29T00:00:00Z","timestamp":1685318400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023,5,29]]},"DOI":"10.1109\/icra48891.2023.10161186","type":"proceedings-article","created":{"date-parts":[[2023,7,4]],"date-time":"2023-07-04T13:20:56Z","timestamp":1688476856000},"page":"989-995","source":"Crossref","is-referenced-by-count":3,"title":["Dealing with Sparse Rewards in Continuous Control Robotics via Heavy-Tailed Policy Optimization"],"prefix":"10.1109","author":[{"given":"Souradip","family":"Chakraborty","sequence":"first","affiliation":[{"name":"University of Maryland,College Park,MD,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Amrit Singh","family":"Bedi","sequence":"additional","affiliation":[{"name":"University of Maryland,College Park,MD,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kasun","family":"Weerakoon","sequence":"additional","affiliation":[{"name":"University of Maryland,College Park,MD,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Prithvi","family":"Poddar","sequence":"additional","affiliation":[{"name":"Indian Institutes of Science Education and Research"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Alec","family":"Koppel","sequence":"additional","affiliation":[{"name":"JP Morgan AI Research,NewYork,NY,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Pratap","family":"Tokekar","sequence":"additional","affiliation":[{"name":"University of Maryland,College Park,MD,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dinesh","family":"Manocha","sequence":"additional","affiliation":[{"name":"University of Maryland,College Park,MD,USA"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8463162"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-335-6.50030-1"},{"key":"ref15","first-page":"2","article-title":"Algorithms for inverse reinforcement learning","volume":"1","author":"ng","year":"2000","journal-title":"ICML"},{"key":"ref14","article-title":"Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards","author":"vecerik","year":"2017","journal-title":"ArXiv Preprint"},{"key":"ref11","article-title":"On reward shaping for mobile robot navigation: A reinforcement learning and slam based approach","author":"botteghi","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1162\/neco_a_01387"},{"key":"ref17","first-page":"6611","article-title":"Guided exploration with proximal policy optimization using a single demonstration","author":"libardi","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref16","first-page":"1433","article-title":"Maximum entropy inverse reinforcement learning","volume":"8","author":"ziebart","year":"2008","journal-title":"AAAI"},{"journal-title":"Posterior coreset construction with kernelized stein discrepancy for model-based reinforcement learning","year":"2022","author":"chakraborty","key":"ref19"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2017.70"},{"journal-title":"Technical report for &#x201C;dealing with sparse rewards in continuous control robotics via heavy-tailed policy optimization","year":"2022","key":"ref51"},{"key":"ref50","article-title":"Openai gym","author":"brockman","year":"2016","journal-title":"ArXiv Preprint"},{"key":"ref46","article-title":"Adam: A method for stochastic optimization","author":"kingma","year":"2014","journal-title":"ArXiv Preprint"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1613\/jair.806"},{"key":"ref48","article-title":"Proximal policy optimization algorithms","author":"schulman","year":"2017","journal-title":"ArXiv Preprint"},{"key":"ref47","article-title":"The problem with ddpg: understanding failures in deterministic environments with sparse rewards","author":"matheron","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1137\/19M1288012"},{"journal-title":"Reinforcement Learning An Introduction","year":"2018","author":"sutton","key":"ref41"},{"key":"ref44","first-page":"4026","article-title":"Stochastic variance-reduced policy gradient","author":"papini","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref43","article-title":"Stochastic recursive momentum for policy gradient methods","author":"yuan","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref49","first-page":"1889","article-title":"Trust region policy optimization","author":"schulman","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref8","first-page":"2469","article-title":"Policy optimization with demonstrations","author":"kang","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/IROS45743.2020.9341714"},{"key":"ref9","article-title":"Reinforcement learning with sparse rewards using guidance from offline demonstration","author":"rengarajan","year":"2022","journal-title":"ArXiv Preprint"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA46639.2022.9812238"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/IROS45743.2020.9341540"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2019.XV.073"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.2966414"},{"journal-title":"The beta policy for continuous control reinforcement learning","year":"2017","author":"chou","key":"ref40"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1145\/3054912"},{"key":"ref34","article-title":"Parameter space noise for exploration","author":"plappert","year":"2017","journal-title":"ArXiv Preprint"},{"key":"ref37","article-title":"Learning from demonstration","volume":"9","author":"schaal","year":"1996","journal-title":"Advances in neural information processing systems"},{"key":"ref36","article-title":"Generative adversarial imitation learning","volume":"29","author":"ho","year":"2016","journal-title":"Advances in neural information processing systems"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1137\/070710111"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1126\/science.279.5347.39"},{"key":"ref33","article-title":"Momentum-based variance reduction in non-convex sgd","volume":"32","author":"cutkosky","year":"2019","journal-title":"Advances in neural information processing systems"},{"key":"ref32","article-title":"Htron: Efficient outdoor navigation with sparse rewards via heavy tailed adaptive reinforce algorithm","author":"weerakoon","year":"0","journal-title":"6th Annual Conference on Robot Learning"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2018.8593871"},{"key":"ref1","first-page":"1","article-title":"Reinforcement learning for robotic manipulation using simulated locomotion demonstrations","author":"kilinc","year":"2021","journal-title":"Machine Learning"},{"key":"ref39","article-title":"Learning complex dexterous manipulation with deep reinforcement learning and demonstrations","author":"rajeswaran","year":"2017","journal-title":"ArXiv Preprint"},{"key":"ref38","article-title":"Policy gradient from demonstration and curiosity","author":"chen","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref24","article-title":"On the sample complexity and metastability of heavy-tailed policy search in continuous control","author":"bedi","year":"2021","journal-title":"ArXiv Preprint"},{"key":"ref23","first-page":"6820","article-title":"On the global convergence rates of softmax policy gradient methods","author":"mei","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1512\/iumj.1981.30.30055"},{"key":"ref25","first-page":"1716","article-title":"On the hidden biases of policy mirror ascent in continuous action spaces","volume":"162","author":"bedi","year":"0","journal-title":"Proceedings of the 39th International Conference on Machine Learning ser Proceedings of Machine Learning Research"},{"key":"ref20","article-title":"Vime: Variational information maximizing exploration","volume":"29","author":"houthooft","year":"2016","journal-title":"Advances in neural information processing systems"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11757"},{"journal-title":"Steering Stein information directed exploration for model-based reinforcement learning","year":"2023","author":"chakraborty","key":"ref21"},{"key":"ref28","volume":"2","author":"taleb","year":"2007","journal-title":"The Black Swan The Impact of the Highly Improbable"},{"key":"ref27","volume":"1","author":"mandelbrot","year":"1982","journal-title":"The Fractal Geometry of Nature"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1257\/mac.1.1.58"}],"event":{"name":"2023 IEEE International Conference on Robotics and Automation (ICRA)","start":{"date-parts":[[2023,5,29]]},"location":"London, United Kingdom","end":{"date-parts":[[2023,6,2]]}},"container-title":["2023 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10160211\/10160212\/10161186.pdf?arnumber=10161186","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,7,24]],"date-time":"2023-07-24T13:37:24Z","timestamp":1690205844000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10161186\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,5,29]]},"references-count":51,"URL":"https:\/\/doi.org\/10.1109\/icra48891.2023.10161186","relation":{},"subject":[],"published":{"date-parts":[[2023,5,29]]}}}