{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,11]],"date-time":"2026-05-11T22:04:28Z","timestamp":1778537068259,"version":"3.51.4"},"reference-count":34,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"3","license":[{"start":{"date-parts":[[2021,7,1]],"date-time":"2021-07-01T00:00:00Z","timestamp":1625097600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2021,7,1]],"date-time":"2021-07-01T00:00:00Z","timestamp":1625097600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,7,1]],"date-time":"2021-07-01T00:00:00Z","timestamp":1625097600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"AUTOLAB at UC Berkeley in affiliation with the Berkeley AI Research (BAIR) Lab"},{"name":"Real-Time Intelligent Secure Execution (RISE) Lab"},{"name":"Google Brain Robotics"},{"name":"Stanford AI Research Lab."},{"name":"SAIL-Toyota Research initiative"},{"name":"Scalable Collaborative Human-Robot Learning (SCHooL) Project"},{"name":"NSF National Robotics Initiative","award":["1734633"],"award-info":[{"award-number":["1734633"]}]},{"DOI":"10.13039\/100006785","name":"Google","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100006785","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100004830","name":"Siemens","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100004830","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100016364","name":"Amazon Robotics","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100016364","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100015599","name":"Toyota Research Institute","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100015599","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100007065","name":"Nvidia","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100007065","id-type":"DOI","asserted-by":"publisher"}]},{"name":"NSF GRFPs"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Robot. Autom. Lett."],"published-print":{"date-parts":[[2021,7]]},"DOI":"10.1109\/lra.2021.3070252","type":"journal-article","created":{"date-parts":[[2021,3,31]],"date-time":"2021-03-31T19:34:19Z","timestamp":1617219259000},"page":"4915-4922","source":"Crossref","is-referenced-by-count":166,"title":["Recovery RL: Safe Reinforcement Learning With Learned Recovery Zones"],"prefix":"10.1109","volume":"6","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-3508-7850","authenticated-orcid":false,"given":"Brijen","family":"Thananjeyan","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1841-5071","authenticated-orcid":false,"given":"Ashwin","family":"Balakrishna","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3999-2436","authenticated-orcid":false,"given":"Suraj","family":"Nair","sequence":"additional","affiliation":[]},{"given":"Michael","family":"Luo","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0692-1332","authenticated-orcid":false,"given":"Krishnan","family":"Srinivasan","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9190-7876","authenticated-orcid":false,"given":"Minho","family":"Hwang","sequence":"additional","affiliation":[]},{"given":"Joseph E.","family":"Gonzalez","sequence":"additional","affiliation":[]},{"given":"Julian","family":"Ibarz","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6298-0874","authenticated-orcid":false,"given":"Chelsea","family":"Finn","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6747-9499","authenticated-orcid":false,"given":"Ken","family":"Goldberg","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2014.6907809"},{"key":"ref32","article-title":"Deep reinforcement learning in a handful of trials using probabilistic dynamics models","author":"chua","year":"0","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref31","article-title":"Continuous control with deep reinforcement learning","author":"lillicrap","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref30","first-page":"1861","article-title":"Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor","author":"haarnoja","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref34","first-page":"2020","article-title":"Efficiently calibrating cable-driven surgical robots with rgbd sensing, temporal windowing, and linear and recurrent neural network compensation","author":"hwang","year":"0","journal-title":"IEEE Robot Autom Lett"},{"key":"ref10","first-page":"22","article-title":"Constrained policy optimization","author":"achiam","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref11","article-title":"Reward constrained policy optimization","author":"tessler","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-335-6.50021-0"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1162\/NECO_a_00600"},{"key":"ref14","article-title":"Policy gradients beyond expectations: conditional value-at-risk","author":"tamar","year":"2014"},{"key":"ref15","article-title":"Worst cases policy gradients","author":"tang","year":"0","journal-title":"Proc Conf Robot Learn (CoRL)"},{"key":"ref16","article-title":"Leave no trace: Learning to reset for safe and autonomous reinforcement learning","author":"eysenbach","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2019.8794107"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.2976272"},{"key":"ref19","article-title":"Safe model-based reinforcement learning with stability guarantees","author":"berkenkamp","year":"0","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref28","article-title":"Abc-lmpc: Safe sample-based learning mpc for stochastic nonlinear dynamical systems with adjustable boundary conditions","author":"thananjeyan","year":"0","journal-title":"Proc Workshop Algorithmic Foundations Robot"},{"key":"ref4","article-title":"Deep dynamics models for learning dexterous manipulation","author":"nagabandi","year":"0","journal-title":"Proc Conf Robot Learn (CoRL)"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2017.2753460"},{"key":"ref3","article-title":"Qt-opt: Scalable deep reinforcement learning for vision-based robotic manipulation","author":"kalashnikov","year":"0","journal-title":"Proc Conf Robot Learn (CoRL)"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.2017.8263977"},{"key":"ref29","first-page":"260","author":"altman","year":"1999","journal-title":"Constrained Markov Decision Processes"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2018.2876389"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9196867"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2012.6225136"},{"key":"ref2","article-title":"Soft Actor-Critic Algorithms and Applications","author":"haarnoja","year":"2018"},{"key":"ref9","article-title":"Benchmarking safe exploration in deep reinforcement learning","author":"ray","year":"0","journal-title":"Proc NeurIPS Deep Reinforcement Learn Workshop"},{"key":"ref1","article-title":"Safe visual navigation via deep learning and novelty detection","author":"richter","year":"2013","journal-title":"Robot Sci Syst"},{"key":"ref20","article-title":"Safe exploration in finite markov decision processes with gaussian processes","author":"turchetta","year":"0","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref22","article-title":"Learning to be safe: Deep rl with a safety critic","author":"srinivasan","year":"0"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1613\/jair.1666"},{"key":"ref24","article-title":"Lyapunov-based safe policy optimization for continuous control","author":"chow","year":"0","journal-title":"ICML Workshop RL4RealLife"},{"key":"ref23","article-title":"A lyapunov-based approach to safe reinforcement learning","author":"chow","year":"0","journal-title":"Proc NeurIPS"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2015.7354297"},{"key":"ref25","article-title":"Safe reinforcement learning via shielding","volume":"332","author":"alshiekh","year":"2018"}],"container-title":["IEEE Robotics and Automation Letters"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7083369\/9399748\/09392290.pdf?arnumber=9392290","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,5,10]],"date-time":"2022-05-10T14:54:02Z","timestamp":1652194442000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9392290\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,7]]},"references-count":34,"journal-issue":{"issue":"3"},"URL":"https:\/\/doi.org\/10.1109\/lra.2021.3070252","relation":{},"ISSN":["2377-3766","2377-3774"],"issn-type":[{"value":"2377-3766","type":"electronic"},{"value":"2377-3774","type":"electronic"}],"subject":[],"published":{"date-parts":[[2021,7]]}}}