{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,10,29]],"date-time":"2024-10-29T15:38:08Z","timestamp":1730216288064,"version":"3.28.0"},"reference-count":27,"publisher":"IEEE","license":[{"start":{"date-parts":[[2021,8,1]],"date-time":"2021-08-01T00:00:00Z","timestamp":1627776000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2021,8,1]],"date-time":"2021-08-01T00:00:00Z","timestamp":1627776000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,8,1]],"date-time":"2021-08-01T00:00:00Z","timestamp":1627776000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,8]]},"DOI":"10.1109\/ecmr50962.2021.9568848","type":"proceedings-article","created":{"date-parts":[[2021,10,25]],"date-time":"2021-10-25T19:50:55Z","timestamp":1635191455000},"page":"1-6","source":"Crossref","is-referenced-by-count":2,"title":["Null Space Based Efficient Reinforcement Learning with Hierarchical Safety Constraints"],"prefix":"10.1109","author":[{"given":"Quantao","family":"Yang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Johannes A.","family":"Stork","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Todor","family":"Stoyanov","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref10","first-page":"1889","article-title":"Trust region policy optimization","author":"schulman","year":"2015","journal-title":"International Conference on Machine Learning"},{"key":"ref11","article-title":"Proximal policy optimization algorithms","author":"schulman","year":"2017","journal-title":"arXiv preprint arXiv 1707 06347"},{"key":"ref12","first-page":"1437","article-title":"A comprehensive survey on safe reinforcement learning","volume":"16","author":"garc?a","year":"2015","journal-title":"Journal of Machine Learning Research"},{"key":"ref13","article-title":"Learning with safety constraints: Sample complexity of reinforcement learning for constrained mdps","author":"hasanzadezonuzy","year":"2020","journal-title":"arXiv preprint arXiv 2008 06439"},{"key":"ref14","article-title":"Reinforcement learning with convex constraints","author":"miryoosefi","year":"2019","journal-title":"arXiv preprint arXiv 1906 10026"},{"key":"ref15","volume":"7","author":"altman","year":"1999","journal-title":"Constrained Markov Decision Processes"},{"key":"ref16","article-title":"Constrained policy optimization","author":"achiam","year":"2017","journal-title":"arXiv preprint arXiv 1705 10528"},{"key":"ref17","article-title":"The actor-advisor: Policy gradient with off-policy advice","volume":"abs 1902 2556","author":"plisnier","year":"2019","journal-title":"CoRR"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9197200"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2017.7989181"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/HUMANOIDS.2018.8624948"},{"article-title":"Adam: A method for stochastic optimization","year":"2015","author":"kingma","key":"ref27"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2017.8202133"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/1102351.1102352"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.2018.8619572"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1177\/0278364918784354"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9196582"},{"key":"ref2","first-page":"1","article-title":"Sim-to-real transfer of robotic control with dynamics randomization","author":"peng","year":"2018","journal-title":"2018 IEEE International Conference on Robotics and Automation (ICRA)"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1146\/annurev-control-100819-063206"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1016\/j.robot.2019.06.007"},{"journal-title":"Reinforcement Learning An Introduction","year":"2018","author":"sutton","key":"ref20"},{"key":"ref22","article-title":"Continuous control with deep reinforcement learning","author":"lillicrap","year":"2015","journal-title":"arXiv preprint arXiv 1509 02971"},{"key":"ref21","first-page":"2829","article-title":"Continuous deep q-learning with model-based acceleration","author":"gu","year":"2016","journal-title":"International Conference on Machine Learning"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1177\/0278364914521306"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2018.8594457"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2004.1389727"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1103\/PhysRev.36.823"}],"event":{"name":"2021 European Conference on Mobile Robots (ECMR)","start":{"date-parts":[[2021,8,31]]},"location":"Bonn, Germany","end":{"date-parts":[[2021,9,3]]}},"container-title":["2021 European Conference on Mobile Robots (ECMR)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9568782\/9568783\/09568848.pdf?arnumber=9568848","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,5,10]],"date-time":"2022-05-10T15:47:24Z","timestamp":1652197644000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9568848\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,8]]},"references-count":27,"URL":"https:\/\/doi.org\/10.1109\/ecmr50962.2021.9568848","relation":{},"subject":[],"published":{"date-parts":[[2021,8]]}}}