{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,15]],"date-time":"2025-11-15T10:33:11Z","timestamp":1763202791461,"version":"3.37.3"},"reference-count":46,"publisher":"IEEE","license":[{"start":{"date-parts":[[2023,5,29]],"date-time":"2023-05-29T00:00:00Z","timestamp":1685318400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,5,29]],"date-time":"2023-05-29T00:00:00Z","timestamp":1685318400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001381","name":"National Research Foundation (NRF), Singapore","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001381","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001445","name":"DSO National Laboratories","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001445","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023,5,29]]},"DOI":"10.1109\/icra48891.2023.10161256","type":"proceedings-article","created":{"date-parts":[[2023,7,4]],"date-time":"2023-07-04T17:20:56Z","timestamp":1688491256000},"page":"7219-7225","source":"Crossref","is-referenced-by-count":3,"title":["Safety-Constrained Policy Transfer with Successor Features"],"prefix":"10.1109","author":[{"given":"Zeyu","family":"Feng","sequence":"first","affiliation":[{"name":"National University of Singapore,Dept. of Computer Science"}]},{"given":"Bowen","family":"Zhang","sequence":"additional","affiliation":[{"name":"National University of Singapore,Dept. of Computer Science"}]},{"given":"Jianxin","family":"Bi","sequence":"additional","affiliation":[{"name":"National University of Singapore,Dept. of Computer Science"}]},{"given":"Harold","family":"Soh","sequence":"additional","affiliation":[{"name":"National University of Singapore,Dept. of Computer Science"}]}],"member":"263","reference":[{"key":"ref13","article-title":"Transfer learning in deep reinforcement learning: A survey","author":"zhu","year":"2020","journal-title":"ArXiv"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1016\/j.sysconle.2004.08.007"},{"key":"ref12","first-page":"1633","article-title":"Transfer learning for reinforcement learning domains: A survey","volume":"10","author":"taylor","year":"2009","journal-title":"J Mach Learn Res"},{"key":"ref34","article-title":"Policy gradients beyond expectations: Conditional value-at-risk","author":"tamar","year":"2014","journal-title":"ArXiv"},{"key":"ref15","article-title":"Safe model-based reinforcement learning with stability guarantees","volume":"30","author":"berkenkamp","year":"2017","journal-title":"NeurIPS"},{"key":"ref37","first-page":"22","article-title":"Constrained policy optimization","volume":"70","author":"achiam","year":"2017","journal-title":"Proc of the 34th Intl Conf on Mach Learning"},{"key":"ref14","article-title":"Safe learning in robotics: From learning-based control to safe reinforcement learning","author":"brunke","year":"2021","journal-title":"ArXiv"},{"key":"ref36","article-title":"Reward constrained policy optimization","author":"tessler","year":"0","journal-title":"International Conference on Learning Representations"},{"key":"ref31","first-page":"394","article-title":"Optimistic linear support and successor features as a basis for optimal policy transfer","volume":"162","author":"alegre","year":"2022","journal-title":"Proc of the 39th Intl Conf on Mach Learning"},{"key":"ref30","article-title":"Constructing a good behavior basis for transfer using generalized policy updates","author":"alver","year":"2021","journal-title":"ArXiv"},{"key":"ref11","article-title":"Constrained reinforcement learning has zero duality gap","volume":"32","author":"paternain","year":"2019","journal-title":"NeurIPS"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1287\/mnsc.18.7.356"},{"key":"ref10","first-page":"501","article-title":"Transfer in deep reinforcement learning using successor features and generalised policy improvement","volume":"80","author":"barreto","year":"2018","journal-title":"Proc of the 35th Intl Conf on Mach Learning"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-335-6.50021-0"},{"key":"ref2","first-page":"1437","article-title":"A comprehensive survey on safe reinforcement learning","volume":"16","author":"garc\u00eda","year":"2015","journal-title":"J Mach Learn Res"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1038\/nature14236"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1145\/1390156.1390225"},{"key":"ref39","article-title":"A lyapunov-based approach to safe reinforcement learning","volume":"31","author":"chow","year":"2018","journal-title":"NeurIPS"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33013387"},{"key":"ref38","article-title":"Projection-based constrained policy optimization","author":"yang","year":"0","journal-title":"International Conference on Learning Representations"},{"key":"ref19","first-page":"10497","article-title":"Ltl2action: Generalizing ltl instructions for multi-task rl","volume":"139","author":"vaezipoor","year":"2021","journal-title":"Proc of the 38th Intl Conf on Mach Learning"},{"key":"ref18","article-title":"Attend, adapt and transfer: Attentive deep architecture for adaptive transfer from multiple sources in the same domain","author":"rajendran","year":"0","journal-title":"International Conference on Learning Representations"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1993.5.4.613"},{"key":"ref46","article-title":"Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor","author":"haarnoja","year":"2018","journal-title":"ArXiv"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/1143844.1143906"},{"key":"ref45","article-title":"Safely transferring to unsafe environments with constrained reinforcement learning","author":"knight","year":"0","journal-title":"Intl Conf on Learning Representations Workshop Beyond &#x2018;tabula rasa&#x2019; in reinforcement learning (BeTR-RL)"},{"key":"ref26","first-page":"2911","article-title":"Composing entropic policies using divergence correction","volume":"97","author":"hunt","year":"2019","journal-title":"Proc of the 36th Intl Conf on Mach Learning"},{"key":"ref25","first-page":"1","article-title":"A new representation of successor features for transfer across dissimilar environments","author":"abdolshah","year":"2021","journal-title":"Proc of the 38th Intl Conf on Mach Learning"},{"key":"ref20","first-page":"307","article-title":"The logical options framework","volume":"139","author":"araki","year":"2021","journal-title":"Proc of the 38th Intl Conf on Mach Learning"},{"key":"ref42","first-page":"3703","article-title":"Batch policy learning under constraints","volume":"97","author":"le","year":"2019","journal-title":"Proc of the 36th Intl Conf on Mach Learning"},{"key":"ref41","article-title":"Reinforcement learning for multi-objective and constrained markov decision processes","author":"gattami","year":"2019","journal-title":"ArXiv"},{"key":"ref22","first-page":"9497","article-title":"A boolean task algebra for reinforcement learning","volume":"33","author":"tasse","year":"2020","journal-title":"NeurIPS"},{"key":"ref44","article-title":"A provably-efficient model-free algorithm for constrained markov decision processes","author":"wei","year":"2021","journal-title":"ArXiv"},{"key":"ref21","article-title":"Compositionality of optimal control laws","volume":"22","author":"todorov","year":"2009","journal-title":"NeurIPS"},{"key":"ref43","first-page":"8378","article-title":"Natural policy gradient primal-dual method for constrained markov decision processes","volume":"33","author":"ding","year":"2020","journal-title":"NeurIPS"},{"key":"ref28","article-title":"Universal successor features for transfer reinforcement learning","author":"ma","year":"2020","journal-title":"ArXiv"},{"journal-title":"Generalizing successor features to continuous domains for multi-task learning","year":"2022","author":"mozifian","key":"ref27"},{"key":"ref29","article-title":"A first-occupancy representation for reinforcement learning","author":"moskovitz","year":"0","journal-title":"International Conference on Learning Representations"},{"key":"ref8","article-title":"Safe policies for reinforcement learning via primal-dual methods","author":"paternain","year":"2022","journal-title":"ArXiv"},{"journal-title":"Reinforcement Learning An Introduction","year":"2018","author":"sutton","key":"ref7"},{"key":"ref9","article-title":"Benchmarking safe exploration in deep reinforcement learning","author":"ray","year":"2019","journal-title":"ArXiv"},{"key":"ref4","article-title":"Risk-aware transfer in reinforcement learning using successor features","author":"gimelfarb","year":"0","journal-title":"NeurIPS"},{"key":"ref3","volume":"7","author":"altman","year":"1999","journal-title":"Constrained Markov Decision Processes"},{"key":"ref6","doi-asserted-by":"crossref","DOI":"10.1002\/9780470316887","author":"puterman","year":"1994","journal-title":"Markov Decision Processes Discrete Stochastic Dynamic Programming"},{"key":"ref5","article-title":"Successor features for transfer in reinforcement learning","volume":"30","author":"barreto","year":"2017","journal-title":"NeurIPS"},{"key":"ref40","article-title":"Reinforcement learning with convex constraints","volume":"32","author":"miryoosefi","year":"0","journal-title":"NeurIPS"}],"event":{"name":"2023 IEEE International Conference on Robotics and Automation (ICRA)","start":{"date-parts":[[2023,5,29]]},"location":"London, United Kingdom","end":{"date-parts":[[2023,6,2]]}},"container-title":["2023 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10160211\/10160212\/10161256.pdf?arnumber=10161256","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,7,24]],"date-time":"2023-07-24T17:29:57Z","timestamp":1690219797000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10161256\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,5,29]]},"references-count":46,"URL":"https:\/\/doi.org\/10.1109\/icra48891.2023.10161256","relation":{},"subject":[],"published":{"date-parts":[[2023,5,29]]}}}