{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,10]],"date-time":"2026-03-10T11:19:18Z","timestamp":1773141558401,"version":"3.50.1"},"reference-count":26,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"1","license":[{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"Vinnova Competence Center for Trustworthy Edge Computing Systems and Applications"},{"DOI":"10.13039\/501100004270","name":"Kungliga Tekniska H\u00f6gskolan","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100004270","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Wallenberg AI, Autonomous Systems, and Software Program"},{"DOI":"10.13039\/501100004063","name":"Knut och Alice Wallenbergs Stiftelse","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100004063","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Robot. Autom. Lett."],"published-print":{"date-parts":[[2022,1]]},"DOI":"10.1109\/lra.2021.3128237","type":"journal-article","created":{"date-parts":[[2021,11,16]],"date-time":"2021-11-16T20:29:06Z","timestamp":1637094546000},"page":"406-413","source":"Crossref","is-referenced-by-count":18,"title":["Human-Feedback Shield Synthesis for Perceived Safety in Deep Reinforcement Learning"],"prefix":"10.1109","volume":"7","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-3510-5481","authenticated-orcid":false,"given":"Daniel","family":"Marta","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7461-920X","authenticated-orcid":false,"given":"Christian","family":"Pek","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9242-9127","authenticated-orcid":false,"given":"Gaspar I.","family":"Melsion","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4173-2593","authenticated-orcid":false,"given":"Jana","family":"Tumova","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2212-4325","authenticated-orcid":false,"given":"Iolanda","family":"Leite","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref1","first-page":"1451","article-title":"Safe exploration in Markov decision processes","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Moldovan","year":"2012"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11797"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-61362-4_16"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2010.5654369"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1561\/2300000052"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1007\/s12369-010-0059-6"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9197257"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.3028049"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1177\/0018720814565188"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2005.1545012"},{"issue":"2","key":"ref11","doi-asserted-by":"crossref","first-page":"185","DOI":"10.1023\/A:1008986004181","article-title":"Psychological effects of behavior patterns of a mobile personal robot","volume":"10","author":"Butler","year":"2001","journal-title":"Auton. Robots"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1016\/j.ijhcs.2014.05.005"},{"key":"ref13","article-title":"Newtonian action advice: Integrating human verbal instruction with reinforcement learning","author":"Krening","year":"2018"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2017.XIII.053"},{"key":"ref15","first-page":"8020","article-title":"Learning human objectives by evaluating hypothetical behavior","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Reddy","year":"2020"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2018.XIV.048"},{"key":"ref17","first-page":"2067","article-title":"Trial without error: Towards safe reinforcement learning via human intervention","volume-title":"Proc. 17th Int. Conf. Auton. Agents MultiAgent Syst.","author":"Saunders","year":"2018"},{"key":"ref18","first-page":"2285","article-title":"Interactive learning from policy-dependent human feedback","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"MacGlashan","year":"2017"},{"key":"ref19","article-title":"An extensible interactive interface for agent design","author":"Rahtz","year":"2019"},{"issue":"2","key":"ref20","first-page":"1","article-title":"Conjugate Bayesian analysis of the gaussian distribution","volume":"1","author":"Murphy","year":"2007","journal-title":"def"},{"key":"ref21","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017"},{"key":"ref22","first-page":"1889","article-title":"Trust region policy optimization","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Schulman","year":"2015"},{"key":"ref23","article-title":"Openai gym","author":"Brockman","year":"2016"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1098\/rspb.2009.0405"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1103\/PhysRevE.51.4282"},{"key":"ref26","article-title":"Unity: A general platform for intelligent agents","author":"Juliani","year":"2020"}],"container-title":["IEEE Robotics and Automation Letters"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7083369\/9568780\/09616473.pdf?arnumber=9616473","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,1,11]],"date-time":"2024-01-11T23:56:14Z","timestamp":1705017374000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9616473\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,1]]},"references-count":26,"journal-issue":{"issue":"1"},"URL":"https:\/\/doi.org\/10.1109\/lra.2021.3128237","relation":{},"ISSN":["2377-3766","2377-3774"],"issn-type":[{"value":"2377-3766","type":"electronic"},{"value":"2377-3774","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022,1]]}}}