{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,2]],"date-time":"2026-06-02T04:17:37Z","timestamp":1780373857392,"version":"3.54.1"},"reference-count":47,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"4","license":[{"start":{"date-parts":[[2018,4,1]],"date-time":"2018-04-01T00:00:00Z","timestamp":1522540800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Neural Netw. Learning Syst."],"published-print":{"date-parts":[[2018,4]]},"DOI":"10.1109\/tnnls.2017.2654539","type":"journal-article","created":{"date-parts":[[2017,2,7]],"date-time":"2017-02-07T20:54:14Z","timestamp":1486500854000},"page":"1069-1081","source":"Crossref","is-referenced-by-count":83,"title":["Safe Exploration Algorithms for Reinforcement Learning Controllers"],"prefix":"10.1109","volume":"29","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-1994-2965","authenticated-orcid":false,"given":"Tommaso","family":"Mannucci","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5593-4471","authenticated-orcid":false,"given":"Erik-Jan","family":"van Kampen","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Cornelis","family":"de Visser","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Qiping","family":"Chu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref39","volume":"4","author":"moore","year":"1966","journal-title":"Interval Analysis"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1007\/BF00992698"},{"key":"ref33","first-page":"188","article-title":"Safe exploration in Markov decision processes","author":"moldovan","year":"2012","journal-title":"Proc 29th Int Conf Mach Learn"},{"key":"ref32","first-page":"76","article-title":"Safe reinforcement learning in high-risk tasks through policy improvement","author":"polo","year":"2011","journal-title":"Proc IEEE Symp Adapt Dynamic Program Reinforcement Learn (ADPRL)"},{"key":"ref31","first-page":"85","article-title":"Safe exploration for reinforcement learning&#x2019; in real unstructured environments","author":"pecka","year":"2015","journal-title":"Proc Comput Vis Winter Workshop"},{"key":"ref30","first-page":"143","article-title":"Safe exploration for reinforcement learning","author":"hans","year":"2008","journal-title":"Proc ESANN"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1163\/1568553042674662"},{"key":"ref36","first-page":"162","article-title":"Reinforcement learning with bounded risk","author":"geibel","year":"2001","journal-title":"Proc ICML"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.2200\/S00268ED1V01Y201005AIM009"},{"key":"ref34","doi-asserted-by":"crossref","first-page":"237","DOI":"10.1613\/jair.301","article-title":"Reinforcement learning: A survey","volume":"4","author":"kaelbling","year":"1996","journal-title":"J Artif Intell Res"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TNN.2006.881710"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1177\/027836498600500106"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2014.2360724"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TFUZZ.2015.2418000"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2015.2417170"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TNN.2004.826221"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2014.2378812"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2014.2333092"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-13823-7_31"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-335-6.50021-0"},{"key":"ref19","first-page":"1437","article-title":"A comprehensive survey on safe reinforcement learning","volume":"16","author":"garc\u00eda","year":"2015","journal-title":"J Mach Learn Res"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2015.7354295"},{"key":"ref4","author":"sutton","year":"1998","journal-title":"Introduction to Reinforcement Learning"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1016\/j.robot.2008.10.024"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.2514\/1.12597"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2014.2371046"},{"key":"ref29","first-page":"1037","article-title":"Smart exploration in reinforcement learning using absolute temporal difference errors","author":"gehring","year":"2013","journal-title":"Proc Int Conf Auton Agents and Multi Agent Syst"},{"key":"ref5","first-page":"1101","article-title":"Probably approximately correct learning","volume":"2","author":"haussler","year":"1990","journal-title":"Proc 8th Nat Conf Artif Intell"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/72.914523"},{"key":"ref7","author":"bertsekas","year":"1996","journal-title":"Neuro-Dynamic Programming"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.2514\/6.2006-6429"},{"key":"ref9","author":"bellman","year":"1957","journal-title":"Dynamic Programming"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1016\/0005-1098(93)90122-A"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.2014.7039737"},{"key":"ref20","first-page":"2380","article-title":"High confidence policy improvement","author":"thomas","year":"2015","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.3182\/20070822-3-ZA-2920.00076"},{"key":"ref22","doi-asserted-by":"crossref","first-page":"267","DOI":"10.1023\/A:1017940631555","article-title":"Risk-sensitive reinforcement learning","volume":"49","author":"mihatsch","year":"2014","journal-title":"Mach Learn"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/TSMCA.2009.2028239"},{"key":"ref21","first-page":"1031","article-title":"Risk sensitive reinforcement learning","author":"neuneier","year":"1999","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.2003.1273070"},{"key":"ref24","doi-asserted-by":"crossref","first-page":"81","DOI":"10.1613\/jair.1666","article-title":"Risk-sensitive reinforcement learning applied to control under constraints","volume":"24","author":"geibel","year":"2005","journal-title":"J Artif Intell Res"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2013.6631230"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1162\/NECO_a_00600"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1016\/j.automatica.2008.11.017"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1023\/B:MACH.0000039779.47329.3a"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1007\/BF01840369"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1016\/S0005-1098(98)00153-8"}],"container-title":["IEEE Transactions on Neural Networks and Learning Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/5962385\/8318959\/07842559.pdf?arnumber=7842559","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,12]],"date-time":"2022-01-12T16:23:31Z","timestamp":1642004611000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7842559\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,4]]},"references-count":47,"journal-issue":{"issue":"4"},"URL":"https:\/\/doi.org\/10.1109\/tnnls.2017.2654539","relation":{},"ISSN":["2162-237X","2162-2388"],"issn-type":[{"value":"2162-237X","type":"print"},{"value":"2162-2388","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018,4]]}}}