{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,25]],"date-time":"2026-06-25T16:31:51Z","timestamp":1782405111705,"version":"3.54.5"},"reference-count":38,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"7","license":[{"start":{"date-parts":[[2024,7,1]],"date-time":"2024-07-01T00:00:00Z","timestamp":1719792000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2024,7,1]],"date-time":"2024-07-01T00:00:00Z","timestamp":1719792000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,7,1]],"date-time":"2024-07-01T00:00:00Z","timestamp":1719792000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Artif. Intell."],"published-print":{"date-parts":[[2024,7]]},"DOI":"10.1109\/tai.2024.3351797","type":"journal-article","created":{"date-parts":[[2024,1,9]],"date-time":"2024-01-09T15:57:58Z","timestamp":1704815878000},"page":"3374-3383","source":"Crossref","is-referenced-by-count":20,"title":["Learn From Safe Experience: Safe Reinforcement Learning for Task Automation of Surgical Robot"],"prefix":"10.1109","volume":"5","author":[{"ORCID":"https:\/\/orcid.org\/0009-0007-1718-9312","authenticated-orcid":false,"given":"Ke","family":"Fan","sequence":"first","affiliation":[{"name":"Department of Electronics, Information and Bioengineering, Politecnico di Milano, Milan, Italy"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3077-822X","authenticated-orcid":false,"given":"Ziyang","family":"Chen","sequence":"additional","affiliation":[{"name":"Department of Electronics, Information and Bioengineering, Politecnico di Milano, Milan, Italy"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5913-9451","authenticated-orcid":false,"given":"Giancarlo","family":"Ferrigno","sequence":"additional","affiliation":[{"name":"Department of Electronics, Information and Bioengineering, Politecnico di Milano, Milan, Italy"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8819-2734","authenticated-orcid":false,"given":"Elena De","family":"Momi","sequence":"additional","affiliation":[{"name":"Department of Electronics, Information and Bioengineering, Politecnico di Milano, Milan, Italy"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TMRB.2019.2913282"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2013.2283410"},{"key":"ref3","article-title":"Open-sourced reinforcement learning environments for surgical robotics","author":"Richter","year":"2019"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/RO-MAN47096.2020.9223543"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/SYSCON.2019.8836924"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICIT.2019.8755235"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/TAI.2023.3237665"},{"issue":"1","key":"ref8","first-page":"1437","article-title":"A comprehensive survey on safe reinforcement learning","volume":"16","author":"Garc\u00eda","year":"2015","journal-title":"J. Mach. Learn. Res."},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1146\/annurev-control-042920-020211"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/IROS51168.2021.9636175"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9196924"},{"key":"ref12","article-title":"A review of safe reinforcement learning: Methods, theory and applications","author":"Gu","year":"2022"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2023.3289211"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2022.3152724"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TAI.2023.3238700"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2022.3186528"},{"key":"ref17","article-title":"A Lyapunov-based approach to safe reinforcement learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"31","author":"Chow","year":"2018"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1016\/j.automatica.2021.109689"},{"key":"ref19","first-page":"1357","article-title":"Robot reinforcement learning on the constraint manifold","volume-title":"Proc. Conf. Robot Learn.","author":"Liu","year":"2022"},{"key":"ref20","article-title":"Lyapunov-based safe policy optimization for continuous control","author":"Chow","year":"2019"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2018.2876389"},{"key":"ref22","article-title":"Safe exploration in continuous action spaces","author":"Dalal","year":"2018"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9196867"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i12.26786"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460547"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2019.8794107"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2021.3070252"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TCST.2020.3043446"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2020.2974092"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2022.3196607"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1561\/2200000086"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.2018.8619572"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8463189"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1177\/0278364920987859"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/TMRB.2023.3261102"},{"key":"ref36","article-title":"Benchmarking safe exploration in deep reinforcement learning","author":"Ray","year":"2019"},{"key":"ref37","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017"},{"key":"ref38","first-page":"22","article-title":"Constrained policy optimization","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Achiam","year":"2017"}],"container-title":["IEEE Transactions on Artificial Intelligence"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9078688\/10599850\/10385186.pdf?arnumber=10385186","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,23]],"date-time":"2025-08-23T01:09:10Z","timestamp":1755911350000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10385186\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,7]]},"references-count":38,"journal-issue":{"issue":"7"},"URL":"https:\/\/doi.org\/10.1109\/tai.2024.3351797","relation":{},"ISSN":["2691-4581"],"issn-type":[{"value":"2691-4581","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,7]]}}}