{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,31]],"date-time":"2026-01-31T01:00:34Z","timestamp":1769821234977,"version":"3.49.0"},"reference-count":29,"publisher":"IEEE","license":[{"start":{"date-parts":[[2021,5,30]],"date-time":"2021-05-30T00:00:00Z","timestamp":1622332800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2021,5,30]],"date-time":"2021-05-30T00:00:00Z","timestamp":1622332800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,5,30]],"date-time":"2021-05-30T00:00:00Z","timestamp":1622332800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100006831","name":"United States Air Force","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100006831","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,5,30]]},"DOI":"10.1109\/icra48506.2021.9560886","type":"proceedings-article","created":{"date-parts":[[2021,10,20]],"date-time":"2021-10-20T00:28:35Z","timestamp":1634689715000},"page":"1803-1809","source":"Crossref","is-referenced-by-count":30,"title":["Stabilizing Neural Control Using Self-Learned Almost Lyapunov Critics"],"prefix":"10.1109","author":[{"given":"Ya-Chien","family":"Chang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sicun","family":"Gao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref10","article-title":"Learning for safetycritical control with control barrier functions","author":"taylor","year":"2019"},{"key":"ref11","first-page":"2669","article-title":"Safe reinforcement learning via shielding","author":"alshiekh","year":"2018","journal-title":"Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence (AAAI18) the 30th innovative Applications of Artificial Intelligence (IAAI-18) and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence (EAAI-18)"},{"key":"ref12","first-page":"1141","article-title":"Control regularization for reduced variance reinforcement learning","volume":"97","author":"cheng","year":"2019","journal-title":"Proceedings of the 36th International Conference on Machine Learning ICML 2019 ser Proceedings of Machine Learning Research"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2017.2720851"},{"key":"ref14","first-page":"608","article-title":"Robust regression for safe exploration in control","volume":"120","author":"liu","year":"2020","journal-title":"ser Proceedings of Machine Learning Research"},{"key":"ref15","first-page":"466","article-title":"The lyapunov neural network: Adaptive stability certification for safe learning of dynamical systems","author":"richards","year":"2018","journal-title":"2nd Annual Conference on Robot Learning CoRL 2018"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1016\/j.automatica.2019.108758"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2018.2797196"},{"key":"ref18","first-page":"1437","article-title":"A comprehensive survey on safe reinforcement learning","volume":"16","author":"garc\u00eda","year":"2015","journal-title":"J Mach Learn Res"},{"key":"ref19","first-page":"22","article-title":"Constrained policy optimization","author":"achiam","year":"2017","journal-title":"Proceedings of the 34th International Conference on Machine Learning ICML 2017"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/s10846-019-01085-z"},{"key":"ref4","article-title":"Lyapunov-based safe policy optimization for continuous control","volume":"abs 1901 10031","author":"chow","year":"2019","journal-title":"CoRR"},{"key":"ref27","first-page":"1861","article-title":"Soft actor-critic: Offpolicy maximum entropy deep reinforcement learning with a stochastic actor","author":"haarnoja","year":"2018","journal-title":"Proceedings of the 35th International Conference on Machine Learning ser Proceedings of Machine Learning Research vol 80 Stockholmsm&#x00E4;ssan Stockholm Sweden PMLR"},{"key":"ref3","first-page":"8103","article-title":"A lyapunov-based approach to safe reinforcement learning","author":"chow","year":"2018","journal-title":"Advances in Neural Information Processing Systems 31 Annual Conference on Neural Information Processing Systems 2018 NeurIPS 2018"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.2018.8618996"},{"key":"ref29","article-title":"Automatic steering methods for autonomous automobile path tracking","author":"snider","year":"2011"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.3011351"},{"key":"ref8","article-title":"Safe interactive model-based learning","author":"gallieri","year":"2019"},{"key":"ref7","first-page":"3240","article-title":"Neural lyapunov control","author":"chang","year":"2019","journal-title":"Advances in Neural Information Processing Systems 32 Annual Conference on Neural Information Processing Systems 2019 NeurIPS 2019"},{"key":"ref2","first-page":"803","article-title":"Lyapunov design for safe reinforcement learning","volume":"3","author":"perkins","year":"2002","journal-title":"J Mach Learn Res"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33013387"},{"key":"ref1","first-page":"908","article-title":"Safe model-based reinforcement learning with stability guarantees","author":"berkenkamp","year":"2017","journal-title":"Advances in Neural Information Processing Systems 30 Annual Conference on Neural Information Processing Systems 2017"},{"key":"ref20","article-title":"Constrained markov decision processes","author":"altman","year":"1999"},{"key":"ref22","first-page":"1928","article-title":"Asynchronous methods for deep reinforcement learning","author":"mnih","year":"2016","journal-title":"ICML 2016"},{"key":"ref21","doi-asserted-by":"crossref","first-page":"229","DOI":"10.1007\/BF00992696","article-title":"Simple statistical gradient-following algorithms for connectionist reinforcement learning","volume":"8","author":"williams","year":"1992","journal-title":"Machine Learning"},{"key":"ref24","first-page":"5285","article-title":"Second-order optimization for deep reinforcement learning using kronecker-factored approximation","author":"wu","year":"2017","journal-title":"NIPS 2017"},{"key":"ref23","first-page":"1889","article-title":"Trust region policy optimization","author":"schulman","year":"2015","journal-title":"ICML 2015"},{"key":"ref26","article-title":"Highdimensional continuous control using generalized advantage estimation","author":"schulman","year":"2018"},{"key":"ref25","article-title":"Proximal policy optimization algorithms","author":"schulman","year":"2017","journal-title":"arXiv preprint arXiv 1707 06347"}],"event":{"name":"2021 IEEE International Conference on Robotics and Automation (ICRA)","location":"Xi'an, China","start":{"date-parts":[[2021,5,30]]},"end":{"date-parts":[[2021,6,5]]}},"container-title":["2021 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9560720\/9560666\/09560886.pdf?arnumber=9560886","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,5,10]],"date-time":"2022-05-10T15:47:16Z","timestamp":1652197636000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9560886\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,5,30]]},"references-count":29,"URL":"https:\/\/doi.org\/10.1109\/icra48506.2021.9560886","relation":{},"subject":[],"published":{"date-parts":[[2021,5,30]]}}}