{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,12]],"date-time":"2026-06-12T15:59:15Z","timestamp":1781279955568,"version":"3.54.1"},"reference-count":49,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"1","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"Natural Science and Technology","award":["2022ZD0208804"],"award-info":[{"award-number":["2022ZD0208804"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Neural Netw. Learning Syst."],"published-print":{"date-parts":[[2025,1]]},"DOI":"10.1109\/tnnls.2023.3331304","type":"journal-article","created":{"date-parts":[[2024,2,23]],"date-time":"2024-02-23T14:01:39Z","timestamp":1708696899000},"page":"830-841","source":"Crossref","is-referenced-by-count":37,"title":["CVaR-Constrained Policy Optimization for Safe Reinforcement Learning"],"prefix":"10.1109","volume":"36","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-8519-4259","authenticated-orcid":false,"given":"Qiyuan","family":"Zhang","sequence":"first","affiliation":[{"name":"School of Mechatronics Engineering, Harbin Institute of Technology, Harbin, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Shu","family":"Leng","sequence":"additional","affiliation":[{"name":"Department of Automation, Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7250-6268","authenticated-orcid":false,"given":"Xiaoteng","family":"Ma","sequence":"additional","affiliation":[{"name":"Department of Automation, Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Qihan","family":"Liu","sequence":"additional","affiliation":[{"name":"Department of Automation, Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3542-0593","authenticated-orcid":false,"given":"Xueqian","family":"Wang","sequence":"additional","affiliation":[{"name":"Department of Automation, Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7163-345X","authenticated-orcid":false,"given":"Bin","family":"Liang","sequence":"additional","affiliation":[{"name":"Department of Automation, Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9107-6390","authenticated-orcid":false,"given":"Yu","family":"Liu","sequence":"additional","affiliation":[{"name":"School of Mechatronics Engineering, Harbin Institute of Technology, Harbin, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9386-5825","authenticated-orcid":false,"given":"Jun","family":"Yang","sequence":"additional","affiliation":[{"name":"Department of Automation, Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1038\/nature14236"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-023-05732-2"},{"key":"ref3","first-page":"1","article-title":"Guided policy search","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Levine"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1111\/mafi.12382"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1145\/3477600"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/IVS.2011.5940562"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1146\/annurev-control-042920-020211"},{"key":"ref8","article-title":"Conservative safety critics for exploration","author":"Bharadhwaj","year":"2020","journal-title":"arXiv:2010.14497"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2017.2654539"},{"key":"ref10","article-title":"Efficient risk-averse reinforcement learning","author":"Greenberg","year":"2022","journal-title":"arXiv:2205.05138"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i12.17302"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.3390\/make4010013"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2021.3056046"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1201\/9781315140223"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2014.2309262"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1111\/1467-9965.00068"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1287\/moor.1080.0324"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/9.362904"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.21314\/JOR.2000.038"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-28619-4_10"},{"key":"ref21","first-page":"1","article-title":"Risk-sensitive and robust decision-making: A CVaR optimization approach","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"28","author":"Chow"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/s00186-011-0367-0"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2016.2644871"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.5220\/0008175604120423"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i12.17272"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2022.3141829"},{"key":"ref27","article-title":"Benchmarking batch deep reinforcement learning algorithms","author":"Fujimoto","year":"2019","journal-title":"arXiv:1910.01708"},{"key":"ref28","first-page":"22","article-title":"Constrained policy optimization","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Achiam"},{"key":"ref29","article-title":"Projection-based constrained policy optimization","author":"Yang","year":"2020","journal-title":"arXiv:2010.03152"},{"key":"ref30","first-page":"15338","article-title":"First order constrained optimization in policy space","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Zhang"},{"key":"ref31","first-page":"9133","article-title":"Responsive safety in reinforcement learning by PID Lagrangian methods","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Stooke"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/tnnls.2022.3175595"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i04.5932"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/tnnls.2022.3186528"},{"issue":"1","key":"ref35","first-page":"6070","article-title":"Risk-constrained reinforcement learning with percentile risk criteria","volume":"18","author":"Chow","year":"2017","journal-title":"J. Mach. Learn. Res."},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2022\/510"},{"key":"ref37","first-page":"1","article-title":"Approximately optimal approximate reinforcement learning","volume-title":"Proc. 19th Int. Conf. Mach. Learn.","author":"Kakade"},{"key":"ref38","first-page":"449","article-title":"A distributional perspective on reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Bellemare"},{"key":"ref39","first-page":"1096","article-title":"Implicit quantile networks for distributional reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Dabney"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11791"},{"key":"ref41","first-page":"15909","article-title":"Non-crossing quantile regression for distributional reinforcement learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Zhou"},{"key":"ref42","first-page":"1889","article-title":"Trust region policy optimization","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Schulman"},{"key":"ref43","article-title":"Maximum a posteriori policy optimisation","author":"Abdolmaleki","year":"2018","journal-title":"arXiv:1806.06920"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1145\/1569901.1569976"},{"key":"ref45","first-page":"1861","article-title":"Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Haarnoja"},{"key":"ref46","article-title":"High-dimensional continuous control using generalized advantage estimation","author":"Schulman","year":"2015","journal-title":"arXiv:1506.02438"},{"key":"ref47","article-title":"MetaDrive: Composing diverse driving scenarios for generalizable reinforcement learning","author":"Li","year":"2021","journal-title":"arXiv:2109.12674"},{"key":"ref48","volume-title":"Light Aircraft Game: A Lightweight, Scalable, Gym-Wrapped Aircraft Competitive Environment With Baseline Reinforcement Learning Algorithms","author":"QihanLiu","year":"2022"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.5139\/IJASS.2016.17.2.204"}],"container-title":["IEEE Transactions on Neural Networks and Learning Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/5962385\/10832116\/10444044.pdf?arnumber=10444044","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,8]],"date-time":"2025-12-08T18:41:09Z","timestamp":1765219269000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10444044\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,1]]},"references-count":49,"journal-issue":{"issue":"1"},"URL":"https:\/\/doi.org\/10.1109\/tnnls.2023.3331304","relation":{},"ISSN":["2162-237X","2162-2388"],"issn-type":[{"value":"2162-237X","type":"print"},{"value":"2162-2388","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,1]]}}}