{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,14]],"date-time":"2026-01-14T16:58:23Z","timestamp":1768409903954,"version":"3.49.0"},"reference-count":28,"publisher":"IEEE","license":[{"start":{"date-parts":[[2022,6,8]],"date-time":"2022-06-08T00:00:00Z","timestamp":1654646400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,6,8]],"date-time":"2022-06-08T00:00:00Z","timestamp":1654646400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100000001","name":"National Science Foundation","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100006754","name":"Army Research Laboratory","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100006754","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022,6,8]]},"DOI":"10.23919\/acc53348.2022.9867805","type":"proceedings-article","created":{"date-parts":[[2022,9,5]],"date-time":"2022-09-05T20:24:10Z","timestamp":1662409450000},"page":"2851-2856","source":"Crossref","is-referenced-by-count":7,"title":["Convergence and optimality of policy gradient primal-dual method for constrained Markov decision processes"],"prefix":"10.23919","author":[{"given":"Dongsheng","family":"Ding","sequence":"first","affiliation":[{"name":"University of Southern California,Department of Electrical and Computer Engineering,Los Angeles,CA,90089"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kaiqing","family":"Zhang","sequence":"additional","affiliation":[{"name":"Massachusetts Institute of Technology,LIDS and CSAIL,Cambridge,MA,02139"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tamer","family":"Basar","sequence":"additional","affiliation":[{"name":"University of Illinois at Urbana-Champaign,Department of Electrical and Computer Engineering and Coordinated Science Laboratory,Urbana,IL,61801"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mihailo R.","family":"Jovanovic","sequence":"additional","affiliation":[{"name":"University of Southern California,Department of Electrical and Computer Engineering,Los Angeles,CA,90089"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref10","first-page":"7553","article-title":"Constrained reinforcement learning has zero duality gap","author":"paternain","year":"2019","journal-title":"Advances in neural information processing systems"},{"key":"ref11","article-title":"Natural policy gradient primal-dual method for constrained Markov decision processes","volume":"33","author":"ding","year":"2020","journal-title":"Advances in neural information processing systems"},{"key":"ref12","first-page":"9133","article-title":"Responsive safety in reinforcement learning by PID Lagrangian methods","author":"stooke","year":"2020","journal-title":"International Conference on Machine Learning"},{"key":"ref13","article-title":"On the theory of policy gradient methods: Optimality, approximation, and distribution shift","author":"agarwal","year":"2019"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.2002.1184811"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.2003.1273053"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1016\/j.sysconle.2004.08.007"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/DEVLRN.2007.4354030"},{"key":"ref18","article-title":"On gradient descent ascent for nonconvex-concave minimax problems","author":"lin","year":"2019","journal-title":"International Conference on Machine Learning"},{"key":"ref19","article-title":"Near-optimal algorithms for minimax optimization","author":"lin","year":"2020","journal-title":"Conference on Learning Theory"},{"key":"ref28","article-title":"Global optimality guarantees for policy gradient methods","author":"bhandari","year":"2019"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2018.2876389"},{"key":"ref27","article-title":"Stochastic control foundations of autonomous behavior","author":"paternain","year":"2018","journal-title":"Ph D dissertation University of Pennsylvania"},{"key":"ref3","first-page":"1437","article-title":"A comprehensive survey on safe reinforcement learning","volume":"16","author":"garc?a","year":"2015","journal-title":"Journal of Machine Learning Research"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/1835804.1835817"},{"key":"ref5","article-title":"Structural results for constrained Markov decision processes","author":"girard","year":"2018","journal-title":"Ph D dissertation Cornell University"},{"key":"ref8","article-title":"Reward constrained policy optimization","author":"tessler","year":"2019","journal-title":"International Conference on Learning Representations"},{"key":"ref7","first-page":"6070","article-title":"Risk-constrained reinforcement learning with percentile risk criteria","volume":"18","author":"chow","year":"2017","journal-title":"The Journal of Machine Learning Research"},{"key":"ref2","article-title":"Challenges of real-world reinforcement learning","author":"dulac-arnold","year":"2019"},{"key":"ref9","first-page":"22","article-title":"Constrained policy optimization","volume":"70","author":"achiam","year":"2017","journal-title":"International Conference on Machine Learning"},{"key":"ref1","volume":"7","author":"altman","year":"1999","journal-title":"Constrained Markov Decision Processes"},{"key":"ref20","first-page":"3304","article-title":"Provably efficient safe exploration via primal-dual policy optimization","volume":"130","author":"ding","year":"2021","journal-title":"Proceedings of The 24th International Conference on Artificial Intelligence and Statistics"},{"key":"ref22","article-title":"Accelerated primal-dual policy optimization for safe reinforcement learning","author":"liang","year":"2018"},{"key":"ref21","article-title":"Exploration-exploitation in constrained MDPs","author":"efroni","year":"2020"},{"key":"ref24","article-title":"Safe policies for reinforcement learning via primal-dual methods","author":"paternain","year":"2019"},{"key":"ref23","first-page":"3121","article-title":"Convergent policy optimization for safe reinforcement learning","author":"yu","year":"2019","journal-title":"Advances in neural information processing systems"},{"key":"ref26","article-title":"A primal approach to constrained policy optimization: Global optimality and finite-time analysis","author":"xu","year":"2020"},{"key":"ref25","article-title":"A primal-dual approach to constrained Markov decision processes","author":"chen","year":"2021"}],"event":{"name":"2022 American Control Conference (ACC)","location":"Atlanta, GA, USA","start":{"date-parts":[[2022,6,8]]},"end":{"date-parts":[[2022,6,10]]}},"container-title":["2022 American Control Conference (ACC)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9866948\/9867142\/09867805.pdf?arnumber=9867805","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,10,3]],"date-time":"2022-10-03T20:37:35Z","timestamp":1664829455000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9867805\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,6,8]]},"references-count":28,"URL":"https:\/\/doi.org\/10.23919\/acc53348.2022.9867805","relation":{},"subject":[],"published":{"date-parts":[[2022,6,8]]}}}