{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T17:53:23Z","timestamp":1775066003405,"version":"3.50.1"},"reference-count":11,"publisher":"Society for Industrial & Applied Mathematics (SIAM)","issue":"2","funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["11831002"],"award-info":[{"award-number":["11831002"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["SIAM J. Optim."],"published-print":{"date-parts":[[2023,6,30]]},"DOI":"10.1137\/21m1421726","type":"journal-article","created":{"date-parts":[[2023,6,22]],"date-time":"2023-06-22T13:32:31Z","timestamp":1687440751000},"page":"921-949","source":"Crossref","is-referenced-by-count":1,"title":["A Stochastic Composite Augmented Lagrangian Method for Reinforcement Learning"],"prefix":"10.1137","volume":"33","author":[{"given":"Yongfeng","family":"Li","sequence":"first","affiliation":[{"name":"Beijing International Center for Mathematical Research, Peking University, Beijing, China."}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mingming","family":"Zhao","sequence":"additional","affiliation":[{"name":"Beijing International Center for Mathematical Research, Peking University, Beijing, China."}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3657-2943","authenticated-orcid":true,"given":"Weijie","family":"Chen","sequence":"additional","affiliation":[{"name":"Academy for Advanced Interdisciplinary Studies, Peking University, Beijing, China."}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zaiwen","family":"Wen","sequence":"additional","affiliation":[{"name":"Corresponding author. Beijing International Center for Mathematical Research, College of Engineering and Center for Machine Learning Research, Peking University, Beijing, China."}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"351","published-online":{"date-parts":[[2023,6,22]]},"reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4419-9467-7"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1613\/jair.3912"},{"key":"ref3","volume-title":"Dynamic Programming and Optimal Control","volume":"1","author":"Bertsekas D. P.","year":"1995"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1038\/nature14236"},{"key":"ref18","volume-title":"Markov Decision Processes: Discrete Stochastic Dynamic Programming","author":"Puterman M. L.","year":"2014"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1007\/BFb0120929"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1137\/0314056"},{"key":"ref23","volume-title":"Reinforcement Learning: An Introduction","author":"Sutton R. S.","year":"1998"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1287\/moor.2019.1000"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-016-1017-3"},{"key":"ref28","first-page":"4572","volume":"33","author":"Zhang J.","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."}],"container-title":["SIAM Journal on Optimization"],"original-title":[],"language":"en","deposited":{"date-parts":[[2023,6,30]],"date-time":"2023-06-30T15:16:26Z","timestamp":1688138186000},"score":1,"resource":{"primary":{"URL":"https:\/\/epubs.siam.org\/doi\/10.1137\/21M1421726"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,6,22]]},"references-count":11,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2023,6,30]]}},"alternative-id":["10.1137\/21M1421726"],"URL":"https:\/\/doi.org\/10.1137\/21m1421726","relation":{},"ISSN":["1052-6234","1095-7189"],"issn-type":[{"value":"1052-6234","type":"print"},{"value":"1095-7189","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,6,22]]}}}