{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,1,9]],"date-time":"2025-01-09T09:40:09Z","timestamp":1736415609556,"version":"3.32.0"},"reference-count":24,"publisher":"Society for Industrial & Applied Mathematics (SIAM)","issue":"1","funder":[{"DOI":"10.13039\/100000181","name":"Air Force Office of Scientific Research","doi-asserted-by":"publisher","award":["FA9550-22-1-0447"],"award-info":[{"award-number":["FA9550-22-1-0447"]}],"id":[{"id":"10.13039\/100000181","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000001","name":"National Science Foundation","doi-asserted-by":"publisher","award":["DMS-1953199"],"award-info":[{"award-number":["DMS-1953199"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["SIAM J. Optim."],"published-print":{"date-parts":[[2025,3,31]]},"DOI":"10.1137\/23m1560215","type":"journal-article","created":{"date-parts":[[2025,1,9]],"date-time":"2025-01-09T09:00:45Z","timestamp":1736413245000},"page":"116-156","source":"Crossref","is-referenced-by-count":0,"title":["Policy Mirror Descent Inherently Explores Action Space"],"prefix":"10.1137","volume":"35","author":[{"given":"Yan","family":"Li","sequence":"first","affiliation":[{"name":"Wm. Michael Barnes \u201964 Department of Industrial & Systems Engineering, Texas A&M University, College Station, TX 77843 USA."}]},{"given":"Guanghui","family":"Lan","sequence":"additional","affiliation":[{"name":"H. Milton Stewart School of Industrial and Systems Engineering, Georgia Institute of Technology, Atlanta, GA 30332 USA."}]}],"member":"351","published-online":{"date-parts":[[2025,1,9]]},"reference":[{"key":"ref2","first-page":"13399","volume":"33","author":"Agarwal A.","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1137\/S0097539701398375"},{"key":"ref6","volume":"21","author":"Auer P.","year":"2008","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1287\/opre.2021.2151"},{"key":"ref16","volume":"31","author":"Jin C.","year":"2018","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2022.3190032"},{"key":"ref19","volume":"12","author":"Konda V.","year":"1999","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1137\/20M1381691"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1016\/0196-8858(85)90002-8"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-022-01816-5"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1137\/22M1480409"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1090\/mbk\/107"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-023-02017-4"},{"key":"ref31","volume":"32","author":"Liu B.","year":"2019","journal-title":"Adv. Neurl. Info. Process. Syst."},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1137\/070704277"},{"key":"ref33","volume-title":"Problem Complexity and Method Efficiency in Optimization","author":"Nemirovskij A. S.","year":"1983"},{"key":"ref34","volume":"28","author":"Neu G.","year":"2015","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"ref35","volume-title":"Markov Decision Processes: Discrete Stochastic Dynamic Programming","author":"Puterman M. L.","year":"2014"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1007\/BF00114726"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1007\/BF00115009"},{"key":"ref43","volume":"9","author":"Tsitsiklis J.","year":"1996","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1023\/A:1017980312899"},{"key":"ref45","first-page":"1","volume":"23","author":"Xiao L.","year":"2022","journal-title":"J. Mach. Learn. Res."},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1137\/21M1456789"}],"container-title":["SIAM Journal on Optimization"],"original-title":[],"language":"en","deposited":{"date-parts":[[2025,1,9]],"date-time":"2025-01-09T09:00:49Z","timestamp":1736413249000},"score":1,"resource":{"primary":{"URL":"https:\/\/epubs.siam.org\/doi\/10.1137\/23M1560215"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,1,9]]},"references-count":24,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2025,3,31]]}},"alternative-id":["10.1137\/23M1560215"],"URL":"https:\/\/doi.org\/10.1137\/23m1560215","relation":{},"ISSN":["1052-6234","1095-7189"],"issn-type":[{"value":"1052-6234","type":"print"},{"value":"1095-7189","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,1,9]]}}}