{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,5]],"date-time":"2026-04-05T09:33:32Z","timestamp":1775381612091,"version":"3.50.1"},"reference-count":200,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"4","license":[{"start":{"date-parts":[[2022,7,1]],"date-time":"2022-07-01T00:00:00Z","timestamp":1656633600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2022,7,1]],"date-time":"2022-07-01T00:00:00Z","timestamp":1656633600000},"content-version":"am","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2022,7,1]],"date-time":"2022-07-01T00:00:00Z","timestamp":1656633600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,7,1]],"date-time":"2022-07-01T00:00:00Z","timestamp":1656633600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100000001","name":"NSF CAREER","doi-asserted-by":"publisher","award":["ECCS-1553407"],"award-info":[{"award-number":["ECCS-1553407"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]},{"name":"NSF AI Institute","award":["2112085"],"award-info":[{"award-number":["2112085"]}]},{"DOI":"10.13039\/100000001","name":"NSF","doi-asserted-by":"publisher","award":["ECCS-1931662"],"award-info":[{"award-number":["ECCS-1931662"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000001","name":"NSF","doi-asserted-by":"publisher","award":["AitF-1637598"],"award-info":[{"award-number":["AitF-1637598"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000001","name":"NSF","doi-asserted-by":"publisher","award":["CNS-1518941"],"award-info":[{"award-number":["CNS-1518941"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Cyber-Physical Systems","award":["ECCS-1932611"],"award-info":[{"award-number":["ECCS-1932611"]}]},{"DOI":"10.13039\/100007287","name":"Resnick Sustainability Institute for Science, Energy and Sustainability, California Institute of Technology","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100007287","id-type":"DOI","asserted-by":"publisher"}]},{"name":"PIMCO Fellowship"},{"name":"Amazon AI4Science Fellowship"},{"name":"Caltech Center for Autonomous Systems and Technologies"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Smart Grid"],"published-print":{"date-parts":[[2022,7]]},"DOI":"10.1109\/tsg.2022.3154718","type":"journal-article","created":{"date-parts":[[2022,2,25]],"date-time":"2022-02-25T20:30:44Z","timestamp":1645821044000},"page":"2935-2958","source":"Crossref","is-referenced-by-count":338,"title":["Reinforcement Learning for Selective Key Applications in Power Systems: Recent Advances and Future Challenges"],"prefix":"10.1109","volume":"13","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-1357-3970","authenticated-orcid":false,"given":"Xin","family":"Chen","sequence":"first","affiliation":[{"name":"School of Engineering and Applied Sciences, Harvard University, Cambridge, MA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5466-3550","authenticated-orcid":false,"given":"Guannan","family":"Qu","sequence":"additional","affiliation":[{"name":"Department of Electrical and Computer Engineering, Carnegie Mellon University, Pittsburgh, PA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4921-8372","authenticated-orcid":false,"given":"Yujie","family":"Tang","sequence":"additional","affiliation":[{"name":"School of Engineering and Applied Sciences, Harvard University, Cambridge, MA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6476-3048","authenticated-orcid":false,"given":"Steven","family":"Low","sequence":"additional","affiliation":[{"name":"Department of Computing and Mathematical Sciences, California Institute of Technology, Pasadena, CA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9545-3050","authenticated-orcid":false,"given":"Na","family":"Li","sequence":"additional","affiliation":[{"name":"School of Engineering and Applied Sciences, Harvard University, Cambridge, MA, USA"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2011.2166794"},{"key":"ref2","volume-title":"Reinforcement Learning: An Introduction","author":"Sutton","year":"2018"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1201\/9781351006620-6"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1038\/nature16961"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1177\/0278364913495721"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.2352\/ISSN.2470-1173.2017.19.AVM-023"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1111\/j.1541-0420.2011.01572.x"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.17775\/CSEEJPES.2019.00920"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1016\/j.arcontrol.2019.09.008"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.35833\/MPCE.2020.000552"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1016\/j.arcontrol.2020.03.001"},{"key":"ref12","volume-title":"Dynamic Programming and Optimal Control","author":"Bertsekas","year":"2012"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1016\/j.automatica.2013.09.043"},{"key":"ref14","article-title":"Non-stationary Markov decision processes, a worst-case approach using model-based reinforcement learning, extended version","author":"Lecarpentier","year":"2019","journal-title":"arXiv:1904.10090"},{"key":"ref15","first-page":"1843","article-title":"Reinforcement learning for non-stationary Markov decision processes: The blessing of (more) optimism","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Cheung"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1561\/2200000086"},{"issue":"51","key":"ref17","first-page":"1563","article-title":"Near-optimal regret bounds for reinforcement learning","volume":"11","author":"Jaksch","year":"2010","journal-title":"J. Mach. Learn. Res."},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1561\/2200000070"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1007\/BF00993306"},{"key":"ref20","first-page":"64","article-title":"Optimality and approximation with policy gradient methods in Markov decision processes","volume-title":"Proc. Conf. Learn. Theory","author":"Agarwal"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/9.580874"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1214\/aoms\/1177729586"},{"key":"ref23","article-title":"Finite-time error bounds for linear stochastic approximation and TD learning","author":"Srikant","year":"2019","journal-title":"arXiv:1902.00923"},{"issue":"3","key":"ref24","doi-asserted-by":"crossref","first-page":"279","DOI":"10.1007\/BF00992698","article-title":"Q-learning","volume":"8","author":"Watkins","year":"1992","journal-title":"Mach. Learn."},{"key":"ref25","first-page":"3185","article-title":"Finite-time analysis of asynchronous stochastic approximation and Q-learning","volume-title":"Proc. Conf. Learn. Theory","author":"Qu"},{"key":"ref26","article-title":"On-line Q-learning using connectionist systems","author":"Rummery","year":"1994"},{"key":"ref27","article-title":"Off-policy actor-critic","author":"Degris","year":"2012","journal-title":"arXiv:1205.4839"},{"key":"ref28","first-page":"1057","article-title":"Policy gradient methods for reinforcement learning with function approximation","volume-title":"Advances in Neural Information Processing Systems","author":"Sutton"},{"key":"ref29","first-page":"387","article-title":"Deterministic policy gradient algorithms","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Silver"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-27645-3_2"},{"key":"ref31","first-page":"503","article-title":"Tree-based batch mode reinforcement learning","volume":"6","author":"Ernst","year":"2005","journal-title":"J. Mach. Learn. Res."},{"key":"ref32","first-page":"1107","article-title":"Least-squares policy iteration","volume":"4","author":"Lagoudakis","year":"2003","journal-title":"J. Mach. Learn. Res."},{"key":"ref33","first-page":"104","article-title":"An optimistic perspective on offline reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Agarwal"},{"key":"ref34","article-title":"Offline reinforcement learning: Tutorial, review, and perspectives on open problems","author":"Levine","year":"2020","journal-title":"arXiv:2005.01643"},{"key":"ref35","article-title":"Active reinforcement learning: Observing rewards at a cost","author":"Krueger","year":"2020","journal-title":"arXiv:2011.06709"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2014.X.031"},{"key":"ref37","first-page":"1","article-title":"Algorithms for inverse reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","volume":"1","author":"Ng"},{"key":"ref38","article-title":"Learning robust rewards with adversarial inverse reinforcement learning","author":"Fu","year":"2017","journal-title":"arXiv:1710.11248"},{"key":"ref39","article-title":"On the origin of deep learning","author":"Wang","year":"2017","journal-title":"arXiv:1702.07800"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1038\/nature14539"},{"key":"ref41","article-title":"Optimization for deep learning: Theory and algorithms","author":"Sun","year":"2019","journal-title":"arXiv:1912.08957"},{"key":"ref42","author":"Goodfellow","year":"2016","journal-title":"Deep Learning"},{"key":"ref43","volume-title":"CS231n: Convolutional Neural Networks for Visual Recognition","year":"2021"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1126\/science.1127647"},{"key":"ref46","volume-title":"Applied Deep Learning\u2014Part 3: Autoencoders","author":"Dertat","year":"2017"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1038\/nature14236"},{"key":"ref48","first-page":"486","article-title":"A theoretical analysis of deep Q-learning","volume-title":"Proc. Learn. Dyn. Control","author":"Fan"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v30i1.10295"},{"key":"ref50","first-page":"1995","article-title":"Dueling network architectures for deep reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Wang"},{"key":"ref51","first-page":"1928","article-title":"Asynchronous methods for deep reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Mnih"},{"key":"ref52","article-title":"Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor","author":"Haarnoja","year":"2018","journal-title":"arXiv:1801.01290"},{"key":"ref53","first-page":"1889","article-title":"Trust region policy optimization","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Schulman"},{"key":"ref54","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017","journal-title":"arXiv:1707.06347"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-60990-0_12"},{"key":"ref56","doi-asserted-by":"crossref","DOI":"10.1201\/b10869","volume-title":"Intelligent Automatic Generation Control","author":"Bevrani","year":"2017"},{"key":"ref57","article-title":"Reinforcement learning for optimal frequency control: A lyapunov approach","author":"Cui","year":"2020","journal-title":"arXiv:2009.05654"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2020.2999890"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3019535"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/TETCI.2020.2964886"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.3390\/en13051250"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2020.3001095"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1049\/iet-gtd.2019.0218"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2018.2881359"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2894756"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1016\/j.ifacol.2019.08.164"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1016\/j.energy.2018.04.042"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1049\/iet-gtd.2016.1734"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/TIE.2017.2668983"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2014.2357079"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/PESGM41954.2020.9281614"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/TCNS.2020.3024489"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2017.2713529"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2019.2897948"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2017.2679238"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2019.2931685"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.2970768"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2945691"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.23919\/ACC53348.2022.9867476"},{"key":"ref80","article-title":"A graph policy network approach for Volt-VAR control in power distribution systems","author":"Lee","year":"2021","journal-title":"arXiv:2109.12073"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2021.3060027"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2021.3060620"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2021.3058996"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2021.3052998"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.3010130"},{"key":"ref86","article-title":"Scalable voltage control using structure-driven hierarchical deep reinforcement learning","author":"Mukherjee","year":"2021","journal-title":"arXiv:2102.00077"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2020.114772"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.2972208"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2004.831259"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2019.2948132"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2951769"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2020.2990179"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2962625"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2019.2941134"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2020.3000652"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.3041620"},{"key":"ref97","article-title":"Robust adversarial reinforcement learning","author":"Pinto","year":"2017","journal-title":"arXiv:1703.02702"},{"key":"ref98","article-title":"Bi-level off-policy reinforcement learning for Volt\/VAR control involving continuous and discrete devices","author":"Liu","year":"2021","journal-title":"arXiv:2104.05902"},{"key":"ref99","article-title":"Actor-mimic: Deep multitask and transfer reinforcement learning","author":"Parisotto","year":"2015","journal-title":"arXiv:1511.06342"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1109\/ISGTEurope.2012.6465777"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1142\/9789814360616_0007"},{"key":"ref102","volume-title":"Benefit of Demand Response in Electricity Market and Recommendations for Achieving Them","year":"2006"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2021.3090039"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2909266"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2020.2993787"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1109\/TGCN.2021.3061789"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.2976771"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1109\/EI250167.2020.9346692"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2021.117634"},{"key":"ref110","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2020.2987292"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.1049\/iet-gtd.2019.0554"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3041007"},{"key":"ref113","doi-asserted-by":"publisher","DOI":"10.35833\/MPCE.2020.000522"},{"key":"ref114","doi-asserted-by":"publisher","DOI":"10.35833\/MPCE.2020.000557"},{"key":"ref115","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2020.2966232"},{"key":"ref116","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2933502"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2021.3092220"},{"key":"ref118","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.3035127"},{"key":"ref119","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2930299"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2018.2801880"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2018.2879572"},{"key":"ref122","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2955437"},{"key":"ref123","first-page":"22","article-title":"Constrained policy optimization","volume-title":"Proc. 34th Int. Conf. Mach. Learn.","author":"Achiam"},{"key":"ref124","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2021.3064354"},{"key":"ref125","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2924025"},{"key":"ref126","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.2986333"},{"key":"ref127","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.2996274"},{"key":"ref128","doi-asserted-by":"publisher","DOI":"10.1145\/3061639.3062224"},{"key":"ref129","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2020.2992117"},{"key":"ref130","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.3011739"},{"key":"ref131","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2018.2834219"},{"key":"ref132","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.3014055"},{"key":"ref133","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.2971427"},{"key":"ref134","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.2978061"},{"key":"ref135","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.2974286"},{"key":"ref136","doi-asserted-by":"publisher","DOI":"10.17775\/CSEEJPES.2019.02890"},{"key":"ref137","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2019.2957289"},{"key":"ref138","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2952331"},{"key":"ref139","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2940005"},{"key":"ref140","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2936142"},{"key":"ref141","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.3005270"},{"key":"ref142","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2946282"},{"key":"ref143","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2011.2157180"},{"key":"ref144","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2933191"},{"key":"ref145","doi-asserted-by":"publisher","DOI":"10.1109\/TIE.2015.2420792"},{"key":"ref146","doi-asserted-by":"publisher","DOI":"10.1109\/TEC.2020.2990937"},{"key":"ref147","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2933020"},{"key":"ref148","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2018.2790704"},{"key":"ref149","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2020.2973761"},{"key":"ref150","doi-asserted-by":"publisher","DOI":"10.1109\/CDC40024.2019.9029268"},{"key":"ref151","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2942593"},{"key":"ref152","doi-asserted-by":"publisher","DOI":"10.1109\/LCSYS.2020.3003190"},{"key":"ref153","article-title":"Real-time aggregate flexibility via reinforcement learning","author":"Li","year":"2020","journal-title":"arXiv:2012.11261"},{"key":"ref154","article-title":"Openai gym","author":"Brockman","year":"2016","journal-title":"arXiv:1606.01540"},{"key":"ref155","doi-asserted-by":"publisher","DOI":"10.1016\/j.egyai.2021.100092"},{"key":"ref156","article-title":"Learning to run a power network challenge: A retrospective analysis","author":"Marot","year":"2021","journal-title":"arXiv:2103.03104"},{"key":"ref157","article-title":"Pymgrid: An open-source Python microgrid simulator for applied artificial intelligence research","author":"Henri","year":"2020","journal-title":"arXiv:2011.08004"},{"key":"ref158","doi-asserted-by":"publisher","DOI":"10.21105\/joss.02435"},{"key":"ref159","article-title":"PowerGym: A reinforcement learning environment for Volt-VAR control in power distribution systems","author":"Fan","year":"2021","journal-title":"arXiv:2109.03970"},{"key":"ref160","first-page":"265","article-title":"TensorFlow: A system for large-scale machine learning","volume-title":"Proc. 12th Symp. Oper. Syst. Design Implement.","author":"Abadi"},{"key":"ref161","first-page":"8026","article-title":"PyTorch: An imperative style, high-performance deep learning library","volume-title":"Advances in Neural Information Processing Systems","volume":"32","author":"Paszke","year":"2019"},{"key":"ref162","doi-asserted-by":"publisher","DOI":"10.1145\/2939672.2945397"},{"key":"ref163","volume-title":"MATLAB and Reinforcement Learning Toolbox (R2021a)","year":"2021"},{"key":"ref164","first-page":"908","article-title":"Safe model-based reinforcement learning with stability guarantees","volume-title":"Advances in Neural Information Processing Systems","author":"Berkenkamp"},{"key":"ref165","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.2018.8619572"},{"key":"ref166","first-page":"8092","article-title":"A lyapunov-based approach to safe reinforcement learning","volume-title":"Advances in Neural Information Processing Systems","author":"Chow","year":"2018"},{"key":"ref167","article-title":"Safety-guided deep reinforcement learning via online Gaussian process estimation","author":"Fan","year":"2019","journal-title":"arXiv:1903.02526"},{"issue":"1","key":"ref168","first-page":"1437","article-title":"A comprehensive survey on safe reinforcement learning","volume":"16","author":"Garc\u0131a","year":"2015","journal-title":"J. Mach. Learn. Res."},{"key":"ref169","doi-asserted-by":"publisher","DOI":"10.1162\/0899766053011528"},{"key":"ref170","article-title":"Reward constrained policy optimization","author":"Tessler","year":"2018","journal-title":"arXiv:1805.11074"},{"key":"ref171","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33013387"},{"key":"ref172","first-page":"8682","article-title":"Density constrained reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Qin"},{"key":"ref173","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.2018.8619829"},{"key":"ref174","doi-asserted-by":"publisher","DOI":"10.1201\/9781315140223"},{"key":"ref175","article-title":"Constrained policy optimization","author":"Achiam","year":"2017","journal-title":"arXiv:1705.10528"},{"key":"ref176","doi-asserted-by":"publisher","DOI":"10.23919\/ACC.2019.8814865"},{"key":"ref177","article-title":"Robust deep reinforcement learning with adversarial attacks","author":"Pattanaik","year":"2017","journal-title":"arXiv:1712.03632"},{"key":"ref178","doi-asserted-by":"publisher","DOI":"10.1109\/PowerTech46648.2021.9494982"},{"key":"ref179","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2019.2955857"},{"key":"ref180","article-title":"Improving robustness of reinforcement learning for power system control with adversarial training","author":"Pan","year":"2021","journal-title":"arXiv:2110.08956"},{"key":"ref181","article-title":"Robust reinforcement learning for continuous control with model misspecification","author":"Mankowitz","year":"2019","journal-title":"arXiv:1906.07516"},{"key":"ref182","doi-asserted-by":"publisher","DOI":"10.1287\/moor.1040.0129"},{"key":"ref183","doi-asserted-by":"publisher","DOI":"10.1287\/opre.1050.0216"},{"key":"ref184","first-page":"1","article-title":"Robust multi-agent reinforcement learning with model uncertainty","volume-title":"Proc. NeurIPS","author":"Zhang"},{"key":"ref185","article-title":"Soft-robust actor-critic policy-gradient","author":"Derman","year":"2018","journal-title":"arXiv:1803.04848"},{"key":"ref186","first-page":"256","article-title":"Scalable reinforcement learning of localized policies for multi-agent networked systems","volume-title":"Proc. Mach. Learn. Res.","volume":"1","author":"Qu"},{"key":"ref187","article-title":"Multi-agent reinforcement learning in time-varying networked systems","author":"Lin","year":"2020","journal-title":"arXiv:2006.06555"},{"key":"ref188","doi-asserted-by":"publisher","DOI":"10.1109\/TIT.2021.3120096"},{"key":"ref189","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-023-06303-2"},{"key":"ref190","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i6.16638"},{"key":"ref191","article-title":"Combining model-based and model-free methods for nonlinear control: A provably convergent policy gradient approach","author":"Qu","year":"2020","journal-title":"arXiv:2006.07476"},{"key":"ref192","doi-asserted-by":"publisher","DOI":"10.1145\/3054912"},{"key":"ref193","doi-asserted-by":"publisher","DOI":"10.1109\/JSYST.2019.2931879"},{"key":"ref194","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2019.2919522"},{"key":"ref195","first-page":"1","article-title":"Combining model-based and model-free RL via multi-step control variates","volume-title":"Proc. ICLR","author":"Che"},{"key":"ref196","article-title":"Learning to reinforcement learn","author":"Wang","year":"2016","journal-title":"arXiv:1611.05763"},{"key":"ref197","article-title":"Federated reinforcement learning","author":"Zhuo","year":"2019","journal-title":"arXiv:1901.08277"},{"key":"ref198","article-title":"Bayesian reinforcement learning: A survey","author":"Ghavamzadeh","year":"2016","journal-title":"arXiv:1609.04436"},{"issue":"1","key":"ref199","doi-asserted-by":"crossref","first-page":"41","DOI":"10.1023\/A:1022140919877","article-title":"Recent advances in hierarchical reinforcement learning","volume":"13","author":"Barto","year":"2003","journal-title":"Discr. Event Dyn. Syst."},{"key":"ref200","first-page":"5045","article-title":"Programmatically interpretable reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Verma"}],"container-title":["IEEE Transactions on Smart Grid"],"original-title":[],"link":[{"URL":"https:\/\/ieeexplore.ieee.org\/ielam\/5165411\/9801905\/9721402-aam.pdf","content-type":"application\/pdf","content-version":"am","intended-application":"syndication"},{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/5165411\/9801905\/09721402.pdf?arnumber=9721402","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,1,17]],"date-time":"2024-01-17T23:46:17Z","timestamp":1705535177000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9721402\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,7]]},"references-count":200,"journal-issue":{"issue":"4"},"URL":"https:\/\/doi.org\/10.1109\/tsg.2022.3154718","relation":{},"ISSN":["1949-3053","1949-3061"],"issn-type":[{"value":"1949-3053","type":"print"},{"value":"1949-3061","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022,7]]}}}