{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,14]],"date-time":"2026-04-14T20:44:21Z","timestamp":1776199461916,"version":"3.50.1"},"reference-count":330,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"3","license":[{"start":{"date-parts":[[2025,3,1]],"date-time":"2025-03-01T00:00:00Z","timestamp":1740787200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,3,1]],"date-time":"2025-03-01T00:00:00Z","timestamp":1740787200000},"content-version":"am","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,3,1]],"date-time":"2025-03-01T00:00:00Z","timestamp":1740787200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,3,1]],"date-time":"2025-03-01T00:00:00Z","timestamp":1740787200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100011883","name":"Solar Energy Technologies Office","doi-asserted-by":"publisher","award":["10422"],"award-info":[{"award-number":["10422"]}],"id":[{"id":"10.13039\/100011883","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Proc. IEEE"],"published-print":{"date-parts":[[2025,3]]},"DOI":"10.1109\/jproc.2025.3584656","type":"journal-article","created":{"date-parts":[[2025,7,9]],"date-time":"2025-07-09T23:19:27Z","timestamp":1752103167000},"page":"213-255","source":"Crossref","is-referenced-by-count":41,"title":["A Review of Safe Reinforcement Learning Methods for Modern Power Systems"],"prefix":"10.1109","volume":"113","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-5424-6757","authenticated-orcid":false,"given":"Tong","family":"Su","sequence":"first","affiliation":[{"name":"Department of Electrical and Computer Engineering, University of Connecticut, Storrs, CT, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7474-6943","authenticated-orcid":false,"given":"Tong","family":"Wu","sequence":"additional","affiliation":[{"name":"Department of Electrical and Computer Engineering, University of Central Florida, Orlando, FL, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8498-9666","authenticated-orcid":false,"given":"Junbo","family":"Zhao","sequence":"additional","affiliation":[{"name":"Department of Electrical and Computer Engineering, University of Connecticut, Storrs, CT, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8892-3680","authenticated-orcid":false,"given":"Anna","family":"Scaglione","sequence":"additional","affiliation":[{"name":"Department of Electrical and Computer Engineering, Cornell Tech, Cornell University, New York, NY, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9810-948X","authenticated-orcid":false,"given":"Le","family":"Xie","sequence":"additional","affiliation":[{"name":"Harvard John A. Paulson School of Engineering and Applied Sciences, Allston, MA, USA"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1016\/j.rser.2015.12.070"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1016\/j.epsr.2022.108725"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2023.3286401"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1038\/s44287-024-00018-9"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2022.3154718"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2023.3303358"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2020.2977374"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1201\/9781351006620-6"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2024.3457538"},{"issue":"1","key":"ref10","first-page":"1437","article-title":"A comprehensive survey on safe reinforcement learning","volume":"16","author":"Garc\u0131a","year":"2015","journal-title":"J. Mach. Learn. Res."},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2022.3160387"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TSTE.2023.3341632"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2023.3277087"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2017.2743240"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.3389\/frai.2021.550030"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3250269"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.17775\/CSEEJPES.2019.00920"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1016\/j.arcontrol.2019.09.008"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.35833\/MPCE.2020.000552"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2023\/763"},{"issue":"9","key":"ref21","first-page":"1813","article-title":"Safe reinforcement learning: A survey","volume":"49","author":"Wang","year":"2023","journal-title":"Acta Autom. Sinica"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ACPEE56931.2023.10135995"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/jproc.2025.3584656"},{"key":"ref24","article-title":"Safe reinforcement learning for power system control: A review","author":"Yu","year":"2024","journal-title":"arXiv:2407.00681"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1016\/j.engappai.2025.110091"},{"key":"ref26","article-title":"A critical review of safe reinforcement learning techniques in smart grid applications","author":"Bui","year":"2024","journal-title":"arXiv:2409.16256"},{"key":"ref27","author":"Su","year":"2025","journal-title":"SafeRL-Power-System"},{"key":"ref28","volume-title":"Reinforcement Learning: An Introduction","author":"Sutton","year":"2018"},{"key":"ref29","first-page":"1","article-title":"Provably safe reinforcement learning: Conceptual analysis, survey, and benchmarking","author":"Krasowski","year":"2022","journal-title":"Trans. Mach. Learn. Res."},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2021\/614"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2024\/913"},{"key":"ref32","first-page":"22","article-title":"Constrained policy optimization","volume-title":"Proc. 34th Int. Conf. Mach. Learn.","author":"Achiam"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2022.3142961"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.3034827"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2023.3243170"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2023.3289334"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.3041620"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.3390\/buildings13030580"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2023.3310893"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2022.3150023"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2021.117982"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2025.3569696"},{"key":"ref43","volume-title":"Power System Stability and Control","author":"Kundur","year":"1994"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2004.825981"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2016.2530620"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2022.3150518"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1609\/aiide.v18i1.21959"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-024-06543-w"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2020.3024161"},{"key":"ref50","volume-title":"Constrained Markov Decision Processes","author":"Altman","year":"1999"},{"issue":"167","key":"ref51","first-page":"1","article-title":"Risk-constrained reinforcement learning with percentile risk criteria","volume":"18","author":"Chow","year":"2018","journal-title":"J. Mach. Learn. Res."},{"key":"ref52","volume-title":"Convex Optimization Algorithms","author":"Bertsekas","year":"2015"},{"key":"ref53","article-title":"Benchmarking batch deep reinforcement learning algorithms","author":"Fujimoto","year":"2019","journal-title":"arXiv:1910.01708"},{"key":"ref54","article-title":"Multi-agent constrained policy optimisation","author":"Gu","year":"2021","journal-title":"arXiv:2110.02793"},{"key":"ref55","first-page":"9133","article-title":"Responsive safety in reinforcement learning by PID Lagrangian methods","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Stooke"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2023.3326121"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2962625"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/SmartGridComm57358.2023.10333926"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2023.3320172"},{"key":"ref60","first-page":"8378","article-title":"Natural policy gradient primal-dual method for constrained Markov decision processes","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Ding"},{"key":"ref61","first-page":"1","article-title":"Projection-based constrained policy optimization","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Yang"},{"key":"ref62","first-page":"15338","article-title":"First order constrained optimization in policy space","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Zhang"},{"key":"ref63","first-page":"9111","article-title":"Constrained update projection approach to safe policy optimization","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Long"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2021.3135977"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/SmartGridComm.2019.8909741"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4471-0967-9"},{"key":"ref67","first-page":"803","article-title":"Lyapunov design for safe reinforcement learning","volume":"3","author":"Perkins","year":"2003","journal-title":"J. Mach. Learn. Res."},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2022.3176525"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1016\/j.epsr.2022.108609"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.23919\/ACC53348.2022.9867476"},{"key":"ref71","volume-title":"Gaussian Processes for Machine Learning","volume":"2","author":"Williams","year":"2006"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.2014.7039601"},{"key":"ref73","first-page":"997","article-title":"Safe exploration for optimization with Gaussian processes","volume-title":"Proc. Int. Conf. Mach. Learn.","volume":"37","author":"Sui"},{"key":"ref74","first-page":"4312","article-title":"Safe exploration in finite Markov decision processes with Gaussian processes","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Turchetta"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-021-06103-6"},{"key":"ref76","first-page":"465","article-title":"PILCO: A model-based and data-efficient approach to policy search","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Deisenroth"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11797"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2022.3228636"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2022.3178084"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/TSTE.2022.3226106"},{"key":"ref81","article-title":"Safe exploration in continuous action spaces","author":"Dalal","year":"2018","journal-title":"arXiv:1801.08757"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2023.3262843"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2022.118762"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1109\/TSTE.2022.3148236"},{"key":"ref85","first-page":"36593","article-title":"Enforcing hard constraints with soft barriers: Safe reinforcement learning in unknown stochastic environments","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Wang"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i04.5932"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2023.3257259"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/CDC45484.2021.9683573"},{"key":"ref89","first-page":"1093","article-title":"Safe reinforcement learning using robust action governor","volume-title":"Proc. Learn. Dyn. Control","author":"Li"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2022.3228922"},{"key":"ref91","first-page":"291","article-title":"Safe reinforcement learning with chance-constrained model predictive control","volume-title":"Proc. Learn. Dyn. Control","author":"Pfrommer"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2021.3097706"},{"key":"ref93","first-page":"1242","article-title":"Robust reinforcement learning: A constrained game-theoretic approach","volume-title":"Proc. Learn. Dyn. Control","author":"Yu"},{"key":"ref94","first-page":"7953","article-title":"A game theoretic framework for model based reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Rajeswaran"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2019.2923702"},{"key":"ref96","first-page":"6215","article-title":"Action robust reinforcement learning and applications in continuous control","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Tessler"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2018.2885530"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.1016\/j.ijepes.2021.107113"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2022.3168856"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.24251\/HICSS.2024.366"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2022.3175595"},{"key":"ref102","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2018.2878757"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2019.2932078"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2024.3351435"},{"key":"ref105","first-page":"3127","article-title":"Convergent policy optimization for safe reinforcement learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Yu"},{"key":"ref106","first-page":"8103","article-title":"A Lyapunov-based approach to safe reinforcement learning","volume-title":"Proc. 32nd Int. Conf. Neural Inf. Process. Syst.","author":"Chow"},{"key":"ref107","first-page":"908","article-title":"Safe model-based reinforcement learning with stability guarantees","volume-title":"Proc. Adv. Neural Inform. Process. Syst.","volume":"30","author":"Berkenkamp"},{"key":"ref108","article-title":"Safety through permissibility: Shield construction for fast and safe reinforcement learning","author":"Politowicz","year":"2024","journal-title":"arXiv:2405.19414"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.3390\/make4010013"},{"key":"ref110","first-page":"1","article-title":"Reward constrained policy optimization","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Tessler"},{"key":"ref111","first-page":"7553","article-title":"Constrained reinforcement learning has zero duality gap","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"32","author":"Paternain"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1016\/j.ifacol.2020.12.2276"},{"key":"ref113","first-page":"2817","article-title":"Robust adversarial reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Pinto"},{"key":"ref114","volume-title":"Safe-Reinforcement-Learning-Baselines","author":"Gu","year":"2025"},{"key":"ref115","volume-title":"Safety-Gym: Tools for Accelerating Safe Exploration Research","author":"Ray","year":"2025"},{"key":"ref116","volume-title":"Safety Starter Agents: Basic Constrained RL Agents","author":"Ray","year":"2025"},{"key":"ref117","first-page":"1","article-title":"Safety-gymnasium: A unified safe reinforcement learning benchmark","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Ji"},{"key":"ref118","volume-title":"Safety-Gymnasium: A Unified Safe Reinforcement Learning Benchmark","author":"Ji","year":"2025"},{"key":"ref119","volume-title":"Safe Policy Optimization: A Benchmark Repository for Safe Reinforcement Learning Algorithms","author":"Ji","year":"2025"},{"issue":"285","key":"ref120","first-page":"1","article-title":"OmniSafe: An infrastructure for accelerating safe reinforcement learning research","volume":"25","author":"Ji","year":"2024","journal-title":"J. Mach. Learn. Res."},{"key":"ref121","volume-title":"OmniSafe: An Infrastructural Framework for Accelerating Safe RL Research","author":"Ji","year":"2025"},{"key":"ref122","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2022\/520"},{"key":"ref123","first-page":"11480","article-title":"CRPO: A new approach for safe reinforcement learning with convergence guarantee","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Xu"},{"key":"ref124","first-page":"1622","article-title":"Learning off-policy with online planning","volume-title":"Proc. Conf. Robot Learn.","author":"Sikchi"},{"key":"ref125","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2020.3015931"},{"key":"ref126","article-title":"Constrained model-based reinforcement learning with robust cross-entropy method","author":"Liu","year":"2020","journal-title":"arXiv:2010.07968"},{"key":"ref127","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i5.20478"},{"key":"ref128","first-page":"2052","article-title":"Off-policy deep reinforcement learning without exploration","volume-title":"Proc. 36th Int. Conf. Mach. Learn.","volume":"97","author":"Fujimoto"},{"key":"ref129","first-page":"7768","article-title":"Critic regularized regression","volume-title":"Proc. Int. Conf. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Wang"},{"key":"ref130","first-page":"1","article-title":"COptiDICE: Offline constrained reinforcement learning via stationary distribution correction estimation","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Lee"},{"key":"ref131","article-title":"Safe exploration by solving early terminated MDP","author":"Sun","year":"2021","journal-title":"arXiv:2107.04200"},{"key":"ref132","first-page":"20423","article-title":"Saute RL: Almost surely safe reinforcement learning using state augmentation","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Sootla"},{"key":"ref133","first-page":"34464","article-title":"Effects of safety state augmentation on safe exploration","volume-title":"Proc. Int. Conf. Neural Inform. Process. Syst.","author":"Sootla"},{"key":"ref134","doi-asserted-by":"publisher","DOI":"10.1109\/PES.2005.1489097"},{"key":"ref135","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2018.03.123"},{"key":"ref136","doi-asserted-by":"publisher","DOI":"10.1109\/PES.2011.6039829"},{"key":"ref137","doi-asserted-by":"publisher","DOI":"10.1155\/2014\/492320"},{"key":"ref138","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2010.2051168"},{"key":"ref139","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2018.2829021"},{"key":"ref140","doi-asserted-by":"publisher","DOI":"10.5334\/jors.188"},{"key":"ref141","doi-asserted-by":"publisher","DOI":"10.23919\/pscc.2018.8442948"},{"key":"ref142","doi-asserted-by":"publisher","DOI":"10.1109\/59.207380"},{"key":"ref143","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2005.851911"},{"key":"ref144","doi-asserted-by":"publisher","DOI":"10.1016\/j.softx.2021.100747"},{"key":"ref145","doi-asserted-by":"publisher","DOI":"10.1016\/j.epsr.2020.106664"},{"key":"ref146","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2020.3017019"},{"key":"ref147","article-title":"PowerSimulationsDynamics.Jl\u2014An open source modeling package for modern power systems with inverter-based resources","author":"Daniel Lara","year":"2023","journal-title":"arXiv:2308.02921"},{"key":"ref148","doi-asserted-by":"publisher","DOI":"10.1109\/ISGTEurope.2018.8571872"},{"key":"ref149","article-title":"A survey of open-source power system dynamic simulators with grid-forming inverter for machine learning applications","author":"Su","year":"2024","journal-title":"arXiv:2412.08065"},{"key":"ref150","doi-asserted-by":"publisher","DOI":"10.21105\/joss.02435"},{"key":"ref151","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2933191"},{"key":"ref152","volume-title":"RLGC","author":"Huang","year":"2025"},{"key":"ref153","first-page":"21","article-title":"PowerGym: A reinforcement learning environment for Volt-VAR control in power distribution systems","volume-title":"Proc. 4th Annual Learn. Dyn. Control Conf.","author":"Fan"},{"key":"ref154","doi-asserted-by":"publisher","DOI":"10.1016\/j.egyai.2024.100410"},{"key":"ref155","volume-title":"OPF-Gym","author":"Wolgast","year":"2025"},{"key":"ref156","article-title":"CommonPower: A framework for safe data-driven smart grid control","author":"Eichelbeck","year":"2024","journal-title":"arXiv:2406.03231"},{"key":"ref157","volume-title":"CommonPower: A Framework for Safe Data-driven Smart Grid Control","author":"Eichelbeck","year":"2025"},{"key":"ref158","doi-asserted-by":"publisher","DOI":"10.1109\/5.123296"},{"key":"ref159","doi-asserted-by":"publisher","DOI":"10.1016\/j.rser.2016.06.073"},{"key":"ref160","doi-asserted-by":"publisher","DOI":"10.1109\/PESGM41954.2020.9281989"},{"key":"ref161","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2019.2897948"},{"key":"ref162","doi-asserted-by":"publisher","DOI":"10.1016\/j.rser.2021.111100"},{"key":"ref163","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2020.3000984"},{"key":"ref164","doi-asserted-by":"publisher","DOI":"10.1109\/Allerton49937.2022.9929321"},{"key":"ref165","doi-asserted-by":"publisher","DOI":"10.23919\/ACC50511.2021.9482815"},{"key":"ref166","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2024.3354888"},{"key":"ref167","doi-asserted-by":"publisher","DOI":"10.1109\/ieeestd.2018.8332112"},{"key":"ref168","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2021.3060027"},{"key":"ref169","doi-asserted-by":"publisher","DOI":"10.1109\/PESGM48719.2022.9917098"},{"key":"ref170","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2023.3336614"},{"key":"ref171","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2020.114772"},{"key":"ref172","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2023.121648"},{"key":"ref173","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2022.3166192"},{"key":"ref174","doi-asserted-by":"publisher","DOI":"10.1109\/FASTA61401.2024.10595220"},{"key":"ref175","doi-asserted-by":"publisher","DOI":"10.23919\/ACC55779.2023.10156201"},{"key":"ref176","doi-asserted-by":"publisher","DOI":"10.1109\/LCSYS.2023.3289435"},{"key":"ref177","volume-title":"Power System Dynamics: Stability and Control","author":"Machowski","year":"2020"},{"key":"ref178","doi-asserted-by":"publisher","DOI":"10.1109\/psce.2004.1397528"},{"key":"ref179","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2020.3041774"},{"key":"ref180","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2023.3302846"},{"key":"ref181","doi-asserted-by":"publisher","DOI":"10.1109\/TSTE.2022.3178415"},{"key":"ref182","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i4.25660"},{"key":"ref183","doi-asserted-by":"publisher","DOI":"10.23919\/ACC53348.2022.9867652"},{"key":"ref184","doi-asserted-by":"publisher","DOI":"10.1109\/PESGM48719.2022.9916894"},{"key":"ref185","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2021.3091940"},{"key":"ref186","doi-asserted-by":"publisher","DOI":"10.1109\/LCSYS.2023.3343948"},{"key":"ref187","doi-asserted-by":"publisher","DOI":"10.1109\/SEST57387.2023.10257365"},{"key":"ref188","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3045114"},{"key":"ref189","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i5.20476"},{"key":"ref190","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2022.3233770"},{"key":"ref191","doi-asserted-by":"publisher","DOI":"10.1007\/s40565-018-0441-1"},{"key":"ref192","doi-asserted-by":"publisher","DOI":"10.1016\/j.epsr.2021.107114"},{"key":"ref193","doi-asserted-by":"publisher","DOI":"10.1109\/SSCI50451.2021.9659545"},{"key":"ref194","doi-asserted-by":"publisher","DOI":"10.1287\/opre.2016.1489"},{"key":"ref195","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2012.2186469"},{"key":"ref196","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2020.3036653"},{"key":"ref197","doi-asserted-by":"publisher","DOI":"10.1109\/PESGM52003.2023.10252514"},{"key":"ref198","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2023.3240588"},{"key":"ref199","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2018.2801880"},{"key":"ref200","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2024.3496932"},{"key":"ref201","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2024.3395248"},{"key":"ref202","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2022.3220799"},{"key":"ref203","doi-asserted-by":"publisher","DOI":"10.35833\/MPCE.2023.000232"},{"key":"ref204","doi-asserted-by":"publisher","DOI":"10.1109\/TSTE.2024.3355123"},{"key":"ref205","doi-asserted-by":"publisher","DOI":"10.1016\/j.ijepes.2023.109230"},{"key":"ref206","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2023.3338961"},{"key":"ref207","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2020.2987292"},{"key":"ref208","doi-asserted-by":"publisher","DOI":"10.1016\/j.egyai.2022.100227"},{"key":"ref209","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2023.120759"},{"key":"ref210","doi-asserted-by":"publisher","DOI":"10.1109\/PESGM52003.2023.10253087"},{"key":"ref211","doi-asserted-by":"publisher","DOI":"10.1016\/j.ijepes.2023.109494"},{"key":"ref212","doi-asserted-by":"publisher","DOI":"10.1109\/PESGM52003.2023.10252454"},{"key":"ref213","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2017.2679040"},{"key":"ref214","doi-asserted-by":"publisher","DOI":"10.1016\/j.rser.2021.111642"},{"key":"ref215","doi-asserted-by":"publisher","DOI":"10.1109\/PESGM52003.2023.10253213"},{"key":"ref216","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2022.3230670"},{"key":"ref217","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2023.3289211"},{"key":"ref218","doi-asserted-by":"publisher","DOI":"10.1109\/IWQoS57198.2023.10188695"},{"key":"ref219","doi-asserted-by":"publisher","DOI":"10.1109\/TSTE.2023.3327986"},{"key":"ref220","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2024.3514128"},{"key":"ref221","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2014.2355204"},{"key":"ref222","doi-asserted-by":"publisher","DOI":"10.1016\/j.rser.2020.110504"},{"key":"ref223","doi-asserted-by":"publisher","DOI":"10.35833\/MPCE.2021.000255"},{"key":"ref224","doi-asserted-by":"publisher","DOI":"10.1016\/j.ijepes.2020.106426"},{"key":"ref225","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2015.04.103"},{"key":"ref226","doi-asserted-by":"publisher","DOI":"10.1016\/j.energy.2016.03.007"},{"key":"ref227","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2022.3149506"},{"key":"ref228","doi-asserted-by":"publisher","DOI":"10.1016\/j.ijepes.2012.11.024"},{"key":"ref229","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2021.3071830"},{"key":"ref230","doi-asserted-by":"publisher","DOI":"10.1016\/j.ijforecast.2014.08.008"},{"key":"ref231","doi-asserted-by":"publisher","DOI":"10.1016\/j.epsr.2018.03.019"},{"key":"ref232","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2013.03.031"},{"key":"ref233","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2022.120311"},{"key":"ref234","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2021.117215"},{"key":"ref235","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2021.3106263"},{"key":"ref236","doi-asserted-by":"publisher","DOI":"10.1016\/j.rser.2021.111890"},{"key":"ref237","doi-asserted-by":"publisher","DOI":"10.1016\/j.energy.2022.124657"},{"key":"ref238","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2023.120813"},{"key":"ref239","doi-asserted-by":"publisher","DOI":"10.1016\/j.adapen.2022.100100"},{"key":"ref240","volume-title":"Global EV Outlook 2023","year":"2025"},{"key":"ref241","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2024.124706"},{"key":"ref242","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2023.121490"},{"key":"ref243","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2955437"},{"key":"ref244","doi-asserted-by":"publisher","DOI":"10.1109\/TTE.2020.3043239"},{"key":"ref245","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-05453-3_8"},{"key":"ref246","doi-asserted-by":"publisher","DOI":"10.1016\/j.ijepes.2024.109863"},{"key":"ref247","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2021.3064354"},{"key":"ref248","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2019.2943620"},{"key":"ref249","doi-asserted-by":"publisher","DOI":"10.59117\/20.500.11822\/45095"},{"key":"ref250","doi-asserted-by":"publisher","DOI":"10.1016\/j.est.2022.106147"},{"key":"ref251","doi-asserted-by":"publisher","DOI":"10.1016\/j.epsr.2022.108120"},{"key":"ref252","doi-asserted-by":"publisher","DOI":"10.1145\/3439332"},{"key":"ref253","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2023.3237888"},{"key":"ref254","doi-asserted-by":"publisher","DOI":"10.1109\/TSUSC.2022.3164084"},{"key":"ref255","doi-asserted-by":"publisher","DOI":"10.1109\/OAJPE.2021.3064319"},{"key":"ref256","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2021.118403"},{"key":"ref257","doi-asserted-by":"publisher","DOI":"10.1016\/j.enbuild.2024.114410"},{"key":"ref258","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2024.124328"},{"key":"ref259","doi-asserted-by":"publisher","DOI":"10.1145\/3582577"},{"key":"ref260","doi-asserted-by":"publisher","DOI":"10.1109\/TETCI.2023.3234545"},{"key":"ref261","doi-asserted-by":"publisher","DOI":"10.1145\/3575813.3597343"},{"key":"ref262","doi-asserted-by":"publisher","DOI":"10.1016\/j.energy.2018.12.185"},{"key":"ref263","doi-asserted-by":"publisher","DOI":"10.1109\/ICCPS54341.2022.00023"},{"key":"ref264","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2021.3062700"},{"key":"ref265","doi-asserted-by":"publisher","DOI":"10.1109\/TIA.2024.3462663"},{"key":"ref266","doi-asserted-by":"publisher","DOI":"10.1002\/9781119513100"},{"key":"ref267","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2020.3019998"},{"key":"ref268","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2017.2718551"},{"key":"ref269","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2016.2641463"},{"key":"ref270","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2020.2988715"},{"key":"ref271","doi-asserted-by":"publisher","DOI":"10.1049\/iet-cta.2017.0629"},{"key":"ref272","volume-title":"GT Auto Tuner","year":"2025"},{"key":"ref273","volume-title":"Google Just Gave Control Over Data Center Cooling to an AI","author":"Temple","year":"2025"},{"key":"ref274","volume-title":"Safety-First AI for Autonomous Data Centre Cooling and Industrial Control","year":"2025"},{"key":"ref275","article-title":"Controlling commercial cooling systems using reinforcement learning","author":"Luo","year":"2022","journal-title":"arXiv:2211.07357"},{"key":"ref276","volume-title":"Using AI for Good: TELUS and Vector Institute Partner to Reduce Climate Impacts From Data Centres With New Energy Optimization System","year":"2025"},{"key":"ref277","volume-title":"Nine Months of AI-Based Control Optimization on a Modern Office Building HVAC","author":"Galataud","year":"2025"},{"key":"ref278","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i4.20393"},{"key":"ref279","doi-asserted-by":"publisher","DOI":"10.1038\/s42256-024-00879-7"},{"key":"ref280","article-title":"Reinforcement learning and machine ethics: A systematic review","author":"Vishwanath","year":"2024","journal-title":"arXiv:2407.02425"},{"key":"ref281","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.12107"},{"key":"ref282","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-021-05961-4"},{"key":"ref283","doi-asserted-by":"publisher","DOI":"10.1109\/PES.2010.5589872"},{"key":"ref284","article-title":"Overcoming the curse of dimensionality in reinforcement learning through approximate factorization","author":"Lu","year":"2024","journal-title":"arXiv:2411.07591"},{"key":"ref285","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2021.3065913"},{"key":"ref286","doi-asserted-by":"publisher","DOI":"10.1561\/2200000080"},{"key":"ref287","doi-asserted-by":"publisher","DOI":"10.1613\/jair.1.11396"},{"key":"ref288","first-page":"34272","article-title":"Leveraging factored action spaces for efficient offline reinforcement learning in healthcare","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Tang"},{"key":"ref289","first-page":"1","article-title":"HiSaRL: A hierarchical framework for safe reinforcement learning","volume-title":"Proc. AAAI SafeAI Workshop","author":"Xiong"},{"key":"ref290","doi-asserted-by":"publisher","DOI":"10.1109\/TSTE.2024.3390808"},{"key":"ref291","doi-asserted-by":"publisher","DOI":"10.35833\/MPCE.2024.000662"},{"key":"ref292","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-022-06187-8"},{"key":"ref293","doi-asserted-by":"publisher","DOI":"10.1145\/3377454"},{"key":"ref294","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i10.17062"},{"key":"ref295","first-page":"1519","article-title":"Distributional reinforcement learning for multi-dimensional reward functions","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Zhang"},{"key":"ref296","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2020.3007167"},{"key":"ref297","first-page":"844","article-title":"Contrasting centralized and decentralized critics in multi-agent reinforcement learning","volume-title":"Proc. 20th Int. Conf. Auton. Agents MultiAgent Syst. (AAMAS)","author":"Lyu"},{"key":"ref298","doi-asserted-by":"publisher","DOI":"10.1109\/TCNS.2021.3078100"},{"key":"ref299","doi-asserted-by":"publisher","DOI":"10.1109\/TGCN.2024.3372695"},{"key":"ref300","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2023.3298486"},{"key":"ref301","article-title":"Assessing the impact of distribution shift on reinforcement learning performance","author":"Fujimoto","year":"2024","journal-title":"arXiv:2402.03590"},{"key":"ref302","first-page":"19884","article-title":"Reinforcement learning with augmented data","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Laskin"},{"key":"ref303","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2024.3423381"},{"key":"ref304","first-page":"883","article-title":"A constrained multi-objective reinforcement learning framework","volume-title":"Proc. 5th Conf. Robot Learn.","author":"Huang"},{"key":"ref305","first-page":"1","article-title":"Trust region-based safe distributional reinforcement learning for multiple constraints","volume-title":"Proc. Adv. Neural Inform. Process. Syst.","volume":"36","author":"Kim"},{"key":"ref306","article-title":"Uniformly safe RL with objective suppression for multi-constraint safety-critical applications","author":"Zhou","year":"2024","journal-title":"arXiv:2402.15650"},{"key":"ref307","first-page":"25","article-title":"Gradient shaping for multi-constraint safe reinforcement learning","volume-title":"Proc. Annu. Learn. Dyn. Control Conf.","author":"Yao"},{"key":"ref308","first-page":"1","article-title":"Safe and efficient operation with constrained hierarchical reinforcement learning","volume-title":"Proc. Eur. Workshop Reinforcement Learn.","author":"Roza"},{"key":"ref309","doi-asserted-by":"publisher","DOI":"10.1109\/PESGM46819.2021.9638007"},{"key":"ref310","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2023.3319070"},{"key":"ref311","doi-asserted-by":"publisher","DOI":"10.1038\/s41598-023-28582-4"},{"key":"ref312","first-page":"1","article-title":"Learning to adapt in dynamic, real-world environments through meta-reinforcement learning","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Nagabandi"},{"key":"ref313","doi-asserted-by":"publisher","DOI":"10.1613\/jair.1.15348"},{"key":"ref314","doi-asserted-by":"publisher","DOI":"10.1109\/TSE.2024.3491496"},{"key":"ref315","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3264815"},{"key":"ref316","article-title":"Offline reinforcement learning: Tutorial, review, and perspectives on open problems","author":"Levine","year":"2020","journal-title":"arXiv:2005.01643"},{"key":"ref317","first-page":"21611","article-title":"Constrained decision transformer for offline safe reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Liu"},{"key":"ref318","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2024.123654"},{"key":"ref319","first-page":"11323","article-title":"Privacy-preserving Q-learning with functional noise in continuous spaces","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"32","author":"Wang"},{"key":"ref320","first-page":"61395","article-title":"Offline reinforcement learning with differential privacy","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Qiao"},{"key":"ref321","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2020.3031314"},{"key":"ref322","doi-asserted-by":"publisher","DOI":"10.20517\/ir.2021.02"},{"key":"ref323","first-page":"1007","article-title":"Fault-tolerant federated reinforcement learning with theoretical guarantee","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Fan"},{"key":"ref324","first-page":"146","article-title":"Input convex neural networks","volume-title":"Proc. 34th Int. Conf. Mach. Learn.","volume":"70","author":"Amos"},{"key":"ref325","first-page":"1","article-title":"Optimal control via neural networks: A convex approach","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Chen"},{"key":"ref326","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2023.3266773"},{"key":"ref327","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2023.3337843"},{"key":"ref328","doi-asserted-by":"publisher","DOI":"10.1109\/TSMC.2020.3035406"},{"key":"ref329","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2024.3497992"},{"key":"ref330","doi-asserted-by":"publisher","DOI":"10.1016\/j.joule.2024.05.009"}],"container-title":["Proceedings of the IEEE"],"original-title":[],"link":[{"URL":"https:\/\/ieeexplore.ieee.org\/ielam\/5\/11098577\/11074719-aam.pdf","content-type":"application\/pdf","content-version":"am","intended-application":"syndication"},{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/5\/11098577\/11074719.pdf?arnumber=11074719","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,14]],"date-time":"2026-04-14T19:36:07Z","timestamp":1776195367000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11074719\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,3]]},"references-count":330,"journal-issue":{"issue":"3"},"URL":"https:\/\/doi.org\/10.1109\/jproc.2025.3584656","relation":{},"ISSN":["0018-9219","1558-2256"],"issn-type":[{"value":"0018-9219","type":"print"},{"value":"1558-2256","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,3]]}}}