{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,16]],"date-time":"2026-06-16T04:55:06Z","timestamp":1781585706193,"version":"3.54.5"},"reference-count":135,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"6","license":[{"start":{"date-parts":[[2025,6,1]],"date-time":"2025-06-01T00:00:00Z","timestamp":1748736000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,6,1]],"date-time":"2025-06-01T00:00:00Z","timestamp":1748736000000},"content-version":"am","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,6,1]],"date-time":"2025-06-01T00:00:00Z","timestamp":1748736000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,6,1]],"date-time":"2025-06-01T00:00:00Z","timestamp":1748736000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100000001","name":"National Science Foundation Cyber-Physical Systems","doi-asserted-by":"publisher","award":["#2208783"],"award-info":[{"award-number":["#2208783"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]},{"name":"National Science Foundation Career","award":["#1944142"],"award-info":[{"award-number":["#1944142"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Proc. IEEE"],"published-print":{"date-parts":[[2025,6]]},"DOI":"10.1109\/jproc.2025.3599840","type":"journal-article","created":{"date-parts":[[2025,8,29]],"date-time":"2025-08-29T17:42:47Z","timestamp":1756489367000},"page":"557-585","source":"Crossref","is-referenced-by-count":5,"title":["Deep Reinforcement Learning for Distribution System Operations: A Tutorial and Survey"],"prefix":"10.1109","volume":"113","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-3896-7631","authenticated-orcid":false,"given":"Daniel","family":"Glover","sequence":"first","affiliation":[{"name":"Washington State University, Pullman, WA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Gayathri","family":"Krishnamoorthy","sequence":"additional","affiliation":[{"name":"National Renewable Energy Laboratory, Golden, CO, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Hongda","family":"Ren","sequence":"additional","affiliation":[{"name":"Eversource Energy, Manchester, NH, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5147-9961","authenticated-orcid":false,"given":"Anamika","family":"Dubey","sequence":"additional","affiliation":[{"name":"Washington State University, Pullman, WA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5383-8032","authenticated-orcid":false,"given":"Assefaw","family":"Gebremedhin","sequence":"additional","affiliation":[{"name":"Washington State University, Pullman, WA, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1016\/j.enconman.2017.06.071"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1016\/j.rser.2016.12.102"},{"key":"ref3","article-title":"The power grid library for benchmarking AC optimal power flow algorithms","author":"Babaeinejadsarookolaee","year":"2019","journal-title":"arXiv:1908.02788"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.3390\/en16165974"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/PTC.2019.8810586"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/TPEC48276.2020.9042547"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1016\/j.epsr.2020.106567"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1016\/j.rser.2022.112128"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1186\/s42162-018-0007-5"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/tnn.1998.712192"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.17775\/CSEEJPES.2019.00920"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.35833\/MPCE.2020.000552"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ISGT49243.2021.9372283"},{"key":"ref14","article-title":"Reinforcement learning for selective key applications in power systems: Recent advances and future challenges","author":"Chen","year":"2021","journal-title":"arXiv:2102.01168"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1016\/j.ifacol.2017.08.1217"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2023.3303358"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TCNS.2014.2309732"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1016\/j.renene.2017.05.087"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1016\/j.apenergy.2017.10.106"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1201\/9781420056266"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.17775\/CSEEJPES.2016.00033"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/s40565-015-0170-7"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2022.3229328"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/TCNS.2019.2929648"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/TSTE.2016.2605926"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.23919\/ECC.2019.8795974"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2020.3049135"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1016\/j.epsr.2016.11.025"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2017.2720471"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1016\/j.arcontrol.2019.05.006"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2017.2679238"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2021.3132348"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.17775\/CSEEJPES.2020.02700"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/TSTE.2021.3116544"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1016\/j.epsr.2020.106615"},{"key":"ref36","article-title":"Weighted-least-square (WLS) state estimation","author":"Chen","year":"2015"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2016.2632156"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2022.3155649"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ISGT59692.2024.10454231"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2933020"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2022.3225236"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/TMC.2024.3445583"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2023.3284681"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2020.2990179"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2021.3113085"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.17775\/CSEEJPES.2021.06320"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/TSTE.2021.3092961"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2951769"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2022.3233766"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2022.3228636"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.3010130"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2019.2957289"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.2976771"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.3011739"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2018.2834219"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2022.3179567"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2930299"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/JSYST.2022.3222262"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/TETCI.2020.2964886"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/TIV.2022.3168577"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2022.3169975"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/TIA.2020.2990096"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2020.2966660"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2019.2899673"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/OAJPE.2021.3077218"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/TSTE.2023.3239852"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.3037066"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.2967430"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2924030"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2020.2978061"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2022.3198401"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2936142"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.17775\/CSEEJPES.2019.02510"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2020.2999536"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2022.3149266"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2022.3181329"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/TCSS.2021.3096824"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2022.3155117"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2021.3086080"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2022.3179593"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/TIA.2023.3287944"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2021.3056543"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/TSTE.2022.3148236"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1109\/OAJPE.2022.3161904"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2021.3087491"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1561\/3100000030"},{"key":"ref87","first-page":"36593","article-title":"Enforcing hard constraints with soft barriers: Safe reinforcement learning in unknown stochastic environments","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Wang"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/TIA.2024.3472655"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.17775\/CSEEJPES.2022.04290"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1109\/TSMC.2020.3042876"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1109\/BulEF48056.2019.9030787"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2018.2879572"},{"key":"ref93","article-title":"Assessing the impact of distribution shift on reinforcement learning performance","author":"Fujimoto","year":"2024","journal-title":"arXiv:2402.03590"},{"key":"ref94","volume-title":"Addressing Distribution Shift in Online Reinforcement Learning With Offline Datasets","author":"Lee","year":"2020"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1631\/FITEE.2300668"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2023.3292075"},{"key":"ref97","first-page":"5484","article-title":"Task-based end-to-end model learning in stochastic optimization","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"30","author":"Donti"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2021.3071830"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1109\/SGC54087.2021.9664067"},{"key":"ref100","article-title":"The problem with DDPG: Understanding failures in deterministic environments with sparse rewards","author":"Matheron","year":"2019","journal-title":"arXiv:1911.11679"},{"key":"ref101","first-page":"9156","article-title":"Towards safe policy improvement for non-stationary MDPs","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Chandak"},{"key":"ref102","first-page":"1","article-title":"Non-stationary Markov decision processes a worst-case approach using model-based reinforcement learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Lecarpentier"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1109\/TIA.2021.3114129"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2021.3078110"},{"key":"ref105","first-page":"158","article-title":"Implicit behavioral cloning","volume-title":"Proc. Conf. Robot Learning","author":"Florence"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2022.3142961"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1109\/37.126844"},{"issue":"1","key":"ref108","first-page":"1437","article-title":"A comprehensive survey on safe reinforcement learning","volume":"16","author":"Garc\u00eda","year":"2015","journal-title":"J. Mach. Learn. Res."},{"key":"ref109","first-page":"883","article-title":"A constrained multi-objective reinforcement learning framework","volume-title":"Proc. 5th Conf. Robot Learn.","author":"Huang"},{"key":"ref110","article-title":"Playing Atari with deep reinforcement learning","author":"Mnih","year":"2013","journal-title":"arXiv:1312.5602"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.1109\/TDC.2016.7520058"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2018.2846774"},{"key":"ref113","doi-asserted-by":"publisher","DOI":"10.1109\/PSCC.2014.7038399"},{"key":"ref114","volume-title":"American National Standard for Electric Power Systems and Equipment-Voltage Ratings (60 Hertz)","year":"1996"},{"key":"ref115","doi-asserted-by":"publisher","DOI":"10.1016\/j.artint.2021.103500"},{"key":"ref116","first-page":"21","article-title":"PowerGym: A reinforcement learning environment for Volt-VAR control in power distribution systems","volume-title":"Proc. 4th Annual Learn. Dyn. Control Conf.","author":"Fan"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.1109\/ieeestd.2020.9069495"},{"key":"ref118","doi-asserted-by":"publisher","DOI":"10.1109\/SEST.2019.8849002"},{"key":"ref119","doi-asserted-by":"publisher","DOI":"10.1109\/TSG.2019.2933191"},{"key":"ref120","first-page":"1","article-title":"PyTorch: An imperative style, high-performance deep learning library","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Paszke"},{"key":"ref121","first-page":"265","article-title":"TensorFlow: A system for large-scale machine learning","volume-title":"Proc. 12th USENIX Symp. Oper. Syst. Design Implement.","author":"Abadi"},{"key":"ref122","article-title":"Gymnasium: A standard interface for reinforcement learning environments","author":"Towers","year":"2024","journal-title":"arXiv:2407.17032"},{"key":"ref123","article-title":"TorchRL: A data-driven decision-making library for PyTorch","author":"Bou","year":"2023","journal-title":"arXiv:2306.00577"},{"key":"ref124","first-page":"18964","article-title":"Safety gymnasium: A unified safe reinforcement learning benchmark","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"36","author":"Ji"},{"key":"ref125","first-page":"1","article-title":"SustainGym: Reinforcement learning environments for sustainable energy systems","volume-title":"Proc. 27th Conf. Neural Inf. Process. Syst. Datasets Benchmarks Track","author":"Yeh"},{"key":"ref126","doi-asserted-by":"publisher","DOI":"10.1109\/PES.2011.6039829"},{"key":"ref127","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2946282"},{"key":"ref128","article-title":"Opendssdirect.py","author":"Krishnamurthy","year":"2017","journal-title":"Comput. Software"},{"issue":"268","key":"ref129","first-page":"1","article-title":"Stable-baselines3: Reliable reinforcement learning implementations","volume":"22","author":"Raffin","year":"2021","journal-title":"J. Mach. Learn. Res."},{"key":"ref130","article-title":"Energy & ancillary services market operations","author":"Manual","year":"2012"},{"key":"ref131","first-page":"1800","article-title":"Simple random search of static linear policies is competitive for reinforcement learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"31","author":"Mania"},{"key":"ref132","doi-asserted-by":"publisher","DOI":"10.1109\/EI247390.2019.9062179"},{"key":"ref133","doi-asserted-by":"publisher","DOI":"10.1016\/j.rser.2018.03.003"},{"key":"ref134","article-title":"The open distribution system simulator (OpenDSS): Reference guide","author":"Dugan","year":"2018","journal-title":"Electr. Power Res. Inst."},{"key":"ref135","article-title":"Advanced distribution system algorithms: Planning considering microgrid clustering, localized Volt-VAR optimization including distributed energy resources, and restoration using reinforcement learning","author":"Ren","year":"2021"}],"container-title":["Proceedings of the IEEE"],"original-title":[],"link":[{"URL":"https:\/\/ieeexplore.ieee.org\/ielam\/5\/11207081\/11145317-aam.pdf","content-type":"application\/pdf","content-version":"am","intended-application":"syndication"},{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/5\/11207081\/11145317.pdf?arnumber=11145317","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,10,20]],"date-time":"2025-10-20T17:50:11Z","timestamp":1760982611000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11145317\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6]]},"references-count":135,"journal-issue":{"issue":"6"},"URL":"https:\/\/doi.org\/10.1109\/jproc.2025.3599840","relation":{},"ISSN":["0018-9219","1558-2256"],"issn-type":[{"value":"0018-9219","type":"print"},{"value":"1558-2256","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,6]]}}}