{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,18]],"date-time":"2026-06-18T21:02:03Z","timestamp":1781816523707,"version":"3.54.5"},"reference-count":139,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,4,8]],"date-time":"2026-04-08T00:00:00Z","timestamp":1775606400000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100018531","name":"Major Science and Technology Projects in Yunnan Province","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100018531","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Array"],"published-print":{"date-parts":[[2026,7]]},"DOI":"10.1016\/j.array.2026.100812","type":"journal-article","created":{"date-parts":[[2026,4,25]],"date-time":"2026-04-25T15:13:56Z","timestamp":1777130036000},"page":"100812","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["A review of reinforcement learning: A tripartite framework of environment design, algorithmic innovation, and application scenarios"],"prefix":"10.1016","volume":"30","author":[{"given":"Yingli","family":"Liu","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zheng","family":"Xiong","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8385-3564","authenticated-orcid":false,"given":"Ling","family":"Yang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Tao","family":"Shen","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"issue":"68","key":"10.1016\/j.array.2026.100812_bib1","doi-asserted-by":"crossref","first-page":"247","DOI":"10.2307\/2002797","article-title":"Functional approximations and dynamic programming","volume":"13","author":"Bellman","year":"1959","journal-title":"Math Tables Other Aids Comput"},{"issue":"11","key":"10.1016\/j.array.2026.100812_bib2","doi-asserted-by":"crossref","first-page":"2544","DOI":"10.2514\/3.2107","article-title":"Optimal programming problems with inequality constraints","volume":"1","author":"Bryson","year":"1963","journal-title":"AIAA J"},{"issue":"1","key":"10.1016\/j.array.2026.100812_bib3","doi-asserted-by":"crossref","first-page":"269","DOI":"10.1007\/BF01386390","article-title":"A note on two problems in connexion with graphs","volume":"1","author":"Dijkstra","year":"1959","journal-title":"Numer Math"},{"issue":"2","key":"10.1016\/j.array.2026.100812_bib4","doi-asserted-by":"crossref","first-page":"100","DOI":"10.1109\/TSSC.1968.300136","article-title":"A formal basis for the heuristic determination of minimum cost paths","volume":"4","author":"Hart","year":"1968","journal-title":"IEEE Trans Syst Sci Cybern"},{"issue":"1","key":"10.1016\/j.array.2026.100812_bib5","doi-asserted-by":"crossref","first-page":"9","DOI":"10.1023\/A:1022633531479","article-title":"Learning to predict by the methods of temporal differences","volume":"3","author":"Sutton","year":"1988","journal-title":"Mach Learn"},{"issue":"3\u20134","key":"10.1016\/j.array.2026.100812_bib6","first-page":"279","article-title":"Q-learning","volume":"8","author":"Watkins","year":"1992","journal-title":"Mach Learn"},{"key":"10.1016\/j.array.2026.100812_bib7","series-title":"Reinforcement Learning: An Introduction","author":"Sutton","year":"2018"},{"key":"10.1016\/j.array.2026.100812_bib8","article-title":"Playing Atari with deep reinforcement learning","author":"Mnih","year":"2013","journal-title":"arXiv preprint arXiv:1312.5602"},{"issue":"7540","key":"10.1016\/j.array.2026.100812_bib9","doi-asserted-by":"crossref","first-page":"529","DOI":"10.1038\/nature14236","article-title":"Human-level control through deep reinforcement learning","volume":"518","author":"Mnih","year":"2015","journal-title":"Nature"},{"issue":"7587","key":"10.1016\/j.array.2026.100812_bib10","doi-asserted-by":"crossref","first-page":"484","DOI":"10.1038\/nature16961","article-title":"Mastering the game of Go with deep neural networks and tree search","volume":"529","author":"Silver","year":"2016","journal-title":"Nature"},{"issue":"7782","key":"10.1016\/j.array.2026.100812_bib11","doi-asserted-by":"crossref","first-page":"350","DOI":"10.1038\/s41586-019-1724-z","article-title":"Grandmaster level in StarCraft II using multi-agent reinforcement learning","volume":"575","author":"Vinyals","year":"2019","journal-title":"Nature"},{"key":"10.1016\/j.array.2026.100812_bib12","article-title":"Dota 2 with large scale deep reinforcement learning","author":"OpenAI","year":"2019","journal-title":"arXiv Preprint arXiv:1912.06680"},{"issue":"7839","key":"10.1016\/j.array.2026.100812_bib13","doi-asserted-by":"crossref","first-page":"604","DOI":"10.1038\/s41586-020-03051-4","article-title":"Mastering Atari, Go, chess and shogi by planning with a learned model","volume":"588","author":"Schrittwieser","year":"2020","journal-title":"Nature"},{"key":"10.1016\/j.array.2026.100812_bib14","series-title":"2020 IEEE Symposium Series on Computational Intelligence (SSCI)","first-page":"737","article-title":"Sim-to-Real transfer in deep reinforcement learning for robotics: a survey","author":"Zhao","year":"2020"},{"key":"10.1016\/j.array.2026.100812_bib15","article-title":"Deep reinforcement learning: an overview","author":"Li","year":"2017","journal-title":"arXiv Preprint arXiv:1701.07274"},{"issue":"6","key":"10.1016\/j.array.2026.100812_bib16","doi-asserted-by":"crossref","first-page":"26","DOI":"10.1109\/MSP.2017.2743240","article-title":"Deep reinforcement learning: a brief survey","volume":"34","author":"Arulkumaran","year":"2017","journal-title":"IEEE Signal Process Mag"},{"key":"10.1016\/j.array.2026.100812_bib17","doi-asserted-by":"crossref","first-page":"14","DOI":"10.1007\/s43762-024-00127-z","article-title":"A survey on applications of reinforcement learning in spatial resource allocation","volume":"4","author":"Zhang","year":"2024","journal-title":"Comput Urban Sci"},{"key":"10.1016\/j.array.2026.100812_bib18","doi-asserted-by":"crossref","DOI":"10.3389\/frobt.2022.1067502","article-title":"Sim-to-real via latent prediction: transferring visual non-prehensile manipulation policies","volume":"9","author":"Rizzardo","year":"2023","journal-title":"Front Robot AI"},{"key":"10.1016\/j.array.2026.100812_bib19","doi-asserted-by":"crossref","first-page":"2419","DOI":"10.1007\/s10994-021-05961-4","article-title":"Challenges of real-world reinforcement learning: definitions, benchmarks and analysis","volume":"110","author":"Dulac-Arnold","year":"2021","journal-title":"Mach Learn"},{"issue":"6","key":"10.1016\/j.array.2026.100812_bib20","doi-asserted-by":"crossref","first-page":"156","DOI":"10.1007\/s10462-024-10794-3","article-title":"Hierarchical reinforcement learning for handling sparse rewards in multi-goal navigation","volume":"57","author":"Yan","year":"2024","journal-title":"Artif Intell Rev"},{"key":"10.1016\/j.array.2026.100812_bib21","first-page":"1","article-title":"CARLA: an open urban driving simulator","volume":"vol. 78","author":"Dosovitskiy","year":"2017"},{"issue":"3","key":"10.1016\/j.array.2026.100812_bib22","doi-asserted-by":"crossref","first-page":"3461","DOI":"10.1109\/TPAMI.2022.3190471","article-title":"MetaDrive: composing diverse driving scenarios for generalizable reinforcement learning","volume":"45","author":"Li","year":"2023","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"10.1016\/j.array.2026.100812_bib23","first-page":"112","article-title":"Learning to run a power network challenge: a retrospective analysis","volume":"133","author":"Marot","year":"2021","journal-title":"Proc Mach Learn Res"},{"issue":"1","key":"10.1016\/j.array.2026.100812_bib24","doi-asserted-by":"crossref","first-page":"15","DOI":"10.1049\/stg2.12003","article-title":"The challenge of controlling microgrids in the presence of rare events with deep reinforcement learning","volume":"4","author":"Levent","year":"2021","journal-title":"IET Smart Grid"},{"issue":"4","key":"10.1016\/j.array.2026.100812_bib25","doi-asserted-by":"crossref","first-page":"539","DOI":"10.3390\/electronics11040539","article-title":"A parallel deep reinforcement learning framework for controlling industrial assembly lines","volume":"11","author":"Tortorelli","year":"2022","journal-title":"Electronics"},{"issue":"5","key":"10.1016\/j.array.2026.100812_bib26","doi-asserted-by":"crossref","first-page":"1974","DOI":"10.1109\/TII.2017.2761852","article-title":"Data-driven flotation industrial process operational optimal control based on reinforcement learning","volume":"14","author":"Jiang","year":"2018","journal-title":"IEEE Trans Ind Inf"},{"issue":"9","key":"10.1016\/j.array.2026.100812_bib27","doi-asserted-by":"crossref","first-page":"1055","DOI":"10.1109\/JPROC.2023.3303358","article-title":"Deep reinforcement learning for smart grid operations: algorithms, applications, and prospects","volume":"111","author":"Li","year":"2023","journal-title":"Proc IEEE"},{"key":"10.1016\/j.array.2026.100812_bib28","doi-asserted-by":"crossref","DOI":"10.1016\/j.apenergy.2023.121332","article-title":"A deep reinforcement learning based multi-objective optimization for the scheduling of oxygen production system in integrated iron and steel plants","volume":"345","author":"Che","year":"2023","journal-title":"Appl Energy"},{"issue":"76","key":"10.1016\/j.array.2026.100812_bib29","article-title":"Precise and dexterous robotic manipulation via human-in-the-loop reinforcement learning","volume":"8","author":"Luo","year":"2023","journal-title":"Sci Robot"},{"key":"10.1016\/j.array.2026.100812_bib30","series-title":"Proc. IEEE\/CVF Int. Conf. Comput. Vis. (ICCV)","first-page":"9329","article-title":"Exploring the limitations of behavior cloning for autonomous driving","author":"Codevilla","year":"2019"},{"issue":"8","key":"10.1016\/j.array.2026.100812_bib31","doi-asserted-by":"crossref","first-page":"1941","DOI":"10.1038\/s41591-023-02475-5","article-title":"A reinforcement learning model for AI-based decision support in skin cancer","volume":"29","author":"Barata","year":"2023","journal-title":"Nat Med"},{"issue":"3","key":"10.1016\/j.array.2026.100812_bib32","first-page":"e458","article-title":"Model-free closed-loop control of cancer chemotherapy administration using reinforcement learning","volume":"47","author":"Padmanabhan","year":"2024","journal-title":"J Am Coll Clin Oncol"},{"key":"10.1016\/j.array.2026.100812_bib33","series-title":"A deep reinforcement learning framework for the financial portfolio management problem","author":"Jiang","year":"2017"},{"key":"10.1016\/j.array.2026.100812_bib34","doi-asserted-by":"crossref","first-page":"8715","DOI":"10.1007\/s00500-023-08973-5","article-title":"Portfolio dynamic trading strategies using deep reinforcement learning","volume":"28","author":"Day","year":"2024","journal-title":"Soft Comput"},{"key":"10.1016\/j.array.2026.100812_bib35","doi-asserted-by":"crossref","first-page":"7125","DOI":"10.1007\/s00521-021-06853-3","article-title":"Dynamic portfolio rebalancing through reinforcement learning","volume":"34","author":"Lim","year":"2022","journal-title":"Neural Comput Appl"},{"key":"10.1016\/j.array.2026.100812_bib36","doi-asserted-by":"crossref","first-page":"108","DOI":"10.1007\/s10846-024-02138-8","article-title":"Adaptive optimization of hyper-parameters for robotic manipulation through evolutionary reinforcement learning","volume":"110","author":"Onori","year":"2024","journal-title":"J Intell Rob Syst"},{"key":"10.1016\/j.array.2026.100812_bib37","doi-asserted-by":"crossref","first-page":"7892","DOI":"10.1109\/TIE.2023.3290244","article-title":"Generalization in deep reinforcement learning for robotic navigation by reward shaping","volume":"71","author":"Miranda","year":"2024","journal-title":"IEEE Trans Ind Electron"},{"issue":"5","key":"10.1016\/j.array.2026.100812_bib38","doi-asserted-by":"crossref","first-page":"1546","DOI":"10.1109\/TRO.2020.2994002","article-title":"Towards generalization in target-driven visual navigation by using deep reinforcement learning","volume":"36","author":"Devo","year":"2020","journal-title":"IEEE Trans Robot"},{"issue":"3","key":"10.1016\/j.array.2026.100812_bib39","doi-asserted-by":"crossref","first-page":"185","DOI":"10.1023\/A:1022689125041","article-title":"Asynchronous stochastic approximation and Q-learning","volume":"16","author":"Tsitsiklis","year":"1994","journal-title":"Mach Learn"},{"issue":"1","key":"10.1016\/j.array.2026.100812_bib40","first-page":"2094","article-title":"Deep reinforcement learning with double Q-learning","volume":"30","author":"van Hasselt","year":"2016","journal-title":"Proc AAAI Conf Artif Intell"},{"issue":"1","key":"10.1016\/j.array.2026.100812_bib41","first-page":"3215","article-title":"Rainbow: combining improvements in deep reinforcement learning","volume":"32","author":"Hessel","year":"2018","journal-title":"Proc AAAI Conf Artif Intell"},{"key":"10.1016\/j.array.2026.100812_bib42","first-page":"1995","article-title":"Dueling network architectures for deep reinforcement learning","volume":"vol. 48","author":"Wang","year":"2016"},{"issue":"3\u20134","key":"10.1016\/j.array.2026.100812_bib43","doi-asserted-by":"crossref","first-page":"229","DOI":"10.1023\/A:1022672621406","article-title":"Simple statistical gradient-following algorithms for connectionist reinforcement learning","volume":"8","author":"Williams","year":"1992","journal-title":"Mach Learn"},{"key":"10.1016\/j.array.2026.100812_bib44","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017","journal-title":"arXiv preprint arXiv:1707.06347"},{"key":"10.1016\/j.array.2026.100812_bib45","series-title":"Markov Decision Processes: Discrete Stochastic Dynamic Programming","author":"Puterman","year":"1994"},{"key":"10.1016\/j.array.2026.100812_bib46","first-page":"1057","article-title":"Policy gradient methods for reinforcement learning with function approximation","volume":"12","author":"Sutton","year":"2000","journal-title":"Adv Neural Inf Process Syst"},{"key":"10.1016\/j.array.2026.100812_bib47","first-page":"1928","article-title":"Asynchronous methods for deep reinforcement learning","volume":"48","author":"Mnih","year":"2016","journal-title":"Proc 33rd Int Conf Mach Learn Proc Mach Learn Res"},{"issue":"1","key":"10.1016\/j.array.2026.100812_bib48","first-page":"387","article-title":"Deterministic policy gradient algorithms","volume":"32","author":"Silver","year":"2014","journal-title":"Proc 31st Int Conf Mach Learn Proc Mach Learn Res"},{"key":"10.1016\/j.array.2026.100812_bib49","first-page":"1889","article-title":"Trust region policy optimization","volume":"37","author":"Schulman","year":"2015","journal-title":"Proc 32nd Int Conf Mach Learn Proc Mach Learn Res"},{"key":"10.1016\/j.array.2026.100812_bib50","first-page":"1587","article-title":"Addressing function approximation error in actor-critic methods","volume":"80","author":"Fujimoto","year":"2018","journal-title":"Proc 35th Int Conf Mach Learn Proc Mach Learn Res"},{"key":"10.1016\/j.array.2026.100812_bib51","series-title":"International Conference on Learning Representations","article-title":"CrossQ: Batch normalization in deep reinforcement learning for greater sample efficiency and simplicity","author":"Bhatt","year":"2024"},{"key":"10.1016\/j.array.2026.100812_bib52","first-page":"1126","article-title":"Model-agnostic meta-learning for fast adaptation of deep networks","volume":"70","author":"Finn","year":"2017","journal-title":"Proc 34th Int Conf Mach Learn Proc Mach Learn Res"},{"key":"10.1016\/j.array.2026.100812_bib53","first-page":"3486","article-title":"Strategic attentive writer for learning macro-actions","volume":"29","author":"Vezhnevets","year":"2016","journal-title":"Adv Neural Inf Process Syst"},{"key":"10.1016\/j.array.2026.100812_bib54","first-page":"4299","article-title":"Deep reinforcement learning from human preferences","volume":"30","author":"Christiano","year":"2017","journal-title":"Adv Neural Inf Process Syst"},{"issue":"4","key":"10.1016\/j.array.2026.100812_bib55","doi-asserted-by":"crossref","first-page":"2443","DOI":"10.3390\/app13042443","article-title":"Reinforcement learning in game industry\u2014Review, prospects and challenges","volume":"13","author":"Souchleris","year":"2023","journal-title":"Appl Sci"},{"issue":"4","key":"10.1016\/j.array.2026.100812_bib56","doi-asserted-by":"crossref","first-page":"483","DOI":"10.1109\/TG.2022.3226526","article-title":"WagerWin: an efficient reinforcement learning framework for gambling games","volume":"15","author":"Wang","year":"2023","journal-title":"IEEE Trans Games"},{"key":"10.1016\/j.array.2026.100812_bib57","doi-asserted-by":"crossref","first-page":"4723","DOI":"10.1007\/s00521-022-07989-6","article-title":"Mastering construction heuristics with self-play deep reinforcement learning","volume":"35","author":"Wang","year":"2023","journal-title":"Neural Comput Appl"},{"key":"10.1016\/j.array.2026.100812_bib58","first-page":"12333","article-title":"DouZero: Mastering DouDizhu with self-play deep reinforcement learning","volume":"vol. 139","author":"Zha","year":"2021"},{"issue":"3","key":"10.1016\/j.array.2026.100812_bib59","doi-asserted-by":"crossref","first-page":"34","DOI":"10.3390\/technologies12030034","article-title":"Reinforcement learning as an approach to train multiplayer first-person shooter game agents","volume":"12","author":"Almeida","year":"2024","journal-title":"Technologies"},{"issue":"1","key":"10.1016\/j.array.2026.100812_bib60","doi-asserted-by":"crossref","first-page":"43","DOI":"10.1109\/TCIAIG.2010.2100395","article-title":"Reinforcement learning in first person shooter games","volume":"3","author":"McPartland","year":"2011","journal-title":"IEEE Trans Comput Intell AI Games"},{"key":"10.1016\/j.array.2026.100812_bib61","series-title":"2015 IEEE Conf. Comput. Intell. Games (CIG)","first-page":"344","article-title":"Learning to shoot in first person shooter games by stabilizing actions and clustering rewards for reinforcement learning","author":"Glavin","year":"2015"},{"issue":"1","key":"10.1016\/j.array.2026.100812_bib62","first-page":"78","article-title":"Learning to be a Bot: reinforcement learning in shooter games","volume":"4","author":"McPartland","year":"2008","journal-title":"Proc AAAI Conf Artif Intell Interact Digit Entertain"},{"key":"10.1016\/j.array.2026.100812_bib63","doi-asserted-by":"crossref","first-page":"15105","DOI":"10.1109\/ACCESS.2024.3358203","article-title":"Using VizDoom research platform scenarios for benchmarking reinforcement learning algorithms in first-person shooter games","volume":"12","author":"Khan","year":"2024","journal-title":"IEEE Access"},{"issue":"2","key":"10.1016\/j.array.2026.100812_bib64","doi-asserted-by":"crossref","first-page":"180","DOI":"10.1109\/TCIAIG.2014.2363042","article-title":"Adaptive shooting for bots in first person shooter games using reinforcement learning","volume":"7","author":"Glavin","year":"2015","journal-title":"IEEE Trans Comput Intell AI Games"},{"issue":"1","key":"10.1016\/j.array.2026.100812_bib65","doi-asserted-by":"crossref","first-page":"655","DOI":"10.1007\/s10586-017-0969-2","article-title":"Zombies Arena: fusion of reinforcement learning with augmented reality on NPC","volume":"21","author":"Razzaq","year":"2018","journal-title":"Clust Comput"},{"key":"10.1016\/j.array.2026.100812_bib66","doi-asserted-by":"crossref","DOI":"10.1016\/j.entcom.2022.100516","article-title":"A modeling environment for reinforcement learning in games","volume":"43","author":"Gomes","year":"2022","journal-title":"Entertain Comput"},{"key":"10.1016\/j.array.2026.100812_bib67","series-title":"2018 IEEE Conf. Comput. Intell. Games (CIG)","first-page":"1","article-title":"Skilled experience Catalogue: a skill-balancing mechanism for non-player characters using reinforcement learning","author":"Glavin","year":"2018"},{"issue":"1","key":"10.1016\/j.array.2026.100812_bib68","first-page":"69","article-title":"Learning companion behaviors using reinforcement learning in games","volume":"6","author":"Sharifi","year":"2010","journal-title":"Proc AAAI Conf Artif Intell Interact Digit Entertain"},{"issue":"4","key":"10.1016\/j.array.2026.100812_bib69","doi-asserted-by":"crossref","first-page":"1297","DOI":"10.1287\/moor.2016.0778","article-title":"Learning in games via reinforcement and regularization","volume":"41","author":"Mertikopoulos","year":"2016","journal-title":"Math Oper Res"},{"issue":"1","key":"10.1016\/j.array.2026.100812_bib70","doi-asserted-by":"crossref","first-page":"17","DOI":"10.1109\/TCIAIG.2009.2037972","article-title":"RL-DOT: a reinforcement learning NPC team for playing domination games","volume":"2","author":"Wang","year":"2010","journal-title":"IEEE Trans Comput Intell AI Games"},{"key":"10.1016\/j.array.2026.100812_bib71","doi-asserted-by":"crossref","first-page":"38","DOI":"10.1002\/eej.20968","article-title":"Task learning of a task robot in real space by using a learning system in virtual space","volume":"172","author":"Tsubone","year":"2010","journal-title":"Electr Eng Jpn"},{"key":"10.1016\/j.array.2026.100812_bib72","article-title":"Deep reinforcement learning for map-less goal-driven robot navigation","volume":"18","author":"Dobrevski","year":"2021","journal-title":"Int J Adv Rob Syst"},{"key":"10.1016\/j.array.2026.100812_bib73","first-page":"2147","article-title":"Memory-based crowd-aware robot navigation using deep reinforcement learning, complex intell","volume":"9","author":"Samsani","year":"2023","journal-title":"Off Syst"},{"issue":"2","key":"10.1016\/j.array.2026.100812_bib74","doi-asserted-by":"crossref","first-page":"844","DOI":"10.3390\/s23020844","article-title":"Research into autonomous vehicles following and obstacle avoidance based on deep reinforcement learning method under map constraints","volume":"23","author":"Li","year":"2023","journal-title":"Sensors"},{"key":"10.1016\/j.array.2026.100812_bib75","doi-asserted-by":"crossref","first-page":"61","DOI":"10.1186\/s13634-022-00872-5","article-title":"Target-driven obstacle avoidance algorithm based on DDPG for connected autonomous vehicles","volume":"2022","author":"Chen","year":"2022","journal-title":"EURASIP J Appl Signal Process"},{"issue":"21","key":"10.1016\/j.array.2026.100812_bib76","doi-asserted-by":"crossref","first-page":"6183","DOI":"10.3390\/s20216183","article-title":"GadgetArm\u2014Automatic grasp generation and manipulation of 4-DOF robot arm for arbitrary objects through reinforcement learning","volume":"20","author":"Park","year":"2020","journal-title":"Sensors"},{"key":"10.1016\/j.array.2026.100812_bib77","doi-asserted-by":"crossref","first-page":"20","DOI":"10.1007\/s10458-023-09603-y","article-title":"Scaling multi-agent reinforcement learning to full 11 versus 11 simulated robotic football","volume":"37","author":"Smit","year":"2023","journal-title":"Aut Agents Multi-Agent Syst"},{"key":"10.1016\/j.array.2026.100812_bib78","doi-asserted-by":"crossref","first-page":"12699","DOI":"10.1007\/s00521-025-11151-3","article-title":"Designing a skilled soccer team for RoboCup: exploring skill-set-primitives through reinforcement learning","volume":"37","author":"Abreu","year":"2025","journal-title":"Neural Comput Appl"},{"issue":"3","key":"10.1016\/j.array.2026.100812_bib79","doi-asserted-by":"crossref","first-page":"1629","DOI":"10.1007\/s13369-019-04126-9","article-title":"Genetic algorithm-optimized fuzzy Lyapunov reinforcement learning for nonlinear systems","volume":"45","author":"Kukker","year":"2020","journal-title":"Arabian J Sci Eng"},{"issue":"10","key":"10.1016\/j.array.2026.100812_bib80","doi-asserted-by":"crossref","first-page":"9527","DOI":"10.1007\/s13369-021-05379-z","article-title":"Stochastic genetic algorithm-assisted fuzzy Q-learning for robotic manipulators","volume":"46","author":"Kukker","year":"2021","journal-title":"Arabian J Sci Eng"},{"issue":"4","key":"10.1016\/j.array.2026.100812_bib81","doi-asserted-by":"crossref","first-page":"4089","DOI":"10.1109\/TITS.2022.3230012","article-title":"Efficient and private scheduling of wireless electric vehicles charging using reinforcement learning","volume":"24","author":"Hossain","year":"2023","journal-title":"IEEE Trans Intell Transport Syst"},{"key":"10.1016\/j.array.2026.100812_bib82","doi-asserted-by":"crossref","DOI":"10.1016\/j.apenergy.2022.120500","article-title":"Multi-agent hierarchical reinforcement learning for energy management","volume":"332","author":"Jendoubi","year":"2023","journal-title":"Appl Energy"},{"issue":"4","key":"10.1016\/j.array.2026.100812_bib83","doi-asserted-by":"crossref","first-page":"1685","DOI":"10.1109\/TCSI.2023.3240702","article-title":"Meta-reinforcement learning-based transferable scheduling strategy for energy management","volume":"70","author":"Xiong","year":"2023","journal-title":"IEEE Trans Circuits Syst I Regul Pap"},{"issue":"3","key":"10.1016\/j.array.2026.100812_bib84","first-page":"2314","article-title":"Optimal operation of energy storage with random renewable generation and AC\/DC loads","volume":"9","author":"Jin","year":"2018","journal-title":"IEEE Trans Smart Grid"},{"issue":"5","key":"10.1016\/j.array.2026.100812_bib85","doi-asserted-by":"crossref","first-page":"4206","DOI":"10.1109\/TPWRS.2022.3213487","article-title":"Curriculum based reinforcement learning of grid topology controllers to prevent thermal cascading","volume":"38","author":"Ramapuram Matavalam","year":"2023","journal-title":"IEEE Trans Power Syst"},{"key":"10.1016\/j.array.2026.100812_bib86","series-title":"Proc. 6th ACM Int. Conf. Syst. Energy-Efficient Build., Cities, Transp. (BuildSys \u201919)","first-page":"356","article-title":"CityLearn v1.0: an OpenAI Gym environment for demand response with deep reinforcement learning","author":"V\u00e1zquez-Canteli","year":"2019"},{"key":"10.1016\/j.array.2026.100812_bib87","first-page":"21","article-title":"PowerGym: a reinforcement learning environment for Volt-Var control in power distribution systems","volume":"168","author":"Fan","year":"2022","journal-title":"Proc Mach Learn Res"},{"key":"10.1016\/j.array.2026.100812_bib88","doi-asserted-by":"crossref","DOI":"10.1016\/j.egyai.2025.100564","article-title":"AI challenge for safe and low carbon power grid operation","volume":"22","author":"Pav\u00e3o","year":"2025","journal-title":"Energy AI"},{"issue":"9","key":"10.1016\/j.array.2026.100812_bib89","doi-asserted-by":"crossref","first-page":"2167","DOI":"10.3390\/en17092167","article-title":"Reinforcement learning for efficient power systems planning: a review of operational and expansion strategies","volume":"17","author":"Pes\u00e1ntez","year":"2024","journal-title":"Energies"},{"key":"10.1016\/j.array.2026.100812_bib90","series-title":"Proc. 54th Annu. Des. Autom. Conf. (DAC \u201917)","first-page":"1","article-title":"Deep reinforcement learning for building HVAC control","author":"Wei","year":"2017"},{"issue":"8","key":"10.1016\/j.array.2026.100812_bib91","doi-asserted-by":"crossref","first-page":"3638","DOI":"10.1109\/TAC.2020.3024161","article-title":"Safe reinforcement learning using robust MPC","volume":"66","author":"Zanon","year":"2021","journal-title":"IEEE Trans Automat Control"},{"key":"10.1016\/j.array.2026.100812_bib92","series-title":"2022 IEEE International Symposium on Advanced Control of Industrial Processes (AdCONIP)","first-page":"48","article-title":"Multi-agent reinforcement learning system for multiloop control of chemical processes","author":"Yue","year":"2022"},{"key":"10.1016\/j.array.2026.100812_bib93","doi-asserted-by":"crossref","first-page":"2217","DOI":"10.1109\/TCSI.2023.3325590","article-title":"Adaptive horizon seeking for generalized predictive control via deep reinforcement learning with application to DC\/DC converters","volume":"71","author":"Cui","year":"2024","journal-title":"IEEE Trans Circuits Syst I Regul Pap"},{"key":"10.1016\/j.array.2026.100812_bib94","first-page":"1","article-title":"Automated model generation for machinery fault diagnosis based on reinforcement learning and neural architecture search","volume":"71","author":"Zhou","year":"2022","journal-title":"IEEE Trans Instrum Meas"},{"issue":"7\u20138","key":"10.1016\/j.array.2026.100812_bib95","doi-asserted-by":"crossref","first-page":"349","DOI":"10.1177\/0020294018789202","article-title":"Reinforcement learning-based fault-tolerant control with application to flux cored wire system","volume":"51","author":"Zhang","year":"2018","journal-title":"Meas Control"},{"issue":"1","key":"10.1016\/j.array.2026.100812_bib96","doi-asserted-by":"crossref","first-page":"407","DOI":"10.1109\/TSG.2020.3011739","article-title":"Multi-agent deep reinforcement learning for HVAC control in commercial buildings","volume":"12","author":"Yu","year":"2021","journal-title":"IEEE Trans Smart Grid"},{"issue":"9","key":"10.1016\/j.array.2026.100812_bib97","doi-asserted-by":"crossref","first-page":"4132","DOI":"10.1109\/TCYB.2019.2950262","article-title":"Nonzero-sum game reinforcement learning for performance optimization in large-scale industrial processes","volume":"50","author":"Li","year":"2020","journal-title":"IEEE Trans Cybern"},{"issue":"7","key":"10.1016\/j.array.2026.100812_bib98","doi-asserted-by":"crossref","DOI":"10.1142\/S0129065717500125","article-title":"Seizure control in a computational model using a reinforcement learning stimulation paradigm","volume":"27","author":"Nagaraj","year":"2017","journal-title":"Int J Neural Syst"},{"key":"10.1016\/j.array.2026.100812_bib99","doi-asserted-by":"crossref","first-page":"2037","DOI":"10.1111\/epi.16333","article-title":"Machine learning applications in epilepsy","volume":"60","author":"Abbasi","year":"2019","journal-title":"Epilepsia"},{"key":"10.1016\/j.array.2026.100812_bib100","doi-asserted-by":"crossref","DOI":"10.1016\/j.compeleceng.2021.107154","article-title":"A genetic algorithm assisted fuzzy Q-learning epileptic seizure classifier","volume":"92","author":"Kukker","year":"2021","journal-title":"Comput Electr Eng"},{"issue":"4","key":"10.1016\/j.array.2026.100812_bib101","doi-asserted-by":"crossref","first-page":"227","DOI":"10.1142\/S0129065709001987","article-title":"Treating epilepsy via adaptive neurostimulation: a reinforcement learning approach","volume":"19","author":"Pineau","year":"2009","journal-title":"Int J Neural Syst"},{"key":"10.1016\/j.array.2026.100812_bib102","series-title":"2010 IEEE International Conference on Bioinformatics and Biomedicine (BIBM)","first-page":"499","article-title":"A novel reinforcement learning framework for online adaptive seizure prediction","author":"Wang","year":"2010"},{"key":"10.1016\/j.array.2026.100812_bib103","series-title":"Proceedings of the 9th International Conference on Signal Processing Systems (ICSPS 2017)","first-page":"225","article-title":"Neural reinforcement learning based identifier for typing keys using forearm EMG signals","author":"Sharma","year":"2017"},{"key":"10.1016\/j.array.2026.100812_bib104","doi-asserted-by":"crossref","DOI":"10.1016\/j.bspc.2023.104693","article-title":"Automatic focal EEG identification based on deep reinforcement learning","volume":"83","author":"Liu","year":"2023","journal-title":"Biomed Signal Process Control"},{"issue":"7","key":"10.1016\/j.array.2026.100812_bib105","doi-asserted-by":"crossref","DOI":"10.1080\/21681163.2023.2290361","article-title":"Epileptic seizure classification using fuzzy lattices and neural reinforcement learning","volume":"11","author":"Kukker","year":"2024","journal-title":"Comput Methods Biomech Biomed Eng Imaging Vis"},{"key":"10.1016\/j.array.2026.100812_bib106","doi-asserted-by":"crossref","first-page":"471","DOI":"10.1007\/s40265-020-01435-4","article-title":"Personalized multimorbidity management for patients with type 2 diabetes using reinforcement learning of electronic health records","volume":"81","author":"Zheng","year":"2021","journal-title":"Drugs"},{"key":"10.1016\/j.array.2026.100812_bib107","doi-asserted-by":"crossref","first-page":"28391","DOI":"10.1109\/ACCESS.2023.3259425","article-title":"Reinforcement learning models and algorithms for diabetes management","volume":"11","author":"Yau","year":"2023","journal-title":"IEEE Access"},{"key":"10.1016\/j.array.2026.100812_bib108","doi-asserted-by":"crossref","DOI":"10.1016\/j.artmed.2020.101836","article-title":"Reinforcement learning application in diabetes blood glucose control: a systematic review","volume":"104","author":"Tejedor","year":"2020","journal-title":"Artif Intell Med"},{"key":"10.1016\/j.array.2026.100812_bib109","doi-asserted-by":"crossref","DOI":"10.1155\/2018\/4091497","article-title":"Control of blood glucose for type-1 diabetes by using reinforcement learning with feedforward algorithm","volume":"2018","author":"Ngo","year":"2018","journal-title":"Comput Math Methods Med"},{"issue":"18","key":"10.1016\/j.array.2026.100812_bib110","doi-asserted-by":"crossref","first-page":"5058","DOI":"10.3390\/s20185058","article-title":"An insulin bolus advisor for type 1 diabetes using deep reinforcement learning","volume":"20","author":"Zhu","year":"2020","journal-title":"Sensors"},{"key":"10.1016\/j.array.2026.100812_bib111","series-title":"2020 6th Iranian Conference on Signal Processing and Intelligent Systems (ICSPIS)","first-page":"1","article-title":"Cancer diagnosis based on combination of artificial neural networks and reinforcement learning","author":"Simin","year":"2020"},{"key":"10.1016\/j.array.2026.100812_bib112","doi-asserted-by":"crossref","first-page":"231","DOI":"10.1007\/s00521-024-10445-2","article-title":"Scalable reinforcement learning-based neural architecture search","volume":"37","author":"Cassimon","year":"2025","journal-title":"Neural Comput Appl"},{"key":"10.1016\/j.array.2026.100812_bib113","doi-asserted-by":"crossref","DOI":"10.1016\/j.compmedimag.2023.102275","article-title":"Learning how to detect: a deep reinforcement learning method for whole-slide melanoma histopathology images","volume":"108","author":"Zheng","year":"2023","journal-title":"Comput Med Imag Graph"},{"key":"10.1016\/j.array.2026.100812_bib114","doi-asserted-by":"crossref","DOI":"10.1016\/j.cmpb.2022.107280","article-title":"Reinforcement learning strategies in cancer chemotherapy treatments: a review","volume":"229","author":"Yang","year":"2023","journal-title":"Comput Methods Progr Biomed"},{"key":"10.1016\/j.array.2026.100812_bib115","doi-asserted-by":"crossref","first-page":"11","DOI":"10.1016\/j.mbs.2017.08.004","article-title":"Reinforcement learning-based control of drug dosing for cancer chemotherapy treatment","volume":"293","author":"Padmanabhan","year":"2017","journal-title":"Math Biosci"},{"key":"10.1016\/j.array.2026.100812_bib116","doi-asserted-by":"crossref","DOI":"10.1016\/j.micron.2023.103583","article-title":"Review of reinforcement learning applications in segmentation, chemotherapy, and radiotherapy of cancer","volume":"178","author":"Khajuria","year":"2024","journal-title":"Micron"},{"issue":"7","key":"10.1016\/j.array.2026.100812_bib117","first-page":"1078","article-title":"Modeling and predicting cancer clonal evolution with reinforcement learning","volume":"33","author":"Ivanovic","year":"2023","journal-title":"Genome Res"},{"key":"10.1016\/j.array.2026.100812_bib118","doi-asserted-by":"crossref","DOI":"10.1016\/j.cmpb.2023.107884","article-title":"Deep reinforcement learning-based control of chemo-drug dose in cancer treatment","volume":"243","author":"Mashayekhi","year":"2024","journal-title":"Comput Methods Progr Biomed"},{"key":"10.1016\/j.array.2026.100812_bib119","doi-asserted-by":"crossref","DOI":"10.1016\/j.compbiomed.2023.106617","article-title":"A hybrid cancer prediction based on multi-omics data and reinforcement learning state action reward state action (SARSA)","volume":"154","author":"Mohammed","year":"2023","journal-title":"Comput Biol Med"},{"key":"10.1016\/j.array.2026.100812_bib120","doi-asserted-by":"crossref","first-page":"15","DOI":"10.1016\/j.cmpb.2019.03.004","article-title":"Reinforcement learning-based control of tumor growth under anti-angiogenic therapy","volume":"173","author":"Yazdjerdi","year":"2019","journal-title":"Comput Methods Progr Biomed"},{"issue":"6","key":"10.1016\/j.array.2026.100812_bib121","doi-asserted-by":"crossref","first-page":"369","DOI":"10.1016\/j.irbm.2020.10.005","article-title":"Modified fuzzy Q learning based classifier for pneumonia and tuberculosis","volume":"42","author":"Kukker","year":"2021","journal-title":"IRBM"},{"issue":"10","key":"10.1016\/j.array.2026.100812_bib122","doi-asserted-by":"crossref","DOI":"10.1080\/03772063.2022.2027287","article-title":"JAYA-optimized fuzzy reinforcement learning classifier for COVID-19","volume":"69","author":"Kukker","year":"2023","journal-title":"IETE J Res"},{"key":"10.1016\/j.array.2026.100812_bib123","doi-asserted-by":"crossref","DOI":"10.3389\/fphar.2024.1337764","article-title":"Prediction of drug\u2013disease associations based on reinforcement symmetric metric learning and graph convolution network","volume":"15","author":"Luo","year":"2024","journal-title":"Front Pharmacol"},{"issue":"8","key":"10.1016\/j.array.2026.100812_bib124","doi-asserted-by":"crossref","first-page":"849","DOI":"10.1080\/17460441.2022.2072288","article-title":"Reinforcement learning for systems pharmacology-oriented and personalized drug design","volume":"17","author":"Tan","year":"2022","journal-title":"Expert Opin Drug Discov"},{"issue":"20","key":"10.1016\/j.array.2026.100812_bib125","doi-asserted-by":"crossref","first-page":"4863","DOI":"10.1021\/acs.jcim.2c00838","article-title":"De novo drug design using reinforcement learning with graph-based deep generative models","volume":"62","author":"Atance","year":"2022","journal-title":"J Chem Inf Model"},{"issue":"7","key":"10.1016\/j.array.2026.100812_bib126","doi-asserted-by":"crossref","first-page":"4811","DOI":"10.1007\/s10994-024-06519-w","article-title":"Utilizing reinforcement learning for de novo drug design","volume":"113","author":"Gummesson Svensson","year":"2024","journal-title":"Mach Learn"},{"issue":"Suppl. 1","key":"10.1016\/j.array.2026.100812_bib127","doi-asserted-by":"crossref","first-page":"i84","DOI":"10.1093\/bioinformatics\/btab301","article-title":"Optimizing blood\u2013brain barrier permeation through deep reinforcement learning for de novo drug design","volume":"37","author":"Pereira","year":"2021","journal-title":"Bioinformatics"},{"issue":"7","key":"10.1016\/j.array.2026.100812_bib128","doi-asserted-by":"crossref","first-page":"3166","DOI":"10.1021\/acs.jcim.9b00325","article-title":"Deep reinforcement learning for multiparameter optimization in de novo drug design","volume":"59","author":"St\u00e5hl","year":"2019","journal-title":"J Chem Inf Model"},{"key":"10.1016\/j.array.2026.100812_bib129","doi-asserted-by":"crossref","first-page":"121","DOI":"10.1007\/s00894-023-05523-6","article-title":"De novo drug design based on Stack-RNN with multi-objective reward-weighted sum and reinforcement learning","volume":"29","author":"Hu","year":"2023","journal-title":"J Mol Model"},{"issue":"11","key":"10.1016\/j.array.2026.100812_bib130","doi-asserted-by":"crossref","DOI":"10.1093\/bioinformatics\/btad693","article-title":"Molecular generation strategy and optimization based on A2C reinforcement learning in de novo drug design","volume":"39","author":"Wang","year":"2023","journal-title":"Bioinformatics"},{"key":"10.1016\/j.array.2026.100812_bib131","doi-asserted-by":"crossref","DOI":"10.1039\/D4SC00733F","article-title":"Extended shortwave infrared absorbing antiaromatic fluorenium-indolizine chromophores","author":"Meador","year":"2024","journal-title":"Chem Sci"},{"key":"10.1016\/j.array.2026.100812_bib132","doi-asserted-by":"crossref","DOI":"10.1126\/sciadv.aap7885","article-title":"Deep reinforcement learning for de novo drug design","volume":"4","author":"Popova","year":"2018","journal-title":"Sci Adv"},{"issue":"2","key":"10.1016\/j.array.2026.100812_bib133","doi-asserted-by":"crossref","first-page":"161","DOI":"10.3390\/ph17020161","article-title":"De novo drug design using transformer-based machine translation and reinforcement learning of an adaptive Monte Carlo tree search","volume":"17","author":"Ang","year":"2024","journal-title":"Pharmaceuticals"},{"key":"10.1016\/j.array.2026.100812_bib135","series-title":"Proc. 2021 Conf. North Am. Chapter Assoc. Comput. Linguist.: Hum. Lang. Technol. Demonstrations","first-page":"125","article-title":"Alexa conversations: an extensible data-driven approach for building task-oriented dialogue systems","author":"Acharya","year":"2021"},{"key":"10.1016\/j.array.2026.100812_bib136","article-title":"Improving alignment of dialogue agents via targeted human judgements","author":"Glaese","year":"2022","journal-title":"arXiv preprint arXiv:2209.14375"},{"issue":"11","key":"10.1016\/j.array.2026.100812_bib134","first-page":"13834","article-title":"Dialogue state distillation network with inter-slot contrastive learning for dialogue state tracking","volume":"37","author":"Xu","year":"2023","journal-title":"Proc AAAI Conf Artif Intell"},{"key":"10.1016\/j.array.2026.100812_bib137","article-title":"Training language models to follow instructions with human feedback","volume":"35","author":"Ouyang","year":"2022","journal-title":"Adv Neural Inf Process Syst"},{"key":"10.1016\/j.array.2026.100812_bib138","first-page":"8469","article-title":"PaLM-E: an embodied multimodal language model","volume":"202","author":"Driess","year":"2023","journal-title":"Proc 40th Int Conf Mach Learn Proc Mach Learn Res"},{"key":"10.1016\/j.array.2026.100812_bib139","doi-asserted-by":"crossref","first-page":"120","DOI":"10.1109\/LSP.2021.3128379","article-title":"A deep reinforcement learning method for multimodal data fusion in action recognition","volume":"29","author":"Guo","year":"2022","journal-title":"IEEE Signal Process Lett"}],"container-title":["Array"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S2590005626001359?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S2590005626001359?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,6,18]],"date-time":"2026-06-18T20:48:59Z","timestamp":1781815739000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S2590005626001359"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,7]]},"references-count":139,"alternative-id":["S2590005626001359"],"URL":"https:\/\/doi.org\/10.1016\/j.array.2026.100812","relation":{},"ISSN":["2590-0056"],"issn-type":[{"value":"2590-0056","type":"print"}],"subject":[],"published":{"date-parts":[[2026,7]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"A review of reinforcement learning: A tripartite framework of environment design, algorithmic innovation, and application scenarios","name":"articletitle","label":"Article Title"},{"value":"Array","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.array.2026.100812","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 The Authors. Published by Elsevier Inc.","name":"copyright","label":"Copyright"}],"article-number":"100812"}}