{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,2]],"date-time":"2025-08-02T16:18:14Z","timestamp":1754151494793,"version":"3.41.2"},"reference-count":24,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,6,30]],"date-time":"2025-06-30T00:00:00Z","timestamp":1751241600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,6,30]],"date-time":"2025-06-30T00:00:00Z","timestamp":1751241600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,6,30]]},"DOI":"10.1109\/ur65550.2025.11078111","type":"proceedings-article","created":{"date-parts":[[2025,7,18]],"date-time":"2025-07-18T17:42:30Z","timestamp":1752860550000},"page":"207-214","source":"Crossref","is-referenced-by-count":0,"title":["Monte Carlo Beam Search for Actor-Critic Reinforcement Learning in Continuous Control"],"prefix":"10.1109","author":[{"given":"Hazim","family":"Alzorgan","sequence":"first","affiliation":[{"name":"School of Computing, Clemson University,Clemson,SC,USA,26935"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Abolfazl","family":"Razi","sequence":"additional","affiliation":[{"name":"School of Computing, Clemson University,Director of AIbased Sensing, Networking and Data Services (AI-SENDS) Laboratory,Clemson,SC,USA,26935"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"issue":"2","key":"ref1","first-page":"423","article-title":"G.\u201cReinforcement learning: An introduction. by richard\u2019s sutton","volume":"6","author":"Andrew","year":"2021","journal-title":"SIAM Rev"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2023.120495"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1145\/3510003.3510625"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2024.102369"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/PIMRC56721.2023.10293891"},{"key":"ref6","article-title":"MuJoCo Playground","author":"Kevin","year":"2025","journal-title":"arXiv preprint"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1007\/s10514-022-10034-z"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1016\/j.heliyon.2024.e30697"},{"key":"ref9","article-title":"Addressing function approximation error in actor-critic methods","volume-title":"International conference on machine learning. PMLR","author":"Scott","year":"2018"},{"issue":"268","key":"ref10","first-page":"1","article-title":"Stable-baselines3: Reliable reinforcement learning implementations","volume":"22","author":"Antonin","year":"2021","journal-title":"Journal of machine learning research"},{"key":"ref11","article-title":"Fire and smoke datasets in 20 years: An in-depth review","author":"Sayed","year":"2025","journal-title":"arXiv preprint"},{"key":"ref12","article-title":"Deep Reinforcement Learning Hands-On: Apply modern RL methods, with deep Q-networks, value iteration, policy gradients, TRPO, AlphaGo Zero and more","author":"Maxim","year":"2018","journal-title":"Packt Publishing Ltd"},{"key":"ref13","first-page":"391415","article-title":"AlphaZero. Deep Reinforcement Learning: Fundamentals","author":"Hongming","year":"2020","journal-title":"Research and Applications"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.494"},{"key":"ref15","first-page":"8760","article-title":"Simulation-guided beam search for neural combinatorial optimization","volume":"35","author":"Jinho","year":"2022","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1007\/s10462-022-10228-y"},{"key":"ref17","article-title":"Monte carlo tree search boosts reasoning via iterative preference learning","author":"Yuxi","year":"2024","journal-title":"arXiv preprint"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2022.3208437"},{"key":"ref19","article-title":"RL Baselines3 Zoo","author":"Antonin","year":"2020","journal-title":"GitHub repository"},{"key":"ref20","article-title":"Openai gym","author":"Greg","year":"2016","journal-title":"arXiv preprint"},{"key":"ref21","article-title":"Soft actor-critic algorithms and applications","author":"Tuomas","year":"2018","journal-title":"arXiv preprint"},{"key":"ref22","article-title":"A2C is a special case of PPO","author":"Shengyi","year":"2022","journal-title":"arXiv preprint"},{"key":"ref23","article-title":"Proximal policy optimization algorithms","author":"John","year":"2017","journal-title":"arXiv preprint"},{"key":"ref24","article-title":"Visiongpt: Llm-assisted real-time anomaly detection for safe visual navigation","author":"Hao","year":"2024","journal-title":"arXiv preprint"}],"event":{"name":"2025 22nd International Conference on Ubiquitous Robots (UR)","location":"College Station, TX, USA","start":{"date-parts":[[2025,6,30]]},"end":{"date-parts":[[2025,7,2]]}},"container-title":["2025 22nd International Conference on Ubiquitous Robots (UR)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11078013\/11077977\/11078111.pdf?arnumber=11078111","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,7,19]],"date-time":"2025-07-19T04:54:59Z","timestamp":1752900899000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11078111\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6,30]]},"references-count":24,"URL":"https:\/\/doi.org\/10.1109\/ur65550.2025.11078111","relation":{},"subject":[],"published":{"date-parts":[[2025,6,30]]}}}