{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,16]],"date-time":"2026-06-16T15:03:08Z","timestamp":1781622188564,"version":"3.54.5"},"reference-count":44,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"6","license":[{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T00:00:00Z","timestamp":1780272000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"Ministry of Science and ICT, South Korea, through the Convergence Security Core Talent Training Business"},{"name":"Institute of Information and Communications Technology Planning and Evaluation","award":["IITP-2024-RS-2024-00423071"],"award-info":[{"award-number":["IITP-2024-RS-2024-00423071"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Neural Netw. Learning Syst."],"published-print":{"date-parts":[[2026,6]]},"DOI":"10.1109\/tnnls.2025.3640101","type":"journal-article","created":{"date-parts":[[2025,12,19]],"date-time":"2025-12-19T18:59:35Z","timestamp":1766170775000},"page":"2794-2808","source":"Crossref","is-referenced-by-count":1,"title":["The Most Overestimated\n                    <i>Q<\/i>\n                    Value Regularization in High-Dimensional Discrete Action Spaces for Offline Reinforcement Learning"],"prefix":"10.1109","volume":"37","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-0851-7392","authenticated-orcid":false,"given":"Seunghwan","family":"Yu","sequence":"first","affiliation":[{"name":"Department of Applied Artificial Intelligence Engineering, Hanyang University, Seoul, South Korea"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Homin","family":"Park","sequence":"additional","affiliation":[{"name":"School of Science and Technology, Singapore University of Social Sciences, Singapore, Singapore"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Byungjin","family":"Ko","sequence":"additional","affiliation":[{"name":"Division of Smart Convergence Engineering, Hanyang University ERICA Campus, Ansan, Gyeonggi-do, South Korea"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Jisub","family":"Shin","sequence":"additional","affiliation":[{"name":"Department of Applied Artificial Intelligence Engineering, Hanyang University, Seoul, South Korea"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-4704-3913","authenticated-orcid":false,"given":"Yoonki","family":"Hong","sequence":"additional","affiliation":[{"name":"Department of Applied Artificial Intelligence Engineering, Hanyang University, Seoul, South Korea"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7924-1776","authenticated-orcid":false,"given":"Taejoon","family":"Park","sequence":"additional","affiliation":[{"name":"Department of Robotics Engineering, Hanyang University ERICA Campus, Ansan, Gyeonggi-do, South Korea"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Jong-Wan","family":"Yoon","sequence":"additional","affiliation":[{"name":"Department of Intelligent Robotics, Hanyang University ERICA Campus, Ansan, Gyeonggi-do, South Korea"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Playing Atari with deep reinforcement learning","author":"Mnih","year":"2013","journal-title":"arXiv:1312.5602"},{"key":"ref2","article-title":"Continuous control with deep reinforcement learning","author":"Lillicrap","year":"2015","journal-title":"arXiv:1509.02971"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1812.05905"},{"key":"ref4","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017","journal-title":"arXiv:1707.06347"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/SSCI47803.2020.9308468"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/IRC.2019.00120"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1177\/0278364920987859"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1007\/s11370-021-00398-z"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.3389\/frobt.2020.00008"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2021.3104471"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.2970622"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1016\/j.measurement.2024.115729"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2018.8593986"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/IROS40897.2019.8967899"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9561073"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3244186"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/IROS51168.2021.9636165"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA46639.2022.9811645"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2022.3204822"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2021.3092640"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2024.3381639"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3250269"},{"key":"ref23","article-title":"D4RL: Datasets for deep data-driven reinforcement learning","author":"Fu","year":"2020","journal-title":"arXiv:2004.07219"},{"key":"ref24","article-title":"Behavior regularized offline reinforcement learning","author":"Wu","year":"2019","journal-title":"arXiv:1911.11361"},{"key":"ref25","article-title":"AWAC: Accelerating online reinforcement learning with offline datasets","author":"Nair","year":"2020","journal-title":"arXiv:2006.09359"},{"key":"ref26","article-title":"Offline reinforcement learning with implicit Q-learning","author":"Kostrikov","year":"2021","journal-title":"arXiv:2110.06169"},{"key":"ref27","first-page":"104","article-title":"An optimistic perspective on offline reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Agarwal"},{"key":"ref28","article-title":"COG: Connecting new skills to past experience with offline reinforcement learning","author":"Singh","year":"2020","journal-title":"arXiv:2010.14500"},{"key":"ref29","first-page":"1179","article-title":"Conservative Q-learning for offline reinforcement learning","volume-title":"Proc. Int. Conf. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Kumar"},{"key":"ref30","article-title":"DR3: Value-based deep reinforcement learning requires explicit regularization","author":"Kumar","year":"2021","journal-title":"arXiv:2112.04716"},{"key":"ref31","article-title":"A workflow for offline model-free robotic reinforcement learning","author":"Kumar","year":"2021","journal-title":"arXiv:2109.10813"},{"key":"ref32","first-page":"6105","article-title":"EfficientNet: Rethinking model scaling for convolutional neural networks","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Tan"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00925"},{"key":"ref34","article-title":"Offline reinforcement learning with combinatorial action spaces","author":"Landers","year":"2024","journal-title":"arXiv:2410.21151"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3293508"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2024.3443102"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2024.3497667"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2012.6386109"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1016\/j.simpa.2020.100022"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1703.09312"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1201\/b21177-15"},{"key":"ref42","article-title":"Prioritized experience replay","author":"Schaul","year":"2015","journal-title":"arXiv:1511.05952"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA46639.2022.9811809"},{"key":"ref44","volume-title":"Scanned Objects MuJoCo Models","author":"Zakka","year":"2022"}],"container-title":["IEEE Transactions on Neural Networks and Learning Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/5962385\/11549955\/11304592.pdf?arnumber=11304592","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,6,4]],"date-time":"2026-06-04T19:56:36Z","timestamp":1780602996000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11304592\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6]]},"references-count":44,"journal-issue":{"issue":"6"},"URL":"https:\/\/doi.org\/10.1109\/tnnls.2025.3640101","relation":{},"ISSN":["2162-237X","2162-2388"],"issn-type":[{"value":"2162-237X","type":"print"},{"value":"2162-2388","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,6]]}}}