{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,25]],"date-time":"2026-06-25T16:25:56Z","timestamp":1782404756234,"version":"3.54.5"},"reference-count":92,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"6","license":[{"start":{"date-parts":[[2024,12,1]],"date-time":"2024-12-01T00:00:00Z","timestamp":1733011200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2024,12,1]],"date-time":"2024-12-01T00:00:00Z","timestamp":1733011200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,12,1]],"date-time":"2024-12-01T00:00:00Z","timestamp":1733011200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100003093","name":"Ministry of Higher Education, Malaysia","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100003093","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Fundamental Research Grant Scheme","award":["FRGS\/1\/2022\/ICT02\/UTAR\/01\/2"],"award-info":[{"award-number":["FRGS\/1\/2022\/ICT02\/UTAR\/01\/2"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Human-Mach. Syst."],"published-print":{"date-parts":[[2024,12]]},"DOI":"10.1109\/thms.2024.3467370","type":"journal-article","created":{"date-parts":[[2024,10,18]],"date-time":"2024-10-18T17:32:20Z","timestamp":1729272740000},"page":"762-777","source":"Crossref","is-referenced-by-count":13,"title":["The Augmented Intelligence Perspective on Human-in-the-Loop Reinforcement Learning: Review, Concept Designs, and Future Directions"],"prefix":"10.1109","volume":"54","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-3110-2782","authenticated-orcid":false,"given":"Kok-Lim Alvin","family":"Yau","sequence":"first","affiliation":[{"name":"Lee Kong Chian Faculty of Engineering and Science, Universiti Tunku Abdul Rahman, Kajang, Malaysia"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yasir","family":"Saleem","sequence":"additional","affiliation":[{"name":"Department of Computer Science, Aberystwyth University, Aberystwyth, U.K."}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1750-7441","authenticated-orcid":false,"given":"Yung-Wey","family":"Chong","sequence":"additional","affiliation":[{"name":"School of Computer Sciences, Universiti Sains Malaysia, Penang, Malaysia"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6967-9248","authenticated-orcid":false,"given":"Xiumei","family":"Fan","sequence":"additional","affiliation":[{"name":"School of Automation and Information Engineering, Xi&#x0027;an University of Technology, Xi&#x0027;an, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Jer Min","family":"Eyu","sequence":"additional","affiliation":[{"name":"Lee Kong Chian Faculty of Engineering and Science, Universiti Tunku Abdul Rahman, Kajang, Malaysia"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9674-3436","authenticated-orcid":false,"given":"David","family":"Chieng","sequence":"additional","affiliation":[{"name":"Department of Electrical and Electronic Engineering, Faculty of Science and Engineering, University of Nottingham Ningbo, Ningbo, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2021.3115494"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/MIC.2013.90"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CCHI.2019.8901918"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ISBI.2011.5872378"},{"key":"ref5","first-page":"4511","article-title":"Human-in-the-loop reinforcement learning","volume-title":"Proc. Chin. Automat. Congr.","author":"Huanghuang","year":"2017"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3035728"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1016\/j.rcim.2022.102321"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1016\/j.cobme.2021.100314"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/SMC42975.2020.9283469"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1007\/s42486-020-00051-1"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2022.3145516"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-16952-6_49"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/tnn.1998.712192"},{"key":"ref14","first-page":"1","article-title":"Playing Atari with deep reinforcement learning","volume-title":"Proc. NIPS Deep Learn. Workshop","author":"Mnih","year":"2013"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ROMAN.2017.8172353"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1007\/s40708-016-0042-6"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1016\/j.future.2022.05.014"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.15439\/2021F86"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460551"},{"key":"ref20","first-page":"299","volume-title":"Proc. IFIP\/IEEE Int. Symp. Integr. Netw. Manag.","author":"Coelho","year":"2009"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-27535-8_54"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICHMS49158.2020.9209555"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9196948"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/NAPS52732.2021.9654607"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.3390\/ijerph18042121"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11485"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1145\/3450268.3453525"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1145\/3396870.3400014"},{"key":"ref29","first-page":"2625","article-title":"Policy shaping: Integrating human feedback with reinforcement learning","volume-title":"Proc. Int. Conf. Neural Inf. Process. Syst.","author":"Griffith","year":"2013"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.3390\/make1010002"},{"key":"ref31","first-page":"3352","article-title":"Reinforcement learning from demonstration through shaping","volume-title":"Proc. 24th Int. Conf. AI","author":"Brys","year":"2015"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/RO-MAN46459.2019.8956326"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/IEMCON53756.2021.9623127"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2021.3104024"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2021.3128237"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v31i1.10945"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3006254"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-83906-2_20"},{"key":"ref39","first-page":"1380","article-title":"Human-interactive subgoal supervision for efficient inverse reinforcement learning","volume-title":"Proc. 17th Int. Conf. Auton. Agents MultiAgent Syst.","author":"Pan","year":"2018"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ICDM50108.2020.00086"},{"key":"ref41","article-title":"Learning from human-generated reward","author":"Knox","year":"2012"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v30i1.9914"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9561937"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2021.3071727"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/WACV.2019.00222"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2016.7759137"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460937"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/TSMC.2020.3035406"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2017.04.007"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/icra.2017.7989695"},{"key":"ref51","first-page":"2067","article-title":"Trial without error: Towards safe reinforcement learning via human intervention","volume-title":"Proc. 17th Int. Conf. Auton. Agents Multi-Agent Syst.","author":"Saunders","year":"2018"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2019.2929996"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1145\/1597735.1597738"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1145\/3277904"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9560755"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2021.3133588"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/WACV.2019.00163"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9414475"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/ICMRA53481.2021.9675564"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2021.3068655"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/WEROB.2017.8383835"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/WCICA.2004.1342108"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/HRI.2019.8673156"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/ICRCICN.2017.8234515"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/THMS.2017.2717885"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/ICCSE49874.2020.9201867"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/TIAR.2015.7358527"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2020.3011069"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/ITSC48978.2021.9564789"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/DCAS51144.2020.9330651"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-13-7983-3_41"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/TNSRE.2020.2979033"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/TSC.2017.2674662"},{"key":"ref75","first-page":"30","article-title":"Guiding a reinforcement learner with natural language advice: Initial results in RoboCup soccer","volume-title":"Proc. 31st Conf. AI","author":"Kuhlmann","year":"2004"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1007\/BF00114730"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1016\/j.artint.2007.09.009"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1145\/1102351.1102369"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9196661"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1145\/3277593.3277629"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/SmartGridComm51999.2021.9632332"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1145\/3527448"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/THMS.2017.2717885"},{"key":"ref84","article-title":"Human-in-the-loop imitation learning using remote teleoperation","author":"Mandlekar","year":"2020"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU51503.2021.9688234"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2021.3050861"},{"key":"ref87","first-page":"21885","article-title":"Widening the pipeline in human-guided reinforcement learning with explanation and context-aware data augmentation","volume-title":"Proc. 35th Conf. Neural Inf. Process. Syst.","author":"Guan","year":"2021"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/TETCI.2023.3335944"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/TSMC.2023.3312411"},{"key":"ref90","article-title":"MinAtar: An Atari-inspired testbed for thorough and reproducible reinforcement learning experiments","author":"Young","year":"2019"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1109\/COMPANION.2017.8287078"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.1109\/INFOCOM48880.2022.9796732"}],"container-title":["IEEE Transactions on Human-Machine Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6221037\/10766051\/10723089.pdf?arnumber=10723089","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,27]],"date-time":"2024-11-27T01:02:00Z","timestamp":1732669320000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10723089\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12]]},"references-count":92,"journal-issue":{"issue":"6"},"URL":"https:\/\/doi.org\/10.1109\/thms.2024.3467370","relation":{},"ISSN":["2168-2291","2168-2305"],"issn-type":[{"value":"2168-2291","type":"print"},{"value":"2168-2305","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,12]]}}}