{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,13]],"date-time":"2026-01-13T03:26:42Z","timestamp":1768274802323,"version":"3.49.0"},"reference-count":40,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"10","funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61303108"],"award-info":[{"award-number":["61303108"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE\/CAA J. Autom. Sinica"],"published-print":{"date-parts":[[2021,10]]},"DOI":"10.1109\/jas.2021.1004141","type":"journal-article","created":{"date-parts":[[2021,7,27]],"date-time":"2021-07-27T20:00:30Z","timestamp":1627416030000},"page":"1686-1696","source":"Crossref","is-referenced-by-count":26,"title":["Hierarchical Reinforcement Learning With Automatic Sub-Goal Identification"],"prefix":"10.1109","volume":"8","author":[{"given":"Chenghao","family":"Liu","sequence":"first","affiliation":[]},{"given":"Fei","family":"Zhu","sequence":"additional","affiliation":[]},{"given":"Quan","family":"Liu","sequence":"additional","affiliation":[]},{"given":"Yuchen","family":"Fu","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1093\/beheco\/ark016"},{"key":"ref38","first-page":"8356","article-title":"Transfer learning with neural automl","author":"wong","year":"2018","journal-title":"Advances in neural information processing systems"},{"key":"ref33","first-page":"2944","article-title":"Learning continuous control policies by stochastic value gradients","author":"heess","year":"2015","journal-title":"Advances in neural information processing systems"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1016\/j.swevo.2016.01.005"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1287\/moor.2017.0928"},{"key":"ref30","first-page":"2396","article-title":"Meta-gradient reinforcement learning","author":"xu","year":"2018","journal-title":"Advances in neural information processing systems"},{"key":"ref37","doi-asserted-by":"crossref","first-page":"492","DOI":"10.1016\/j.patcog.2016.07.042","article-title":"Discriminative sparse flexible manifold embedding with novel graph for robust visual representation and label propagation","volume":"61","author":"zhao","year":"2017","journal-title":"Pattern Recognition"},{"key":"ref36","first-page":"1726","article-title":"The option-critic architecture","author":"bacon","year":"0","journal-title":"Proc 31st AAAI Conf Artificial Intelligence"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-32375-1_2"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1016\/j.cobeha.2014.10.004"},{"key":"ref10","first-page":"2923","article-title":"Hierarchical imitation and reinforcement learning","author":"le","year":"0","journal-title":"Proc Int Conf Machine Learning"},{"key":"ref40","first-page":"1","article-title":"Using the student's t-test with extremely small sample sizes","volume":"18","author":"de winter","year":"2013","journal-title":"Practical Assessment Research & Evaluation"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1145\/3072959.3073602"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.330110009"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TCBB.2018.2830357"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2019.2891792"},{"key":"ref15","first-page":"5392","article-title":"Hybrid reward architecture for reinforcement learning","author":"van seijen","year":"2017","journal-title":"Advances in neural information processing systems"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TIFS.2016.2607701"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TMI.2016.2528162"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4899-7687-1_363"},{"key":"ref19","author":"parr","year":"1998","journal-title":"Hierarchical control and learning for Markov decision processes"},{"key":"ref28","first-page":"617","article-title":"Model-based reinforcement learning via meta-policy optimization","author":"clavera","year":"0","journal-title":"Proc Conf Robot Learning"},{"key":"ref4","first-page":"1","article-title":"Prioritized experience replay","author":"schaul","year":"0","journal-title":"Proc Advances in Int Conf Learning Representations"},{"key":"ref27","first-page":"166","article-title":"Modular multitask reinforcement learning with policy sketches","author":"andreas","year":"0","journal-title":"Proc 34th Int Conf Machine Learning-Volume 70 2017"},{"key":"ref3","first-page":"2094","article-title":"Deep reinforcement learning with double q-learning","author":"van hasselt","year":"0","journal-title":"Proc 30th AAAI Conf Artificial Intelligence"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1016\/S0004-3702(99)00052-1"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-67558-9_28"},{"key":"ref5","first-page":"1995","article-title":"Dueling network architectures for deep reinforcement learning","author":"wang","year":"0","journal-title":"Proc Int Conf Machine Learning"},{"key":"ref8","first-page":"5048","article-title":"Hindsight experience replay","author":"andrychowicz","year":"2017","journal-title":"Advances in neural information processing systems"},{"key":"ref7","first-page":"3675","article-title":"Hierarchical deep reinforcement learning: Integrating temporal abstraction and intrinsic motivation","author":"kulkarni","year":"2016","journal-title":"Advances in neural information processing systems"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1038\/nature14236"},{"key":"ref9","first-page":"1","article-title":"Stochastic neural networks for hierarchical reinforcement learning","author":"florensa","year":"0","journal-title":"Proc Advances in Int Conf Learning Representations"},{"key":"ref1","author":"sutton","year":"2018","journal-title":"Reinforcement Learning An Introduction"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2019\/458"},{"key":"ref22","doi-asserted-by":"crossref","first-page":"3630","DOI":"10.1109\/LRA.2018.2855265","article-title":"Singularity resolution in equality and inequality constrained hierarchical task-space control by adaptive non-linear least-squares","volume":"3","author":"kai","year":"2018","journal-title":"IEEE l of Robotics and Automation"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1613\/jair.639"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.2298\/CSIS160210015F"},{"key":"ref23","first-page":"10","article-title":"State abstractions for lifelong reinforcement learning","author":"abel","year":"0","journal-title":"Proc Int Conf Machine Learning"},{"key":"ref26","first-page":"3303","article-title":"Data-efficient hierarchical reinforcement learning","author":"nachum","year":"2018","journal-title":"Advances in neural information processing systems"},{"key":"ref25","first-page":"9816","article-title":"Adaptive skip intervals: Temporal abstraction for recurrent dynamical models","author":"neitz","year":"2018","journal-title":"Advances in neural information processing systems"}],"container-title":["IEEE\/CAA Journal of Automatica Sinica"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6570654\/9497871\/09497876.pdf?arnumber=9497876","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2021,11,1]],"date-time":"2021-11-01T19:57:42Z","timestamp":1635796662000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9497876\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,10]]},"references-count":40,"journal-issue":{"issue":"10"},"URL":"https:\/\/doi.org\/10.1109\/jas.2021.1004141","relation":{},"ISSN":["2329-9266","2329-9274"],"issn-type":[{"value":"2329-9266","type":"print"},{"value":"2329-9274","type":"electronic"}],"subject":[],"published":{"date-parts":[[2021,10]]}}}