{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,9,7]],"date-time":"2024-09-07T06:55:04Z","timestamp":1725692104474},"publisher-location":"Berlin, Heidelberg","reference-count":12,"publisher":"Springer Berlin Heidelberg","isbn-type":[{"type":"print","value":"9783642366680"},{"type":"electronic","value":"9783642366697"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2013]]},"DOI":"10.1007\/978-3-642-36669-7_89","type":"book-chapter","created":{"date-parts":[[2013,2,6]],"date-time":"2013-02-06T01:53:35Z","timestamp":1360115615000},"page":"735-742","source":"Crossref","is-referenced-by-count":0,"title":["A Hierarchical Representation Policy Iteration Algorithm for Reinforcement Learning"],"prefix":"10.1007","author":[{"given":"Jian","family":"Wang","sequence":"first","affiliation":[]},{"given":"Lei","family":"Zuo","sequence":"additional","affiliation":[]},{"given":"Jian","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Xin","family":"Xu","sequence":"additional","affiliation":[]},{"given":"Chun","family":"Li","sequence":"additional","affiliation":[]}],"member":"297","reference":[{"key":"89_CR1","volume-title":"Reinforcement Learning: An Introduction","author":"R.S. Sutton","year":"1998","unstructured":"Sutton, R.S., Barto, A.G.: Reinforcement Learning: An Introduction. The MIT Press, Cambridge (1998)"},{"key":"89_CR2","unstructured":"Sutton, R.S.: Generalization in reinforcement learning: Successful examples using sparse coarse coding. In: Neural Information Processing Systems 8. The MIT Press, Cambridge (1996)"},{"issue":"1","key":"89_CR3","doi-asserted-by":"crossref","first-page":"259","DOI":"10.1613\/jair.946","volume":"16","author":"X. Xu","year":"2002","unstructured":"Xu, X., He, H.G., Hu, D.: Efficient reinforcement learning using recursive least-squares methods. Journal of Artificial Intelligence Research\u00a016(1), 259\u2013292 (2002)","journal-title":"Journal of Artificial Intelligence Research"},{"key":"89_CR4","first-page":"1107","volume":"4","author":"M.G. Lagoudakis","year":"2003","unstructured":"Lagoudakis, M.G., Parr, R.: Least-squares policy iteration. Journal of Machine Learning Research\u00a04, 1107\u20131149 (2003)","journal-title":"Journal of Machine Learning Research"},{"issue":"4","key":"89_CR5","doi-asserted-by":"publisher","first-page":"973","DOI":"10.1109\/TNN.2007.899161","volume":"18","author":"X. Xu","year":"2007","unstructured":"Xu, X., Hu, D., Lu, X.: Kernel-based least squares policy iteration for reinforcement learning. IEEE Transactions on Neural Networks\u00a018(4), 973\u2013992 (2007)","journal-title":"IEEE Transactions on Neural Networks"},{"key":"89_CR6","first-page":"2169","volume":"8","author":"S. Mahadevan","year":"2007","unstructured":"Mahadevan, S., Maggioni, M.: Proto-value functions: A laplacian framework for learning representation and control in markov decision processes. Journal of Machine Learning Research\u00a08, 2169\u20132231 (2007)","journal-title":"Journal of Machine Learning Research"},{"key":"89_CR7","unstructured":"Xu, X., He, H.G.: Residual-gradient-based neural reinforcement learning for the optimal control of an acrobat. In: Proceedings of the 2002 IEEE International Symposium on Intelligent Control, Vancouver, Canada, pp. 758\u2013763 (2002)"},{"key":"89_CR8","doi-asserted-by":"crossref","first-page":"227","DOI":"10.1613\/jair.639","volume":"13","author":"T.G. Dietterich","year":"2000","unstructured":"Dietterich, T.G.: Hierarchical reinforcement learning with the max-q value function decomposition. Journal of Artificial Intelligence Research\u00a013, 227\u2013303 (2000)","journal-title":"Journal of Artificial Intelligence Research"},{"issue":"12","key":"89_CR9","doi-asserted-by":"publisher","first-page":"1863","DOI":"10.1109\/TNN.2011.2168422","volume":"22","author":"X. Xu","year":"2011","unstructured":"Xu, X., Liu, C., Yang, S.X., Hu, D.: Hierarchical approximate policy iteration with binary-tree state space decomposition. IEEE Transactions on Neural Networks\u00a022(12), 1863\u20131877 (2011)","journal-title":"IEEE Transactions on Neural Networks"},{"key":"89_CR10","doi-asserted-by":"publisher","first-page":"181","DOI":"10.1016\/S0004-3702(99)00052-1","volume":"112","author":"R.S. Sutton","year":"1999","unstructured":"Sutton, R.S., Precup, D., Singh, S.: Between mdps and semi-mdps: A framework for temporal abstraction in reinforcement learning. Artificial Intelligence\u00a0112, 181\u2013211 (1999)","journal-title":"Artificial Intelligence"},{"key":"89_CR11","unstructured":"Andre, D., Russell, S.J.: State abstraction for programmable reinforcement learning agents. In: Proceedings of the 18th National Conference on Artificial Intelligence, CA, pp. 119\u2013125 (2002)"},{"key":"89_CR12","doi-asserted-by":"publisher","first-page":"41","DOI":"10.1023\/A:1022140919877","volume":"13","author":"A.G. Barto","year":"2003","unstructured":"Barto, A.G., Mahadevan, S.: Recent advances in hierarchical reinforcement learning. Discrete Event Dynamic Systems: Theory and Applications\u00a013, 41\u201347 (2003)","journal-title":"Discrete Event Dynamic Systems: Theory and Applications"}],"container-title":["Lecture Notes in Computer Science","Intelligent Science and Intelligent Data Engineering"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-642-36669-7_89","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2018,10,9]],"date-time":"2018-10-09T10:35:55Z","timestamp":1539081355000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-642-36669-7_89"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2013]]},"ISBN":["9783642366680","9783642366697"],"references-count":12,"URL":"https:\/\/doi.org\/10.1007\/978-3-642-36669-7_89","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2013]]}}}