{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,4,6]],"date-time":"2025-04-06T04:04:17Z","timestamp":1743912257679,"version":"3.40.3"},"publisher-location":"Berlin, Heidelberg","reference-count":22,"publisher":"Springer Berlin Heidelberg","isbn-type":[{"type":"print","value":"9783642313455"},{"type":"electronic","value":"9783642313462"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2012]]},"DOI":"10.1007\/978-3-642-31346-2_60","type":"book-chapter","created":{"date-parts":[[2012,7,21]],"date-time":"2012-07-21T02:42:07Z","timestamp":1342838527000},"page":"533-544","source":"Crossref","is-referenced-by-count":0,"title":["A Rapid Sparsification Method for Kernel Machines in Approximate Policy Iteration"],"prefix":"10.1007","author":[{"given":"Chunming","family":"Liu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhenhua","family":"Huang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xin","family":"Xu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lei","family":"Zuo","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jun","family":"Wu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","reference":[{"key":"60_CR1","volume-title":"Reinforcement Learning. Introduction","author":"R. Sutton","year":"1998","unstructured":"Sutton, R., Barto, A.: Reinforcement Learning. Introduction. MIT Press, Cambridge (1998)"},{"key":"60_CR2","doi-asserted-by":"crossref","first-page":"237","DOI":"10.1613\/jair.301","volume":"4","author":"L.P. Kaelbling","year":"1996","unstructured":"Kaelbling, L.P., Littman, M.L., Moore, A.W.: Reinforcement learning: a survey. Journal of Artificial Intelligence Research\u00a04, 237\u2013285 (1996)","journal-title":"Journal of Artificial Intelligence Research"},{"issue":"4","key":"60_CR3","doi-asserted-by":"publisher","first-page":"973","DOI":"10.1109\/TNN.2007.899161","volume":"18","author":"X. Xu","year":"2007","unstructured":"Xu, X., Hu, D.W., Lu, X.C.: Kernel based least-squares policy iteration. IEEE Transactions on Neural Networks\u00a018(4), 973\u2013992 (2007)","journal-title":"IEEE Transactions on Neural Networks"},{"key":"60_CR4","volume-title":"Neurodynamic Programming","author":"D.P. Bertsekas","year":"1996","unstructured":"Bertsekas, D.P., Tsitsiklis, J.N.: Neurodynamic Programming. Athena Scientific, Belmont (1996)"},{"issue":"4","key":"60_CR5","doi-asserted-by":"publisher","first-page":"875","DOI":"10.1109\/72.935097","volume":"12","author":"J. Moody","year":"2001","unstructured":"Moody, J., Saffell, M.: Learning to trade via direct reinforcement. IEEE Transactions on Neural Networks\u00a012(4), 875\u2013889 (2001)","journal-title":"IEEE Transactions on Neural Networks"},{"key":"60_CR6","doi-asserted-by":"crossref","first-page":"319","DOI":"10.1613\/jair.806","volume":"15","author":"J. Baxter","year":"2001","unstructured":"Baxter, J., Bartlett, P.L.: Infinite-horizon policy-gradient estimation. Journal of Artificial Intelligence Research\u00a015, 319\u2013350 (2001)","journal-title":"Journal of Artificial Intelligence Research"},{"key":"60_CR7","first-page":"835","volume":"13","author":"A.G. Barto","year":"1983","unstructured":"Barto, A.G., Sutton, R.S., Anderson, C.W.: Neuronlike adaptive elements that can solve difficult learning control problems. IEEE Transactions on System, Man, and Cybernetics\u00a013, 835\u2013846 (1983)","journal-title":"IEEE Transactions on System, Man, and Cybernetics"},{"key":"60_CR8","unstructured":"Konda, V.R., Tsitsiklis, J.N.: Actor-Critic Algorithm. In: Advances in Neural Information Processing Systems. MIT Press (2000)"},{"key":"60_CR9","doi-asserted-by":"crossref","first-page":"259","DOI":"10.1613\/jair.946","volume":"16","author":"X. Xu","year":"2002","unstructured":"Xu, X., He, H.G., Hu, D.W.: Efficient reinforcement learning using recursive least-squares methods. Journal of Artificial Intelligence Research\u00a016, 259\u2013292 (2002)","journal-title":"Journal of Artificial Intelligence Research"},{"issue":"2-3","key":"60_CR10","doi-asserted-by":"publisher","first-page":"233","DOI":"10.1023\/A:1017936530646","volume":"49","author":"J. Boyan","year":"2002","unstructured":"Boyan, J.: Technical update: least-squares temporal difference learning. Machine Learning\u00a049(2-3), 233\u2013246 (2002)","journal-title":"Machine Learning"},{"issue":"2-3","key":"60_CR11","doi-asserted-by":"publisher","first-page":"235","DOI":"10.1023\/A:1007518724497","volume":"33","author":"R.H. Crites","year":"1998","unstructured":"Crites, R.H., Barto, A.G.: Elevator group control using multiple reinforcement learning agents. Machine Learning\u00a033(2-3), 235\u2013262 (1998)","journal-title":"Machine Learning"},{"key":"60_CR12","doi-asserted-by":"publisher","first-page":"215","DOI":"10.1162\/neco.1994.6.2.215","volume":"6","author":"G. Tesauro","year":"1994","unstructured":"Tesauro, G.: TD-Gammon, a self-teaching backgammon program, achieves master-level play. Neural Computation\u00a06, 215\u2013219 (1994)","journal-title":"Neural Computation"},{"key":"60_CR13","unstructured":"Zhang, W., Dietterich, T.: A reinforcement learning approach to job-shop scheduling. In: Proceedings of the Fourteenth International Joint Conference on Artificial Intelligence, pp. 1114\u20131120. Morgan Kaufmann (1995)"},{"key":"60_CR14","first-page":"1107","volume":"4","author":"M.G. Lagoudakis","year":"2003","unstructured":"Lagoudakis, M.G., Parr, P.: Least-squares policy iteration. Journal of Machine Learning Research\u00a04, 1107\u20131149 (2003)","journal-title":"Journal of Machine Learning Research"},{"key":"60_CR15","doi-asserted-by":"publisher","DOI":"10.1002\/9780470316887","volume-title":"Markov Decision Processes: discrete stochastic dynamic programming","author":"M.L. Puterman","year":"1994","unstructured":"Puterman, M.L.: Markov Decision Processes: discrete stochastic dynamic programming. John Wiley &. Sons, Inc., New York (1994)"},{"key":"60_CR16","volume-title":"Statistical Learning Theory","author":"V. Vapnik","year":"1998","unstructured":"Vapnik, V.: Statistical Learning Theory. Wiley Interscience, NewYork (1998)"},{"issue":"8","key":"60_CR17","doi-asserted-by":"publisher","first-page":"2275","DOI":"10.1109\/TSP.2004.830985","volume":"52","author":"Y. Engel","year":"2004","unstructured":"Engel, Y., Mannor, S., Meir, R.: The kernel recursive least-squares algorithm. IEEE Transactions on Signal Processing\u00a052(8), 2275\u20132285 (2004)","journal-title":"IEEE Transactions on Signal Processing"},{"key":"60_CR18","doi-asserted-by":"crossref","unstructured":"Hauser, J., Murray, R.M.: Nonlinear controllers for non-integratable systems: the acrobot example. In: Proceedings of American Control Conference, San Diego, USA, pp. 669\u2013671 (1990)","DOI":"10.23919\/ACC.1990.4790817"},{"key":"60_CR19","doi-asserted-by":"crossref","unstructured":"Bortoff, S., Spong, M.W.: Psedolinearization of the acrobot using spline functions. In: Proceedings of the IEEE Conference on Decision and Control, Teuson, Arizona, pp. 593\u2013598 (1992)","DOI":"10.1109\/CDC.1992.371658"},{"issue":"1","key":"60_CR20","doi-asserted-by":"publisher","first-page":"49","DOI":"10.1109\/37.341864","volume":"15","author":"M.W. Spong","year":"1995","unstructured":"Spong, M.W.: The swing up control problem for the acrobot. IEEE Control System Magazine\u00a015(1), 49\u201355 (1995)","journal-title":"IEEE Control System Magazine"},{"key":"60_CR21","unstructured":"Xu, X., He, H.G.: Residual-gradient-based neural reinforcement learning for the optimal control of an acrobot. In: Proceedings of the IEEE International Symposium on Intelligent Control, Vancouver, Canada, pp. 758\u2013763 (October 2002)"},{"key":"60_CR22","unstructured":"Sutton, R.: Generalization in reinforcement learning: successful examples using sparse coarse coding. In: Advances in Neural Information Processing Systems 8, pp. 1038\u20131044. MIT Press (1996)"}],"container-title":["Lecture Notes in Computer Science","Advances in Neural Networks \u2013 ISNN 2012"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-642-31346-2_60","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,4,5]],"date-time":"2025-04-05T04:27:03Z","timestamp":1743827223000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-642-31346-2_60"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2012]]},"ISBN":["9783642313455","9783642313462"],"references-count":22,"URL":"https:\/\/doi.org\/10.1007\/978-3-642-31346-2_60","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2012]]}}}