{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,25]],"date-time":"2025-03-25T15:06:07Z","timestamp":1742915167203,"version":"3.40.3"},"publisher-location":"Berlin, Heidelberg","reference-count":9,"publisher":"Springer Berlin Heidelberg","isbn-type":[{"type":"print","value":"9783642259432"},{"type":"electronic","value":"9783642259449"}],"license":[{"start":{"date-parts":[[2012,1,1]],"date-time":"2012-01-01T00:00:00Z","timestamp":1325376000000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2012]]},"DOI":"10.1007\/978-3-642-25944-9_24","type":"book-chapter","created":{"date-parts":[[2012,1,3]],"date-time":"2012-01-03T01:15:12Z","timestamp":1325553312000},"page":"183-188","source":"Crossref","is-referenced-by-count":1,"title":["Actor-Critic Algorithm Based on Incremental Least-Squares Temporal Difference with Eligibility Trace"],"prefix":"10.1007","author":[{"given":"Yuhu","family":"Cheng","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Huanting","family":"Feng","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xuesong","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","reference":[{"key":"24_CR1","volume-title":"Reinforcement Learning: An Introduction","author":"R.S. Sutton","year":"1998","unstructured":"Sutton, R.S., Barto, A.G.: Reinforcement Learning: An Introduction. MIT Press, Cambridge (1998)"},{"issue":"1","key":"24_CR2","first-page":"9","volume":"3","author":"R.S. Sutton","year":"1988","unstructured":"Sutton, R.S.: Learning to Predict by the Method of Temporal Differences. Machine Learning\u00a03(1), 9\u201344 (1988)","journal-title":"Machine Learning"},{"issue":"11","key":"24_CR3","doi-asserted-by":"publisher","first-page":"2471","DOI":"10.1016\/j.automatica.2009.07.008","volume":"45","author":"S. Bhatnagar","year":"2009","unstructured":"Bhatnagar, S., Bowling, M., Lee, M., et al.: Natural-gradient Actor-critic Algorithms. Automatica\u00a045(11), 2471\u20132482 (2009)","journal-title":"Automatica"},{"key":"24_CR4","first-page":"105","volume-title":"Proceedings of Advances in Neural Information Processing Systems","author":"S. Bhatnagar","year":"2007","unstructured":"Bhatnagar, S., Sutton, R.S., Ghavamzadeh, H., Lee, M.: Incremental Natural Actor-critic Algorithms. In: Proceedings of Advances in Neural Information Processing Systems, Vancouver, Canada, pp. 105\u2013112. The MIT Press, Cambridge (2007)"},{"issue":"1-3","key":"24_CR5","doi-asserted-by":"publisher","first-page":"33","DOI":"10.1007\/BF00114723","volume":"22","author":"S.J. Bradtke","year":"1996","unstructured":"Bradtke, S.J., Barto, A.G.: Linear Least-squares Algorithms for Temporal Difference Learning. Machine Learning\u00a022(1-3), 33\u201357 (1996)","journal-title":"Machine Learning"},{"issue":"2-3","key":"24_CR6","doi-asserted-by":"publisher","first-page":"233","DOI":"10.1023\/A:1017936530646","volume":"49","author":"J.A. Boyan","year":"2002","unstructured":"Boyan, J.A.: Technical update: Least-squares Temporal Difference Learning. Machine Learning\u00a049(2-3), 233\u2013246 (2002)","journal-title":"Machine Learning"},{"key":"24_CR7","first-page":"826","volume-title":"Proceedings of Advances in Neural Information Processing Systems","author":"A. Geramifard","year":"2006","unstructured":"Geramifard, A., Bowling, M., Zinkevich, M., Sutton, R.S.: iLSTD: Eligibility Traces and Convergence Analysis. In: Proceedings of Advances in Neural Information Processing Systems, Vancouver, Canada, pp. 826\u2013833. The MIT Press, Cambridge (2006)"},{"key":"24_CR8","first-page":"1057","volume-title":"Proceedings of Advances in Neural Information Processing Systems","author":"R.S. Sutton","year":"1999","unstructured":"Sutton, R.S., McAllester, D., Singh, S., Mansour, Y.: Policy Gradient Methods for Reinforcement Learning with Function Approximation. In: Proceedings of Advances in Neural Information Processing Systems, Denver, USA, pp. 1057\u20131063. The MIT Press, Cambridge (1999)"},{"issue":"7-9","key":"24_CR9","doi-asserted-by":"publisher","first-page":"1180","DOI":"10.1016\/j.neucom.2007.11.026","volume":"71","author":"J. Peters","year":"2008","unstructured":"Peters, J., Schaal, S.: Natural Actor-critic. Neurocomputing\u00a071(7-9), 1180\u20131190 (2008)","journal-title":"Neurocomputing"}],"container-title":["Lecture Notes in Computer Science","Advanced Intelligent Computing Theories and Applications. With Aspects of Artificial Intelligence"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-642-25944-9_24","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,4,23]],"date-time":"2019-04-23T17:43:50Z","timestamp":1556041430000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-642-25944-9_24"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2012]]},"ISBN":["9783642259432","9783642259449"],"references-count":9,"URL":"https:\/\/doi.org\/10.1007\/978-3-642-25944-9_24","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2012]]}}}