{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,19]],"date-time":"2025-11-19T14:48:36Z","timestamp":1763563716855},"publisher-location":"Berlin, Heidelberg","reference-count":17,"publisher":"Springer Berlin Heidelberg","isbn-type":[{"type":"print","value":"9783540874805"},{"type":"electronic","value":"9783540874812"}],"license":[{"start":{"date-parts":[[2008,1,1]],"date-time":"2008-01-01T00:00:00Z","timestamp":1199145600000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2008]]},"DOI":"10.1007\/978-3-540-87481-2_6","type":"book-chapter","created":{"date-parts":[[2008,8,13]],"date-time":"2008-08-13T23:30:46Z","timestamp":1218670246000},"page":"82-97","source":"Crossref","is-referenced-by-count":3,"title":["A New Natural Policy Gradient by Stationary Distribution Metric"],"prefix":"10.1007","author":[{"given":"Tetsuro","family":"Morimura","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Eiji","family":"Uchibe","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Junichiro","family":"Yoshimoto","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kenji","family":"Doya","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","reference":[{"issue":"2","key":"6_CR1","doi-asserted-by":"publisher","first-page":"251","DOI":"10.1162\/089976698300017746","volume":"10","author":"S. Amari","year":"1998","unstructured":"Amari, S.: Natural gradient works efficiently in learning. Neural Computation\u00a010(2), 251\u2013276 (1998)","journal-title":"Neural Computation"},{"key":"6_CR2","volume-title":"Advances in Neural Information Processing Systems","author":"S. Kakade","year":"2002","unstructured":"Kakade, S.: A natural policy gradient. In: Advances in Neural Information Processing Systems, vol.\u00a014. MIT Press, Cambridge (2002)"},{"key":"6_CR3","first-page":"229","volume":"8","author":"R.J. Williams","year":"1992","unstructured":"Williams, R.J.: Simple statistical gradient-following algorithms for connectionist reinforcement learning. Machine Learning\u00a08, 229\u2013256 (1992)","journal-title":"Machine Learning"},{"key":"6_CR4","unstructured":"Kimura, H., Miyazaki, K., Kobayashi, S.: Reinforcement learning in pomdps with function approximation. In: International Conference on Machine Learning, pp. 152\u2013160 (1997)"},{"key":"6_CR5","doi-asserted-by":"publisher","first-page":"319","DOI":"10.1016\/S0954-1810(01)00028-0","volume":"15","author":"J. Baxter","year":"2001","unstructured":"Baxter, J., Bartlett, P.: Infinite-horizon policy-gradient estimation. Journal of Artificial Intelligence Research\u00a015, 319\u2013350 (2001)","journal-title":"Journal of Artificial Intelligence Research"},{"issue":"3","key":"6_CR6","doi-asserted-by":"publisher","first-page":"317","DOI":"10.1016\/S0893-6080(00)00009-5","volume":"13","author":"K. Fukumizu","year":"2000","unstructured":"Fukumizu, K., Amari, S.: Local minima and plateaus in hierarchical structures of multilayer perceptrons. Neural Networks\u00a013(3), 317\u2013327 (2000)","journal-title":"Neural Networks"},{"key":"6_CR7","unstructured":"Morimura, T., Uchibe, E., Doya, K.: Utilizing natural gradient in temporal difference reinforcement learning with eligibility traces. In: International Symposium on Information Geometry and its Applications, pp. 256\u2013263 (2005)"},{"key":"6_CR8","doi-asserted-by":"crossref","unstructured":"Peters, J., Vijayakumar, S., Schaal, S.: Natural actor-critic. In: European Conference on Machine Learning (2005)","DOI":"10.1007\/11564096_29"},{"key":"6_CR9","volume-title":"Advances in Neural Information Processing Systems","author":"S. Richter","year":"2007","unstructured":"Richter, S., Aberdeen, D., Yu, J.: Natural actor-critic for road traffic optimisation. In: Advances in Neural Information Processing Systems. MIT Press, Cambridge (2007)"},{"key":"6_CR10","unstructured":"Bertsekas, D.P.: Dynamic Programming and Optimal Control, vol. 1, 2. Athena Scientific (1995)"},{"key":"6_CR11","volume-title":"Reinforcement Learning","author":"R.S. Sutton","year":"1998","unstructured":"Sutton, R.S., Barto, A.G.: Reinforcement Learning. MIT Press, Cambridge (1998)"},{"key":"6_CR12","volume-title":"Method of Information Geometry","author":"S. Amari","year":"2000","unstructured":"Amari, S., Nagaoka, H.: Method of Information Geometry. Oxford University Press, Oxford (2000)"},{"key":"6_CR13","unstructured":"Bagnell, D., Schneider, J.: Covariant policy search. In: Proceedings of the International Joint Conference on Artificial Intelligence (July 2003)"},{"key":"6_CR14","unstructured":"Peters, J., Vijayakumar, S., Schaal, S.: Reinforcement learning for humanoid robotics. In: IEEE-RAS International Conference on Humanoid Robots (2003)"},{"key":"6_CR15","volume-title":"Numerical Optimization","author":"J. Nocedal","year":"2006","unstructured":"Nocedal, J., Wright, S.J.: Numerical Optimization. Springer, Heidelberg (2006)"},{"key":"6_CR16","unstructured":"Morimura, T., Uchibe, E., Yoshimoto, J., Doya, K.: Reinforcement learning with log stationary distribution gradient. Technical report, Nara Institute of Science and Technology (2007)"},{"issue":"6","key":"6_CR17","doi-asserted-by":"publisher","first-page":"1399","DOI":"10.1162\/089976600300015420","volume":"12","author":"S. Amari","year":"2000","unstructured":"Amari, S., Park, H., Fukumizu, K.: Adaptive method of realizing natural gradient learning for multilayer perceptrons. Neural Computation\u00a012(6), 1399\u20131409 (2000)","journal-title":"Neural Computation"}],"container-title":["Lecture Notes in Computer Science","Machine Learning and Knowledge Discovery in Databases"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-540-87481-2_6","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,5,19]],"date-time":"2019-05-19T15:29:15Z","timestamp":1558279755000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-540-87481-2_6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2008]]},"ISBN":["9783540874805","9783540874812"],"references-count":17,"URL":"https:\/\/doi.org\/10.1007\/978-3-540-87481-2_6","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2008]]}}}