{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,16]],"date-time":"2026-03-16T20:36:10Z","timestamp":1773693370367,"version":"3.50.1"},"reference-count":24,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2016,5]]},"DOI":"10.1109\/icra.2016.7487174","type":"proceedings-article","created":{"date-parts":[[2016,6,9]],"date-time":"2016-06-09T21:33:24Z","timestamp":1465508004000},"page":"520-527","source":"Crossref","is-referenced-by-count":53,"title":["Learning deep neural network policies with continuous memory states"],"prefix":"10.1109","author":[{"given":"Marvin","family":"Zhang","sequence":"first","affiliation":[]},{"given":"Zoe","family":"McCarthy","sequence":"additional","affiliation":[]},{"given":"Chelsea","family":"Finn","sequence":"additional","affiliation":[]},{"given":"Sergey","family":"Levine","sequence":"additional","affiliation":[]},{"given":"Pieter","family":"Abbeel","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref10","article-title":"End-to-end training of deep visuomotor policies","author":"levine","year":"2015","journal-title":"arXiv preprint arXiv 1504 00702"},{"key":"ref11","doi-asserted-by":"crossref","first-page":"663","DOI":"10.1613\/jair.2567","article-title":"Online planning algorithms for pomdps","author":"ross","year":"2008","journal-title":"Journal of Artificial Intelligence Research"},{"key":"ref12","article-title":"Continuous-state pomdps with hybrid dynamics","author":"brunskill","year":"2008","journal-title":"ISAIM"},{"key":"ref13","article-title":"On the difficulty of training recurrent neural networks","author":"pascanu","year":"2012","journal-title":"arXiv preprint arXiv 1211 5063"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1179"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2015.7138994"},{"key":"ref17","first-page":"627","article-title":"A reduction of imitation learning and structured prediction to no-regret online learning","volume":"15","author":"ross","year":"2011","journal-title":"Journal of Machine Learning Research"},{"key":"ref18","article-title":"Learning complex neural network policies with trajectory optimization","author":"levine","year":"2014","journal-title":"International Conference on Machine Learning (ICML)"},{"key":"ref19","article-title":"Covariant policy search","author":"bagnell","year":"2003","journal-title":"Int Joint Conference on Artificial Intelligence"},{"key":"ref4","first-page":"562","article-title":"Hierarchical pomdp controller optimization by likelihood maximization","author":"toussaint","year":"2008","journal-title":"Proceedings of the Conference on Uncertainty in Artificial Intelligence (UAI)"},{"key":"ref3","first-page":"307","article-title":"Learning policies with external memory","author":"peshkin","year":"2001","journal-title":"Proceedings of the Sixteenth International Conference on Machine Learning (ICML)"},{"key":"ref6","article-title":"Embed to control: A locally linear latent dynamics model for control from raw images","author":"watter","year":"2015","journal-title":"Advances in Neural Information Processing Systems (NIPS)"},{"key":"ref5","first-page":"465","article-title":"PILCO: A model-based and data-efficient approach to policy search","author":"deisenroth","year":"2011","journal-title":"Proceedings of the 28th International Conference on Machine Learning (ICML)"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-74690-4_71"},{"key":"ref7","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1561\/2300000021","article-title":"A survey on policy search for robotics","volume":"2","author":"deisenroth","year":"2013","journal-title":"Foundations and Trends in Robotics"},{"key":"ref2","first-page":"427","article-title":"Learning finite-state controllers for partially observable environments","author":"meuleau","year":"1999","journal-title":"Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence (UAI)"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1007\/s10458-012-9200-2"},{"key":"ref9","article-title":"Learning neural network policies with guided policy search under unknown dynamics","author":"levine","year":"2014"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1016\/j.neunet.2008.02.003"},{"key":"ref22","first-page":"3104","article-title":"Sequence to sequence learning with neural networks","author":"sutskever","year":"2014","journal-title":"Advances in Neural Information Processing Systems (NIPS)"},{"key":"ref21","doi-asserted-by":"crossref","DOI":"10.1609\/aaai.v24i1.7727","article-title":"Relative entropy policy search","author":"peters","year":"2010","journal-title":"AAAI Conference on Artificial Intelligence"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ROBOT.2009.5152577"},{"key":"ref23","article-title":"Applying the episodic natural actor-critic architecture to motor primitive learning","author":"peters","year":"2007","journal-title":"European Symposium on Artificial Neural Networks (ESANN)"}],"event":{"name":"2016 IEEE International Conference on Robotics and Automation (ICRA)","location":"Stockholm, Sweden","start":{"date-parts":[[2016,5,16]]},"end":{"date-parts":[[2016,5,21]]}},"container-title":["2016 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7478842\/7487087\/07487174.pdf?arnumber=7487174","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,6,17]],"date-time":"2024-06-17T13:38:58Z","timestamp":1718631538000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7487174\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2016,5]]},"references-count":24,"URL":"https:\/\/doi.org\/10.1109\/icra.2016.7487174","relation":{},"subject":[],"published":{"date-parts":[[2016,5]]}}}