{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,11]],"date-time":"2026-05-11T11:23:14Z","timestamp":1778498594808,"version":"3.51.4"},"reference-count":23,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2017,5]]},"DOI":"10.1109\/icra.2017.7989202","type":"proceedings-article","created":{"date-parts":[[2017,7,25]],"date-time":"2017-07-25T21:44:28Z","timestamp":1501019068000},"page":"1714-1721","source":"Crossref","is-referenced-by-count":332,"title":["Information theoretic MPC for model-based reinforcement learning"],"prefix":"10.1109","author":[{"given":"Grady","family":"Williams","sequence":"first","affiliation":[]},{"given":"Nolan","family":"Wagener","sequence":"additional","affiliation":[]},{"given":"Brian","family":"Goldfain","sequence":"additional","affiliation":[]},{"given":"Paul","family":"Drews","sequence":"additional","affiliation":[]},{"given":"James M.","family":"Rehg","sequence":"additional","affiliation":[]},{"given":"Byron","family":"Boots","sequence":"additional","affiliation":[]},{"given":"Evangelos A.","family":"Theodorou","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2015.XI.012"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2016.7487277"},{"key":"ref12","doi-asserted-by":"crossref","DOI":"10.1609\/icaps.v26i1.13789","article-title":"Real-Time stochastic optimal control for multi-agent quadrotor systems","author":"g\u00f3mez","year":"2016","journal-title":"Proceedings of the 26th International Conference on Automated Planning and Scheduling (ICAPS'16)"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.2514\/1.G001921"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1016\/S0967-0661(02)00186-7"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1016\/j.automatica.2014.10.128"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/HUMANOIDS.2013.7029990"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.2012.6426381"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1137\/14096493X"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1145\/1273496.1273590"},{"key":"ref4","first-page":"849","article-title":"Policy search for motor primitives in robotics","volume":"21","author":"kober","year":"2009","journal-title":"Advances in neural information processing systems"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2006.282564"},{"key":"ref6","first-page":"1040","article-title":"Learning from demonstration","volume":"9","author":"schaal","year":"1997","journal-title":"Advances in neural information processing systems"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1177\/0278364910371999"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-05181-4_4"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ROBOT.1997.606886"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1016\/S0921-8890(97)00043-2"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-27645-3_18"},{"key":"ref9","article-title":"Minimax differential dynamic programming: An application to robust biped walking","volume":"15","author":"morimoto","year":"2002","journal-title":"Advances in neural information processing systems"},{"key":"ref20","first-page":"3137","article-title":"A generalized path integral control approach to reinforcement learning","volume":"11","author":"theodorou","year":"2010","journal-title":"The Journal of Machine Learning Research"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/MRA.2010.937855"},{"key":"ref21","article-title":"Lecture 6.5-RMSProp: Divide the gradient by a running average of its recent magnitude","author":"tieleman","year":"0","journal-title":"2012 COURSERA Neural Networks for Machine Learning"},{"key":"ref23","doi-asserted-by":"crossref","DOI":"10.1609\/aaai.v29i1.9590","article-title":"Improving multi-step prediction of learned time series models","author":"venkatraman","year":"2015","journal-title":"Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence"}],"event":{"name":"2017 IEEE International Conference on Robotics and Automation (ICRA)","location":"Singapore","start":{"date-parts":[[2017,5,29]]},"end":{"date-parts":[[2017,6,3]]}},"container-title":["2017 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7960754\/7988677\/07989202.pdf?arnumber=7989202","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,24]],"date-time":"2025-06-24T17:58:13Z","timestamp":1750787893000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/7989202\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,5]]},"references-count":23,"URL":"https:\/\/doi.org\/10.1109\/icra.2017.7989202","relation":{},"subject":[],"published":{"date-parts":[[2017,5]]}}}