{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,12]],"date-time":"2026-06-12T03:44:57Z","timestamp":1781235897868,"version":"3.54.1"},"reference-count":43,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018,5]]},"DOI":"10.1109\/icra.2018.8463189","type":"proceedings-article","created":{"date-parts":[[2018,9,21]],"date-time":"2018-09-21T22:28:03Z","timestamp":1537568883000},"page":"7559-7566","source":"Crossref","is-referenced-by-count":466,"title":["Neural Network Dynamics for Model-Based Deep Reinforcement Learning with Model-Free Fine-Tuning"],"prefix":"10.1109","author":[{"given":"Anusha","family":"Nagabandi","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Gregory","family":"Kahn","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ronald S.","family":"Fearing","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Sergey","family":"Levine","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref39","article-title":"Iterative linear quadratic regulator design for nonlinear biological movement systems","author":"li","year":"2004","journal-title":"ICINCO"},{"key":"ref38","article-title":"A survey of numerical methods for optimal control","author":"rao","year":"2009","journal-title":"Advances in the Astronautical Sciences"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/1390156.1390278"},{"key":"ref32","article-title":"Dyna, an integrated architecture for learning, planning, and reacting","author":"sutton","year":"1991","journal-title":"AAAI"},{"key":"ref31","article-title":"Improving PILCO with bayesian neural network dynamics models","author":"gal","year":"2016","journal-title":"Data-Efficient Machine Learning workshop"},{"key":"ref30","article-title":"From pixels to torques: policy learning with deep dynamical models","author":"wahlstr\u00f6m","year":"2015","journal-title":"ICML Deep Learning Workshop"},{"key":"ref37","article-title":"Algorithms for inverse reinforcement learning","author":"ng","year":"2000","journal-title":"ICML"},{"key":"ref36","article-title":"End-to-end training of deep visuomotor policies","author":"levine","year":"2017","journal-title":"JMLR"},{"key":"ref35","article-title":"Learning continuous control policies by stochastic value gradients","author":"heess","year":"2015","journal-title":"NIPS"},{"key":"ref34","author":"asadi","year":"2015","journal-title":"Strengths weaknesses and combinations of model-based and model-free reinforcement learning"},{"key":"ref10","article-title":"Prediction and control with temporal segment models","author":"mishra","year":"2017","journal-title":"ICML"},{"key":"ref40","article-title":"A reduction of imitation learning and structured prediction to no-regret online learning","author":"ross","year":"2011","journal-title":"AISTATS"},{"key":"ref11","author":"richards","year":"2004","journal-title":"Robust constrained model predictive control"},{"key":"ref12","article-title":"Reinforcement learning in robotics: A survey","author":"kober","year":"2013","journal-title":"IJRR"},{"key":"ref13","doi-asserted-by":"crossref","DOI":"10.1038\/nature14236","article-title":"Human-level control through deep reinforcement learning","author":"mnih","year":"2015","journal-title":"Nature"},{"key":"ref14","article-title":"Continuous control with deep reinforcement learning","author":"lillicrap","year":"2016","journal-title":"ICRL"},{"key":"ref15","article-title":"Asynchronous methods for deep reinforcement learning","author":"mnih","year":"2016","journal-title":"ICML"},{"key":"ref16","article-title":"High-dimensional continuous control using generalized advantage estimation","author":"schulman","year":"2016","journal-title":"ICLRE"},{"key":"ref17","article-title":"Q-Prop: sample-efficient policy gradient with an off-policy critic","author":"gu","year":"2017","journal-title":"ICLRE"},{"key":"ref18","article-title":"Minimax differential dynamic programming: An application to robust biped walking","author":"morimoto","year":"2003","journal-title":"NIPS"},{"key":"ref19","article-title":"Learning legged swimming gaits from experience","author":"meger","year":"2015","journal-title":"ICRA"},{"key":"ref28","author":"bekey","year":"1992","journal-title":"Neural Networks in Robotics"},{"key":"ref4","article-title":"A survey on policy search for robotics","author":"deisenroth","year":"2013","journal-title":"Foundations and Trends in Robotics"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1016\/0005-1098(92)90053-I"},{"key":"ref3","article-title":"Trust region policy optimization","author":"schulman","year":"2015","journal-title":"ICML"},{"key":"ref6","article-title":"A model-based and data-efficient approach to policy search","author":"deisenroth","year":"2011","journal-title":"ICML"},{"key":"ref29","article-title":"Embed to control: a locally linear latent dynamics model for control from raw images","author":"watter","year":"2015","journal-title":"NIPS"},{"key":"ref5","article-title":"Sample-based information-theoretic stochastic optimal control","author":"lioutikov","year":"2014","journal-title":"ICRA"},{"key":"ref8","article-title":"Mujoco: A physics engine for model-based control","author":"todorov","year":"2012","journal-title":"IROS"},{"key":"ref7","author":"brockman","year":"2016","journal-title":"OpenAI Gym"},{"key":"ref2","article-title":"Control of memory, active perception, and action in minecraft","author":"oh","year":"2016","journal-title":"ICML"},{"key":"ref9","article-title":"Continuous deep Q-learning with model-based acceleration","author":"gu","year":"2016","journal-title":"ICML"},{"key":"ref1","article-title":"Playing Atari with deep reinforcement learning","author":"mnih","year":"2013","journal-title":"NIPS *2010 Workshop on Deep Learning"},{"key":"ref20","author":"deisenroth","year":"2011","journal-title":"Learning to control a low-cost manipulator using data-efficient reinforcement learning"},{"key":"ref22","article-title":"GP-BayesFilters: Bayesisn filtering using gaussian process prediction and observation models","author":"ko","year":"2008","journal-title":"IROS"},{"key":"ref21","article-title":"Approximate real-time optimal control based on sparse gaussian process models","author":"boedecker","year":"2014","journal-title":"Adprl"},{"key":"ref42","article-title":"Benchmarking deep reinforcement learning for continuous control","author":"duan","year":"2016","journal-title":"ICML"},{"key":"ref24","doi-asserted-by":"crossref","DOI":"10.1109\/TRO.2014.2309194","article-title":"Model-less feedback control of continuum manipulators in constrained environments","author":"yip","year":"2014","journal-title":"IEEE Transactions on Robotics"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/TSMCC.2012.2218595"},{"key":"ref23","article-title":"Learning neural network policies with guided policy search under unknown dynamics","author":"levine","year":"2014","journal-title":"NIPS"},{"key":"ref26","article-title":"Toward fast policy search for learning legged locomotion","author":"deisenroth","year":"2012","journal-title":"IROS"},{"key":"ref43","article-title":"Adam: A method for stochastic optimization","author":"kingma","year":"2014","journal-title":"ICLRE"},{"key":"ref25","doi-asserted-by":"crossref","DOI":"10.1109\/TRO.2011.2159412","article-title":"Learning stable nonlinear dynamical systems with gaussian mixture models","author":"khansari-zadeh","year":"2011","journal-title":"IEEE Transactions on Robotics"}],"event":{"name":"2018 IEEE International Conference on Robotics and Automation (ICRA)","location":"Brisbane, QLD","start":{"date-parts":[[2018,5,21]]},"end":{"date-parts":[[2018,5,25]]}},"container-title":["2018 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/8449910\/8460178\/08463189.pdf?arnumber=8463189","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,8,23]],"date-time":"2020-08-23T23:27:40Z","timestamp":1598225260000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8463189\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,5]]},"references-count":43,"URL":"https:\/\/doi.org\/10.1109\/icra.2018.8463189","relation":{},"subject":[],"published":{"date-parts":[[2018,5]]}}}