{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,2]],"date-time":"2025-11-02T17:01:30Z","timestamp":1762102890429,"version":"3.28.0"},"reference-count":23,"publisher":"IEEE","license":[{"start":{"date-parts":[[2019,5,1]],"date-time":"2019-05-01T00:00:00Z","timestamp":1556668800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2019,5,1]],"date-time":"2019-05-01T00:00:00Z","timestamp":1556668800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2019,5,1]],"date-time":"2019-05-01T00:00:00Z","timestamp":1556668800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2019,5]]},"DOI":"10.1109\/icra.2019.8793630","type":"proceedings-article","created":{"date-parts":[[2019,8,12]],"date-time":"2019-08-12T21:26:12Z","timestamp":1565645172000},"page":"2440-2446","source":"Crossref","is-referenced-by-count":0,"title":["Online adaptation of uncertain models using neural network priors and partially observable planning"],"prefix":"10.1109","author":[{"given":"Akinobu","family":"Hayashi","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dirk","family":"Ruiken","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Christian","family":"Goerick","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tadaaki","family":"Hasegawa","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref10","article-title":"Combining model-based and model-free updates for trajectory-centric reinforcement learning","author":"chebotar","year":"2017","journal-title":"arXiv preprint arXiv 1703 06870"},{"key":"ref11","first-page":"1089","article-title":"A physics-based model prior for object-oriented MDPs","author":"scholz","year":"2014","journal-title":"International Conference on Machine Learning"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2008.IV.009"},{"key":"ref13","first-page":"2164","article-title":"Monte-carlo planning in large POMDPs","author":"silver","year":"2010","journal-title":"Advances in Neural Information Processing Systems (NIPS)"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2010.VI.037"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2017.XIII.048"},{"journal-title":"Mixture density networks","year":"1994","author":"bishop","key":"ref16"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref18","article-title":"Generating sequences with recurrent neural networks","author":"graves","year":"2013","journal-title":"arXiv preprint arXiv 1308 0850"},{"key":"ref19","article-title":"From virtual demonstration to real-world manipulation using LSTM and MDN","author":"rahmatizadeh","year":"2016","journal-title":"arXiv preprint arXiv 1603 02895"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2015.7139643"},{"key":"ref3","first-page":"465","article-title":"PILCO: A model-based and data-efficient approach to policy search","author":"deisenroth","year":"2011","journal-title":"Proceedings of the 28th International Conference on Machine Learning (ICML-11)"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1613\/jair.3229"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2017.7989324"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2016.7759592"},{"key":"ref7","first-page":"1071","article-title":"Learning neural network policies with guided policy search under unknown dynamics","author":"levine","year":"2014","journal-title":"Advances in neural information processing systems"},{"key":"ref2","doi-asserted-by":"crossref","first-page":"529","DOI":"10.1038\/nature14236","article-title":"Human-level control through deep reinforcement learning","volume":"518","author":"mnih","year":"2015","journal-title":"Nature"},{"key":"ref1","article-title":"Proximal policy optimization algorithms","author":"schulman","year":"2017","journal-title":"arXiv preprint arXiv 1707 07816"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/HUMANOIDS.2015.7363481"},{"key":"ref20","first-page":"282","article-title":"Bandit based monte-carlo planning","author":"kocsis","year":"2006","journal-title":"Machine Learning European Conference on"},{"key":"ref22","first-page":"7","article-title":"PUMA: Planning under uncertainty with macro-actions","author":"he","year":"2010","journal-title":"AAAI"},{"journal-title":"Pybullet a python module for physics simulation for games robotics and machine learning","year":"2016","author":"coumans","key":"ref21"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ROBOT.2002.1014739"}],"event":{"name":"2019 International Conference on Robotics and Automation (ICRA)","start":{"date-parts":[[2019,5,20]]},"location":"Montreal, QC, Canada","end":{"date-parts":[[2019,5,24]]}},"container-title":["2019 International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/8780387\/8793254\/08793630.pdf?arnumber=8793630","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,7,14]],"date-time":"2022-07-14T23:23:21Z","timestamp":1657841001000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8793630\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,5]]},"references-count":23,"URL":"https:\/\/doi.org\/10.1109\/icra.2019.8793630","relation":{},"subject":[],"published":{"date-parts":[[2019,5]]}}}