{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,20]],"date-time":"2025-09-20T18:53:01Z","timestamp":1758394381104,"version":"3.28.0"},"reference-count":37,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2013,5]]},"DOI":"10.1109\/icra.2013.6630686","type":"proceedings-article","created":{"date-parts":[[2013,10,21]],"date-time":"2013-10-21T18:11:25Z","timestamp":1382379085000},"page":"939-946","source":"Crossref","is-referenced-by-count":3,"title":["Reinforcement learning with misspecified model classes"],"prefix":"10.1109","author":[{"given":"Joshua","family":"Joseph","sequence":"first","affiliation":[]},{"given":"Alborz","family":"Geramifard","sequence":"additional","affiliation":[]},{"given":"John W.","family":"Roberts","sequence":"additional","affiliation":[]},{"given":"Jonathan P.","family":"How","sequence":"additional","affiliation":[]},{"given":"Nicholas","family":"Roy","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"19","doi-asserted-by":"publisher","DOI":"10.1007\/BFb0015081"},{"key":"35","doi-asserted-by":"publisher","DOI":"10.2307\/1912526"},{"journal-title":"Nonlinear Programming","year":"1999","author":"bertsekas","key":"17"},{"key":"36","article-title":"Active learning for misspecified models","volume":"18","author":"sugiyama","year":"2006","journal-title":"Advances in Neural Information Processing System"},{"key":"18","doi-asserted-by":"publisher","DOI":"10.1007\/BF00114726"},{"key":"33","article-title":"Kernel-based reinforcement learning in average-cost problems: An application to optimal portfolio choice","author":"ormoneit","year":"2000","journal-title":"Advances in neural information processing systems"},{"key":"15","article-title":"Infinite-horizon policy-gradient estimation","author":"baxter","year":"2001","journal-title":"Journal of Artificial Intelligence Research"},{"key":"34","article-title":"Reinforcement learning using kernel-based stochastic factorization","author":"barreto","year":"2011","journal-title":"NIPS"},{"key":"16","first-page":"217","article-title":"Modelfree monte carlo-like policy evaluation","volume":"9","author":"fonteneau","year":"2010","journal-title":"Journal of Machine Learning Research-Proceedings Track"},{"key":"13","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4615-3618-5_2"},{"key":"14","article-title":"Policy gradient methods for reinforcement learning with function approximation","volume":"12","author":"sutton","year":"2000","journal-title":"Advances in Neural Information Processing System"},{"key":"37","doi-asserted-by":"publisher","DOI":"10.1023\/A:1019956318069"},{"key":"11","article-title":"Monte carlo matrix inversion and reinforcement learning","author":"barto","year":"1994","journal-title":"NIPS"},{"journal-title":"Reinforcement Learning by Policy Search","year":"2000","author":"peshkin","key":"12"},{"key":"21","article-title":"Gradient descent for general reinforcement learning","author":"baird","year":"1999","journal-title":"Proceedings of the 1998 conference on Advances in neural information processing systems II"},{"key":"20","article-title":"Neuronlike adaptive elements that can solve difficult learning control problems","volume":"13","author":"barto","year":"1983","journal-title":"IEEE Transactions on Systems Man and Cybernetics"},{"key":"22","first-page":"227","article-title":"Coordinated reinforcement learning","author":"guestrin","year":"2002","journal-title":"Proceedings of the Nineteenth International Conference on Machine Learning ser ICML '02"},{"key":"23","article-title":"Off-policy policy search","author":"meuleau","year":"2000","journal-title":"MIT Artificial Intelligence Laboratory"},{"key":"24","article-title":"PILCO: A model-based and data-efficient approach to policy search","author":"deisenroth","year":"2011","journal-title":"Proceedings of the 28th International Conference on Machine Learning"},{"key":"25","doi-asserted-by":"publisher","DOI":"10.1007\/s10514-011-9248-x"},{"key":"26","doi-asserted-by":"publisher","DOI":"10.1145\/1390156.1390251"},{"journal-title":"Online Q-learning using connectionist systems","year":"1994","author":"rummery","key":"27"},{"key":"28","doi-asserted-by":"publisher","DOI":"10.1162\/jmlr.2003.4.6.1107"},{"key":"29","article-title":"Feature selection using regularization in approximate linear programs for Markov decision processes","author":"petrik","year":"2010","journal-title":"ICML"},{"journal-title":"Theories of Data Analysis From Magical Thinking Through Classical Statistics","year":"1985","author":"diaconis","key":"3"},{"key":"2","article-title":"Online discovery of feature dependencies","author":"geramifard","year":"2011","journal-title":"ICML"},{"journal-title":"Reinforcement Learning An Introduction","year":"1998","author":"sutton","key":"10"},{"key":"1","article-title":"Reinforcement learning: A survey","author":"kaelbling","year":"0","journal-title":"Journal of Artificial Intelligence Research"},{"key":"30","doi-asserted-by":"publisher","DOI":"10.1177\/0278364909342118"},{"key":"7","article-title":"Reinforcement learning to adjust robot movements to new situations","author":"kober","year":"2010","journal-title":"Proceedings of Robotics Science and Systems"},{"key":"6","article-title":"Multistep dyna planning for policy evaluation and control","author":"yao","year":"2009","journal-title":"NIPS"},{"journal-title":"Adaptive Tile Coding for Value Function Approximation","year":"0","author":"whiteson","key":"32"},{"key":"5","article-title":"Dynastyle planning with linear function approximation and prioritized sweeping","author":"sutton","year":"2008","journal-title":"UAI"},{"key":"31","article-title":"Adaptive Planning for Markov Decision Processes with Uncertain Transition Models via Incremental Feature Dependency Discovery","author":"ure","year":"0","journal-title":"ECML 2012"},{"key":"4","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-68847-1_15"},{"key":"9","doi-asserted-by":"publisher","DOI":"10.1109\/ADPRL.2011.5967379"},{"journal-title":"An Application of Reinforcement Learning to Aerobatic Helicopter Flight","year":"2007","author":"abbeel","key":"8"}],"event":{"name":"2013 IEEE International Conference on Robotics and Automation (ICRA)","start":{"date-parts":[[2013,5,6]]},"location":"Karlsruhe, Germany","end":{"date-parts":[[2013,5,10]]}},"container-title":["2013 IEEE International Conference on Robotics and Automation"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6615630\/6630547\/06630686.pdf?arnumber=6630686","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2017,3,22]],"date-time":"2017-03-22T19:25:49Z","timestamp":1490210749000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/6630686\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2013,5]]},"references-count":37,"URL":"https:\/\/doi.org\/10.1109\/icra.2013.6630686","relation":{},"subject":[],"published":{"date-parts":[[2013,5]]}}}