{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T01:10:37Z","timestamp":1740100237120,"version":"3.37.3"},"reference-count":56,"publisher":"IEEE","license":[{"start":{"date-parts":[[2021,7,18]],"date-time":"2021-07-18T00:00:00Z","timestamp":1626566400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2021,7,18]],"date-time":"2021-07-18T00:00:00Z","timestamp":1626566400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,7,18]],"date-time":"2021-07-18T00:00:00Z","timestamp":1626566400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100005632","name":"Polish National Science Center","doi-asserted-by":"publisher","award":["UMO-2017\/26\/E\/ST6\/00622"],"award-info":[{"award-number":["UMO-2017\/26\/E\/ST6\/00622"]}],"id":[{"id":"10.13039\/501100005632","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100011089","name":"PL-Grid Infrastructure","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100011089","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,7,18]]},"DOI":"10.1109\/ijcnn52387.2021.9534062","type":"proceedings-article","created":{"date-parts":[[2021,9,20]],"date-time":"2021-09-20T21:27:41Z","timestamp":1632173261000},"page":"1-8","source":"Crossref","is-referenced-by-count":0,"title":["Trust, but Verify: Alleviating Pessimistic Errors in Model-Based Exploration"],"prefix":"10.1109","author":[{"given":"Konrad","family":"Czechowski","sequence":"first","affiliation":[]},{"given":"Tomasz","family":"Odrzygozdz","sequence":"additional","affiliation":[]},{"given":"Michal","family":"Izworski","sequence":"additional","affiliation":[]},{"given":"Marek","family":"Zbysinski","sequence":"additional","affiliation":[]},{"given":"Lukasz","family":"Kucinski","sequence":"additional","affiliation":[]},{"given":"Piotr","family":"Milos","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/TSSC.1968.300136"},{"journal-title":"Artificial Intelligence - A Modern Approach","year":"2003","author":"russell","key":"ref38"},{"key":"ref33","first-page":"617","article-title":"Model-based reinforcement learning via meta-policy optimization","volume":"87","author":"clavera","year":"2018","journal-title":"2nd Annual Conference on Robot Learning CoRL 2018"},{"key":"ref32","article-title":"Model-ensemble trust-region policy optimization","author":"kurutach","year":"2018","journal-title":"6th International Conference on Learning Representations ICLR 2018"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/122344.122377"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8463189"},{"journal-title":"Introduction to Algorithms","year":"2009","author":"cormen","key":"ref37"},{"key":"ref36","first-page":"8224","article-title":"Sample-efficient reinforcement learning with stochastic ensemble value expansion","author":"buckman","year":"2018","journal-title":"Advances in neural information processing systems"},{"key":"ref35","article-title":"Model-based value estimation for efficient model-free reinforcement learning","volume":"abs 1803 101","author":"feinberg","year":"2018","journal-title":"CoRR"},{"key":"ref34","first-page":"12519","article-title":"When to trust your model: Model-based policy optimization","author":"janner","year":"2019","journal-title":"Advances in neural information processing systems"},{"key":"ref28","article-title":"Learning to search with MCTSnets","author":"guez","year":"0","journal-title":"ICML"},{"key":"ref27","article-title":"Imagination-augmented agents for deep reinforcement learning","author":"racani\u00e8re","year":"2017","journal-title":"NIPS"},{"key":"ref29","first-page":"15220","article-title":"Search on the replay buffer: Bridging planning and reinforcement learning","author":"eysenbach","year":"2019","journal-title":"Advances in Neural Information Processing Systems 32 Annual Conference on Neural Information Processing Systems 2019 NeurIPS 2019"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8463189"},{"key":"ref1","article-title":"Benchmarking model-based reinforcement learning","volume":"abs 1907 2057","author":"wang","year":"2019","journal-title":"CoRR"},{"key":"ref20","first-page":"124:1","article-title":"Deep exploration via randomized value functions","volume":"20","author":"osband","year":"2019","journal-title":"J Mach Learn Res"},{"key":"ref22","article-title":"Uncertainty-sensitive learning and planning with ensembles","volume":"abs 1912 9996","author":"milos","year":"2019","journal-title":"CoRR"},{"key":"ref21","article-title":"Plan online, learn offline: Efficient learning and exploration via model-based control","author":"lowrey","year":"2019","journal-title":"7th International Conference on Learning Representations ICLR 2019"},{"key":"ref24","first-page":"5779","article-title":"Model-based active exploration","author":"shyam","year":"2019","journal-title":"International Conference on Machine Learning"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2017.70"},{"key":"ref26","article-title":"Planning to explore via self-supervised world models","volume":"abs 2005 5960","author":"sekar","year":"2020","journal-title":"CoRR"},{"key":"ref25","first-page":"9377","article-title":"Explicit explore-exploit algorithms in continuous state spaces","author":"henaff","year":"2019","journal-title":"Advances in neural information processing systems"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/CIG.2008.5035667"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1145\/2093548.2093574"},{"key":"ref56","article-title":"Forward-backward reinforcement learning","author":"edwards","year":"2018","journal-title":"ArXiv Preprint"},{"key":"ref55","article-title":"Interaction-limited inverse reinforcement learning","author":"troussard","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref54","article-title":"Learning compositional neural programs with recursive tree search and planning","author":"pierrot","year":"0","journal-title":"NeurIPS"},{"key":"ref53","article-title":"Solving the rubik's cube with approximate policy iteration","author":"mcaleer","year":"2019","journal-title":"7th International Conference on Learning Representations ICLR 2019"},{"key":"ref52","first-page":"36","article-title":"On the scalability of parallel UCT","author":"segal","year":"2010","journal-title":"Computers and Games - 7th International Conference CG 2010"},{"key":"ref10","volume":"1","author":"kocsis","year":"2006","journal-title":"Improved Monte-Carlo search"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1038\/nature24270"},{"key":"ref40","first-page":"235","article-title":"Experiments with the graph traverser program","volume":"294","author":"doran","year":"0","journal-title":"Proceedings of the Royal Society of London Series A Mathematical and Physical Sciences"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TAMD.2010.2056368"},{"key":"ref13","article-title":"Self-supervised exploration via disagreement","author":"pathak","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref14","article-title":"Exploration by random network distillation","volume":"abs 1810 12894","author":"burda","year":"2018","journal-title":"CoRR"},{"key":"ref15","first-page":"1471","article-title":"Unifying count-based exploration and intrinsic motivation","volume":"29","author":"bellemare","year":"2016","journal-title":"Advances in neural information processing systems"},{"key":"ref16","article-title":"Count-based exploration with neural density models","author":"ostrovski","year":"2017","journal-title":"ArXiv Preprint"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i04.5955"},{"key":"ref18","first-page":"1109","article-title":"Vime: Variational information maximizing exploration","author":"houthooft","year":"2016","journal-title":"Advances in neural information processing systems"},{"key":"ref19","first-page":"4026","article-title":"Deep exploration via bootstrapped dqn","volume":"29","author":"osband","year":"2016","journal-title":"Advances in neural information processing systems"},{"journal-title":"Reinforcement Learning An Introduction","year":"2018","author":"sutton","key":"ref4"},{"key":"ref3","article-title":"Model based reinforcement learning for atari","author":"kaiser","year":"2020","journal-title":"8th International Conference on Learning Representations ICLR 2020"},{"key":"ref6","first-page":"131","article-title":"Deep abstract q-networks","author":"roderick","year":"2018","journal-title":"Proceedings of the 17th International Conference on Autonomous Agents and MultiAgent Systems AAMAS 2018"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1561\/2200000071"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.2307\/2332286"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1023\/A:1013689704352"},{"key":"ref49","article-title":"Randomized prior functions for deep reinforcement learning","author":"osband","year":"0","journal-title":"NeurIPS"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-75225-7_15"},{"key":"ref46","article-title":"Combining q-learning and search with amortized value estimates","author":"hamrick","year":"2020","journal-title":"8th International Conference on Learning Representations ICLR 2020"},{"key":"ref45","article-title":"Adaptive online planning for continual lifelong learning","volume":"abs 1912 1188","author":"lu","year":"2019","journal-title":"CoRR"},{"key":"ref48","article-title":"Discor: Corrective feedback in reinforcement learning via distribution correction","author":"kumar","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref47","article-title":"Sunrise: A simple unified framework for ensemble learning in deep reinforcement learning","author":"lee","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref42","first-page":"3205","article-title":"Single-agent policy tree search with guarantees","author":"orseau","year":"2018","journal-title":"Advances in Neural Information Processing Systems 31 Annual Conference on Neural Information Processing Systems 2018 NeurIPS 2018"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1038\/s42256-019-0070-z"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1126\/science.aar6404"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/TCIAIG.2012.2186810"}],"event":{"name":"2021 International Joint Conference on Neural Networks (IJCNN)","start":{"date-parts":[[2021,7,18]]},"location":"Shenzhen, China","end":{"date-parts":[[2021,7,22]]}},"container-title":["2021 International Joint Conference on Neural Networks (IJCNN)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9533266\/9533267\/09534062.pdf?arnumber=9534062","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,5,10]],"date-time":"2022-05-10T15:45:47Z","timestamp":1652197547000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9534062\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,7,18]]},"references-count":56,"URL":"https:\/\/doi.org\/10.1109\/ijcnn52387.2021.9534062","relation":{},"subject":[],"published":{"date-parts":[[2021,7,18]]}}}