{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,5,27]],"date-time":"2025-05-27T11:27:22Z","timestamp":1748345242085,"version":"3.28.0"},"reference-count":32,"publisher":"IEEE","license":[{"start":{"date-parts":[[2019,7,1]],"date-time":"2019-07-01T00:00:00Z","timestamp":1561939200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2019,7,1]],"date-time":"2019-07-01T00:00:00Z","timestamp":1561939200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2019,7,1]],"date-time":"2019-07-01T00:00:00Z","timestamp":1561939200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2019,7]]},"DOI":"10.1109\/ijcnn.2019.8852234","type":"proceedings-article","created":{"date-parts":[[2019,10,1]],"date-time":"2019-10-01T03:44:32Z","timestamp":1569901472000},"page":"1-8","source":"Crossref","is-referenced-by-count":0,"title":["Efficient and Scalable Exploration via Estimation-Error"],"prefix":"10.1109","author":[{"given":"Chuxiong","family":"Sun","sequence":"first","affiliation":[]},{"given":"Rui","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Ruiying","family":"Li","sequence":"additional","affiliation":[]},{"given":"Jiao","family":"Wu","sequence":"additional","affiliation":[]},{"given":"Xiaohui","family":"Hu","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-87481-2_16"},{"article-title":"Proximal policy optimization algorithms","year":"2017","author":"schulman","key":"ref31"},{"key":"ref30","first-page":"5279","article-title":"Scalable trust-region method for deep reinforcement learning using kronecker-factored approximation","author":"wu","year":"2017","journal-title":"Advances in neural information processing systems"},{"article-title":"Count-based exploration with neural density models","year":"2017","author":"ostrovski","key":"ref10"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2017\/344"},{"key":"ref12","first-page":"2753","article-title":"# exploration: A study of count-based exploration for deep reinforcement learning","author":"tang","year":"2017","journal-title":"Advances in neural information processing systems"},{"article-title":"Hashing over predicted future frames for informed exploration of deep reinforcement learning","year":"2017","author":"yin","key":"ref13"},{"key":"ref14","first-page":"6","article-title":"What is intrinsic motivation? a typology of computational approaches","volume":"1","author":"oudeyer","year":"2009","journal-title":"Frontiers in Neurorobotics"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TAMD.2010.2056368"},{"key":"ref16","first-page":"1109","article-title":"Vime: Variational information maximizing exploration","author":"houthooft","year":"2016","journal-title":"Advances in neural information processing systems"},{"article-title":"Incentivizing exploration in reinforcement learning with deep predictive models","year":"2015","author":"stadie","key":"ref17"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2017.70"},{"article-title":"Surprise-based intrinsic motivation for deep reinforcement learning","year":"2017","author":"achiam","key":"ref19"},{"key":"ref28","first-page":"1928","article-title":"Asynchronous methods for deep reinforcement learning","author":"mnih","year":"2016","journal-title":"International Conference on Machine Learning"},{"article-title":"Generalization and exploration via randomized value functions","year":"2014","author":"osband","key":"ref4"},{"key":"ref27","first-page":"1889","article-title":"Trust region policy optimization","author":"schulman","year":"2015","journal-title":"International Conference on Machine Learning"},{"article-title":"Parameter space noise for exploration","year":"2017","author":"plappert","key":"ref3"},{"article-title":"Deep exploration via randomized value functions","year":"2017","author":"osband","key":"ref6"},{"article-title":"Sample efficient actor-critic with experience replay","year":"2016","author":"wang","key":"ref29"},{"key":"ref5","first-page":"4026","article-title":"Deep exploration via bootstrapped dqn","author":"osband","year":"2016","journal-title":"Advances in neural information processing systems"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1145\/1553374.1553441"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1016\/j.jcss.2007.08.009"},{"article-title":"Noisy networks for exploration","year":"2017","author":"fortunato","key":"ref2"},{"key":"ref9","first-page":"1471","article-title":"Unifying count-based exploration and intrinsic motivation","author":"bellemare","year":"2016","journal-title":"Advances in neural information processing systems"},{"journal-title":"Reinforcement Learning An Introduction","year":"2018","author":"sutton","key":"ref1"},{"article-title":"Large-scale study of curiosity-driven learning","year":"2018","author":"burda","key":"ref20"},{"key":"ref22","doi-asserted-by":"crossref","first-page":"529","DOI":"10.1038\/nature14236","article-title":"Human-level control through deep reinforcement learning","volume":"518","author":"mnih","year":"2015","journal-title":"Nature"},{"article-title":"Learning to play with intrinsically-motivated self-aware agents","year":"2018","author":"haber","key":"ref21"},{"key":"ref24","first-page":"5","article-title":"Deep reinforcement learning with double q-learning","volume":"2","author":"van hasselt","year":"2016","journal-title":"AAAI"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1613\/jair.3912"},{"article-title":"Continuous control with deep reinforcement learning","year":"2015","author":"lillicrap","key":"ref26"},{"article-title":"Dueling network architectures for deep reinforcement learning","year":"2015","author":"wang","key":"ref25"}],"event":{"name":"2019 International Joint Conference on Neural Networks (IJCNN)","start":{"date-parts":[[2019,7,14]]},"location":"Budapest, Hungary","end":{"date-parts":[[2019,7,19]]}},"container-title":["2019 International Joint Conference on Neural Networks (IJCNN)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/8840768\/8851681\/08852234.pdf?arnumber=8852234","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,7,17]],"date-time":"2022-07-17T21:53:45Z","timestamp":1658094825000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8852234\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,7]]},"references-count":32,"URL":"https:\/\/doi.org\/10.1109\/ijcnn.2019.8852234","relation":{},"subject":[],"published":{"date-parts":[[2019,7]]}}}