{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,10,30]],"date-time":"2024-10-30T05:31:26Z","timestamp":1730266286444,"version":"3.28.0"},"reference-count":36,"publisher":"IEEE","license":[{"start":{"date-parts":[[2022,7,18]],"date-time":"2022-07-18T00:00:00Z","timestamp":1658102400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,7,18]],"date-time":"2022-07-18T00:00:00Z","timestamp":1658102400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022,7,18]]},"DOI":"10.1109\/ijcnn55064.2022.9892560","type":"proceedings-article","created":{"date-parts":[[2022,9,30]],"date-time":"2022-09-30T15:56:04Z","timestamp":1664553364000},"page":"1-8","source":"Crossref","is-referenced-by-count":0,"title":["Concurrent Credit Assignment for Data-efficient Reinforcement Learning"],"prefix":"10.1109","author":[{"given":"Emmanuel","family":"Dauce","sequence":"first","affiliation":[{"name":"Institut de Neurosciences de la Timone Centrale Marseille, CNRS,Marseille,France"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref33","first-page":"1587","article-title":"Addressing function approximation error in actor-critic methods","author":"fujimoto","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref32","article-title":"Proximal policy optimization algorithms","author":"schulman","year":"2017","journal-title":"ArXiv Preprint"},{"journal-title":"Spinning up in deep reinforcement learning","year":"2018","author":"achiam","key":"ref31"},{"key":"ref30","article-title":"Openai gym","author":"brockman","year":"2016","journal-title":"ar Xiv preprint"},{"key":"ref36","article-title":"High-dimensional continuous control using generalized advantage estimation","author":"schulman","year":"2015","journal-title":"ArXiv Preprint"},{"key":"ref35","article-title":"Playing atari with deep reinforcement learning","author":"mnih","year":"2013","journal-title":"ArXiv Preprint"},{"key":"ref34","first-page":"2825","article-title":"Scikit-learn: Machine learning in python","volume":"12","author":"pedregosa","year":"2011","journal-title":"The Journal of Machine Learning Research"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TEVC.2006.890271"},{"key":"ref11","first-page":"1471","article-title":"Unifying count-based exploration and intrinsic motivation","volume":"29","author":"bellemare","year":"2016","journal-title":"Advances in neural information processing systems"},{"key":"ref12","first-page":"1","article-title":"# exploration: A study of count-based exploration for deep reinforcement learning","volume":"30","author":"tang","year":"0","journal-title":"31st Conference on Neural Information Processing Systems (NIPS)"},{"key":"ref13","article-title":"If maxent rl is the answer, what is the question?","author":"eysenbach","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref14","first-page":"2681","article-title":"Provably efficient maximum entropy exploration","author":"hazan","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.29007\/25x3"},{"key":"ref16","first-page":"1080","article-title":"Reinforcement learning by probability matching","author":"sabes","year":"1996","journal-title":"Advances in neural information processing systems"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1901\/jeab.1961.4-267"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1126\/science.153.3731.34"},{"key":"ref19","article-title":"Making sense of reinforcement learning and probabilistic inference","author":"o'donoghue","year":"2020","journal-title":"ar Xiv preprint"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/BF00115009"},{"key":"ref4","article-title":"Reinforcement learning and control as probabilistic inference: Tutorial and review","author":"levine","year":"2018","journal-title":"ArXiv Preprint"},{"key":"ref27","doi-asserted-by":"crossref","first-page":"229","DOI":"10.1007\/BF00992696","article-title":"Simple statistical gradient-following algorithms for connectionist reinforcement learning","volume":"8","author":"williams","year":"1992","journal-title":"Machine Learning"},{"key":"ref3","first-page":"241","article-title":"Variational methods for reinforce-ment learning","author":"furmston","year":"0","journal-title":"Proceedings of the Thirteenth International Conference on Artificial Intelligence and Statistics"},{"key":"ref6","article-title":"Maximum a posteriori policy optimisation","author":"abdolmaleki","year":"2018","journal-title":"ArXiv Preprint"},{"key":"ref29","first-page":"114","article-title":"End-effect exploration drive for effective motor learning","author":"dauce","year":"0","journal-title":"International Workshop on Active Inference"},{"key":"ref5","first-page":"1861","article-title":"Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor","author":"haarnoja","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref8","article-title":"Simple algorithmic theory of subjective beauty, novelty, surprise, interestingness, attention, curiosity, creativity, art, science, music, jokes","volume":"48","author":"schmidhuber","year":"2009","journal-title":"Journal of SICE"},{"key":"ref7","first-page":"7122","article-title":"Virel: A variational inference framework for reinforcement learning","volume":"32","author":"matthew","year":"2019","journal-title":"Advances in neural information processing systems"},{"key":"ref2","volume":"135","author":"richard","year":"1998","journal-title":"Introduction to Reinforcement Learning"},{"key":"ref9","first-page":"2778","article-title":"Curiosity-driven exploration by self-supervised prediction","author":"deepak","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.3389\/fnbot.2019.00115"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1993.5.4.613"},{"key":"ref22","first-page":"4565","article-title":"Generative adversarial imitation learning","volume":"29","author":"ho","year":"2016","journal-title":"Advances in neural information processing systems"},{"journal-title":"Markov Decision Processes Discrete Stochastic Dynamic Programming","year":"2014","author":"puterman","key":"ref21"},{"key":"ref24","article-title":"Diversity is all you need: Learning skills without a reward function","author":"eysenbach","year":"2018","journal-title":"ArXiv Preprint"},{"key":"ref23","article-title":"Auto-encoding variational bayes","author":"kingma","year":"2013","journal-title":"ArXiv Preprint"},{"key":"ref26","article-title":"Vime: Variational information maximizing exploration","author":"houthooft","year":"2016","journal-title":"ArXiv Preprint"},{"key":"ref25","article-title":"Variational information maximisation for intrinsically motivated reinforcement learning","author":"mohamed","year":"2015","journal-title":"ArXiv Preprint"}],"event":{"name":"2022 International Joint Conference on Neural Networks (IJCNN)","start":{"date-parts":[[2022,7,18]]},"location":"Padua, Italy","end":{"date-parts":[[2022,7,23]]}},"container-title":["2022 International Joint Conference on Neural Networks (IJCNN)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9891857\/9889787\/09892560.pdf?arnumber=9892560","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,11,3]],"date-time":"2022-11-03T18:58:57Z","timestamp":1667501937000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9892560\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,7,18]]},"references-count":36,"URL":"https:\/\/doi.org\/10.1109\/ijcnn55064.2022.9892560","relation":{},"subject":[],"published":{"date-parts":[[2022,7,18]]}}}