{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,10,22]],"date-time":"2024-10-22T22:52:21Z","timestamp":1729637541763,"version":"3.28.0"},"reference-count":23,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2009,3]]},"DOI":"10.1109\/adprl.2009.4927532","type":"proceedings-article","created":{"date-parts":[[2009,5,19]],"date-time":"2009-05-19T15:50:44Z","timestamp":1242748244000},"page":"101-108","source":"Crossref","is-referenced-by-count":14,"title":["The QV family compared to other reinforcement learning algorithms"],"prefix":"10.1109","author":[{"given":"Marco A.","family":"Wiering","sequence":"first","affiliation":[],"role":[{"role":"author","vocab":"crossref"}]},{"given":"Hado","family":"van Hasselt","sequence":"additional","affiliation":[],"role":[{"role":"author","vocab":"crossref"}]}],"member":"263","reference":[{"key":"19","first-page":"279","volume":"8","author":"watkins","year":"1992","journal-title":"Q-learning Machine Learning"},{"key":"22","doi-asserted-by":"publisher","DOI":"10.1109\/ADPRL.2007.368200"},{"key":"17","doi-asserted-by":"publisher","DOI":"10.1007\/BF00993306"},{"key":"23","doi-asserted-by":"publisher","DOI":"10.1109\/TSMCB.2008.920231"},{"journal-title":"Learning from delayed rewards","year":"1989","author":"watkins","key":"18"},{"journal-title":"Reinforcement Learning An Introduction","year":"1998","author":"sutton","key":"15"},{"key":"16","first-page":"1057","article-title":"policy gradient methods for reinforcement learning with function approximation","volume":"12","author":"sutton","year":"2000","journal-title":"Advances in neural information processing systems"},{"key":"13","doi-asserted-by":"publisher","DOI":"10.1007\/BF00115009"},{"key":"14","first-page":"1038","article-title":"generalization in reinforcement learning: successful examples using sparse coarse coding","volume":"8","author":"sutton","year":"1996","journal-title":"Advances in neural information processing systems"},{"key":"11","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-307-3.50045-9"},{"key":"12","doi-asserted-by":"publisher","DOI":"10.1023\/A:1007678930559"},{"key":"21","doi-asserted-by":"publisher","DOI":"10.1109\/ADPRL.2007.368200"},{"key":"3","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-377-6.50040-2"},{"key":"20","doi-asserted-by":"publisher","DOI":"10.1109\/ICSMC.1996.565374"},{"key":"2","first-page":"369","article-title":"generalization in reinforcement learning: safely approximating the value function","volume":"7","author":"boyan","year":"1995","journal-title":"Advances in neural information processing systems"},{"key":"1","doi-asserted-by":"crossref","first-page":"319","DOI":"10.1613\/jair.806","article-title":"infinite-horizon policy-gradient estimation","volume":"15","author":"baxter","year":"2001","journal-title":"Journal of Artificial Intelligence Research"},{"key":"10","article-title":"on-line q-learning using connectionist sytems","author":"rummery","year":"1994","journal-title":"Technical Report CUED\/F-INFENG-TR 166"},{"key":"7","doi-asserted-by":"publisher","DOI":"10.1007\/BF00993104"},{"key":"6","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-335-6.50028-3"},{"key":"5","doi-asserted-by":"crossref","first-page":"237","DOI":"10.1613\/jair.301","article-title":"reinforcement learning: a survey","volume":"4","author":"kaelbling","year":"1996","journal-title":"Journal of Artificial Intelligence Research"},{"key":"4","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1994.6.6.1185"},{"key":"9","doi-asserted-by":"publisher","DOI":"10.1007\/11564096_32"},{"key":"8","doi-asserted-by":"publisher","DOI":"10.1109\/TSMC.1974.5408453"}],"event":{"name":"2009 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning (ADPRL)","start":{"date-parts":[[2009,3,30]]},"location":"Nashville, TN, USA","end":{"date-parts":[[2009,4,2]]}},"container-title":["2009 IEEE Symposium on Adaptive Dynamic Programming and Reinforcement Learning"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx5\/4910084\/4927513\/04927532.pdf?arnumber=4927532","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,5,20]],"date-time":"2019-05-20T02:51:33Z","timestamp":1558320693000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/4927532\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2009,3]]},"references-count":23,"URL":"https:\/\/doi.org\/10.1109\/adprl.2009.4927532","relation":{},"subject":[],"published":{"date-parts":[[2009,3]]}}}