{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,27]],"date-time":"2025-03-27T21:14:50Z","timestamp":1743110090883,"version":"3.40.3"},"publisher-location":"Cham","reference-count":15,"publisher":"Springer International Publishing","isbn-type":[{"type":"print","value":"9783030361495"},{"type":"electronic","value":"9783030361501"}],"license":[{"start":{"date-parts":[[2019,11,20]],"date-time":"2019-11-20T00:00:00Z","timestamp":1574208000000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2020]]},"DOI":"10.1007\/978-3-030-36150-1_22","type":"book-chapter","created":{"date-parts":[[2019,11,19]],"date-time":"2019-11-19T14:03:59Z","timestamp":1574172239000},"page":"263-275","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Benchmarking Deep and Non-deep Reinforcement Learning Algorithms for Discrete Environments"],"prefix":"10.1007","author":[{"given":"Fernando F.","family":"Duarte","sequence":"first","affiliation":[]},{"given":"Nuno","family":"Lau","sequence":"additional","affiliation":[]},{"given":"Artur","family":"Pereira","sequence":"additional","affiliation":[]},{"given":"Lu\u00eds P.","family":"Reis","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2019,11,20]]},"reference":[{"key":"22_CR1","doi-asserted-by":"publisher","first-page":"529","DOI":"10.1038\/nature14236","volume":"518","author":"V Mnih","year":"2015","unstructured":"Mnih, V., et al.: Human-level control through deep reinforcement learning. Nature 518, 529\u2013533 (2015)","journal-title":"Nature"},{"key":"22_CR2","unstructured":"Mnih, V., et al.: Playing atari with deep reinforcement learning. CoRR abs\/1312.5602 (2013)"},{"key":"22_CR3","doi-asserted-by":"crossref","unstructured":"Van Hasselt, H., Guez, A., Silver, D.: Deep reinforcement learning with double Q-learning. In: Thirtieth AAAI Conference on Artificial Intelligence, pp. 2094\u20132100. AAAI Press, Phoenix (2016)","DOI":"10.1609\/aaai.v30i1.10295"},{"key":"22_CR4","unstructured":"Wang, Z., Schaul, T., Hessel, M., van Hasselt, H., Lanctot, M., de Freitas, N.: Dueling network architectures for deep reinforcement learning. In: 33rd International Conference on Machine Learning (ICML 2016), pp. 1995\u20132003. JMLR, New York (2016)"},{"key":"22_CR5","unstructured":"Schaul, T., Quan, J., Antonoglou, I., Silver, D.: Prioritized experience replay. In: International Conference on Learning Representations, San Juan, Puerto Rico (2016)"},{"key":"22_CR6","unstructured":"Bellemare, M.G., Dabney, W., Munos, R.: A distributional perspective on reinforcement learning. In: 34th International Conference on Machine Learning, pp. 449\u2013458. JMLR, Sydney (2017)"},{"key":"22_CR7","unstructured":"Sutton, R.S., Mcallester, D., Singh, S., Mansour, Y.: Policy gradient methods for reinforcement learning with function approximation. In: 12th International Conference on Neural Information Processing Systems, pp. 1057\u20131063. MIT Press, Cambridge (1999)"},{"key":"22_CR8","unstructured":"Schulman, J., Levine, S., Moritz, P., Jordan, M., Abbeel, P.: Trust region policy optimization. In: Proceedings of the 32nd International Conference on International Conference on Machine Learning, pp. 1889\u20131897. JMLR, Lille (2015)"},{"key":"22_CR9","unstructured":"Wu, Y., Mansimov, E., Liao, S., Grosse, R., Ba, J.: Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation. In: Proceedings of the 31st International Conference on Neural Information Processing Systems, pp. 5280\u20135289. Curran Associates, California, USA (2017)"},{"key":"22_CR10","doi-asserted-by":"crossref","unstructured":"Urtans, E., Nikitenko, A.: Survey of deep Q-network variants in PyGame learning environment. In: 2nd International Conference on Deep Learning Technologies, pp. 27\u201336. ACM, Chongqing (2018)","DOI":"10.1145\/3234804.3234816"},{"key":"22_CR11","unstructured":"Van Hasselt, H.: Double Q-learning. In: Proceedings of the 23rd International Conference on Neural Information Processing Systems, pp. 2613\u20132621. Curran Associates, Vancouver (2010)"},{"key":"22_CR12","unstructured":"Duan, Y., Chen, X., Houthooft, R., Schulman, J., Abbeel, P.: Benchmarking deep reinforcement learning for continuous control. In: 33rd International Conference on Machine Learning, pp. 1329\u20131338. JMLR, New York (2016)"},{"issue":"6","key":"22_CR13","doi-asserted-by":"publisher","first-page":"26","DOI":"10.1109\/MSP.2017.2743240","volume":"34","author":"K Arulkumaran","year":"2017","unstructured":"Arulkumaran, K., Deisenroth, M.P., Brundage, M., Bharath, A.A.: Deep reinforcement learning: a brief survey. IEEE Sig. Process. Mag. 34(6), 26\u201338 (2017)","journal-title":"IEEE Sig. Process. Mag."},{"key":"22_CR14","doi-asserted-by":"crossref","unstructured":"Henderson, P., Islam, R., Bachman, P., Pineau, J., Precup, D., Meger, D.: Deep reinforcement learning that matters. In: Thirty-Second AAAI Conference on Artificial Intelligence, pp. 3207\u20133214. AAAI Press, Louisiana (2018)","DOI":"10.1609\/aaai.v32i1.11694"},{"key":"22_CR15","unstructured":"POPF Homepage. https:\/\/nms.kcl.ac.uk\/planning\/software\/popf.html . Accessed 13 June 2019"}],"container-title":["Advances in Intelligent Systems and Computing","Robot 2019: Fourth Iberian Robotics Conference"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-030-36150-1_22","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,10,6]],"date-time":"2022-10-06T03:54:20Z","timestamp":1665028460000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-030-36150-1_22"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,11,20]]},"ISBN":["9783030361495","9783030361501"],"references-count":15,"URL":"https:\/\/doi.org\/10.1007\/978-3-030-36150-1_22","relation":{},"ISSN":["2194-5357","2194-5365"],"issn-type":[{"type":"print","value":"2194-5357"},{"type":"electronic","value":"2194-5365"}],"subject":[],"published":{"date-parts":[[2019,11,20]]},"assertion":[{"value":"20 November 2019","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ROBOT","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Iberian Robotics conference","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Porto","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Portugal","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2019","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"20 November 2019","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"22 November 2019","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"robot2019","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}