{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,10,30]],"date-time":"2024-10-30T00:46:38Z","timestamp":1730249198983,"version":"3.28.0"},"reference-count":8,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,3,7]]},"DOI":"10.1109\/icm46511.2021.9385636","type":"proceedings-article","created":{"date-parts":[[2021,3,30]],"date-time":"2021-03-30T21:25:37Z","timestamp":1617139537000},"page":"1-6","source":"Crossref","is-referenced-by-count":3,"title":["GBDT Modeling of Deep Reinforcement Learning Agents Using Distillation"],"prefix":"10.1109","author":[{"given":"Toshiki","family":"Hatano","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Toi","family":"Tsuneda","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yuta","family":"Suzuki","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kuniyasu","family":"Imade","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kazuki","family":"Shesimo","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Satoshi","family":"Yamane","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref4","first-page":"279","volume":"8","author":"watkins","year":"0","journal-title":"(1992) Q-Learning Machine Learning"},{"journal-title":"(1957) Dynamic programming princeton university press princeton New Jersey Google Scholar","year":"0","author":"bellman","key":"ref3"},{"key":"ref6","first-page":"1189","article-title":"Greedy function approximation: a gradient boosting machine","author":"friedman","year":"2001","journal-title":"Annals of Statistics"},{"key":"ref5","doi-asserted-by":"crossref","first-page":"529","DOI":"10.1038\/nature14236","article-title":"Human-level control through deep reinforcement learning","volume":"518","author":"volodymyr","year":"2015","journal-title":"Nature"},{"key":"ref8","volume":"1540","author":"greg","year":"2016","journal-title":"OpenAI Gym"},{"key":"ref7","first-page":"785","article-title":"Xgboost: A scalable tree boosting system","author":"tianqi","year":"0","journal-title":"ACM SIGKDD International Conference on Knowledge Discovery and Data Mining"},{"journal-title":"(1957) A markov decision process journal of Mathematical Mechanics","year":"0","author":"bellman","key":"ref2"},{"journal-title":"Distilling the knowledge in a neural network","year":"2015","author":"geoffrey","key":"ref1"}],"event":{"name":"2021 IEEE International Conference on Mechatronics (ICM)","start":{"date-parts":[[2021,3,7]]},"location":"Kashiwa, Japan","end":{"date-parts":[[2021,3,9]]}},"container-title":["2021 IEEE International Conference on Mechatronics (ICM)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9385579\/9385596\/09385636.pdf?arnumber=9385636","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2021,6,8]],"date-time":"2021-06-08T20:15:44Z","timestamp":1623183344000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9385636\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,3,7]]},"references-count":8,"URL":"https:\/\/doi.org\/10.1109\/icm46511.2021.9385636","relation":{},"subject":[],"published":{"date-parts":[[2021,3,7]]}}}