{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,13]],"date-time":"2026-02-13T23:26:22Z","timestamp":1771025182168,"version":"3.50.1"},"reference-count":35,"publisher":"IEEE","license":[{"start":{"date-parts":[[2020,7,1]],"date-time":"2020-07-01T00:00:00Z","timestamp":1593561600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2020,7,1]],"date-time":"2020-07-01T00:00:00Z","timestamp":1593561600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2020,7,1]],"date-time":"2020-07-01T00:00:00Z","timestamp":1593561600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2020,7]]},"DOI":"10.1109\/ijcnn48605.2020.9207648","type":"proceedings-article","created":{"date-parts":[[2020,9,30]],"date-time":"2020-09-30T00:40:33Z","timestamp":1601426433000},"page":"1-8","source":"Crossref","is-referenced-by-count":7,"title":["Improved Policy Extraction via Online Q-Value Distillation"],"prefix":"10.1109","author":[{"given":"Aman","family":"Jhunjhunwala","sequence":"first","affiliation":[]},{"given":"Jaeyoung","family":"Lee","sequence":"additional","affiliation":[]},{"given":"Sean","family":"Sedwards","sequence":"additional","affiliation":[]},{"given":"Vahdat","family":"Abdelzad","sequence":"additional","affiliation":[]},{"given":"Krzysztof","family":"Czarnecki","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref33","article-title":"Axiomatic attribution for deep networks","volume":"abs 1703 1365","author":"sundararajan","year":"2017","journal-title":"CoRR"},{"key":"ref32","article-title":"Interpretable reinforcement learning via differentiable decision trees","volume":"abs 1903 9338","author":"rodriguez","year":"2019","journal-title":"CoRR"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-006-6226-1"},{"key":"ref30","first-page":"343","article-title":"Learning with continuous classes","author":"quinlan","year":"1992"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-78800-3_24"},{"key":"ref34","article-title":"All models are wrong but many are useful: Variable importance for black-box, proprietary, or misspecified prediction models, using model class reliance","author":"fisher","year":"2018"},{"key":"ref10","first-page":"371","article-title":"Interpretable deep models for icu outcome prediction","volume":"2016","author":"che","year":"2016","journal-title":"AMIA Annual Symposium Proceedings"},{"key":"ref11","article-title":"GENESIM: genetic extraction of a single, interpretable model","author":"vandewiele","year":"2016"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1145\/775047.775113"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TSMCB.2007.895334"},{"key":"ref14","first-page":"2654","article-title":"Do deep nets really need to be deep?","volume":"27","author":"ba","year":"0"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1145\/1015330.1015430"},{"key":"ref16","first-page":"2494","article-title":"Verifiable reinforcement learning via policy extraction","volume":"31","author":"bastani","year":"0"},{"key":"ref17","article-title":"Toward interpretable deep reinforcement learning with linear model u-trees","volume":"abs 1807 5887","author":"liu","year":"2018","journal-title":"CoRR"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/TSMC.1983.6313077"},{"key":"ref19","author":"sutton","year":"1998","journal-title":"Introduction to Reinforcement Learning"},{"key":"ref28","article-title":"OpenAI Gym","volume":"abs 1606 1540","author":"brockman","year":"2016","journal-title":"CoRR"},{"key":"ref4","first-page":"908","article-title":"Safe model-based reinforcement learning with stability guarantees","author":"berkenkamp","year":"0"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1007\/s10618-010-0201-y"},{"key":"ref3","article-title":"Concrete problems in AI safety","volume":"abs 1606 6565","author":"amodei","year":"2016","journal-title":"CoRR"},{"key":"ref6","first-page":"2621","article-title":"Measuring neural net robustness with constraints","author":"bastani","year":"0"},{"key":"ref29","article-title":"Efficient memory-based learning for robot control","author":"moore","year":"1990"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-63387-9_5"},{"key":"ref8","article-title":"Distilling the Knowledge in a Neural Network","author":"hinton","year":"2015"},{"key":"ref7","first-page":"503","article-title":"Tree-based batch mode reinforcement learning","volume":"6","author":"ernst","year":"2005","journal-title":"J Mach Learn Res"},{"key":"ref2","article-title":"Openai five","year":"2018"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1145\/1150402.1150464"},{"key":"ref1","doi-asserted-by":"crossref","first-page":"529","DOI":"10.1038\/nature14236","article-title":"Human-level control through deep reinforcement learning","volume":"518","author":"mnih","year":"2015","journal-title":"Nature"},{"key":"ref20","author":"breiman","year":"1984","journal-title":"Classification and Regression Trees"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1214\/09-AOAS285"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1023\/A:1010933404324"},{"key":"ref24","first-page":"3140","article-title":"Mondrian forests: Efficient online random forests","author":"lakshminarayanan","year":"2014","journal-title":"Advances in neural information processing systems"},{"key":"ref23","first-page":"1377","article-title":"The mondrian process","volume":"21","author":"roy","year":"0"},{"key":"ref26","article-title":"Binary space partitioning forests","author":"fan","year":"2019"},{"key":"ref25","first-page":"1859","article-title":"The binary space partitioning-tree process","volume":"84","author":"fan","year":"0"}],"event":{"name":"2020 International Joint Conference on Neural Networks (IJCNN)","location":"Glasgow, United Kingdom","start":{"date-parts":[[2020,7,19]]},"end":{"date-parts":[[2020,7,24]]}},"container-title":["2020 International Joint Conference on Neural Networks (IJCNN)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9200848\/9206590\/09207648.pdf?arnumber=9207648","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,6,28]],"date-time":"2022-06-28T21:53:18Z","timestamp":1656453198000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9207648\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020,7]]},"references-count":35,"URL":"https:\/\/doi.org\/10.1109\/ijcnn48605.2020.9207648","relation":{},"subject":[],"published":{"date-parts":[[2020,7]]}}}