{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,13]],"date-time":"2026-03-13T02:42:35Z","timestamp":1773369755620,"version":"3.50.1"},"reference-count":43,"publisher":"IEEE","license":[{"start":{"date-parts":[[2021,7,18]],"date-time":"2021-07-18T00:00:00Z","timestamp":1626566400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2021,7,18]],"date-time":"2021-07-18T00:00:00Z","timestamp":1626566400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,7,18]],"date-time":"2021-07-18T00:00:00Z","timestamp":1626566400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,7,18]]},"DOI":"10.1109\/ijcnn52387.2021.9534159","type":"proceedings-article","created":{"date-parts":[[2021,9,22]],"date-time":"2021-09-22T20:32:37Z","timestamp":1632342757000},"page":"1-8","source":"Crossref","is-referenced-by-count":1,"title":["Discovering an Aid Policy to Minimize Student Evasion Using Offline Reinforcement Learning"],"prefix":"10.1109","author":[{"given":"Leandro M.","family":"De Lima","sequence":"first","affiliation":[]},{"given":"Renato A.","family":"Krohling","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","article-title":"D4RL: datasets for deep data-driven reinforcement learning","author":"fu","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref38","author":"goodfellow","year":"2016","journal-title":"Deep Learning"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1016\/S0167-8655(02)00198-8"},{"key":"ref32","first-page":"1027","article-title":"K-means++: the advantages of careful seeding","author":"arthur","year":"2007","journal-title":"Proceedings of ACM-SIAM symposium on Discrete algorithms"},{"key":"ref31","article-title":"Deep reinforcement learning with double Q-learning","author":"van hasselt","year":"2015","journal-title":"ArXiv Preprint"},{"key":"ref30","article-title":"Rainbow: combining improvements in deep reinforcement learning","author":"hessel","year":"0","journal-title":"AAAI Conference on Artificial Intelligence"},{"key":"ref37","article-title":"Way off-policy batch deep reinforcement learning of implicit human preferences in dialog","author":"jaques","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref36","first-page":"727","article-title":"X-means: extending k-means with efficient estimation of the number of clusters","volume":"1","author":"pelleg","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CICT.2013.6558109"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1145\/304181.304187"},{"key":"ref10","first-page":"1889","article-title":"Trust region policy optimization","author":"schulman","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref40","article-title":"RL unplugged: benchmarks for offline reinforcement learning","author":"gulcehre","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref11","article-title":"Algorithmic framework for model-based deep reinforcement learning with theoretical guarantees","author":"luo","year":"2018","journal-title":"ArXiv Preprint"},{"key":"ref12","article-title":"An optimistic perspective on offline reinforcement learning","author":"agarwal","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref13","article-title":"Benchmarking batch deep reinforcement learning algorithms","author":"fujimoto","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref14","author":"sutton","year":"2018","journal-title":"Reinforcement Learning An Introduction"},{"key":"ref15","article-title":"Offline reinforcement learning: tutorial, review, and perspectives on open problems","author":"levine","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref16","first-page":"2139","article-title":"Data-efficient off-policy policy evaluation for reinforcement learning","author":"thomas","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref17","article-title":"SQIL: imitation learning via reinforcement learning with sparse rewards","author":"reddy","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref18","doi-asserted-by":"crossref","first-page":"417","DOI":"10.1609\/icwsm.v14i1.7311","article-title":"Detecting troll behavior via inverse reinforcement learning: a case study of Russian trolls in the 2016 US election","volume":"14","author":"luceri","year":"0","journal-title":"Proceedings of the International AAAI Conference on Web and Social Media"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1038\/s41591-018-0213-5"},{"key":"ref28","article-title":"Accelerating online reinforcement learning with offline datasets","author":"nair","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/j.tele.2019.01.007"},{"key":"ref27","article-title":"Behavior regularized offline reinforcement learning","author":"wu","year":"2019","journal-title":"ArXiv Preprint"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-24443-8_16"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1080\/21568235.2020.1718520"},{"key":"ref29","first-page":"1995","article-title":"Dueling network architectures for deep reinforcement learning","author":"wang","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref5","first-page":"166","article-title":"Exploiting academic records for predicting student drop out: a case study in Brazilian higher education","volume":"7","author":"sales","year":"2016","journal-title":"Journal of Information and Data Management"},{"key":"ref8","article-title":"Pick the moment: identifying critical pedagogical decisions using long-short term rewards","author":"ju","year":"0","journal-title":"Proceedings of International Conference on Educational Data Mining"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.17485\/ijst\/2019\/v12i4\/139729"},{"key":"ref2","year":"2019","journal-title":"Education at a glance 2019"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1038\/nature14236"},{"key":"ref1","year":"0","journal-title":"Education gross enrolment ratio by level of education"},{"key":"ref20","article-title":"Deep reinforcement learning for sepsis treatment","author":"raghu","year":"2017","journal-title":"ArXiv Preprint"},{"key":"ref22","article-title":"Deployment-efficient reinforcement learning via model-based offline optimization","author":"matsushima","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1016\/S0927-0507(05)80172-0"},{"key":"ref42","article-title":"Horizon: Facebook's open source applied reinforcement learning platform","author":"gauci","year":"2018","journal-title":"ArXiv Preprint"},{"key":"ref24","article-title":"Deep Q-learning from demonstrations","author":"hester","year":"0","journal-title":"AAAI Conference on Artificial Intelligence"},{"key":"ref41","first-page":"1097","article-title":"Doubly robust policy evaluation and learning","author":"dud\u00edk","year":"0","journal-title":"International Conference on Machine Learning"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-27645-3_2"},{"key":"ref26","article-title":"Off-policy deep reinforcement learning without exploration","author":"fujimoto","year":"2018","journal-title":"ArXiv Preprint"},{"key":"ref43","article-title":"Hyperparameter selection for offline reinforcement learning","author":"paine","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref25","first-page":"11 784","article-title":"Stabilizing off-policy Q-learning via bootstrapping error reduction","author":"kumar","year":"2019","journal-title":"Advances in neural information processing systems"}],"event":{"name":"2021 International Joint Conference on Neural Networks (IJCNN)","location":"Shenzhen, China","start":{"date-parts":[[2021,7,18]]},"end":{"date-parts":[[2021,7,22]]}},"container-title":["2021 International Joint Conference on Neural Networks (IJCNN)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9533266\/9533267\/09534159.pdf?arnumber=9534159","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,1,9]],"date-time":"2023-01-09T23:21:55Z","timestamp":1673306515000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9534159\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,7,18]]},"references-count":43,"URL":"https:\/\/doi.org\/10.1109\/ijcnn52387.2021.9534159","relation":{},"subject":[],"published":{"date-parts":[[2021,7,18]]}}}