{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,3]],"date-time":"2026-06-03T18:59:20Z","timestamp":1780513160869,"version":"3.54.1"},"reference-count":57,"publisher":"IEEE","license":[{"start":{"date-parts":[[2022,10,9]],"date-time":"2022-10-09T00:00:00Z","timestamp":1665273600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,10,9]],"date-time":"2022-10-09T00:00:00Z","timestamp":1665273600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022,10,9]]},"DOI":"10.1109\/smc53654.2022.9945333","type":"proceedings-article","created":{"date-parts":[[2022,11,18]],"date-time":"2022-11-18T15:49:04Z","timestamp":1668786544000},"page":"2527-2532","source":"Crossref","is-referenced-by-count":6,"title":["Advances in Preference-based Reinforcement Learning: A Review"],"prefix":"10.1109","author":[{"given":"Youssef","family":"Abdelkareem","sequence":"first","affiliation":[{"name":"University of Waterloo,Electrical and Computer Engineering,Waterloo,Canada"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Shady","family":"Shehata","sequence":"additional","affiliation":[{"name":"Mohamed bin Zayed University of Artificial Intelligence,Abu Dhabi,UAE"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Fakhri","family":"Karray","sequence":"additional","affiliation":[{"name":"University of Waterloo,Electrical and Computer Engineering,Waterloo,Canada"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref39","article-title":"Maximum selection and ranking under noisy comparisons","author":"falahatgar","year":"2017","journal-title":"ICML"},{"key":"ref38","article-title":"Beat the mean bandit","author":"yue","year":"2011","journal-title":"ICML"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1093\/biomet\/25.3-4.285"},{"key":"ref32","article-title":"Dueling posterior sampling for preference-based reinforcement learning","author":"novoseller","year":"2020","journal-title":"UAI"},{"key":"ref31","article-title":"Regret bounds for kernel-based reinforcement learning","volume":"abs 2004 5599","author":"domingues","year":"2020","journal-title":"ArXiv"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1287\/moor.2014.0650"},{"key":"ref37","article-title":"Preference-based reinforcement learning with finite-time guarantees","volume":"abs 2006 8910","author":"xu","year":"2020","journal-title":"ArXiv"},{"key":"ref36","article-title":"Improved optimistic algorithms for logistic bandits","author":"faury","year":"2020","journal-title":"ICML"},{"key":"ref35","article-title":"Dueling rl: Reinforcement learning with trajectory p","volume":"abs 2111 4850","author":"pacchiano","year":"2021","journal-title":"ArXiv"},{"key":"ref34","article-title":"An information-theoretic analysis of thompson sampling","volume":"abs 1403 5341","author":"russo","year":"2016","journal-title":"ArXiv"},{"key":"ref28","article-title":"Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor","author":"haarnoja","year":"2018","journal-title":"ICML"},{"key":"ref27","article-title":"Pebble: Feedback-efficient interactive reinforcement learning via relabeling experience and unsupervised pre-training","volume":"abs 2106 5091","author":"lee","year":"2021","journal-title":"ArXiv"},{"key":"ref29","article-title":"SURF: Semi-supervised reward learning with data augmentation for feedback-efficient preference-based reinforcement learning","author":"park","year":"2022","journal-title":"International Conference on Learning Representations"},{"key":"ref2","article-title":"A survey of deep reinforcement learning in video games","volume":"abs 1912 10944","author":"shao","year":"2019","journal-title":"CoRR"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1177\/0278364913495721"},{"key":"ref20","article-title":"Deep reinforcement learning from human p","author":"christiano","year":"2017","journal-title":"NIPS"},{"key":"ref22","article-title":"The arcade learning environment: An evaluation platform for general agents (extended abstract)","author":"bellemare","year":"2015","journal-title":"IJCAI"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2012.6386109"},{"key":"ref24","article-title":"Asynchronous methods for deep reinforcement learning","author":"mnih","year":"2016","journal-title":"ICML"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1093\/biomet\/39.3-4.324"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2021.3084198"},{"key":"ref25","article-title":"Trust region policy optimization","volume":"abs 1502 5477","author":"schulman","year":"2015","journal-title":"ArXiv"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1445"},{"key":"ref51","first-page":"1","article-title":"Preference-based interactive multi-document summarisation","author":"gao","year":"2019","journal-title":"Information Retrieval Journal"},{"key":"ref57","article-title":"A simple framework for contrastive learning of visual representations","volume":"abs 2002 5709","author":"chen","year":"2020","journal-title":"ArXiv"},{"key":"ref56","article-title":"Reward learning from human p and demonstrations in atari","author":"ibarz","year":"2018","journal-title":"NeurIPS"},{"key":"ref55","doi-asserted-by":"crossref","first-page":"385","DOI":"10.1109\/TSMC.2014.2358639","article-title":"Multiobjective reinforcement learning: A comprehensive overview","volume":"45","author":"liu","year":"2015","journal-title":"IEEE Transactions on Systems Man and Cybernetics Systems"},{"key":"ref54","article-title":"Recursively summarizing books with human feedback","volume":"abs 2109 10862","author":"wu","year":"2021","journal-title":"ArXiv"},{"key":"ref53","article-title":"Learning to summarize from human feedback","volume":"abs 2009 1325","author":"stiennon","year":"2020","journal-title":"ArXiv"},{"key":"ref52","article-title":"Fine-tuning language models from human p","volume":"abs 1909 8593","author":"ziegler","year":"2019","journal-title":"ArXiv"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ROBOT.2010.5509176"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1049\/cp:19991091"},{"key":"ref40","article-title":"Reward-free exploration for reinforcement learning","author":"jin","year":"2020","journal-title":"ICML"},{"key":"ref12","article-title":"A bayesian approach for policy learning from trajectory preference queries","author":"wilson","year":"2012","journal-title":"NIPS"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1023\/A:1020281327116"},{"key":"ref14","article-title":"Preference-based evolutionary direct policy search","author":"busa-fekete","year":"2013"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-014-5458-8"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-33486-3_8"},{"key":"ref17","first-page":"245","article-title":"Bayes point machines","volume":"1","author":"herbrich","year":"2001","journal-title":"J Mach Learn Res"},{"key":"ref18","article-title":"Pattern classification and scene analysis","author":"duda","year":"1973","journal-title":"A Wiley-Interscience Publication"},{"key":"ref19","article-title":"Programming by feedback","author":"akrour","year":"2014","journal-title":"ICML"},{"key":"ref4","article-title":"Concrete problems in AI safety","volume":"abs 1606 6565","author":"amodei","year":"2016","journal-title":"CoRR"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1145\/3477600"},{"key":"ref6","first-page":"136:1","article-title":"A survey of preference-based reinforcement learning methods","volume":"18","author":"wirth","year":"2017","journal-title":"J Mach Learn Res"},{"key":"ref5","first-page":"278","article-title":"Policy invariance under reward transformations: Theory and application to reward shaping","author":"ng","year":"1999","journal-title":"Proceedings of the Sixteenth International Conference on Machine Learning (ICML 1999)"},{"key":"ref8","article-title":"First steps towards learning from game annotations","author":"wirth","year":"2012","journal-title":"Workshop Proceedings - Preference Learning Problems and Applications in AI at ECAI 2012"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-012-5313-8"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/E17-2007"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/TCIAIG.2014.2332442"},{"key":"ref46","article-title":"Meta-world: A benchmark and evaluation for multi-task and meta reinforcement learning","volume":"abs 1910 10897","author":"yu","year":"2019","journal-title":"ArXiv"},{"key":"ref45","article-title":"Deepmind control suite","volume":"abs 1801 690","author":"tassa","year":"2018","journal-title":"ArXiv"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N18-1158"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2020.113679"},{"key":"ref42","article-title":"Rl unplugged: A suite of benchmarks for offline reinforcement learning","author":"gulcehre","year":"2020"},{"key":"ref41","article-title":"Tighter problem-dependent regret bounds in reinforcement learning without domain knowledge using value function bounds","author":"zanette","year":"2019","journal-title":"ICML"},{"key":"ref44","article-title":"B-pref: Benchmarking preference-based reinforcement learning","volume":"abs 2111 3026","author":"lee","year":"2021","journal-title":"ArXiv"},{"key":"ref43","first-page":"1","article-title":"Benchmarking safe exploration in deep reinforcement learning","volume":"7","author":"achiam","year":"2019","journal-title":"arXiv preprint arXiv 1910 01500"}],"event":{"name":"2022 IEEE International Conference on Systems, Man, and Cybernetics (SMC)","location":"Prague, Czech Republic","start":{"date-parts":[[2022,10,9]]},"end":{"date-parts":[[2022,10,12]]}},"container-title":["2022 IEEE International Conference on Systems, Man, and Cybernetics (SMC)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9945068\/9945069\/09945333.pdf?arnumber=9945333","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,12,12]],"date-time":"2022-12-12T14:53:12Z","timestamp":1670856792000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9945333\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,10,9]]},"references-count":57,"URL":"https:\/\/doi.org\/10.1109\/smc53654.2022.9945333","relation":{},"subject":[],"published":{"date-parts":[[2022,10,9]]}}}