{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,20]],"date-time":"2026-02-20T02:12:04Z","timestamp":1771553524858,"version":"3.50.1"},"reference-count":34,"publisher":"IEEE","license":[{"start":{"date-parts":[[2020,5,1]],"date-time":"2020-05-01T00:00:00Z","timestamp":1588291200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2020,5,1]],"date-time":"2020-05-01T00:00:00Z","timestamp":1588291200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2020,5,1]],"date-time":"2020-05-01T00:00:00Z","timestamp":1588291200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2020,5]]},"DOI":"10.1109\/icra40945.2020.9197159","type":"proceedings-article","created":{"date-parts":[[2020,9,15]],"date-time":"2020-09-15T17:25:46Z","timestamp":1600190746000},"page":"3363-3370","source":"Crossref","is-referenced-by-count":15,"title":["Fast Adaptation of Deep Reinforcement Learning-Based Navigation Skills to Human Preference"],"prefix":"10.1109","author":[{"given":"Jinyoung","family":"Choi","sequence":"first","affiliation":[]},{"given":"Christopher","family":"Dance","sequence":"additional","affiliation":[]},{"given":"Jung-eun","family":"Kim","sequence":"additional","affiliation":[]},{"given":"Kyung-sik","family":"Park","sequence":"additional","affiliation":[]},{"given":"Jaehun","family":"Han","sequence":"additional","affiliation":[]},{"given":"Joonho","family":"Seo","sequence":"additional","affiliation":[]},{"given":"Minsu","family":"Kim","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref33","article-title":"Unity: A general platform for intelligent agents","author":"juliani","year":"2018"},{"key":"ref32","first-page":"10","article-title":"Relative upper confidence bound for the k-armed dueling bandit problem","author":"zoghi","year":"2014","journal-title":"International Conference on Machine Learning"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.3389\/fict.2015.00013"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/W14-4012"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1007\/BF01386390"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2017.7989381"},{"key":"ref11","article-title":"Building generalizable agents with a realistic and rich 3D environment","author":"wu","year":"2018"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref13","article-title":"Asymmetric actor critic for image-based robot learning","author":"pinto","year":"2017"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460968"},{"key":"ref15","first-page":"1312","article-title":"Universal value function approximators","author":"schaul","year":"2015","journal-title":"International Conference on Machine Learning"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-008-5061-y"},{"key":"ref17","first-page":"4055","article-title":"Successor features for transfer in reinforcement learning","author":"barreto","year":"2017","journal-title":"Advances in neural information processing systems"},{"key":"ref18","first-page":"8011","article-title":"Reward learning from human preferences and demonstrations in Atari","author":"ibarz","year":"2018","journal-title":"Advances in neural information processing systems"},{"key":"ref19","first-page":"4945","article-title":"A survey of preference-based reinforcement learning methods","volume":"18","author":"wirth","year":"2017","journal-title":"Journal of Machine Learning Research"},{"key":"ref28","article-title":"Proximal policy optimization algorithms","author":"schulman","year":"2017"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2015.7139511"},{"key":"ref27","article-title":"Soft actor-critic algorithms and applications","author":"haarnoja","year":"2018"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2019.8793979"},{"key":"ref6","article-title":"Towards optimally decentralized multi-robot collision avoidance via deep reinforcement learning","author":"long","year":"2017"},{"key":"ref29","first-page":"1582","article-title":"Addressing function approximation error in actor-critic methods","author":"fujimoto","year":"2018","journal-title":"International Conference on Machine Learning"},{"key":"ref5","doi-asserted-by":"crossref","first-page":"23","DOI":"10.1109\/100.580977","article-title":"The dynamic window approach to collision avoidance","volume":"4","author":"fox","year":"1997","journal-title":"IEEE Robotics & Automation Magazine"},{"key":"ref8","doi-asserted-by":"crossref","first-page":"3","DOI":"10.1007\/978-3-642-19457-3_1","article-title":"Reciprocal n-body collision avoidance","author":"van den berg","year":"2011","journal-title":"Robotics Research"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2017.8202312"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8461096"},{"key":"ref9","article-title":"Motion planning for a six-legged lunar robot","author":"hauser","year":"2006","journal-title":"The Seventh International Workshop on the Algorithmic Foundations of Robotics"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2019.2899918"},{"key":"ref20","first-page":"4299","article-title":"Deep reinforcement learning from human preferences","author":"christiano","year":"2017","journal-title":"Advances in neural information processing systems"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2019.XV.023"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.2307\/2334029"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1016\/j.tcs.2009.01.016"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1023\/A:1013689704352"},{"key":"ref26","article-title":"Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor","author":"haarnoja","year":"2018"},{"key":"ref25","article-title":"Weight uncertainty in neural networks","author":"blundell","year":"2015"}],"event":{"name":"2020 IEEE International Conference on Robotics and Automation (ICRA)","location":"Paris, France","start":{"date-parts":[[2020,5,31]]},"end":{"date-parts":[[2020,8,31]]}},"container-title":["2020 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9187508\/9196508\/09197159.pdf?arnumber=9197159","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,6,27]],"date-time":"2022-06-27T20:22:19Z","timestamp":1656361339000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9197159\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020,5]]},"references-count":34,"URL":"https:\/\/doi.org\/10.1109\/icra40945.2020.9197159","relation":{},"subject":[],"published":{"date-parts":[[2020,5]]}}}