{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,10]],"date-time":"2026-01-10T18:57:02Z","timestamp":1768071422207,"version":"3.49.0"},"reference-count":26,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018,5]]},"DOI":"10.1109\/icra.2018.8461203","type":"proceedings-article","created":{"date-parts":[[2018,9,21]],"date-time":"2018-09-21T18:28:03Z","timestamp":1537554483000},"page":"6276-6283","source":"Crossref","is-referenced-by-count":62,"title":["Learning with Training Wheels: Speeding up Training with a Simple Controller for Deep Reinforcement Learning"],"prefix":"10.1109","author":[{"given":"Linhai","family":"Xie","sequence":"first","affiliation":[]},{"given":"Sen","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Stefano","family":"Rosa","sequence":"additional","affiliation":[]},{"given":"Andrew","family":"Markham","sequence":"additional","affiliation":[]},{"given":"Niki","family":"Trigoni","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2017.7989236"},{"key":"ref11","first-page":"3995","article-title":"Vinet: Visual-inertial odometry as a sequence-to-sequence learning problem","author":"clark","year":"2017","journal-title":"AAAI"},{"key":"ref12","first-page":"278364917710318","article-title":"Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection","author":"levine","year":"2016","journal-title":"IJRR"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ROBOT.1995.525695"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1023\/A:1008824626321"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2015.2509024"},{"key":"ref16","author":"pfeiffer","year":"2016","journal-title":"From perception to decision a data-driven approach to end-to-end Motion planning for autonomous ground robots"},{"key":"ref17","author":"gandhi","year":"2017","journal-title":"Learning to Fly by Crashing"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2017.XIII.034"},{"key":"ref19","author":"zhang","year":"2016","journal-title":"Deep reinforcement learning with successor features for navigation across similar environments"},{"key":"ref4","article-title":"Virtual-to-real deep reinforcement learning: Continuous control of mobile robots for mapless navigation","author":"tai","year":"2017","journal-title":"IROS"},{"key":"ref3","author":"schaul","year":"2015","journal-title":"Prioritized experience replay"},{"key":"ref6","first-page":"1527","article-title":"From perception to decision: A data-driven approach to end-to-end motion planning for autonomous ground robots","author":"pfeiffer","year":"2017","journal-title":"ICRA"},{"key":"ref5","author":"xie","year":"2017","journal-title":"Towards monocular vision based obstacle avoidance through deep reinforcement learning"},{"key":"ref8","author":"duan","year":"2017","journal-title":"One-shot imitation learning"},{"key":"ref7","author":"yang","year":"2017","journal-title":"Obstacle avoidance through deep networks based intermediate perception"},{"key":"ref2","first-page":"1928","article-title":"Asynchronous methods for deep reinforcement learning","author":"mnih","year":"2016","journal-title":"ICML"},{"key":"ref9","article-title":"Continuous control with deep reinforcement learning","author":"lillicrap","year":"2016","journal-title":"ICLRE"},{"key":"ref1","doi-asserted-by":"crossref","first-page":"529","DOI":"10.1038\/nature14236","article-title":"Human-level control through deep reinforcement learning","volume":"518","author":"mnih","year":"2015","journal-title":"Nature"},{"key":"ref20","first-page":"2829","article-title":"Continuous deep q-learning with model-based acceleration","author":"gu","year":"2016","journal-title":"ICML"},{"key":"ref22","author":"ve?er\u00edk","year":"2017","journal-title":"Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2016.7487175"},{"key":"ref24","article-title":"Dueling network architectures for deep reinforcement learning","volume":"abs 1511 6581","author":"wang","year":"2015","journal-title":"CoRR"},{"key":"ref23","first-page":"6","article-title":"A deep hierarchical approach to lifelong learning in minecraft","volume":"3","author":"tessler","year":"2017","journal-title":"AAAI"},{"key":"ref26","first-page":"1057","article-title":"Policy gradient methods for reinforcement learning with function approximation","author":"sutton","year":"2000","journal-title":"NIPS"},{"key":"ref25","first-page":"2094","article-title":"Deep reinforcement learning with double q-leaming","author":"van hasselt","year":"2016","journal-title":"AAAI"}],"event":{"name":"2018 IEEE International Conference on Robotics and Automation (ICRA)","location":"Brisbane, QLD","start":{"date-parts":[[2018,5,21]]},"end":{"date-parts":[[2018,5,25]]}},"container-title":["2018 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/8449910\/8460178\/08461203.pdf?arnumber=8461203","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,8,23]],"date-time":"2020-08-23T22:03:33Z","timestamp":1598220213000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8461203\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,5]]},"references-count":26,"URL":"https:\/\/doi.org\/10.1109\/icra.2018.8461203","relation":{},"subject":[],"published":{"date-parts":[[2018,5]]}}}