{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T12:56:45Z","timestamp":1780318605449,"version":"3.54.1"},"reference-count":62,"publisher":"IEEE","license":[{"start":{"date-parts":[[2021,5,30]],"date-time":"2021-05-30T00:00:00Z","timestamp":1622332800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,5,30]],"date-time":"2021-05-30T00:00:00Z","timestamp":1622332800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100000006","name":"Office of Naval Research","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100000006","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000001","name":"National Science Foundation","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,5,30]]},"DOI":"10.1109\/icra48506.2021.9561384","type":"proceedings-article","created":{"date-parts":[[2021,10,20]],"date-time":"2021-10-20T00:28:35Z","timestamp":1634689715000},"page":"6664-6671","source":"Crossref","is-referenced-by-count":60,"title":["Reset-Free Reinforcement Learning via Multi-Task Learning: Learning Dexterous Manipulation Behaviors without Human Intervention"],"prefix":"10.1109","author":[{"given":"Abhishek","family":"Gupta","sequence":"first","affiliation":[{"name":"UC Berkeley"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Justin","family":"Yu","sequence":"additional","affiliation":[{"name":"UC Berkeley"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Tony Z.","family":"Zhao","sequence":"additional","affiliation":[{"name":"UC Berkeley"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Vikash","family":"Kumar","sequence":"additional","affiliation":[{"name":"University of Washington"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Aaron","family":"Rovinsky","sequence":"additional","affiliation":[{"name":"UC Berkeley"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kelvin","family":"Xu","sequence":"additional","affiliation":[{"name":"UC Berkeley"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Thomas","family":"Devlin","sequence":"additional","affiliation":[{"name":"UC Berkeley"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Sergey","family":"Levine","sequence":"additional","affiliation":[{"name":"UC Berkeley"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ROBOT.2000.844067"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/HUMANOIDS.2015.7363524"},{"key":"ref33","article-title":"Mat: Multi-fingered adaptive tactile grasping via deep reinforcement learning","author":"wu","year":"2019"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2007.4399053"},{"key":"ref31","article-title":"Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection","volume":"abs 1603 2199","author":"levine","year":"2016","journal-title":"CoRR"},{"key":"ref30","doi-asserted-by":"crossref","first-page":"5","DOI":"10.1007\/s10472-015-9463-9","article-title":"Bayesian optimization for learning gaits under uncertainty - an experimental comparison on a dynamic bipedal walker","volume":"76","author":"calandra","year":"2016","journal-title":"Ann Math Artif Intell"},{"key":"ref37","first-page":"9209","article-title":"Visual reinforcement learning with imagined goals","author":"nair","year":"0"},{"key":"ref36","article-title":"Deep reinforcement learning for robotic manipulation","volume":"abs 1610 633","author":"gu","year":"2016","journal-title":"CoRR"},{"key":"ref35","article-title":"Doorgym: A scalable door opening environment and baseline agent","volume":"abs 1908 1887","author":"urakami","year":"2019","journal-title":"CoRR"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ICAR.2017.8023522"},{"key":"ref60","article-title":"Efficient exploration via state marginal matching","volume":"abs 1906 5274","author":"lee","year":"2019","journal-title":"CoRR"},{"key":"ref62","article-title":"Exploration by random network distillation","author":"burda","year":"0"},{"key":"ref61","article-title":"Soft actor-critic algorithms and applications","author":"haarnoja","year":"2018","journal-title":"arXiv preprint arXiv 1812 08942"},{"key":"ref28","article-title":"Learning to walk in the real world with minimal human effort","author":"ha","year":"2020"},{"key":"ref27","article-title":"Learning dexterous in-hand manipulation","volume":"abs 1808 177","author":"andrychowicz","year":"2018","journal-title":"CoRR"},{"key":"ref29","article-title":"Learning agile robotic locomotion skills by imitating animals","author":"peng","year":"2020"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/3197517.3201311"},{"key":"ref1","article-title":"Learning complex dexterous manipulation with deep reinforcement learning and demonstrations","volume":"abs 1709 10087","author":"rajeswaran","year":"2017","journal-title":"CoRR"},{"key":"ref20","article-title":"Policy distillation","author":"rusu","year":"0"},{"key":"ref22","article-title":"Gradient surgery for multi-task learning","volume":"abs 2001 6782","author":"yu","year":"2020","journal-title":"CoRR"},{"key":"ref21","article-title":"Actor-mimic: Deep multitask and transfer reinforcement learning","author":"parisotto","year":"0"},{"key":"ref24","first-page":"1094","article-title":"Meta-world: A benchmark and evaluation for multi-task and meta reinforcement learning","volume":"100","author":"yu","year":"0"},{"key":"ref23","article-title":"Multi-task learning as multi-objective optimization","volume":"abs 1810 4650","author":"sener","year":"2018","journal-title":"CoRR"},{"key":"ref26","article-title":"Emergence of locomotion behaviours in rich environments","volume":"abs 1707 2286","author":"heess","year":"2017","journal-title":"CoRR"},{"key":"ref25","article-title":"Rlbench: The robot learning benchmark and learning environment","author":"james","year":"2019"},{"key":"ref50","article-title":"Reset-free guided policy search: Efficient deep reinforcement learning with stochastic initial states","volume":"abs 1610 1112","author":"montgomery","year":"2016","journal-title":"CoRR"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2015.7354297"},{"key":"ref59","first-page":"1008","article-title":"Actor-critic algorithms","author":"konda","year":"0"},{"key":"ref58","author":"sutton","year":"2018","journal-title":"Reinforcement Learning An Introduction"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2014.6907421"},{"key":"ref56","article-title":"Regularized hierarchical policies for compositional transfer in robotics","volume":"abs 1906 11228","author":"wulfmeier","year":"2019","journal-title":"CoRR"},{"key":"ref55","article-title":"Learning by playing - solving sparse reward tasks from scratch","volume":"abs 1802 10567","author":"riedmiller","year":"2018","journal-title":"CoRR"},{"key":"ref54","article-title":"Multi-task reinforcement learning with soft modularization","volume":"abs 2003 13661","author":"yang","year":"2020","journal-title":"CoRR"},{"key":"ref53","article-title":"An overview of multi-task learning in deep neural networks","volume":"abs 1706 5098","author":"ruder","year":"2017","journal-title":"CoRR"},{"key":"ref52","article-title":"Avid: Learning multi-stage tasks via pixel-level translation of human videos","author":"smith","year":"2019","journal-title":"arXiv preprint arXiv 1912 04443"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2016.7487156"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2017.8206046"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ROBOT.2006.1641181"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2019.8794102"},{"key":"ref13","article-title":"Path integral guided policy search","volume":"abs 1610 529","author":"chebotar","year":"2016","journal-title":"CoRR"},{"key":"ref14","article-title":"Leave no trace: Learning to reset for safe and autonomous reinforcement learning","author":"eysenbach","year":"2017","journal-title":"arXiv preprint arXiv 1711 07064"},{"key":"ref15","first-page":"1300","article-title":"Robel: Robotics benchmarks for learning with low-cost robots","author":"ahn","year":"2020","journal-title":"Conference on Robot Learning"},{"key":"ref16","article-title":"Learning to poke by poking: Experiential learning of intuitive physics","volume":"abs 1606 7419","author":"agrawal","year":"2016","journal-title":"CoRR"},{"key":"ref17","article-title":"Intrinsic motivation and automatic curricula via asymmetric self-play","author":"sukhbaatar","year":"2017","journal-title":"arXiv preprint arXiv 1703 05192"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2017.XIII.064"},{"key":"ref19","first-page":"4496","article-title":"Distral: Robust multitask reinforcement learning","author":"teh","year":"2017"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2016.7487517"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2015.7138994"},{"key":"ref6","article-title":"Qtopt: Scalable deep reinforcement learning for vision-based robotic manipulation","author":"kalashnikov","year":"2018","journal-title":"arXiv preprint arXiv 1806 10293"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1177\/0278364919887447"},{"key":"ref8","article-title":"The ingredients of real-world robotic reinforcement learning","author":"zhu","year":"2020","journal-title":"arXiv preprint arXiv 2004 10491"},{"key":"ref7","first-page":"1101","article-title":"Deep dynamics models for learning dexterous manipulation","author":"nagabandi","year":"2020","journal-title":"Conference on Robot Learning"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2018.2810544"},{"key":"ref9","article-title":"High acceleration reinforcement learning for real-world juggling with binary rewards","author":"ploeger","year":"2020"},{"key":"ref46","article-title":"Learning dexterous in-hand manipulation","volume":"abs 1808 177","year":"2018","journal-title":"CoRR"},{"key":"ref45","article-title":"Dexterous robotic grasping with object-centric visual affordances","author":"mandikal","year":"2020"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2016.7759557"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/HUMANOIDS.2015.7363524"},{"key":"ref42","article-title":"Contact-invariant optimization for hand manipulation","author":"mordatch","year":"2012","journal-title":"Proceedings of the ACM SIGGRAPH\/Eurographics Symposium on Computer Animation"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2014.6907059"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1145\/1186562.1015756"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2014.6907864"}],"event":{"name":"2021 IEEE International Conference on Robotics and Automation (ICRA)","location":"Xi'an, China","start":{"date-parts":[[2021,5,30]]},"end":{"date-parts":[[2021,6,5]]}},"container-title":["2021 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9560720\/9560666\/09561384.pdf?arnumber=9561384","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,8,2]],"date-time":"2022-08-02T23:22:23Z","timestamp":1659482543000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9561384\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,5,30]]},"references-count":62,"URL":"https:\/\/doi.org\/10.1109\/icra48506.2021.9561384","relation":{},"subject":[],"published":{"date-parts":[[2021,5,30]]}}}