{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,21]],"date-time":"2025-08-21T18:07:37Z","timestamp":1755799657584,"version":"3.41.0"},"reference-count":62,"publisher":"IEEE","license":[{"start":{"date-parts":[[2021,5,30]],"date-time":"2021-05-30T00:00:00Z","timestamp":1622332800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,5,30]],"date-time":"2021-05-30T00:00:00Z","timestamp":1622332800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,5,30]]},"DOI":"10.1109\/icra48506.2021.9560733","type":"proceedings-article","created":{"date-parts":[[2021,10,20]],"date-time":"2021-10-20T00:28:35Z","timestamp":1634689715000},"page":"6512-6519","source":"Crossref","is-referenced-by-count":4,"title":["Representation Matters: Improving Perception and Exploration for Robotics"],"prefix":"10.1109","author":[{"given":"Markus","family":"Wulfmeier","sequence":"first","affiliation":[{"name":"DeepMind,London,United Kingdom"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Arunkumar","family":"Byravan","sequence":"additional","affiliation":[{"name":"DeepMind,London,United Kingdom"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tim","family":"Hertweck","sequence":"additional","affiliation":[{"name":"DeepMind,London,United Kingdom"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Irina","family":"Higgins","sequence":"additional","affiliation":[{"name":"DeepMind,London,United Kingdom"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ankush","family":"Gupta","sequence":"additional","affiliation":[{"name":"DeepMind,London,United Kingdom"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tejas","family":"Kulkarni","sequence":"additional","affiliation":[{"name":"DeepMind,London,United Kingdom"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Malcolm","family":"Reynolds","sequence":"additional","affiliation":[{"name":"DeepMind,London,United Kingdom"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Denis","family":"Teplyashin","sequence":"additional","affiliation":[{"name":"DeepMind,London,United Kingdom"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Roland","family":"Hafner","sequence":"additional","affiliation":[{"name":"DeepMind,London,United Kingdom"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Thomas","family":"Lampe","sequence":"additional","affiliation":[{"name":"DeepMind,London,United Kingdom"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Martin","family":"Riedmiller","sequence":"additional","affiliation":[{"name":"DeepMind,London,United Kingdom"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref39","first-page":"4114","article-title":"Challenging common assumptions in the unsupervised learning of disentangled representations","author":"locatello","year":"2019","journal-title":"ICML"},{"article-title":"Stochastic latent actor-critic: Deep reinforcement learning with a latent variable model","year":"2019","author":"lee","key":"ref38"},{"article-title":"Playing atari with deep reinforcement learning","year":"2013","author":"mnih","key":"ref33"},{"key":"ref32","article-title":"Large scale adversarial representation learning","author":"donahue","year":"2019","journal-title":"NeurIPS"},{"key":"ref31","article-title":"Meta-world: A benchmark and evaluation for multi-task and meta reinforcement learning","author":"yu","year":"2019","journal-title":"CoRL"},{"key":"ref30","first-page":"3303","article-title":"Data-efficient hierarchical reinforcement learning","author":"nachum","year":"2018","journal-title":"NeurIPS"},{"article-title":"Dream to control: Learning behaviors by latent imagination","year":"2019","author":"hafner","key":"ref37"},{"key":"ref36","first-page":"566","article-title":"Imagined value gradients: Model-based policy optimization with transferable latent dynamics models","author":"byravan","year":"2019","journal-title":"CoRL"},{"article-title":"Qt-opt: Scalable deep reinforcement learning for vision-based robotic manipulation","year":"2018","author":"kalashnikov","key":"ref35"},{"key":"ref34","article-title":"Continuous control with deep reinforcement learning","author":"lillicrap","year":"2016","journal-title":"ICLRE"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2012.6386109"},{"article-title":"Spatial broadcast decoder: A simple architecture forlearning disentangled representations in vaes","year":"2019","author":"watters","key":"ref62"},{"article-title":"Self-supervised sim-to-real adaptation for visual robotic manipulation","year":"2019","author":"jeong","key":"ref61"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TNN.1998.712192"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1145\/502512.502546"},{"key":"ref29","first-page":"5055","article-title":"Hindsight experience replay","author":"andrychowicz","year":"2017","journal-title":"NeurIPS"},{"key":"ref2","article-title":"Auto-encoding variational bayes","author":"kingma","year":"2014","journal-title":"ICLRE"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1126\/science.1127647"},{"key":"ref20","article-title":"Transfer learning via diverse policies in value-relevant features","author":"luketina","year":"2020","journal-title":"BeTR-RL workshop ICLR"},{"key":"ref22","first-page":"9191","article-title":"Visual reinforcement learning with imagined goals","author":"nair","year":"2018","journal-title":"NeurIPS"},{"article-title":"Curiosity driven exploration of learned disentangled goal spaces","year":"2018","author":"laversanne-finot","key":"ref21"},{"article-title":"Independently controllable features","year":"2017","author":"bengio","key":"ref24"},{"article-title":"Towards a definition of disentangled representations","year":"2018","author":"higgins","key":"ref23"},{"article-title":"Stochastic backpropagation and approximate inference in deep generative models","year":"2014","author":"rezende","key":"ref26"},{"article-title":"Relative entropy regularized policy iteration","year":"2018","author":"abdolmaleki","key":"ref25"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2017.70"},{"article-title":"Intrinsically motivated goal exploration processes with automatic curriculum learning","year":"2017","author":"forestier","key":"ref51"},{"article-title":"Paired open-ended trailblazer (poet): Endlessly generating increasingly complex and diverse learning environments and their solutions","year":"2019","author":"wang","key":"ref59"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.3389\/fpsyg.2013.00313"},{"article-title":"Reverse curriculum generation for reinforcement learning","year":"2017","author":"florensa","key":"ref57"},{"article-title":"Emergence of locomotion behaviours in rich environments","year":"2017","author":"heess","key":"ref56"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1145\/1553374.1553380"},{"key":"ref54","first-page":"1311","article-title":"Automated curriculum learning for neural networks","author":"graves","year":"2017","journal-title":"ICML"},{"key":"ref53","article-title":"Variational intrinsic control","author":"gregor","year":"2017","journal-title":"ICLRE"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1007\/11553090_75"},{"article-title":"Bootstrap your own latent: A new approach to self-supervised learning","year":"2020","author":"grill","key":"ref10"},{"article-title":"Data-efficient reinforcement learning with momentum predictive representations","year":"2020","author":"schwarzer","key":"ref40"},{"key":"ref11","article-title":"DARLA: Improving zero-shot transfer in reinforcement learning","author":"higgins","year":"2017","journal-title":"ICML"},{"article-title":"Deepmind control suite","year":"2018","author":"tassa","key":"ref12"},{"article-title":"Model-based reinforcement learning for atari","year":"2019","author":"kaiser","key":"ref13"},{"article-title":"Learning by playing-solving sparse reward tasks from scratch","year":"2018","author":"riedmiller","key":"ref14"},{"article-title":"Regularized hierarchical policies for compositional transfer in robotics","year":"2019","author":"wulfmeier","key":"ref15"},{"key":"ref16","article-title":"Distral: Robust multitask reinforcement learning","author":"teh","year":"2017","journal-title":"CoRR"},{"article-title":"Dynamics-aware unsupervised discovery of skills","year":"2019","author":"sharma","key":"ref17"},{"article-title":"Simple sensor intentions for exploration","year":"2020","author":"hertweck","key":"ref18"},{"article-title":"Disentangled cumulants help successor representations transfer to new tasks","year":"2019","author":"grimm","key":"ref19"},{"key":"ref4","first-page":"3549","article-title":"Towards conceptual compression","author":"gregor","year":"2016","journal-title":"NeurIPS"},{"key":"ref3","first-page":"6","article-title":"Beta-vae: Learning basic visual concepts with a constrained variational framework","volume":"2","author":"higgins","year":"2017","journal-title":"ICLRE"},{"key":"ref6","first-page":"10 723","article-title":"Unsupervised learning of object keypoints for perception and control","author":"kulkarni","year":"2019","journal-title":"NeurIPS"},{"article-title":"Monet: Unsupervised scene decomposition and representation","year":"2019","author":"burgess","key":"ref5"},{"article-title":"A simple framework for contrastive learning of visual representations","year":"2020","author":"chen","key":"ref8"},{"article-title":"Diversity is all you need: Learning skills without a reward function","year":"2018","author":"eysenbach","key":"ref49"},{"article-title":"Representation learning with contrastive predictive coding","year":"2018","author":"oord","key":"ref7"},{"article-title":"Curl: Contrastive unsupervised representations for reinforcement learning","year":"2020","author":"srinivas","key":"ref9"},{"key":"ref46","article-title":"The Intentional Unintentional Agent: Learning to solve many continuous control tasks simultaneously","author":"cabi","year":"2017","journal-title":"CoRL"},{"article-title":"Learning to Navigate in complex environments","year":"2016","author":"mirowski","key":"ref45"},{"article-title":"Data-efficient hindsight off-policy option learning","year":"2020","author":"wulfmeier","key":"ref48"},{"key":"ref47","first-page":"1094","article-title":"Learning to achieve goals","author":"kaelbling","year":"1993","journal-title":"IJCAI"},{"key":"ref42","first-page":"2930","article-title":"Playing hard exploration games by watching youtube","author":"aytar","year":"2018","journal-title":"NeurIPS"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN.2012.6252823"},{"key":"ref44","article-title":"Unreal: Reinforcement learning with unsupervised auxiliary tasks","author":"jaderberg","year":"2017","journal-title":"ICLRE"},{"key":"ref43","article-title":"Learning to act by predicting the future","author":"dosovitskiy","year":"2017","journal-title":"ICLRE"}],"event":{"name":"2021 IEEE International Conference on Robotics and Automation (ICRA)","start":{"date-parts":[[2021,5,30]]},"location":"Xi'an, China","end":{"date-parts":[[2021,6,5]]}},"container-title":["2021 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9560720\/9560666\/09560733.pdf?arnumber=9560733","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,3]],"date-time":"2025-06-03T17:48:25Z","timestamp":1748972905000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9560733\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,5,30]]},"references-count":62,"URL":"https:\/\/doi.org\/10.1109\/icra48506.2021.9560733","relation":{},"subject":[],"published":{"date-parts":[[2021,5,30]]}}}