{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,14]],"date-time":"2026-03-14T20:59:36Z","timestamp":1773521976314,"version":"3.50.1"},"reference-count":38,"publisher":"IEEE","license":[{"start":{"date-parts":[[2024,5,13]],"date-time":"2024-05-13T00:00:00Z","timestamp":1715558400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,5,13]],"date-time":"2024-05-13T00:00:00Z","timestamp":1715558400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,5,13]]},"DOI":"10.1109\/icra57147.2024.10611575","type":"proceedings-article","created":{"date-parts":[[2024,8,8]],"date-time":"2024-08-08T17:51:05Z","timestamp":1723139465000},"page":"16977-16984","source":"Crossref","is-referenced-by-count":5,"title":["Robotic Offline RL from Internet Videos via Value-Function Learning"],"prefix":"10.1109","author":[{"given":"Chethan","family":"Bhateja","sequence":"first","affiliation":[{"name":"UC Berkeley"}]},{"given":"Derek","family":"Guo","sequence":"additional","affiliation":[{"name":"UC Berkeley"}]},{"given":"Dibya","family":"Ghosh","sequence":"additional","affiliation":[{"name":"UC Berkeley"}]},{"given":"Anikait","family":"Singh","sequence":"additional","affiliation":[{"name":"UC Berkeley"}]},{"given":"Manan","family":"Tomar","sequence":"additional","affiliation":[{"name":"UC Berkeley"}]},{"given":"Quan","family":"Vuong","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Yevgen","family":"Chebotar","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Sergey","family":"Levine","sequence":"additional","affiliation":[{"name":"UC Berkeley"}]},{"given":"Aviral","family":"Kumar","sequence":"additional","affiliation":[{"name":"UC Berkeley"}]}],"member":"263","reference":[{"key":"ref1","first-page":"30","article-title":"Hindsight experience replay","author":"Andrychowicz","year":"2017","journal-title":"Advances in neural information processing systems"},{"key":"ref2","article-title":"Human-to-robot imitation in the wild","volume-title":"ArXiv","volume":"abs\/2207.09450","author":"Bahl","year":"2022"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01324"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-377-6.50013-X"},{"key":"ref5","article-title":"Video pretraining (vpt): Learning to act by watching unlabeled online videos","volume":"abs\/2206.11795","author":"Baker","year":"2022","journal-title":"ArXiv"},{"key":"ref6","article-title":"Crossnorm: Normalization for off-policy td reinforcement learning","author":"Bhatt","year":"2019"},{"key":"ref7","article-title":"Learning value functions from undirected state-only experience","volume":"abs\/2204.12458","author":"Chang","year":"2022","journal-title":"ArXiv"},{"key":"ref8","first-page":"809","article-title":"Policy evaluation with temporal differences: A survey and comparison","volume":"15","author":"Dann","year":"2014","journal-title":"Journal of Machine Learning Research"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2022.xviii.063"},{"key":"ref10","article-title":"Reinforcement learning from passive data via latent intentions","author":"Ghosh","year":"2023"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01842"},{"key":"ref12","article-title":"Masked autoencoders are scalable vision learners","author":"He","year":"2021","journal-title":"arxiv"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46493-0_38"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.032"},{"key":"ref15","article-title":"Image augmentation is all you need: Regularizing deep reinforcement learning from pixels","author":"Kostrikov","year":"2020"},{"key":"ref16","article-title":"Conservative q-learning for offline reinforcement learning","author":"Kumar","year":"2020"},{"key":"ref17","article-title":"A workflow for offline modelfree robotic reinforcement learning","volume-title":"5th Annual Conference on Robot Learning","author":"Kumar"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2023.xix.019"},{"key":"ref19","article-title":"Vip: Towards universal visual reward and representation via value-implicit pre-training","author":"Ma","year":"2022"},{"key":"ref20","article-title":"Goal representations for instruction following: A semi-supervised language interface to control","author":"Myers","year":"2023"},{"key":"ref21","article-title":"Contextual imagined goals for self-supervised robotic learning","volume-title":"Conference on Robot Learning (CoRL)","author":"Nair"},{"key":"ref22","article-title":"R3m: A universal visual representation for robot manipulation","volume":"abs\/2203.12601","author":"Nair","year":"2022","journal-title":"ArXiv"},{"key":"ref23","article-title":"R3m: A universal visual representation for robot manipulation","author":"Nair","year":"2022"},{"key":"ref24","article-title":"Real-world robot learning with masked visual pre-training","author":"Radosavovic","year":"2022"},{"key":"ref25","article-title":"Reinforcement learning with videos: Combining offline observations with interaction","volume-title":"Conference on Robot Learning","author":"Schmeckpeper"},{"key":"ref26","article-title":"Grad-cam: Visual explanations from deep networks via gradient-based localization","author":"Selvaraju","year":"2016","journal-title":"arxiv"},{"key":"ref27","article-title":"Masked world models for visual control","volume":"abs\/2206.14244","author":"Seo","year":"2022","journal-title":"ArXiv"},{"key":"ref28","article-title":"Reinforcement learning with action-free pretraining from videos","volume":"abs\/2203.13880","author":"Seo","year":"2022","journal-title":"ArXiv"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8462891"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.2307\/j.ctt4cgngj.10"},{"key":"ref31","article-title":"Third-person imitation learning","volume":"abs\/1703.01703","author":"Stadie","year":"2017","journal-title":"ArXiv"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICAC.2006.1662383"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2018\/687"},{"key":"ref34","article-title":"Generative adversarial imitation from observation","volume":"abs\/1807.06158","author":"Torabi","year":"2018","journal-title":"ArXiv"},{"key":"ref35","article-title":"Bridgedata v2: A dataset for robot learning at scale","author":"Walke","year":"2023"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01261-8_1"},{"key":"ref37","article-title":"Masked visual pre-training for motor control","volume":"abs\/2203.06173","author":"Xiao","year":"2022","journal-title":"ArXiv"},{"key":"ref38","article-title":"Masked visual pre-training for motor control","author":"Xiao","year":"2022"}],"event":{"name":"2024 IEEE International Conference on Robotics and Automation (ICRA)","location":"Yokohama, Japan","start":{"date-parts":[[2024,5,13]]},"end":{"date-parts":[[2024,5,17]]}},"container-title":["2024 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10609961\/10609862\/10611575.pdf?arnumber=10611575","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,8,11]],"date-time":"2024-08-11T04:19:08Z","timestamp":1723349948000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10611575\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,5,13]]},"references-count":38,"URL":"https:\/\/doi.org\/10.1109\/icra57147.2024.10611575","relation":{},"subject":[],"published":{"date-parts":[[2024,5,13]]}}}