{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,5]],"date-time":"2026-06-05T04:53:12Z","timestamp":1780635192573,"version":"3.54.1"},"reference-count":74,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,5,19]],"date-time":"2025-05-19T00:00:00Z","timestamp":1747612800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,5,19]],"date-time":"2025-05-19T00:00:00Z","timestamp":1747612800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100000001","name":"NSF","doi-asserted-by":"publisher","award":["2331783"],"award-info":[{"award-number":["2331783"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,5,19]]},"DOI":"10.1109\/icra55743.2025.11128283","type":"proceedings-article","created":{"date-parts":[[2025,9,2]],"date-time":"2025-09-02T17:28:56Z","timestamp":1756834136000},"page":"16939-16947","source":"Crossref","is-referenced-by-count":2,"title":["ZeroMimic: Distilling Robotic Manipulation Skills from Web Videos"],"prefix":"10.1109","author":[{"given":"Junyao","family":"Shi","sequence":"first","affiliation":[{"name":"University of Pennsylvania"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zhuolun","family":"Zhao","sequence":"additional","affiliation":[{"name":"University of Pennsylvania"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Tianyou","family":"Wang","sequence":"additional","affiliation":[{"name":"University of Pennsylvania"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ian","family":"Pedroza","sequence":"additional","affiliation":[{"name":"University of Pennsylvania"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Amy","family":"Luo","sequence":"additional","affiliation":[{"name":"University of Pennsylvania"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Jie","family":"Wang","sequence":"additional","affiliation":[{"name":"University of Pennsylvania"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Jason","family":"Ma","sequence":"additional","affiliation":[{"name":"University of Pennsylvania"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Dinesh","family":"Jayaraman","sequence":"additional","affiliation":[{"name":"University of Pennsylvania"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.016"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.026"},{"key":"ref3","article-title":"Mobile aloha: Learning bimanual mobile manipulation with low-cost whole-body teleoperation","volume-title":"Conference on Robot Learning (CoRL)","author":"Fu","year":"2024"},{"key":"ref4","article-title":"ALOHA unleashed: A simple recipe for robot dexterity","volume-title":"8th Annual Conference on Robot Learning","author":"Zhao","year":"2024"},{"key":"ref5","article-title":"Scaling egocentric vision: The epic-kitchens dataset","volume-title":"European Conference on Computer Vision (ECCV)","author":"Damen","year":"2018"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2023.xix.025"},{"key":"ref7","article-title":"Rt-2: Vision-language-action models transfer web knowledge to robotic control","author":"Brohan","year":"2023","journal-title":"ar Xiv preprint"},{"key":"ref8","author":"Collaboration","year":"2023","journal-title":"Open X-Embodiment: Robotic learning datasets and RT-X models"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.090"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/icra57147.2024.10611293"},{"key":"ref11","volume-title":"Rt-h: Action hierarchies using language","author":"Belkhale","year":"2024"},{"key":"ref12","author":"Etukuru","year":"2024","journal-title":"Robot utility models: General policies for zero-shot deployment in new environments"},{"key":"ref13","article-title":"Openvla: An open-source vision-language-action model","author":"Kim","year":"2024","journal-title":"arXiv preprint"},{"key":"ref14","article-title":"no: A vision-language-action flow model for general robot control","author":"Black","year":"2024","journal-title":"arXiv preprint"},{"key":"ref15","article-title":"Code as policies: Language model programs for embodied control","author":"Liang","year":"2022","journal-title":"arXiv preprint"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/IROS58592.2024.10801352"},{"key":"ref17","author":"Nasiriany","year":"2024","journal-title":"Pivot: Iterative visual prompting elicits actionable knowledge for vlms"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2024.3410155"},{"key":"ref19","article-title":"Malmm: Multi-agent large language models for zero-shot robotics manipulation","author":"Singh","year":"2024","journal-title":"ar Xiv preprint"},{"key":"ref20","article-title":"Rekep: Spatio-temporal reasoning of relational keypoint constraints for robotic manipulation","author":"Huang","year":"2024","journal-title":"ar Xiv preprint"},{"key":"ref21","article-title":"A real-to-sim-to-real approach to robotic manipulation with vlm-generated iterative keypoint rewards","author":"Patel","year":"2025","journal-title":"arXiv preprint"},{"key":"ref22","first-page":"5842","article-title":"The","volume-title":"Proceedings of the IEEE international conference on computer vision","author":"Goyal","year":"2017"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr42600.2020.00989"},{"key":"ref24","article-title":"HowToI00M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips","author":"Miech","year":"2019","journal-title":"ICCV"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52688.2022.01842"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01834"},{"key":"ref27","author":"Nair","year":"2022","journal-title":"R3m: A universal visual representation for robot manipulation"},{"key":"ref28","author":"Ze","year":"2023","journal-title":"H-index: Visual reinforce-ment learning with hand-informed representations for dexterous manipulation"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.068"},{"key":"ref30","article-title":"Learning generaliz-able robotic reward functions from","author":"Chen","year":"2021","journal-title":"arXiv preprint"},{"key":"ref31","author":"Ma","year":"2023","journal-title":"Vip: Towards universal visual reward and representation via value-implicit pre-training"},{"key":"ref32","author":"Ma","year":"2023","journal-title":"Liv: Language-image representations and rewards for robotic control"},{"key":"ref33","author":"Ayalew","year":"2024","journal-title":"Progressor: A perceptually guided reward estimator with self-supervised online refinement"},{"key":"ref34","article-title":"Mimicplay: Long-horizon imitation learning by watching human play","author":"Wang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.078"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2022.XVIII.026"},{"key":"ref37","volume-title":"Egomimic: Scaling imitation learning via egocentric video","author":"Kareer","year":"2024"},{"key":"ref38","article-title":"Graph inverse reinforcement learning from diverse videos","volume-title":"Conference on Robot Learning (CoRL)","author":"Kumar","year":"2022"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2024.xx.092"},{"key":"ref40","article-title":"Flow as the cross-domain manipulation interface","author":"Xu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref41","article-title":"General flow as foundation affordance for scalable robot learning","author":"Yuan","year":"2024","journal-title":"arXiv preprint"},{"key":"ref42","article-title":"Motion tracks: A unified representation for human-robot transfer in few-shot imitation learning","author":"Ren","year":"2025","journal-title":"arXiv preprint"},{"key":"ref43","article-title":"P3-po: Prescriptive point priors for visuo-spatial generalization of robot policies","author":"Levy","year":"2024","journal-title":"ar Xiv preprint"},{"key":"ref44","article-title":"Bridging the human to robot dexterity gap through object-oriented rewards","author":"Guzey","year":"2024","journal-title":"arXiv preprint"},{"key":"ref45","article-title":"Point policy: Unifying observations and actions with key points for robot manipulation","author":"Haldar","year":"2025","journal-title":"arXiv preprint"},{"key":"ref46","first-page":"21466","article-title":"Look ma, no hands ! agent-environment factorization of egocentric videos","volume":"36","author":"Chang","year":"2023","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02153"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/iccv51070.2023.01806"},{"key":"ref49","article-title":"Get a grip: Reconstructing hand-object stable grasps in egocentric videos","author":"Zhu","year":"2023","journal-title":"ar Xiv preprint"},{"key":"ref50","article-title":"Ram: Retrieval-based affordance transfer for generalizable zero-shot robotic manipulation","author":"Kuang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref51","author":"Bao","year":"2024","journal-title":"Handsonvlm: Vision-language models for hand-object interaction prediction"},{"key":"ref52","article-title":"Cross-domain transfer via semantic skill imitation","volume-title":"6th Conference on Robot Learning","author":"Pertsch","year":"2022"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52729.2023.01324"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.012"},{"key":"ref55","first-page":"654","article-title":"Videodex: Learning dexterity from internet videos","volume-title":"Conference on Robot Learning","author":"Shaw","year":"2023"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/icra57147.2024.10610288"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73116-7_18"},{"key":"ref58","article-title":"Gen2act: Human video generation in novel scenarios enables generalizable robot manipulation","author":"Bharadhwaj","year":"2024","journal-title":"arXiv preprint"},{"key":"ref59","volume-title":"Hand-object interaction pretraining from videos","author":"Singh","year":"2024"},{"key":"ref60","author":"Ye","year":"2024","journal-title":"Latent action pretraining from videos"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/iros58592.2024.10801982"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10610923"},{"key":"ref63","article-title":"Vision-based manipulation from single human video with open-world object graphs","author":"Zhu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref64","article-title":"R+ x: Retrieval and execution from everyday human videos","author":"Papagiannis","year":"2024","journal-title":"arXiv preprint"},{"key":"ref65","article-title":"Okami: Teaching humanoid robots manipulation skills through single video imitation","volume-title":"8th Annual Conference on Robot Learning (CoRL)","author":"Li","year":"2024"},{"key":"ref66","first-page":"77860","article-title":"Vlmimic: Vision language models are visual imitation learner for fine-grained actions","volume":"37","author":"Chen","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref67","author":"Bharadhwaj","year":"2023","journal-title":"Zero-shot robot manipulation from passive human videos"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2023.3281153"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52733.2024.00938"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.445"},{"key":"ref71","article-title":"EPIC Fields: Marrying 3D Geometry and Video Under-standing","volume-title":"Proceedings of the Neural Information Processing Systems (Ne u rIPS)","author":"Tschernezki","year":"2023"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2024.xx.050"},{"key":"ref73","article-title":"Ok-robot: What really matters in integrating open-knowledge models for robotics","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref74","author":"Ren","year":"2024","journal-title":"Grounded sam: Assembling open-world models for diverse visual tasks"}],"event":{"name":"2025 IEEE International Conference on Robotics and Automation (ICRA)","location":"Atlanta, GA, USA","start":{"date-parts":[[2025,5,19]]},"end":{"date-parts":[[2025,5,23]]}},"container-title":["2025 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11127273\/11127223\/11128283.pdf?arnumber=11128283","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,3]],"date-time":"2025-09-03T06:03:21Z","timestamp":1756879401000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11128283\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5,19]]},"references-count":74,"URL":"https:\/\/doi.org\/10.1109\/icra55743.2025.11128283","relation":{},"subject":[],"published":{"date-parts":[[2025,5,19]]}}}