{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,18]],"date-time":"2025-12-18T14:30:42Z","timestamp":1766068242413,"version":"build-2065373602"},"reference-count":214,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2025]]},"DOI":"10.1109\/access.2025.3624723","type":"journal-article","created":{"date-parts":[[2025,10,23]],"date-time":"2025-10-23T17:59:54Z","timestamp":1761242394000},"page":"184071-184109","source":"Crossref","is-referenced-by-count":2,"title":["Learning by Watching: A Review of Video-Based Learning Approaches for Robot Manipulation"],"prefix":"10.1109","volume":"13","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-5440-4316","authenticated-orcid":false,"given":"Chrisantus","family":"Eze","sequence":"first","affiliation":[{"name":"Computer Science Department, Oklahoma State University, Stillwater, OK, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1635-823X","authenticated-orcid":false,"given":"Christopher","family":"Crick","sequence":"additional","affiliation":[{"name":"Computer Science Department, Oklahoma State University, Stillwater, OK, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1145\/3386252"},{"key":"ref2","first-page":"783","article-title":"Task-embedded control networks for few-shot imitation learning","volume-title":"Proc. Conf. robot Learn.","author":"James"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-16657-1_10"},{"key":"ref4","first-page":"357","article-title":"One-shot visual imitation learning via meta-learning","volume-title":"Proc. Conf. robot Learn.","author":"Finn"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2018.XIV.002"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2020.3006716"},{"key":"ref7","first-page":"967","article-title":"Motion policy networks","volume-title":"Proc. Conf. Robot Learn.","author":"Fishman"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2018.xiv.049"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2019.8794102"},{"key":"ref10","first-page":"991","article-title":"BC-Z: Zero-shot task generalization with robotic imitation learning","volume-title":"Proc. Conf. Robot Learn.","author":"Jang"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19842-7_33"},{"key":"ref12","first-page":"894","article-title":"CLIPort: What and where pathways for robotic manipulation","volume-title":"Proc. Conf. Robot Learn.","author":"Shridhar"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2018\/687"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2023.xix.025"},{"key":"ref15","first-page":"1","article-title":"RT-2: Vision-language-action models transfer Web knowledge to robotic control","volume-title":"Proc. 7th Annu. Conf. Robot Learn.","author":"Brohan"},{"key":"ref16","article-title":"Open X-embodiment: Robotic learning datasets and RT-X models","author":"O\u2019Neill","year":"2023","journal-title":"arXiv:2310.08864"},{"key":"ref17","article-title":"BridgeData v2: A dataset for robot learning at scale","author":"Walke","year":"2023","journal-title":"arXiv:2308.12952"},{"key":"ref18","article-title":"RoboNet: Large-scale multi-robot learning","author":"Dasari","year":"2019","journal-title":"arXiv:1910.11215"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10611615"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-015-0816-y"},{"key":"ref21","first-page":"9094","article-title":"Robot learning in homes: Improving generalization and reducing dataset bias","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"31","author":"Gupta"},{"key":"ref22","article-title":"Self-supervised pretraining of visual features in the wild","author":"Goyal","year":"2021","journal-title":"arXiv:2103.01988"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00991"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00305"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00990"},{"key":"ref26","article-title":"From play to policy: Conditional behavior generation from uncurated robot data","author":"Cui","year":"2022","journal-title":"arXiv:2210.10047"},{"issue":"20","key":"ref27","doi-asserted-by":"crossref","first-page":"7938","DOI":"10.3390\/s22207938","article-title":"Review of learning-based robotic manipulation in cluttered environments","volume":"22","author":"Mohammed","year":"2022","journal-title":"Sensors"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1016\/j.robot.2008.10.024"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1146\/annurev-control-100819-063206"},{"issue":"3","key":"ref30","doi-asserted-by":"crossref","first-page":"105","DOI":"10.3390\/robotics10030105","article-title":"Reinforcement learning for pick and place operations in robotics: A survey","volume":"10","author":"Lobbezoo","year":"2021","journal-title":"Robotics"},{"issue":"30","key":"ref31","first-page":"1395","article-title":"A review of robot learning for manipulation: Challenges, representations, and algorithms","volume":"22","author":"Kroemer","year":"2021","journal-title":"J. Mach. Learn. Res."},{"key":"ref32","article-title":"Robot learning in the era of foundation models: A survey","author":"Xiao","year":"2023","journal-title":"arXiv:2311.14379"},{"key":"ref33","article-title":"Large language models for robotics: A survey","author":"Zeng","year":"2023","journal-title":"arXiv:2311.07226"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1613\/jair.1.17400"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8462891"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2021.XVII.012"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.320"},{"key":"ref38","first-page":"843","article-title":"Unsupervised learning of video representations using LSTMs","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Srivastava"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2019.00186"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.700"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.595"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46484-8_45"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.699"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00689"},{"key":"ref45","article-title":"Masked visual pre-training for motor control","author":"Xiao","year":"2022","journal-title":"arXiv:2203.06173"},{"key":"ref46","first-page":"416","article-title":"Real-world robot learning with masked visual pre-training","volume-title":"Proc. Conf. Robot Learn.","author":"Radosavovic"},{"key":"ref47","article-title":"R3M: A universal visual representation for robot manipulation","author":"Nair","year":"2022","journal-title":"arXiv:2203.12601"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00989"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3298638"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10578-9_54"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1177\/0278364913478446"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00228"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01324"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460902"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/ISED48680.2019.9096225"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2014.6907679"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00800"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00329"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00998"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01092"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00464"},{"key":"ref62","first-page":"5898","article-title":"COHESIV: Contrastive object and hand embedding segmentation in video","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"34","author":"Shan"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00050"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2016.XII.034"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2015.2430335"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2013.6630736"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2017.11.026"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2023.3301307"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00873"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1212.0402"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.089"},{"key":"ref72","first-page":"651","article-title":"DexVIP: Learning dexterous grasping with human hand pose priors from video","volume-title":"Proc. Conf. Robot Learn.","author":"Mandikal"},{"key":"ref73","article-title":"FrankMocap: Fast monocular 3D hand and body motion capture by regression and integration","author":"Rong","year":"2020","journal-title":"arXiv:2008.08324"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01123"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1145\/3130800.3130883"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1145\/3596711.3596800"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00498"},{"key":"ref78","first-page":"23634","article-title":"MERLOT: Multimodal neural script knowledge models","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Zellers"},{"key":"ref79","article-title":"Learning video representations from textual Web supervision","author":"Stroud","year":"2020","journal-title":"arXiv:2007.14937"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00272"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00175"},{"key":"ref82","article-title":"InternVid: A large-scale video-text dataset for multimodal understanding and generation","author":"Wang","year":"2023","journal-title":"arXiv:2307.06942"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.622"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01842"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01834"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-021-01531-2"},{"key":"ref87","article-title":"RoboVQA: Multimodal long-horizon reasoning for robotics","author":"Sermanet","year":"2023","journal-title":"arXiv:2311.00899"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.120"},{"key":"ref89","article-title":"Empowering embodied manipulation: A bimanual-mobile robot manipulation dataset for household tasks","author":"Zhang","year":"2024","journal-title":"arXiv:2405.18860"},{"volume-title":"ActionNet: A Dataset for Dexterous Bimanual Manipulation","year":"2025","key":"ref90"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2025.3609615"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.02578"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11671"},{"key":"ref94","article-title":"PaLI-X: On scaling up a multilingual vision and language model","author":"Chen","year":"2023","journal-title":"arXiv:2305.18565"},{"key":"ref95","article-title":"PaLM-E: An embodied multimodal language model","author":"Driess","year":"2023","journal-title":"arXiv:2303.03378"},{"key":"ref96","article-title":"OpenVLA: An open-source vision-language-action model","author":"Kim","year":"2024","journal-title":"arXiv:2406.09246"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.090"},{"key":"ref98","article-title":"CogACT: A foundational vision-language-action model for synergizing cognition and action in robotic manipulation","author":"Li","year":"2024","journal-title":"arXiv:2411.19650"},{"key":"ref99","article-title":"RDT-1B: A diffusion foundation model for bimanual manipulation","author":"Liu","year":"2024","journal-title":"arXiv:2410.07864"},{"key":"ref100","article-title":"GR-2: A generative video-language-action model with Web-scale knowledge for robot manipulation","author":"Cheang","year":"2024","journal-title":"arXiv:2410.06158"},{"key":"ref101","article-title":"GR00T N1: An open foundation model for generalist humanoid robots","author":"Bjorck","year":"2025","journal-title":"arXiv:2503.14734"},{"key":"ref102","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2025.XXI.011"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2025.xxi.010"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01100"},{"key":"ref105","article-title":"DINOv2: Learning robust visual features without supervision","author":"Oquab","year":"2023","journal-title":"arXiv:2304.07193"},{"key":"ref106","article-title":"Llama 2: Open foundation and fine-tuned chat models","author":"Touvron","year":"2023","journal-title":"arXiv:2307.09288"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.00166"},{"key":"ref108","article-title":"Gemini robotics: Bringing AI into the physical world","author":"Abeyruwan","year":"2025","journal-title":"arXiv:2503.20020"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2017.63"},{"key":"ref110","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-95459-8_13"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.1109\/IROS40897.2019.8967621"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.012"},{"key":"ref113","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v29i1.9671"},{"key":"ref114","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58565-5_42"},{"key":"ref115","article-title":"Learning to act from actionless videos through dense correspondences","author":"Ko","year":"2023","journal-title":"arXiv:2310.08576"},{"key":"ref116","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2022.XVIII.026"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2022.XVIII.023"},{"key":"ref118","doi-asserted-by":"publisher","DOI":"10.1145\/3272127.3275014"},{"key":"ref119","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2022.3224966"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.3390\/machines10111049"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.1109\/IROS51168.2021.9636080"},{"key":"ref122","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.632"},{"key":"ref123","first-page":"1","article-title":"Toward multimodal image-to-image translation","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Zhu"},{"key":"ref124","first-page":"1","article-title":"Unsupervised image-to-image translation networks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Liu"},{"key":"ref125","doi-asserted-by":"publisher","DOI":"10.3390\/robotics13060088"},{"key":"ref126","first-page":"1","article-title":"Third-person visual imitation learning via decoupled hierarchical controller","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Sharma"},{"key":"ref127","first-page":"1126","article-title":"Model-agnostic meta-learning for fast adaptation of deep networks","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Finn"},{"key":"ref128","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2020.xvi.024"},{"key":"ref129","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.244"},{"key":"ref130","first-page":"2071","article-title":"Transformers for one-shot visual imitation","volume-title":"Proc. Conf. Robot Learn.","author":"Dasari"},{"key":"ref131","first-page":"1","article-title":"Meta-imitation learning by watching video demonstrations","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Li"},{"key":"ref132","first-page":"75491","article-title":"CEIL: Generalized contextual imitation learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Liu"},{"key":"ref133","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8462901"},{"key":"ref134","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9196868"},{"key":"ref135","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01219-9_11"},{"key":"ref136","first-page":"296","article-title":"Learning object manipulation skills via approximate state estimation from real videos","volume-title":"Proc. Conf. Robot Learn.","author":"Petr\u00edk"},{"key":"ref137","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2021.3127238"},{"key":"ref138","first-page":"339","article-title":"Reinforcement learning with videos: Combining offline observations with interaction","volume-title":"Proc. Conf. Robot Learn.","author":"Schmeckpeper"},{"key":"ref139","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460689"},{"key":"ref140","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9196582"},{"key":"ref141","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10161336"},{"key":"ref142","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref143","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.2977835"},{"key":"ref144","first-page":"906","article-title":"Multiple interactions made easy (MIME): Large scale demonstrations data for imitation","volume-title":"Proc. Conf. robot Learn.","author":"Sharma"},{"key":"ref145","article-title":"Very deep convolutional networks for large-scale image recognition","author":"Simonyan","year":"2014","journal-title":"arXiv:1409.1556"},{"key":"ref146","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref147","article-title":"Generative adversarial imitation from observation","author":"Torabi","year":"2018","journal-title":"arXiv:1807.06158"},{"key":"ref148","doi-asserted-by":"publisher","DOI":"10.1145\/3582688"},{"key":"ref149","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2018.00278"},{"key":"ref150","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA46639.2022.9812450"},{"key":"ref151","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2019.8793515"},{"key":"ref152","article-title":"Giving robots a hand: Learning generalizable manipulation with eye-in-hand human video demonstrations","author":"Kim","year":"2023","journal-title":"arXiv:2307.05959"},{"key":"ref153","article-title":"Adam: A method for stochastic optimization","author":"Kingma","year":"2014","journal-title":"arXiv:1412.6980"},{"key":"ref154","article-title":"Watch, try, learn: Meta-learning from demonstrations and reward","author":"Zhou","year":"2019","journal-title":"arXiv:1906.03352"},{"key":"ref155","first-page":"979","article-title":"Graph-structured visual imitation","volume-title":"Proc. Conf. Robot Learn.","author":"Sieb"},{"key":"ref156","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9197544"},{"key":"ref157","doi-asserted-by":"publisher","DOI":"10.1109\/IROS45743.2020.9340947"},{"key":"ref158","article-title":"Cross-domain transfer via semantic skill imitation","author":"Pertsch","year":"2022","journal-title":"arXiv:2212.07407"},{"key":"ref159","first-page":"2930","article-title":"Playing hard exploration games by watching YouTube","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"31","author":"Aytar"},{"key":"ref160","article-title":"Third-person imitation learning","author":"Stadie","year":"2017","journal-title":"arXiv:1703.01703"},{"key":"ref161","article-title":"Efficient robot skill learning with imitation from a single video for contact-rich fabric manipulation","author":"Huo","year":"2023","journal-title":"arXiv:2304.11801"},{"key":"ref162","article-title":"Continuous control with deep reinforcement learning","author":"Lillicrap","year":"2015","journal-title":"arXiv:1509.02971"},{"key":"ref163","doi-asserted-by":"publisher","DOI":"10.1177\/02783649211046285"},{"key":"ref164","doi-asserted-by":"publisher","DOI":"10.1109\/IROS45743.2020.9340905"},{"key":"ref165","doi-asserted-by":"publisher","DOI":"10.1109\/IROS40897.2019.8968278"},{"key":"ref166","doi-asserted-by":"publisher","DOI":"10.1109\/TSMC.2023.3248324"},{"key":"ref167","article-title":"Zero-shot imitating collaborative manipulation plans from YouTube cooking videos","author":"Zhang","year":"2019","journal-title":"arXiv:1911.10686"},{"key":"ref168","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460857"},{"key":"ref169","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.052"},{"key":"ref170","article-title":"General flow as foundation affordance for scalable robot learning","author":"Yuan","year":"2024","journal-title":"arXiv:2401.11439"},{"key":"ref171","article-title":"Zero-shot robot manipulation from passive human videos","author":"Bharadhwaj","year":"2023","journal-title":"arXiv:2302.02011"},{"key":"ref172","article-title":"PLEX: Making the most of the available data for robotic manipulation pretraining","author":"Thomas","year":"2023","journal-title":"arXiv:2303.08789"},{"key":"ref173","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2022.3196123"},{"key":"ref174","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2022.3180108"},{"key":"ref175","article-title":"VIMA: General robot manipulation with multimodal prompts","author":"Jiang","year":"2022","journal-title":"arXiv:2210.03094"},{"key":"ref176","article-title":"Human demonstrations are generalizable knowledge for robots","author":"Cui","year":"2023","journal-title":"arXiv:2312.02419"},{"key":"ref177","article-title":"Unleashing large-scale video generative pre-training for visual robot manipulation","author":"Wu","year":"2023","journal-title":"arXiv:2312.13139"},{"key":"ref178","article-title":"Learning an actionable discrete diffusion policy via large-scale actionless video pre-training","author":"He","year":"2024","journal-title":"arXiv:2402.14407"},{"volume-title":"ISAAC Sim","key":"ref179"},{"key":"ref180","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2012.6386109"},{"volume-title":"Pybullet, a Python Module for Physics Simulation for Games, Robotics and Machine Learning","year":"2021","author":"Coumans","key":"ref181"},{"volume-title":"Open Source Computer Vision Library (OpenCV)","year":"2010","key":"ref182"},{"key":"ref183","first-page":"1","article-title":"MediaPipe: A framework for perceiving and processing reality","volume-title":"Proc. 3rd Workshop Comput. Vis. AR\/VR IEEE Comput. Vis. Pattern Recognit. (CVPR)","author":"Lugaresi"},{"key":"ref184","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2019.2929257"},{"key":"ref185","first-page":"720","article-title":"Scaling egocentric vision: The EPIC-KITCHENS dataset","volume-title":"Proc. Eur. Conf. Comput. Vis. (ECCV)","author":"Damen"},{"key":"ref186","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.280"},{"key":"ref187","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2011.6126543"},{"key":"ref188","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.471"},{"key":"ref189","doi-asserted-by":"publisher","DOI":"10.1109\/ROBOT.2004.1307137"},{"article-title":"Active learning literature survey","year":"2009","author":"Settles","key":"ref190"},{"key":"ref191","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2017.8205961"},{"key":"ref192","article-title":"Learning for robot decision making under distribution shift: A survey","author":"Paudel","year":"2022","journal-title":"arXiv:2203.07558"},{"key":"ref193","article-title":"Generalization in dexterous manipulation via geometry-aware multi-task learning","author":"Huang","year":"2021","journal-title":"arXiv:2111.03062"},{"key":"ref194","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8461076"},{"key":"ref195","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2017.7989250"},{"key":"ref196","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2019.8793485"},{"key":"ref197","first-page":"5824","article-title":"Gradient surgery for multi-task learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Yu"},{"key":"ref198","doi-asserted-by":"publisher","DOI":"10.3389\/frobt.2025.1606247"},{"volume-title":"The Rise of Diffusion Models in Imitation Learning","year":"2024","author":"Parab","key":"ref199"},{"key":"ref200","doi-asserted-by":"publisher","DOI":"10.1109\/RO-MAN60168.2024.10731242"},{"volume-title":"Task-Specific World Models for Robotic Manipulation","year":"2025","author":"Yan","key":"ref201"},{"volume-title":"Mani-WM: An Interactive World Model for Real-Robot Manipulation","year":"2024","author":"Zhu","key":"ref202"},{"key":"ref203","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.2974707"},{"key":"ref204","first-page":"41051","article-title":"VidMan: Exploiting implicit dynamics from video diffusion model for effective robot manipulation","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"37","author":"Wen"},{"key":"ref205","first-page":"1","article-title":"RoboTube: Learning household manipulation from human videos with simulated twin environments","volume-title":"Proc. 6th Conf. Robot Learn.","volume":"205","author":"Xiong"},{"key":"ref206","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.14"},{"article-title":"Causal robot learning for manipulation","year":"2024","author":"Lee","key":"ref207"},{"key":"ref208","first-page":"9180","article-title":"Causal discovery in physical systems from videos","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Li"},{"key":"ref209","doi-asserted-by":"publisher","DOI":"10.3389\/fnbot.2023.1128591"},{"key":"ref210","first-page":"421","article-title":"Causal discovery and reinforcement learning: A synergistic integration","volume-title":"Proc. 11th Int. Conf. Probabilistic Graph. Models","volume":"186","author":"M\u00e9ndez-Molina"},{"key":"ref211","article-title":"Causality-enhanced decision-making for autonomous mobile robots in dynamic environments","author":"Castri","year":"2025","journal-title":"arXiv:2504.11901"},{"key":"ref212","first-page":"2229","article-title":"SCALE: Causal learning and discovery of robot manipulation skills using simulation","volume-title":"Proc. 7th Conf. Robot Learn.","volume":"229","author":"Lee"},{"key":"ref213","first-page":"85","article-title":"From continual learning to causal discovery in robotics","volume-title":"Proc. 1st AAAI Bridge Program Continual Causality","author":"Castri"},{"volume-title":"Causal and Object-Centric Representations for Robotics","year":"2024","key":"ref214"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6287639\/10820123\/11215739.pdf?arnumber=11215739","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,10,31]],"date-time":"2025-10-31T05:29:25Z","timestamp":1761888565000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11215739\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":214,"URL":"https:\/\/doi.org\/10.1109\/access.2025.3624723","relation":{},"ISSN":["2169-3536"],"issn-type":[{"type":"electronic","value":"2169-3536"}],"subject":[],"published":{"date-parts":[[2025]]}}}