{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,28]],"date-time":"2026-02-28T18:38:20Z","timestamp":1772303900232,"version":"3.50.1"},"reference-count":58,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,5,19]],"date-time":"2025-05-19T00:00:00Z","timestamp":1747612800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,5,19]],"date-time":"2025-05-19T00:00:00Z","timestamp":1747612800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100012166","name":"National Key Research and Development Project of China","doi-asserted-by":"publisher","award":["2022ZD0160102"],"award-info":[{"award-number":["2022ZD0160102"]}],"id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,5,19]]},"DOI":"10.1109\/icra55743.2025.11127739","type":"proceedings-article","created":{"date-parts":[[2025,9,2]],"date-time":"2025-09-02T17:28:56Z","timestamp":1756834136000},"page":"13242-13249","source":"Crossref","is-referenced-by-count":2,"title":["Cage: Causal Attention Enables Data-Efficient Generalizable Robotic Manipulation"],"prefix":"10.1109","author":[{"given":"Shangning","family":"Xia","sequence":"first","affiliation":[{"name":"Shanghai Jiao Tong University,China"}]},{"given":"Hongjie","family":"Fang","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,China"}]},{"given":"Cewu","family":"Lu","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,China"}]},{"given":"Hao-Shu","family":"Fang","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,China"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10611293"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2023.xix.025"},{"key":"ref3","article-title":"What Makes Pre-Trained Visual Representations Successful for Robust Manipulation?","author":"Burns","year":"2023","journal-title":"arXiv preprint"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/iccv48922.2021.00951"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00950"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.026"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.045"},{"key":"ref8","volume-title":"Dahuan AG Series Gripper","year":"2024"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-021-01531-2"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2024.xx.096"},{"key":"ref11","article-title":"An Image is Worth 16\u00d716 Words: Transformers for Image Recognition at Scale","volume-title":"9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021","author":"Dosovitskiy","year":"2021"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2023.3281153"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10611615"},{"key":"ref15","volume-title":"Force Dimension - sigma","year":"2024"},{"key":"ref16","first-page":"3949","article-title":"Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation","volume-title":"Conference on Robot Learning, CoRL 2023, 6-9 November 2023, Atlanta, GA, USA","volume":"229","author":"Gervet","year":"2023"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.622"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01842"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.5555\/3495724.3497510"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"ref22","article-title":"LoRA: Low-Rank Adaptation of Large Language Models","volume-title":"The Tenth International Conference on Learning Representations, ICLR 2022, Virtual Event, April 25-29, 2022","author":"Hu","year":"2022"},{"key":"ref23","volume-title":"Intel RealSense Depth Camera D435","year":"2024"},{"key":"ref24","article-title":"Perceiver IO: A General Architecture for Structured Inputs & Outputs","volume-title":"The Tenth International Conference on Learning Representations, ICLR 2022, Virtual Event, April 25-29, 2022","author":"Jaegle","year":"2022"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.120"},{"key":"ref26","article-title":"OpenVLA: An Open-Source Vision-Language-Action Model","author":"Kim","year":"2024","journal-title":"arXiv preprint"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10610356"},{"key":"ref29","article-title":"ManiWAV: Learning Robot Manipulation from In-the-Wild Audio-Visual Data","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref30","first-page":"23301","article-title":"LIV: Language-Image Representations and Rewards for Robotic Control","volume-title":"International Conference on Machine Learning, ICML 2023, 23-29 July 2023, Honolulu, Hawaii, USA","volume":"202","author":"Ma","year":"2023"},{"key":"ref31","article-title":"Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence?","volume-title":"Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10-16, 2023","author":"Majumdar","year":"2023"},{"key":"ref32","first-page":"1678","article-title":"What Matters in Learning from Offline Human Demonstrations for Robot Manipulation","volume-title":"Conference on Robot Learning, 8-11 November 2021, London, UK","volume":"164","author":"Mandlekar","year":"2021"},{"key":"ref33","first-page":"892","article-title":"R3M: A Universal Visual Representation for Robot Manipulation","volume-title":"Conference on Robot Learning, CoRL 2022, 14-18 December 2022, Auckland, New Zealand","volume":"205","author":"Nair","year":"2022"},{"key":"ref34","article-title":"DINOv2: Learning Robust Visual Features without Supervision","author":"Oquab","year":"2024","journal-title":"Trans. Mach. Learn. Res. 2024"},{"key":"ref35","article-title":"Open x-embodiment: Robotic learning datasets and rt-x models","author":"Padalkar","year":"2023","journal-title":"arXiv preprint"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2022.XVIII.010"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11671"},{"key":"ref38","first-page":"305","article-title":"ALVINN: An Autonomous Land Vehicle in a Neural Network","volume-title":"Advances in Neural Information Processing Systems 1, [NIPS Conference, Denver, Colorado, USA, 1988]","author":"Pomerleau","year":"1988"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10610131"},{"key":"ref40","first-page":"8748","article-title":"Learning Transferable Visual Models From Natural Language Supervision","volume-title":"Proceedings of the 38th International Conference on Machine Learning, ICML 2021, 18-24 July 2021, Virtual Event","volume":"139","author":"Radford","year":"2021"},{"key":"ref41","first-page":"416","article-title":"Real-World Robot Learning with Masked Visual Pre-training","volume-title":"Conference on Robot Learning, CoRL 2022, 14-18 December 2022, Auckland, New Zealand","volume":"205","author":"Radosavovic","year":"2022"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-24574-4_28"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00989"},{"key":"ref45","article-title":"Theia: Distilling Diverse Vision Foundation Models for Robot Learning","author":"Shang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref46","first-page":"785","article-title":"PerceiverActor: A Multi-Task Transformer for Robotic Manipulation","volume-title":"Conference on Robot Learning, CoRL 2022, 14-18 December 2022, Auckland, New Zealand","volume":"205","author":"Shridhar","year":"2022"},{"key":"ref47","article-title":"Denoising Diffusion Implicit Models","volume-title":"9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021","author":"Song","year":"2021"},{"key":"ref48","article-title":"Octo: An Open-Source Generalist Robot Policy","year":"2024","journal-title":"arXiv preprint"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref50","first-page":"1723","article-title":"BridgeData V2: A Dataset for Robot Learning at Scale","volume-title":"Conference on Robot Learning, CoRL 2023, 6-9 November 2023, Atlanta, GA, USA","volume":"229","author":"Walke","year":"2023"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00360"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.043"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/IROS58592.2024.10801678"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.067"},{"key":"ref55","first-page":"284","article-title":"GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields","volume-title":"Conference on Robot Learning, CoRL 2023, 6-9 November 2023, Atlanta, GA, USA","volume":"229","author":"Ze","year":"2023"},{"key":"ref56","article-title":"SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation","volume-title":"Forty-first International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21-27, 2024","author":"Zhang","year":"2024"},{"key":"ref57","first-page":"3342","article-title":"A Universal Semantic-Geometric Representation for Robotic Manipulation","volume-title":"Conference on Robot Learning, CoRL 2023, 6-9 November 2023, Atlanta, GA, USA","volume":"229","author":"Zhang","year":"2023"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2023.xix.016"},{"key":"ref59","first-page":"2165","article-title":"RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control","volume-title":"Conference on Robot Learning, CoRL 2023, 6-9 November 2023, Atlanta, GA, USA","volume":"229","author":"Zitkovich","year":"2023"}],"event":{"name":"2025 IEEE International Conference on Robotics and Automation (ICRA)","location":"Atlanta, GA, USA","start":{"date-parts":[[2025,5,19]]},"end":{"date-parts":[[2025,5,23]]}},"container-title":["2025 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11127273\/11127223\/11127739.pdf?arnumber=11127739","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,3]],"date-time":"2025-09-03T06:05:52Z","timestamp":1756879552000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11127739\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5,19]]},"references-count":58,"URL":"https:\/\/doi.org\/10.1109\/icra55743.2025.11127739","relation":{},"subject":[],"published":{"date-parts":[[2025,5,19]]}}}