{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,18]],"date-time":"2025-12-18T14:30:20Z","timestamp":1766068220482,"version":"3.44.0"},"reference-count":74,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,5,19]],"date-time":"2025-05-19T00:00:00Z","timestamp":1747612800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,5,19]],"date-time":"2025-05-19T00:00:00Z","timestamp":1747612800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,5,19]]},"DOI":"10.1109\/icra55743.2025.11128535","type":"proceedings-article","created":{"date-parts":[[2025,9,2]],"date-time":"2025-09-02T17:28:56Z","timestamp":1756834136000},"page":"10011-10019","source":"Crossref","is-referenced-by-count":1,"title":["WildLMa: Long Horizon Loco-Manipulation in the Wild"],"prefix":"10.1109","author":[{"given":"Ri-Zhao","family":"Qiu","sequence":"first","affiliation":[{"name":"UC San Diego"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yuchen","family":"Song","sequence":"additional","affiliation":[{"name":"UC San Diego"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xuanbin","family":"Peng","sequence":"additional","affiliation":[{"name":"UC San Diego"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sai Aneesh","family":"Suryadevara","sequence":"additional","affiliation":[{"name":"UC San Diego"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ge","family":"Yang","sequence":"additional","affiliation":[{"name":"MIT"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Minghuan","family":"Liu","sequence":"additional","affiliation":[{"name":"UC San Diego"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mazeyu","family":"Ji","sequence":"additional","affiliation":[{"name":"UC San Diego"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chengzhe","family":"Jia","sequence":"additional","affiliation":[{"name":"UC San Diego"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ruihan","family":"Yang","sequence":"additional","affiliation":[{"name":"UC San Diego"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xueyan","family":"Zou","sequence":"additional","affiliation":[{"name":"UC San Diego"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaolong","family":"Wang","sequence":"additional","affiliation":[{"name":"UC San Diego"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Do as i can, not as i say: Grounding language in robotic affordances","author":"Ahn","year":"2022","journal-title":"arXiv preprint"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2023.3264758"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2019.8794273"},{"key":"ref4","article-title":"Track2act: Predicting point tracks from internet videos enables diverse zero-shot robot manipulation","author":"Bharadhwaj","year":"2024","journal-title":"ECCV"},{"key":"ref5","article-title":"End to end learning for self-driving cars","author":"Bojarski","year":"2016","journal-title":"arXiv preprint"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.073"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2022.3142739"},{"key":"ref8","article-title":"Spatialrgpt: Grounded spatial reasoning in vision language model","author":"Cheng","year":"2024","journal-title":"arXiv preprint"},{"key":"ref9","article-title":"Open-television: Teleoperation with immersive active visual feedback","author":"Cheng","year":"2024","journal-title":"CoRL"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10610200"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.026"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.045"},{"key":"ref13","article-title":"Bunny-visionpro: Real-time bimanual dexterous teleoperation for imitation learning","author":"Ding","year":"2024","journal-title":"arXiv preprint"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01146"},{"key":"ref15","article-title":"Deep whole-body control: Learning a unified policy for manipulation and locomotion","volume-title":"Conference on Robot Learning","author":"Fu","year":"2023"},{"key":"ref16","article-title":"Humanplus: Humanoid shadowing and imitation from humans","author":"Fu","year":"2024","journal-title":"CoRL"},{"journal-title":"Mobile aloha: Learning bimanual mobile manipulation with low-cost whole-body teleoperation","year":"2024","author":"Fu","key":"ref17"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1609\/icaps.v30i1.6739"},{"key":"ref19","article-title":"Multi-skill mobile manipulation for object rearrangement","volume-title":"The Eleventh International Conference on Learning Representations","author":"Gu","year":"2023"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10610243"},{"key":"ref21","article-title":"Open-vocabulary object detection via vision and language knowledge distillation","author":"Gu","year":"2021","journal-title":"arXiv preprint"},{"key":"ref22","article-title":"Umi on legs: Making manipulation policies mobile with manipulation-centric whole-body controllers","author":"Ha","year":"2024","journal-title":"CoRL"},{"key":"ref23","article-title":"Omnih2o: Universal and dexterous human-to-humanoid whole-body teleoperation and learning","author":"He","year":"2024","journal-title":"CoRL"},{"key":"ref24","article-title":"Language models as zero-shot planners: Extracting actionable knowledge for embodied agents","volume-title":"International conference on machine learning","author":"Huang","year":"2022"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2022.XVIII.050"},{"key":"ref26","article-title":"Open teach: A versatile teleoperation system for robotic manipulation","author":"Iyer","year":"2024","journal-title":"arXiv preprint"},{"key":"ref27","article-title":"Graspsplats: Efficient manipulation with 3d feature splatting","author":"Ji","year":"2024","journal-title":"CoRL"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10161283"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01558"},{"key":"ref31","article-title":"Visual whole-body control for legged loco-manipulation","author":"Liu","year":"2024","journal-title":"CoRL"},{"key":"ref32","article-title":"Ok-robot: What really matters in integrating open-knowledge models for robotics","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref33","article-title":"Dynamem: Online dynamic spatio-semantic memory for open world mobile manipulation","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72970-6_3"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2022.3143567"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2024.3451395"},{"journal-title":"OpenAI, Tech. Rep.","article-title":"Gpt-4 technical report","year":"2023","key":"ref37"},{"key":"ref38","article-title":"Dinov2: Learning robust visual features without supervision","author":"Oquab","year":"2023","journal-title":"arXiv preprint"},{"key":"ref39","article-title":"Open x-embodiment: Robotic learning datasets and rt-x models","author":"Padalkar","year":"2023","journal-title":"arXiv preprint"},{"key":"ref40","article-title":"Roboduet: A framework affording mobile-manipulation and cross-embodiment","author":"Pan","year":"2024","journal-title":"arXiv preprint"},{"key":"ref41","article-title":"Alvinn: An autonomous land vehicle in a neural network","author":"Pomerleau","year":"1988","journal-title":"Advances in neural information processing systems"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10611066"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.015"},{"key":"ref44","article-title":"Learning generalizable feature fields for mobile manipulation","author":"Qiu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref45","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021","journal-title":"ICML, PMLR"},{"key":"ref46","article-title":"Sayplan: Grounding large language models using 3d scene graphs for scalable robot task planning","author":"Rana","year":"2023","journal-title":"CoRL"},{"volume-title":"Ros moveit motion planning framework","year":"2024","key":"ref47"},{"key":"ref48","article-title":"On bringing robots home","author":"Shafiullah","year":"2023","journal-title":"arXiv preprint"},{"key":"ref49","article-title":"Distilled feature fields enable few-shot language-guided manipulation","author":"Shen","year":"2023","journal-title":"CoRL"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1126\/scirobotics.adg5014"},{"key":"ref51","article-title":"LIm-planner: Few-shot grounded planning for embodied agents with large language models","author":"Song","year":"2023","journal-title":"ICCV"},{"journal-title":"The journal of machine learning research, 2014","article-title":"Dropout: A simple way to prevent neural networks from overfitting","author":"Srivastava","key":"ref52"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2014.6906922"},{"volume-title":"Stretch open source mobile manipulator - hello robot","year":"2024","key":"ref54"},{"key":"ref55","article-title":"Fully autonomous real-world reinforcement learning with applications to mobile manipulation","volume-title":"Conference on Robot Learning","author":"Sun","year":"2022"},{"key":"ref56","article-title":"Chain-of-thought prompting elicits reasoning in large language models","author":"Wei","year":"2022","journal-title":"NeurIPS"},{"key":"ref57","article-title":"Error-aware imitation learning from teleoperation data for mobile manipulation","volume-title":"Conference on Robot Learning","author":"Wong","year":"2022"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1007\/s10514-023-10139-z"},{"key":"ref59","article-title":"Gello: A general, low-cost, and intuitive teleoperation framework for robot manipulators","author":"Wu","year":"2023","journal-title":"arXiv preprint"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9561315"},{"key":"ref61","article-title":"Adaptive mobile manipulation for articulated objects in the open world","author":"Xiong","year":"2024","journal-title":"arXiv preprint"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2021.3064227"},{"key":"ref63","article-title":"Generalized animal imitator: Agile lo-comotion with versatile motion prior","author":"Yang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref64","article-title":"Ace: A cross-platform visual-exoskeletons system for low-cost dexterous teleoperation","author":"Yang","year":"2024","journal-title":"CoRL"},{"key":"ref65","article-title":"Homerobot: Open-vocabulary mobile manipulation","author":"Yenamandra","year":"2023","journal-title":"arXiv preprint"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2023.3336109"},{"key":"ref67","article-title":"Gamma: Graspability-aware mobile manipulation policy learning based on online grasping pose fusion","author":"Zhang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2024.XX.010"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.016"},{"key":"ref70","article-title":"Aloha unleashed: A simple recipe for robot dexterity","author":"Zhao","year":"2024","journal-title":"CoRL"},{"key":"ref71","article-title":"Closed-loop open-vocabulary mobile manipulation with gpt-4v","author":"Zhi","year":"2024","journal-title":"arXiv preprint"},{"key":"ref72","article-title":"Teleman: Teleoperation for legged robot loco-manipulation using wearable imu-based motion capture","author":"Zhou","year":"2022","journal-title":"arXiv preprint"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19815-1_40"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9561835"}],"event":{"name":"2025 IEEE International Conference on Robotics and Automation (ICRA)","start":{"date-parts":[[2025,5,19]]},"location":"Atlanta, GA, USA","end":{"date-parts":[[2025,5,23]]}},"container-title":["2025 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11127273\/11127223\/11128535.pdf?arnumber=11128535","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,3]],"date-time":"2025-09-03T06:15:43Z","timestamp":1756880143000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11128535\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5,19]]},"references-count":74,"URL":"https:\/\/doi.org\/10.1109\/icra55743.2025.11128535","relation":{},"subject":[],"published":{"date-parts":[[2025,5,19]]}}}