{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,16]],"date-time":"2026-06-16T14:47:53Z","timestamp":1781621273353,"version":"3.54.5"},"reference-count":35,"publisher":"IEEE","license":[{"start":{"date-parts":[[2023,10,1]],"date-time":"2023-10-01T00:00:00Z","timestamp":1696118400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,10,1]],"date-time":"2023-10-01T00:00:00Z","timestamp":1696118400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023,10,1]]},"DOI":"10.1109\/iros55552.2023.10342371","type":"proceedings-article","created":{"date-parts":[[2023,12,13]],"date-time":"2023-12-13T19:17:55Z","timestamp":1702495075000},"page":"6847-6852","source":"Crossref","is-referenced-by-count":15,"title":["MOMA-Force: Visual-Force Imitation for Real-World Mobile Manipulation"],"prefix":"10.1109","author":[{"given":"Taozheng","family":"Yang","sequence":"first","affiliation":[{"name":"ByteDance Research"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ya","family":"Jing","sequence":"additional","affiliation":[{"name":"ByteDance Research"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Hongtao","family":"Wu","sequence":"additional","affiliation":[{"name":"ByteDance Research"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Jiafeng","family":"Xu","sequence":"additional","affiliation":[{"name":"ByteDance Research"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kuankuan","family":"Sima","sequence":"additional","affiliation":[{"name":"ByteDance Research"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Guangzeng","family":"Chen","sequence":"additional","affiliation":[{"name":"ByteDance Research"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Qie","family":"Sima","sequence":"additional","affiliation":[{"name":"ByteDance Research"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Tao","family":"Kong","sequence":"additional","affiliation":[{"name":"ByteDance Research"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","first-page":"1367","article-title":"Error-aware imitation learning from teleoperation data for mobile manipulation","volume-title":"Conference on Robot Learning","author":"Wong","year":"2022"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/70.88151"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1609\/icaps.v20i1.13436"},{"key":"ref4","article-title":"Articulated object interaction in unknown scenes with whole-body mobile manipulation","author":"Mittal","year":"2021","journal-title":"arXiv preprint"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2019.2927955"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.3010721"},{"key":"ref7","article-title":"R3m: A universal visual representation for robot manipulation","volume-title":"6th Annual Conference on Robot Learning","author":"Nair","year":"2022"},{"key":"ref8","article-title":"Real-world robot learning with masked visual pre-training","volume-title":"6th Annual Conference on Robot Learning","author":"Radosavovic","year":"2022"},{"key":"ref9","article-title":"Deep whole-body control: Learning a unified policy for manipulation and locomotion","volume-title":"6th Annual Conference on Robot Learning","author":"Fu"},{"key":"ref10","article-title":"Learning transferable visual models from natural language supervision","volume-title":"International conference on machine learning","author":"Radford","year":"2021"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00511"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52688.2022.01842"},{"key":"ref14","article-title":"Bc-z: Zero-shot task generalization with robotic imitation learning","volume-title":"Conference on Robot Learning","author":"Jang","year":"2022"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2022.xviii.010"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9560795"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/MRA.2021.3061951"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2021.3056060"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2022.3146554"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2017.8206152"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/IROS45743.2020.9341458"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2023.xix.025"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2018\/687"},{"key":"ref24","article-title":"Visual imitation made easy","volume-title":"Conference on Robot Learning","author":"Young","year":"2021"},{"key":"ref25","first-page":"158","article-title":"Implicit behavioral cloning","volume-title":"Conference on Robot Learning","author":"Florence","year":"2022"},{"key":"ref26","first-page":"785","article-title":"Perceiver-actor: A multi-task transformer for robotic manipulation","volume-title":"Conference on Robot Learning","author":"Shridhar","year":"2023"},{"key":"ref27","article-title":"Maskvit: Masked visual pre-training for video prediction","author":"Gupta","year":"2022","journal-title":"arXiv preprint"},{"key":"ref28","article-title":"Masked visual pre-training for motor control","author":"Xiao","year":"2022","journal-title":"arXiv preprint"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ROBOT.1987.1087854"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ROBOT.2010.5509861"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ROBOT.2010.5509556"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/IROS51168.2021.9636832"},{"key":"ref33","article-title":"ibot: Image bert pre-training with online tokenizer","author":"Zhou","year":"2021","journal-title":"arXiv preprint"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1007\/s12532-014-0071-1"},{"key":"ref35","article-title":"Language-driven representation learning for robotics","author":"Siddharth","year":"2023","journal-title":"arXiv preprint"}],"event":{"name":"2023 IEEE\/RSJ International Conference on Intelligent Robots and Systems (IROS)","location":"Detroit, MI, USA","start":{"date-parts":[[2023,10,1]]},"end":{"date-parts":[[2023,10,5]]}},"container-title":["2023 IEEE\/RSJ International Conference on Intelligent Robots and Systems (IROS)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10341341\/10341342\/10342371.pdf?arnumber=10342371","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,22]],"date-time":"2024-11-22T18:50:24Z","timestamp":1732301424000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10342371\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,10,1]]},"references-count":35,"URL":"https:\/\/doi.org\/10.1109\/iros55552.2023.10342371","relation":{},"subject":[],"published":{"date-parts":[[2023,10,1]]}}}