{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,8]],"date-time":"2026-05-08T21:38:03Z","timestamp":1778276283966,"version":"3.51.4"},"reference-count":44,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2024]]},"DOI":"10.1109\/access.2024.3387941","type":"journal-article","created":{"date-parts":[[2024,4,15]],"date-time":"2024-04-15T17:36:50Z","timestamp":1713202610000},"page":"55682-55696","source":"Crossref","is-referenced-by-count":305,"title":["ChatGPT for Robotics: Design Principles and Model Abilities"],"prefix":"10.1109","volume":"12","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-7554-5417","authenticated-orcid":false,"given":"Sai H.","family":"Vemprala","sequence":"first","affiliation":[{"name":"Scaled Foundations, Kirkland, WA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3015-9613","authenticated-orcid":false,"given":"Rogerio","family":"Bonatti","sequence":"additional","affiliation":[{"name":"Microsoft Corporation, Redmond, WA, USA"}]},{"given":"Arthur","family":"Bucker","sequence":"additional","affiliation":[{"name":"Robotics Institute, Carnegie Mellon University, Pittsburgh, PA, USA"}]},{"given":"Ashish","family":"Kapoor","sequence":"additional","affiliation":[{"name":"Scaled Foundations, Kirkland, WA, USA"}]}],"member":"263","reference":[{"key":"ref1","volume-title":"OpenAI","year":"2023"},{"key":"ref2","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","author":"Devlin","year":"2018","journal-title":"arXiv:1810.04805"},{"key":"ref3","first-page":"1877","article-title":"Language models are few-shot learners","volume-title":"Proc. NIPS","author":"Brown"},{"key":"ref4","volume-title":"Gpt-4 Technical Report","year":"2023"},{"key":"ref5","article-title":"Evaluating large language models trained on code","author":"Chen","year":"2021","journal-title":"arXiv:2107.03374"},{"key":"ref6","article-title":"Llama 2: Open foundation and fine-tuned chat models","author":"Touvron","year":"2023","journal-title":"arXiv:2307.09288"},{"key":"ref7","article-title":"LLAMA: Open and efficient foundation language models","author":"Touvron","year":"2023","journal-title":"arXiv:2302.13971"},{"key":"ref8","article-title":"Mistral 7B","author":"Jiang","year":"2023","journal-title":"arXiv:2310.06825"},{"key":"ref9","article-title":"A recurrent vision-and-language BERT for navigation","author":"Hong","year":"2020","journal-title":"arXiv:2011.13922"},{"key":"ref10","first-page":"13139","article-title":"Language-conditioned imitation learning for robot manipulation tasks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Stepputtis"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2023.xix.074"},{"key":"ref12","article-title":"LATTE: Language trajectory transformer","author":"Bucker","year":"2022","journal-title":"arXiv:2208.02918"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/IROS47612.2022.9981810"},{"key":"ref14","article-title":"Perceiver-actor: A multi-task transformer for robotic manipulation","author":"Shridhar","year":"2022","journal-title":"arXiv:2209.05451"},{"key":"ref15","first-page":"894","article-title":"Cliport: What and where pathways for robotic manipulation","volume-title":"Proc. Conf. Robot. Learn.","author":"Shridhar"},{"key":"ref16","article-title":"VIMA: General robot manipulation with multimodal prompts","author":"Jiang","year":"2022","journal-title":"arXiv:2210.03094"},{"key":"ref17","first-page":"9118","article-title":"Language models as zero-shot planners: Extracting actionable knowledge for embodied agents","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Huang"},{"key":"ref18","article-title":"Inner monologue: Embodied reasoning through planning with language models","author":"Huang","year":"2022","journal-title":"arXiv:2207.05608"},{"key":"ref19","article-title":"Code as policies: Language model programs for embodied control","author":"Liang","year":"2022","journal-title":"arXiv:2209.07753"},{"key":"ref20","article-title":"ProgPrompt: Generating situated robot task plans using large language models","author":"Singh","year":"2022","journal-title":"arXiv:2209.11302"},{"key":"ref21","first-page":"19730","article-title":"Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Li"},{"key":"ref22","first-page":"1","article-title":"Visual instruction tuning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Liu"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-67361-5_40"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.91"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00943"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1146\/annurev-control-101119-071628"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1177\/0278364920917755"},{"key":"ref28","article-title":"Language understanding for field and service robots in a priori unknown environments","author":"Walter","year":"2021","journal-title":"arXiv:2105.10396"},{"key":"ref29","article-title":"From language to goals: Inverse reinforcement learning for vision-based instruction following","author":"Fu","year":"2019","journal-title":"arXiv:1902.07742"},{"key":"ref30","article-title":"Zero-shot task adaptation using natural language","author":"Goyal","year":"2021","journal-title":"arXiv:2106.02972"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR48806.2021.9412190"},{"key":"ref33","first-page":"1","article-title":"Decision transformer: Reinforcement learning via sequence modeling","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"34","author":"Chen"},{"key":"ref34","first-page":"1273","article-title":"Offline reinforcement learning as one big sequence modeling problem","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"34","author":"Janner"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"ref36","article-title":"PACT: Perception-action causal transformer for autoregressive robotics pre-training","author":"Bonatti","year":"2022","journal-title":"arXiv:2209.11133"},{"key":"ref37","article-title":"CoWs on pasture: Baselines and benchmarks for language-driven zero-shot object navigation","author":"Yitzhak Gadre","year":"2022","journal-title":"arXiv:2203.10421"},{"key":"ref38","article-title":"Do as I can, not as I say: Grounding language in robotic affordances","author":"Ahn","year":"2022","journal-title":"arXiv:2204.01691"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2022.XVIII.065"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2023.xix.025"},{"key":"ref41","article-title":"Socratic models: Composing zero-shot multimodal reasoning with language","author":"Zeng","year":"2022","journal-title":"arXiv:2204.00598"},{"key":"ref42","volume-title":"Artificial Intelligence A Modern Approach","author":"Russell","year":"2010"},{"key":"ref43","article-title":"GPTQ: Accurate post-training quantization for generative pre-trained transformers","author":"Frantar","year":"2022","journal-title":"arXiv:2210.17323"},{"key":"ref44","first-page":"1233","article-title":"Qlora: Efficient finetuning of quantized llms","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Dettmers"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6287639\/10380310\/10500490.pdf?arnumber=10500490","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,5,3]],"date-time":"2024-05-03T19:01:52Z","timestamp":1714762912000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10500490\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024]]},"references-count":44,"URL":"https:\/\/doi.org\/10.1109\/access.2024.3387941","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024]]}}}