{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T17:48:25Z","timestamp":1777657705465,"version":"3.51.4"},"reference-count":45,"publisher":"IEEE","license":[{"start":{"date-parts":[[2024,5,13]],"date-time":"2024-05-13T00:00:00Z","timestamp":1715558400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,5,13]],"date-time":"2024-05-13T00:00:00Z","timestamp":1715558400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,5,13]]},"DOI":"10.1109\/icra57147.2024.10610216","type":"proceedings-article","created":{"date-parts":[[2024,8,8]],"date-time":"2024-08-08T17:51:05Z","timestamp":1723139465000},"page":"645-652","source":"Crossref","is-referenced-by-count":34,"title":["RoboVQA: Multimodal Long-Horizon Reasoning for Robotics"],"prefix":"10.1109","author":[{"given":"Pierre","family":"Sermanet","sequence":"first","affiliation":[{"name":"Google DeepMind"}]},{"given":"Tianli","family":"Ding","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Jeffrey","family":"Zhao","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Fei","family":"Xia","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Debidatta","family":"Dwibedi","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Keerthana","family":"Gopalakrishnan","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Christine","family":"Chan","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Gabriel","family":"Dulac-Arnold","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Sharath","family":"Maddineni","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Nikhil J","family":"Joshi","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Pete","family":"Florence","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Wei","family":"Han","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Robert","family":"Baruch","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Yao","family":"Lu","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Suvir","family":"Mirchandani","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Peng","family":"Xu","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Pannag","family":"Sanketi","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Karol","family":"Hausman","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Izhak","family":"Shafran","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Brian","family":"Ichter","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]},{"given":"Yuan","family":"Cao","sequence":"additional","affiliation":[{"name":"Google DeepMind"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Gpt-4 technical report","year":"2023"},{"key":"ref2","article-title":"Palm: Scaling language modeling with pathways","author":"Chowdhery","year":"2022"},{"key":"ref3","article-title":"Palm-e: An embodied multimodal language model","author":"Driess","year":"2023"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2023.xix.025"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/icra57147.2024.10610216"},{"key":"ref6","article-title":"Do as i can and not as i say: Grounding language in robotic affordances","author":"Ahn","year":"2022"},{"key":"ref7","article-title":"Chain-of-thought prompting elicits reasoning in large language models","author":"Wei","year":"2023"},{"key":"ref8","article-title":"Thought cloning: Learning to think while acting by imitating human thinking","author":"Hu","year":"2023"},{"key":"ref9","article-title":"Videococa: Video-text modeling with zero-shot transfer from contrastive captioners","author":"Yan","year":"2023"},{"key":"ref10","article-title":"Coca: Contrastive captioners are image-text foundation models","author":"Yu","year":"2022"},{"key":"ref11","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"International conference on machine learning","author":"Radford"},{"key":"ref12","article-title":"Simvlm: Simple visual language model pretraining with weak supervision","author":"Wang","year":"2022"},{"key":"ref13","article-title":"Pali: A jointly-scaled multilingual language-image model","author":"Chen","year":"2023"},{"key":"ref14","article-title":"Grounded decoding: Guiding text generation with grounded models for robot control","author":"Huang","year":"2023"},{"key":"ref15","first-page":"4904","article-title":"Scaling up visual and vision-language representation learning with noisy text supervision","volume-title":"International Conference on Machine Learning","author":"Jia"},{"key":"ref16","first-page":"12888","article-title":"Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation","volume-title":"International Conference on Machine Learning","author":"Li"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01591"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00443"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2017.2729019"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.111"},{"key":"ref21","article-title":"Univl: A unified video and language pretraining model for multimodal understanding and generation","author":"Luo","year":"2020"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01742"},{"key":"ref23","first-page":"720","article-title":"Scaling egocentric vision: The epic-kitchens dataset","volume-title":"Proceedings of the European Conference on Computer Vision (ECCV)","author":"Damen"},{"key":"ref24","article-title":"Charades-ego: A large-scale dataset of paired third and first person videos","author":"Sigurdsson","year":"2018"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1167"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33019127"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00272"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00171"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00965"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01842"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160396"},{"key":"ref32","article-title":"Grounding language in play","author":"Lynch","year":"2020"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i2.20097"},{"key":"ref34","article-title":"Language models as zero-shot planners: Extracting actionable knowledge for embodied agents","volume-title":"CoRR","author":"Huang"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/iccv51070.2023.00280"},{"key":"ref36","article-title":"PDDL planning with pretrained large language models","volume-title":"NeurIPS 2022 Foundation Models for Decision Making Workshop","author":"Silver"},{"key":"ref37","article-title":"Llm+ p: Empowering large language models with optimal planning proficiency","author":"Liu","year":"2023"},{"key":"ref38","article-title":"BC-z: Zero-shot task generalization with robotic imitation learning","volume-title":"5th Annual Conference on Robot Learning","author":"Jang"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/lra.2023.3295255"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1145\/1121241.1121249"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/HRI.2013.6483569"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2023.3271602"},{"key":"ref43","first-page":"158","article-title":"Program induction by rationale generation: Learning to solve and explain algebraic word problems","volume-title":"Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)","author":"Ling"},{"key":"ref44","article-title":"Training verifiers to solve math word problems","author":"Cobbe","year":"2021"},{"key":"ref45","article-title":"Scaling egocentric vision: The epic-kitchens dataset","volume-title":"European Conference on Computer Vision (ECCV)","author":"Damen"}],"event":{"name":"2024 IEEE International Conference on Robotics and Automation (ICRA)","location":"Yokohama, Japan","start":{"date-parts":[[2024,5,13]]},"end":{"date-parts":[[2024,5,17]]}},"container-title":["2024 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10609961\/10609862\/10610216.pdf?arnumber=10610216","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,8,10]],"date-time":"2024-08-10T05:18:27Z","timestamp":1723267107000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10610216\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,5,13]]},"references-count":45,"URL":"https:\/\/doi.org\/10.1109\/icra57147.2024.10610216","relation":{},"subject":[],"published":{"date-parts":[[2024,5,13]]}}}