{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,13]],"date-time":"2026-03-13T08:58:55Z","timestamp":1773392335709,"version":"3.50.1"},"reference-count":29,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,5,19]],"date-time":"2025-05-19T00:00:00Z","timestamp":1747612800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,5,19]],"date-time":"2025-05-19T00:00:00Z","timestamp":1747612800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100030913","name":"RSF","doi-asserted-by":"publisher","award":["24-41-02039"],"award-info":[{"award-number":["24-41-02039"]}],"id":[{"id":"10.13039\/100030913","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,5,19]]},"DOI":"10.1109\/icra55743.2025.11128224","type":"proceedings-article","created":{"date-parts":[[2025,9,2]],"date-time":"2025-09-02T17:28:56Z","timestamp":1756834136000},"page":"16256-16261","source":"Crossref","is-referenced-by-count":4,"title":["CognitiveOS: Large Multimodal Model Based System to Endow Any Type of Robot with Generative AI"],"prefix":"10.1109","author":[{"given":"Artem","family":"Lykov","sequence":"first","affiliation":[{"name":"Skolkovo Institute of Science and Technology (Skoltech),ISR Laboratory, CDE,Moscow,Russia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mikhail","family":"Konenkov","sequence":"additional","affiliation":[{"name":"Skolkovo Institute of Science and Technology (Skoltech),ISR Laboratory, CDE,Moscow,Russia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Koffivi Fid\u00e8le","family":"Gbagbe","sequence":"additional","affiliation":[{"name":"Skolkovo Institute of Science and Technology (Skoltech),ISR Laboratory, CDE,Moscow,Russia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Mikhail","family":"Litvinov","sequence":"additional","affiliation":[{"name":"Skolkovo Institute of Science and Technology (Skoltech),ISR Laboratory, CDE,Moscow,Russia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Denis","family":"Davletshin","sequence":"additional","affiliation":[{"name":"Skolkovo Institute of Science and Technology (Skoltech),ISR Laboratory, CDE,Moscow,Russia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Aleksey","family":"Fedoseev","sequence":"additional","affiliation":[{"name":"Skolkovo Institute of Science and Technology (Skoltech),ISR Laboratory, CDE,Moscow,Russia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Miguel Altamirano","family":"Cabrera","sequence":"additional","affiliation":[{"name":"Skolkovo Institute of Science and Technology (Skoltech),ISR Laboratory, CDE,Moscow,Russia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Robinroy","family":"Peter","sequence":"additional","affiliation":[{"name":"Skolkovo Institute of Science and Technology (Skoltech),ISR Laboratory, CDE,Moscow,Russia"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dzmitry","family":"Tsetserukou","sequence":"additional","affiliation":[{"name":"Skolkovo Institute of Science and Technology (Skoltech),ISR Laboratory, CDE,Moscow,Russia"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","volume-title":"OpenAI","year":"2022"},{"key":"ref2","author":"Touvron","year":"2023","journal-title":"Llama 2: Open Foundation and Fine-Tuned Chat Models"},{"key":"ref3","author":"Almazrouei","year":"2023","journal-title":"The Falcon Series of Open Language Models"},{"key":"ref4","author":"Jiang","year":"2023","journal-title":"Mistral 7B"},{"key":"ref5","first-page":"287","article-title":"Do As I Can, Not As I Say: Grounding Language in Robotic Affordances","volume-title":"Proc. Conf. on Robot Learning (CoRL)","author":"Irpan","year":"2023"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10161317"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.507"},{"key":"ref8","author":"Achiam","year":"2024","journal-title":"GPT-4 Technical Report"},{"key":"ref9","volume-title":"Introducing Gemini: Google\u2019s most capable AI model yet","author":"Pichai","year":"2023"},{"key":"ref10","author":"Driess","year":"2023","journal-title":"Palm-e: An embodied multimodal language model"},{"key":"ref11","first-page":"25081","article-title":"EmbodiedGPT: Vision-Language Pre-Training via Embodied Chain of Thought","volume-title":"Proc. Int. Conf. on Neural Information Processing Systems (NIPS)","author":"Mu","year":"2023"},{"key":"ref12","first-page":"2165","article-title":"RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control","volume-title":"Proc. of The 7th Conf. on Robot Learning","volume":"229","author":"Zitkovich","year":"2023"},{"key":"ref13","author":"Lykov","year":"2025","journal-title":"Cognitivedrone: A vla model and evaluation benchmark for real-time cognitive task solving and reasoning in uavs"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.54097\/hset.v39i.6767"},{"key":"ref15","article-title":"(2023) Digit, a mobile manipulation robot","volume-title":"Agility Robotics","year":"2024"},{"key":"ref16","volume-title":"Robots That Can Chat","author":"Dynamics","year":"2023"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1145\/3610978.3641080"},{"key":"ref18","first-page":"1769","article-title":"Inner Monologue: Embodied Reasoning through Planning with Language Models","volume-title":"Proc. Conf. on Robot Learning","author":"Huang","year":"2023"},{"key":"ref19","author":"Wu","year":"2023","journal-title":"AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.025"},{"key":"ref21","author":"Kim","year":"2024","journal-title":"OpenVLA: An Open-Source Vision-Language-Action Model"},{"key":"ref22","author":"Bai","year":"2023","journal-title":"Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1016\/j.patter.2022.100533"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1016\/j.neunet.2022.02.026"},{"key":"ref25","author":"Chen","year":"2023","journal-title":"MiniGPTv2: Large Language Model as a Unified Interface for Vision-Language Multi-task Learning"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01354"},{"key":"ref27","first-page":"9459","article-title":"Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks","volume-title":"Proc. Int. Conf. on Neural Information Processing Systems (NIPS)","author":"Lewis","year":"2020"},{"key":"ref28","author":"Gao","year":"2024","journal-title":"Retrievalaugmented generation for large language models: A survey"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1016\/j.robot.2023.104493"}],"event":{"name":"2025 IEEE International Conference on Robotics and Automation (ICRA)","location":"Atlanta, GA, USA","start":{"date-parts":[[2025,5,19]]},"end":{"date-parts":[[2025,5,23]]}},"container-title":["2025 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11127273\/11127223\/11128224.pdf?arnumber=11128224","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,3]],"date-time":"2025-09-03T06:07:08Z","timestamp":1756879628000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11128224\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5,19]]},"references-count":29,"URL":"https:\/\/doi.org\/10.1109\/icra55743.2025.11128224","relation":{},"subject":[],"published":{"date-parts":[[2025,5,19]]}}}