{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,22]],"date-time":"2026-07-22T16:09:21Z","timestamp":1784736561686,"version":"3.55.0"},"reference-count":38,"publisher":"IEEE","license":[{"start":{"date-parts":[[2024,5,13]],"date-time":"2024-05-13T00:00:00Z","timestamp":1715558400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,5,13]],"date-time":"2024-05-13T00:00:00Z","timestamp":1715558400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,5,13]]},"DOI":"10.1109\/icra57147.2024.10610499","type":"proceedings-article","created":{"date-parts":[[2024,8,8]],"date-time":"2024-08-08T17:51:05Z","timestamp":1723139465000},"page":"5228-5234","source":"Crossref","is-referenced-by-count":51,"title":["Bridging Zero-shot Object Navigation and Foundation Models through Pixel-Guided Navigation Skill"],"prefix":"10.1109","author":[{"given":"Wenzhe","family":"Cai","sequence":"first","affiliation":[{"name":"Southeast University,School of Automation"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Siyuan","family":"Huang","sequence":"additional","affiliation":[{"name":"Shanghai AI Laboratory"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Guangran","family":"Cheng","sequence":"additional","affiliation":[{"name":"Southeast University,School of Automation"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yuxing","family":"Long","sequence":"additional","affiliation":[{"name":"Peking University and National Key Laboratory for Multimedia Information Processing,Hyperlane Lab, CFCS, School of CS"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Peng","family":"Gao","sequence":"additional","affiliation":[{"name":"Shanghai AI Laboratory"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Changyin","family":"Sun","sequence":"additional","affiliation":[{"name":"Southeast University,School of Automation"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Hao","family":"Dong","sequence":"additional","affiliation":[{"name":"Peking University and National Key Laboratory for Multimedia Information Processing,Hyperlane Lab, CFCS, School of CS"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Grounding dino: Marrying dino with grounded pre-training for open-set object detection","author":"Liu","year":"2023"},{"key":"ref2","article-title":"Simple open-vocabulary object detection with vision transformers","volume-title":"European Conference on Computer Vision (ECCV)","author":"Minderer"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"ref4","article-title":"Language-driven semantic segmentation","volume-title":"International Conference on Learning Representations (ICLR)","author":"Li"},{"key":"ref5","article-title":"Llama-adapter: Efficient fine-tuning of large language models with zero-initialized attention","volume-title":"International Conference on Learning Representations (ICLR)","author":"Zhang"},{"key":"ref6","article-title":"Instructblip: Towards general-purpose vision-language models with instruction tuning","author":"Dai","year":"2023","journal-title":"Advances In Neural Information Processing Systems (NeurIPS)"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02219"},{"key":"ref8","article-title":"Esc: Exploration with soft commonsense constraints for zero-shot object navigation","volume-title":"International Conference on Machine Learning (ICML)","author":"Zhou"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/IROS55552.2023.10342512"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2023.3346800"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.075"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01441"},{"key":"ref13","article-title":"Object goal navigation using goal-oriented semantic exploration","author":"Chaplot","year":"2020","journal-title":"Advances In Neural Information Processing Systems (NeurIPS)"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.15607\/RSS.2023.XIX.025"},{"key":"ref15","article-title":"Bridgedata v2: A dataset for robot learning at scale","volume-title":"7th Annual Conference on Robot Learning (CoRL)","author":"Walke"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00511"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01716"},{"key":"ref18","article-title":"Offline visual representation learning for embodied navigation","volume-title":"Workshop on Reinforcement Learning at ICLR 2023","author":"Yadav"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/IROS47612.2022.9981766"},{"key":"ref20","article-title":"Zson: Zero-shot object-goal navigation using multimodal goal embeddings","author":"Majumdar","year":"2022","journal-title":"Advances In Neural Information Processing Systems (NeurIPS)"},{"key":"ref21","article-title":"Learning transferable visual models from natural language supervision","volume-title":"International Conference on Machine Learning (ICML)","author":"Radford"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10161289"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160969"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10161534"},{"key":"ref25","article-title":"Recognize anything: A strong image tagging model","author":"Zhang","year":"2023"},{"key":"ref26","article-title":"Llama: Open and efficient foundation language models","author":"Touvron","year":"2023","journal-title":"ArXiv"},{"key":"ref27","article-title":"Language models are few-shot learners","author":"Brown","year":"2020","journal-title":"Advances In Neural Information Processing Systems (NeurIPS)"},{"key":"ref28","article-title":"Language models as zero-shot planners: Extracting actionable knowledge for embodied agents","volume-title":"International Conference on Machine Learning (ICML)","author":"Huang"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10161317"},{"key":"ref30","article-title":"Sayplan: Grounding large language models using 3d scene graphs for scalable task planning","volume-title":"7th Annual Conference on Robot Learning (CoRL)","author":"Rana"},{"key":"ref31","article-title":"Instruct2act: Mapping multi-modality instructions to robotic actions with large language model","author":"Huang","year":"2023","journal-title":"ArXiv"},{"key":"ref32","article-title":"Minigpt-4: Enhancing vision-language understanding with advanced large language models","volume-title":"International Conference on Representation Learning (ICLR)","author":"Zhu"},{"key":"ref33","article-title":"Palme: An embodied multimodal language model","volume-title":"International Conference on Machine Learning (ICML)","author":"Driess"},{"key":"ref34","article-title":"Gpt-4 technical report","volume":"abs\/2303.08774","year":"2023","journal-title":"ArXiv"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i7.28597"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00943"},{"key":"ref37","article-title":"Habitat 2.0: Training home assistants to rearrange their habitat","author":"Szot","year":"2021","journal-title":"Advances In Neural Information Processing Systems (NeurIPS)"},{"key":"ref38","article-title":"Habitat-matterport 3d dataset (hm3d): 1000 large-scale 3d environments for embodied ai","author":"Ramakrishnan","year":"2021","journal-title":"NeurIPS Datasets and Benchmarks"}],"event":{"name":"2024 IEEE International Conference on Robotics and Automation (ICRA)","location":"Yokohama, Japan","start":{"date-parts":[[2024,5,13]]},"end":{"date-parts":[[2024,5,17]]}},"container-title":["2024 IEEE International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10609961\/10609862\/10610499.pdf?arnumber=10610499","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,8,10]],"date-time":"2024-08-10T05:50:07Z","timestamp":1723269007000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10610499\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,5,13]]},"references-count":38,"URL":"https:\/\/doi.org\/10.1109\/icra57147.2024.10610499","relation":{},"subject":[],"published":{"date-parts":[[2024,5,13]]}}}