{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:57:14Z","timestamp":1781539034346,"version":"3.54.5"},"publisher-location":"New York, NY, USA","reference-count":27,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T00:00:00Z","timestamp":1781481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"New Generation Artificial Intelligence-National Science and Technology Major Project","award":["2025ZD0123701"],"award-info":[{"award-number":["2025ZD0123701"]}]},{"name":"National Natural Science Foundation of China","award":["62476202"],"award-info":[{"award-number":["62476202"]}]},{"name":"National Natural Science Foundation of China","award":["62272343"],"award-info":[{"award-number":["62272343"]}]},{"name":"Fundamental Research Funds for the Central Universities"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,16]]},"DOI":"10.1145\/3805622.3810871","type":"proceedings-article","created":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T14:42:57Z","timestamp":1781534577000},"page":"902-910","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Decision-Invariant Sim-to-Real Vision-and-Language Navigation with Pseudo-Panoramic Observations"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0007-1208-4220","authenticated-orcid":false,"given":"Yuanyu","family":"Zheng","sequence":"first","affiliation":[{"name":"School of Computer Science and Technology, Tongji University, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-6731-8552","authenticated-orcid":false,"given":"Xumin","family":"Shen","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Tongji University, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-3926-540X","authenticated-orcid":false,"given":"Yunda","family":"Sun","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Tongji University, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2966-7955","authenticated-orcid":false,"given":"Ying","family":"Shen","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Tongji University, Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4360-5523","authenticated-orcid":false,"given":"Lin","family":"Zhang","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Tongji University, Shanghai, China and IEIT SYSTEMS (Beijing) Co., Ltd., Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,15]]},"reference":[{"key":"e_1_3_3_1_2_2","unstructured":"Dong An Yuankai Qi Yangguang Li Yan Huang Liang Wang Tieniu Tan and Jing Shao. 2023. BEVBert: Multimodal map pre-training for language-guided navigation. arxiv:https:\/\/arXiv.org\/abs\/2212.04385\u00a0[cs.CV]"},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"crossref","unstructured":"Dong An Hanqing Wang Wenguan Wang Zun Wang Yan Huang Keji He and Liang Wang. 2025. ETPNav: Evolving topological planning for vision-language navigation in continuous environments. IEEE Transactions on Pattern Analysis and Machine Intelligence 47 7 (2025) 5130\u20135145.","DOI":"10.1109\/TPAMI.2024.3386695"},{"key":"e_1_3_3_1_4_2","first-page":"671","volume-title":"Proceedings of the Conference on Robot Learning","author":"Anderson Peter","year":"2020","unstructured":"Peter Anderson, Ayush Shrivastava, Joanne Truong, Arjun Majumdar, Devi Parikh, Dhruv Batra, and Stefan Lee. 2020. Sim-to-Real transfer for vision-and-language navigation. In Proceedings of the Conference on Robot Learning. 671\u2013681."},{"key":"e_1_3_3_1_5_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00387"},{"key":"e_1_3_3_1_6_2","doi-asserted-by":"publisher","DOI":"10.1109\/3DV.2017.00081"},{"key":"e_1_3_3_1_7_2","unstructured":"Kehan Chen Dong An Yan Huang Rongtao Xu Yifei Su Yonggen Ling Ian Reid and Liang Wang. 2025. Constraint-aware zero-shot vision-language navigation in continuous environments. arxiv:https:\/\/arXiv.org\/abs\/2412.10137\u00a0[cs.RO]"},{"key":"e_1_3_3_1_8_2","doi-asserted-by":"publisher","DOI":"10.52202\/068431-2764"},{"key":"e_1_3_3_1_9_2","unstructured":"Peihao Chen Xinyu Sun Hongyan Zhi Runhao Zeng Thomas\u00a0H. Li Gaowen Liu Mingkui Tan and Chuang Gan. 2023. A2Nav: Action-aware zero-shot robot navigation by exploiting vision-and-language ability of foundation models. arxiv:https:\/\/arXiv.org\/abs\/2308.07997\u00a0[cs.CV]"},{"key":"e_1_3_3_1_10_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01604"},{"key":"e_1_3_3_1_11_2","doi-asserted-by":"crossref","unstructured":"An-Chieh Cheng Yandong Ji Zhaojing Yang Xueyan Zou Jan Kautz Erdem Biyik Hongxu Yin Sifei Liu and Xiaolong Wang. 2025. NaVILA: Legged robot vision-language-action model for navigation. Robotics: Science and Systems (2025).","DOI":"10.15607\/RSS.2025.XXI.018"},{"key":"e_1_3_3_1_12_2","first-page":"3318","volume-title":"Advances in Neural Information Processing Systems","author":"Fried Daniel","year":"2018","unstructured":"Daniel Fried, Ronghang Hu, Volkan Cirik, Anna Rohrbach, Jacob Andreas, Louis-Philippe Morency, Taylor Berg-Kirkpatrick, Kate Saenko, Dan Klein, and Trevor Darrell. 2018. Speaker-follower models for vision-and-language navigation. In Advances in Neural Information Processing Systems. 3318\u20133329."},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01502"},{"key":"e_1_3_3_1_14_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01500"},{"key":"e_1_3_3_1_15_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19842-7_34"},{"key":"e_1_3_3_1_16_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58604-1_7"},{"key":"e_1_3_3_1_17_2","doi-asserted-by":"crossref","unstructured":"Bingqian Lin Yunshuang Nie Ziming Wei Jiaqi Chen Shikui Ma Jianhua Han Hang Xu Xiaojun Chang and Xiaodan Liang. 2025. NavCoT: Boosting LLM-based vision-and-language navigation via learning disentangled reasoning. IEEE Transactions on Pattern Analysis and Machine Intelligence 47 7 (2025) 5945\u20135957.","DOI":"10.1109\/TPAMI.2025.3554559"},{"key":"e_1_3_3_1_18_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01544"},{"key":"e_1_3_3_1_19_2","unstructured":"Yuxing Long Wenzhe Cai Hongcheng Wang Guanqi Zhan and Hao Dong. 2024. InstructNav: Zero-shot system for generic instruction navigation in unexplored environment. arxiv:https:\/\/arXiv.org\/abs\/2406.04882\u00a0[cs.RO]"},{"key":"e_1_3_3_1_20_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00943"},{"key":"e_1_3_3_1_21_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N19-1268"},{"key":"e_1_3_3_1_22_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01432"},{"key":"e_1_3_3_1_23_2","first-page":"2982","volume-title":"Proceedings of the Conference on Robot Learning","author":"Wang Zihan","year":"2025","unstructured":"Zihan Wang, Xiangyang Li, Jiahao Yang, Yeqi Liu, and Shuqiang Jiang. 2025. Sim-to-Real transfer via 3D feature fields for vision-and-language navigation. In Proceedings of the Conference on Robot Learning. 2982\u20132995."},{"key":"e_1_3_3_1_24_2","doi-asserted-by":"crossref","unstructured":"Jiazhao Zhang Kunyu Wang Shaoan Wang Minghan Li Haoran Liu Songlin Wei Zhongyuan Wang Zhizheng Zhang and He Wang. 2025. Uni-NaVid: A video-based vision-language-action model for unifying embodied navigation tasks. Robotics: Science and Systems (2025).","DOI":"10.15607\/RSS.2025.XXI.013"},{"key":"e_1_3_3_1_25_2","doi-asserted-by":"crossref","unstructured":"Jiazhao Zhang Kunyu Wang Rongtao Xu Gengze Zhou Yicong Hong Xiaomeng Fang Qi Wu Zhizheng Zhang and He Wang. 2024. NaVid: Video-based VLM plans the next step for vision-and-language navigation. Robotics: Science and Systems (2024).","DOI":"10.15607\/RSS.2024.XX.079"},{"key":"e_1_3_3_1_26_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01293"},{"key":"e_1_3_3_1_27_2","first-page":"260","volume-title":"Proceedings of the European Conference on Computer Vision","author":"Zhou Gengze","year":"2024","unstructured":"Gengze Zhou, Yicong Hong, Zun Wang, Xin\u00a0Eric Wang, and Qi Wu. 2024. NavGPT-2: Unleashing navigational reasoning capability for large vision-language models. In Proceedings of the European Conference on Computer Vision. Springer, 260\u2013278."},{"key":"e_1_3_3_1_28_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i7.28597"}],"event":{"name":"ICMR '26: International Conference on Multimedia Retrieval","location":"Amsterdam The Netherlands","acronym":"ICMR '26","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2026 International Conference on Multimedia Retrieval"],"original-title":[],"deposited":{"date-parts":[[2026,6,15]],"date-time":"2026-06-15T15:33:23Z","timestamp":1781537603000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805622.3810871"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,15]]},"references-count":27,"alternative-id":["10.1145\/3805622.3810871","10.1145\/3805622"],"URL":"https:\/\/doi.org\/10.1145\/3805622.3810871","relation":{},"subject":[],"published":{"date-parts":[[2026,6,15]]},"assertion":[{"value":"2026-06-15","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}