{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,25]],"date-time":"2026-03-25T21:11:11Z","timestamp":1774473071221,"version":"3.50.1"},"reference-count":153,"publisher":"Springer Science and Business Media LLC","issue":"7","license":[{"start":{"date-parts":[[2023,11,27]],"date-time":"2023-11-27T00:00:00Z","timestamp":1701043200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,11,27]],"date-time":"2023-11-27T00:00:00Z","timestamp":1701043200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62103420"],"award-info":[{"award-number":["62103420"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62103428"],"award-info":[{"award-number":["62103428"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100004735","name":"Natural Science Foundation of Hunan Province","doi-asserted-by":"publisher","award":["2021JJ40702"],"award-info":[{"award-number":["2021JJ40702"]}],"id":[{"id":"10.13039\/501100004735","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100004735","name":"Natural Science Foundation of Hunan Province","doi-asserted-by":"publisher","award":["62102432"],"award-info":[{"award-number":["62102432"]}],"id":[{"id":"10.13039\/501100004735","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100004735","name":"Natural Science Foundation of Hunan Province","doi-asserted-by":"publisher","award":["2021JJ40697"],"award-info":[{"award-number":["2021JJ40697"]}],"id":[{"id":"10.13039\/501100004735","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Neural Comput &amp; Applic"],"published-print":{"date-parts":[[2024,3]]},"DOI":"10.1007\/s00521-023-09217-1","type":"journal-article","created":{"date-parts":[[2023,11,27]],"date-time":"2023-11-27T07:02:51Z","timestamp":1701068571000},"page":"3291-3316","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":37,"title":["Vision-language navigation: a survey and taxonomy"],"prefix":"10.1007","volume":"36","author":[{"given":"Wansen","family":"Wu","sequence":"first","affiliation":[]},{"given":"Tao","family":"Chang","sequence":"additional","affiliation":[]},{"given":"Xinmeng","family":"Li","sequence":"additional","affiliation":[]},{"given":"Quanjun","family":"Yin","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8115-7020","authenticated-orcid":false,"given":"Yue","family":"Hu","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2023,11,27]]},"reference":[{"key":"9217_CR1","doi-asserted-by":"crossref","unstructured":"Shridhar M, Thomason J, Gordon D, Bisk Y, Han W, Mottaghi R, Zettlemoyer L, Fox D (2020) ALFRED: A benchmark for interpreting grounded instructions for everyday tasks. In: 2020 IEEE\/CVF Conference on computer vision and pattern recognition, CVPR, pp 10737\u201310746","DOI":"10.1109\/CVPR42600.2020.01075"},{"key":"9217_CR2","unstructured":"Ye X, Yang Y (2020) From seeing to moving: a survey on learning for visual indoor navigation (VIN). CoRR arXiv:2002.11310"},{"key":"9217_CR3","doi-asserted-by":"crossref","unstructured":"Anderson P, Wu Q, Teney D, Bruce J, Johnson M, S\u00fcnderhauf N, Reid ID, Gould S, van\u00a0den Hengel A (2018) Vision-and-language navigation: interpreting visually-grounded navigation instructions in real environments. In: 2018 IEEE conference on computer vision and pattern recognition, CVPR, pp 3674\u20133683","DOI":"10.1109\/CVPR.2018.00387"},{"key":"9217_CR4","doi-asserted-by":"crossref","unstructured":"Qi Y, Wu Q, Anderson P, Wang X, Wang WY, Shen C, van\u00a0den Hengel A (2020) REVERIE: remote embodied visual referring expression in real indoor environments. In: 2020 IEEE\/CVF conference on computer vision and pattern recognition, CVPR, pp 9979\u20139988","DOI":"10.1109\/CVPR42600.2020.01000"},{"key":"9217_CR5","doi-asserted-by":"crossref","unstructured":"Pfeifer R, Iida F (2004) Embodied artificial intelligence: trends and challenges. In: Embodied artificial intelligence, pp 1\u201326","DOI":"10.1007\/978-3-540-27833-7_1"},{"key":"9217_CR6","doi-asserted-by":"crossref","unstructured":"Pfeifer R, Bongard J (2006) How the body shapes the way we think: a new view of intelligence","DOI":"10.7551\/mitpress\/3585.001.0001"},{"key":"9217_CR7","doi-asserted-by":"crossref","unstructured":"Duan J, Yu S, Tan HL, Zhu H, Tan C (2022) A survey of embodied AI: from simulators to research tasks. IEEE Trans Emerg Top Comput Intell","DOI":"10.1109\/TETCI.2022.3141105"},{"issue":"2","key":"9217_CR8","doi-asserted-by":"publisher","first-page":"423","DOI":"10.1109\/TPAMI.2018.2798607","volume":"41","author":"T Baltru\u0161aitis","year":"2018","unstructured":"Baltru\u0161aitis T, Ahuja C, Morency L-P (2018) Multimodal machine learning: a survey and taxonomy. IEEE Trans Pattern Anal Mach Intell 41(2):423\u2013443","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"9217_CR9","doi-asserted-by":"publisher","first-page":"149","DOI":"10.1016\/j.inffus.2021.07.009","volume":"77","author":"S Uppal","year":"2022","unstructured":"Uppal S, Bhagat S, Hazarika D, Majumder N, Poria S, Zimmermann R, Zadeh A (2022) Multimodal research in vision and language: a review of current and emerging trends. Inf Fusion 77:149\u2013171","journal-title":"Inf Fusion"},{"issue":"2","key":"9217_CR10","doi-asserted-by":"publisher","first-page":"237","DOI":"10.1109\/34.982903","volume":"24","author":"ND Guilherme","year":"2002","unstructured":"Guilherme ND, Avinash CK (2002) Vision for mobile robot navigation: a survey. IEEE Trans Pattern Anal Mach Intell 24(2):237\u2013267","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"issue":"12","key":"9217_CR11","doi-asserted-by":"publisher","first-page":"1726","DOI":"10.1016\/j.robot.2013.05.007","volume":"61","author":"T Kruse","year":"2013","unstructured":"Kruse T, Pandey AK, Alami R, Kirsch A (2013) Human-aware robot navigation: a survey. Robot Auton Syst 61(12):1726\u20131743","journal-title":"Robot Auton Syst"},{"key":"9217_CR12","doi-asserted-by":"crossref","unstructured":"Song S, Yu F, Zeng A, Chang AX, Savva M, Funkhouser TA (2017) Semantic scene completion from a single depth image. In: 2017 IEEE conference on computer vision and pattern recognition, CVPR, pp 190\u2013198","DOI":"10.1109\/CVPR.2017.28"},{"key":"9217_CR13","doi-asserted-by":"crossref","unstructured":"Chang AX, Dai A, Funkhouser TA, Halber M, Nie\u00dfner M, Savva M, Song S, Zeng A, Zhang Y (2017) Matterport3d: Learning from RGB-D data in indoor environments. In: 2017 International conference on 3D vision, 3DV, pp 667\u2013676","DOI":"10.1109\/3DV.2017.00081"},{"key":"9217_CR14","unstructured":"Armeni I, Sax S, Zamir AR, Savarese S (2017) Joint 2d-3d-semantic data for indoor scene understanding. CoRR arXiv:1702.01105"},{"key":"9217_CR15","unstructured":"Straub J, Whelan T, Ma L, Chen Y, Wijmans E, Green S, Engel JJ, Mur-Artal R, Ren C, Verma S, Clarkson A, Yan M, Budge B, Yan Y, Pan X, Yon J, Zou Y, Leon K, Carter N, Briales J, Gillingham T, Mueggler E, Pesqueira L, Savva M, Batra D, Strasdat HM, Nardi RD, Goesele M, Lovegrove S, Newcombe RA (2019) The replica dataset: a digital replica of indoor spaces. CoRR arXiv:1906.05797"},{"key":"9217_CR16","unstructured":"Kolve E, Mottaghi R, Gordon D, Zhu Y, Gupta A, Farhadi A (2017) AI2-THOR: an interactive 3d environment for visual AI. CoRR arXiv:1712.05474"},{"key":"9217_CR17","doi-asserted-by":"crossref","unstructured":"Kempka M, Wydmuch M, Runc G, Toczek J, Jaskowski W (2016) Vizdoom: A doom-based AI research platform for visual reinforcement learning. In: IEEE Conference on computational intelligence and games, CIG, pp 1\u20138","DOI":"10.1109\/CIG.2016.7860433"},{"key":"9217_CR18","doi-asserted-by":"crossref","unstructured":"Xia F, Zamir AR, He Z, Sax A, Malik J, Savarese S (2018) Gibson ENV: real-world perception for embodied agents. In: 2018 IEEE conference on computer vision and pattern recognition, CVPR, pp 9068\u20139079","DOI":"10.1109\/CVPR.2018.00945"},{"key":"9217_CR19","doi-asserted-by":"crossref","unstructured":"Shen B, Xia F, Li C, Mart\u00edn-Mart\u00edn R, Fan L, Wang G, P\u00e9rez-D\u2019Arpino C, Buch S, Srivastava S, Tchapmi L et al (2020) iGibson 1.0: A simulation environment for interactive tasks in large realistic scenes. In: 2021 IEEE\/RSJ international conference on intelligent robots and systems (IROS). IEEE, pp 7520\u20137527","DOI":"10.1109\/IROS51168.2021.9636667"},{"key":"9217_CR20","unstructured":"Li C, Xia F, Mart\u00edn-Mart\u00edn R, Lingelbach M, Srivastava S, Shen B, Vainio KE, Gokmen C, Dharan G, Jain T, Kurenkov A, Liu CK, Gweon H, Wu J, Fei-Fei L, Savarese S (2021) iGibson 2.0: Object-centric simulation for robot learning of everyday household tasks. In: Proceedings of machine learning research. PMLR"},{"key":"9217_CR21","unstructured":"Wu Y, Wu Y, Gkioxari G, Tian Y (2018) Building generalizable agents with a realistic and rich 3d environment. In: 6th International conference on learning representations, ICLR"},{"key":"9217_CR22","doi-asserted-by":"crossref","unstructured":"Savva M, Malik J, Parikh D, Batra D, Kadian A, Maksymets O, Zhao Y, Wijmans E, Jain B, Straub J, Liu J, Koltun V (2019) Habitat: a platform for embodied AI research. In: 2019 IEEE\/CVF international conference on computer vision, ICCV, pp 9338\u20139346","DOI":"10.1109\/ICCV.2019.00943"},{"key":"9217_CR23","doi-asserted-by":"crossref","unstructured":"Misra DK, Bennett A, Blukis V, Niklasson E, Shatkhin M, Artzi Y (2018) Mapping instructions to actions in 3d environments with visual goal prediction. In: Proceedings of the 2018 conference on empirical methods in natural language processing, Brussels, Belgium, October 31\u2013November 4, 2018, pp 2667\u20132678","DOI":"10.18653\/v1\/D18-1287"},{"key":"9217_CR24","doi-asserted-by":"crossref","unstructured":"Deruyttere T, Vandenhende S, Grujicic D, Gool LV, Moens M (2019) Talk2car: Taking control of your self-driving car. In: EMNLP-IJCNLP, pp 2088\u20132098","DOI":"10.18653\/v1\/D19-1215"},{"key":"9217_CR25","unstructured":"Yu H, Lian X, Zhang H, Xu W (2018) Guided feature transformation (GFT): a neural language grounding module for embodied agents. In: 2nd Annual conference on robot learning, CoRL. Proceedings of machine learning research, vol 87, pp 81\u201398"},{"key":"9217_CR26","doi-asserted-by":"crossref","unstructured":"Chaplot DS, Sathyendra KM, Pasumarthi RK, Rajagopal D, Salakhutdinov R (2018) Gated-attention architectures for task-oriented language grounding. In: Proceedings of the thirty-second AAAI conference on artificial intelligence, pp 2819\u20132826","DOI":"10.1609\/aaai.v32i1.11832"},{"key":"9217_CR27","unstructured":"Yang W, Wang X, Farhadi A, Gupta A, Mottaghi R (2019) Visual semantic navigation using scene priors. In: 7th International conference on learning representations, ICLR"},{"key":"9217_CR28","doi-asserted-by":"crossref","unstructured":"Zhu F, Liang X, Zhu Y, Yu Q, Chang X, Liang X (2021) Soon: scenario oriented object navigation with graph-based exploration. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 12689\u201312699","DOI":"10.1109\/CVPR46437.2021.01250"},{"key":"9217_CR29","doi-asserted-by":"crossref","unstructured":"Das A, Datta S, Gkioxari G, Lee S, Parikh D, Batra D (2018) Embodied question answering. In: 2018 IEEE Conference on computer vision and pattern recognition, CVPR, pp 1\u201310","DOI":"10.1109\/CVPR.2018.00008"},{"key":"9217_CR30","doi-asserted-by":"crossref","unstructured":"Zang X, Pokle A, V\u00e1zquez M, Chen K, Niebles JC, Soto A, Savarese S (2018) Translating navigation instructions in natural language to a high-level plan for behavioral robot navigation. In: Proceedings of the 2018 conference on empirical methods in natural language processing, pp 2657\u20132666","DOI":"10.18653\/v1\/D18-1286"},{"key":"9217_CR31","unstructured":"Fu J, Korattikara A, Levine S, Guadarrama S (2019) From language to goals: inverse reinforcement learning for vision-based instruction following. In: 7th International conference on learning representations, ICLR"},{"key":"9217_CR32","doi-asserted-by":"crossref","unstructured":"Jain V, Magalh\u00e3es G, Ku A, Vaswani A, Ie E, Baldridge J (2019) Stay on the path: instruction fidelity in vision-and-language navigation. In: ACL (1), pp 1862\u20131872","DOI":"10.18653\/v1\/P19-1181"},{"key":"9217_CR33","doi-asserted-by":"crossref","unstructured":"Ku A, Anderson P, Patel R, Ie E, Baldridge J (2020) Room-across-room: multilingual vision-and-language navigation with dense spatiotemporal grounding. In: EMNLP (1), pp 4392\u20134412","DOI":"10.18653\/v1\/2020.emnlp-main.356"},{"key":"9217_CR34","doi-asserted-by":"crossref","unstructured":"Zhu W, Hu H, Chen J, Deng Z, Jain V, Ie E, Sha F (2020) Babywalk: going farther in vision-and-language navigation by taking baby steps. In: Proceedings of the 58th annual meeting of the association for computational linguistics, pp 2539\u20132556","DOI":"10.18653\/v1\/2020.acl-main.229"},{"key":"9217_CR35","doi-asserted-by":"crossref","unstructured":"Krantz J, Wijmans E, Majumdar A, Batra D, Lee S (2020) Beyond the nav-graph: vision-and-language navigation in continuous environments. In: ECCV (28). Lecture notes in computer science, vol 12373, pp 104\u2013120","DOI":"10.1007\/978-3-030-58604-1_7"},{"key":"9217_CR36","unstructured":"Yan A, Wang X, Feng J, Li L, Wang WY (2019) Cross-lingual vision-language navigation. CoRR arXiv:1910.11301"},{"key":"9217_CR37","doi-asserted-by":"crossref","unstructured":"Chen H, Suhr A, Misra D, Snavely N, Artzi Y (2019) TOUCHDOWN: natural language navigation and spatial reasoning in visual street environments. In: CVPR, pp 12538\u201312547","DOI":"10.1109\/CVPR.2019.01282"},{"key":"9217_CR38","doi-asserted-by":"crossref","unstructured":"Paz-Argaman T, Tsarfaty R (2019) RUN through the streets: a new dataset and baseline models for realistic urban navigation. In: EMNLP\/IJCNLP (1), pp 6448\u20136454","DOI":"10.18653\/v1\/D19-1681"},{"key":"9217_CR39","doi-asserted-by":"crossref","unstructured":"Hermann KM, Malinowski M, Mirowski P, Banki-Horvath A, Anderson K, Hadsell R (2020) Learning to follow directions in street view. In: AAAI, pp 11773\u201311781","DOI":"10.1609\/aaai.v34i07.6849"},{"key":"9217_CR40","unstructured":"Mirowski P, Banki-Horvath A, Anderson K, Teplyashin D, Hermann KM, Malinowski M, Grimes MK, Simonyan K, Kavukcuoglu K, Zisserman A, Hadsell R (2019) The streetlearn environment and dataset. CoRR arXiv:1903.01292"},{"key":"9217_CR41","doi-asserted-by":"crossref","unstructured":"Kim H, Zala A, Burri G, Tan H, Bansal M (2020) Arramon: A joint navigation-assembly instruction interpretation task in dynamic environments. In: EMNLP (Findings), pp 3910\u20133927","DOI":"10.18653\/v1\/2020.findings-emnlp.348"},{"key":"9217_CR42","doi-asserted-by":"crossref","unstructured":"Suhr A, Yan C, Schluger J, Yu S, Khader H, Mouallem M, Zhang I, Artzi Y (2019) Executing instructions in situated collaborative interactions. In: EMNLP-IJCNLP, pp 2119\u20132130","DOI":"10.18653\/v1\/D19-1218"},{"key":"9217_CR43","doi-asserted-by":"crossref","unstructured":"Nguyen K, Dey D, Brockett C, Dolan B (2019) Vision-based navigation with language-based assistance via imitation learning with indirect intervention. In: IEEE Conference on computer vision and pattern recognition, CVPR, pp 12527\u201312537","DOI":"10.1109\/CVPR.2019.01281"},{"key":"9217_CR44","doi-asserted-by":"crossref","unstructured":"Nguyen K, III HD (2019) Help, anna! visual navigation with natural multimodal assistance via retrospective curiosity-encouraging imitation learning. In: EMNLP-IJCNLP, pp 684\u2013695","DOI":"10.18653\/v1\/D19-1063"},{"key":"9217_CR45","unstructured":"Thomason J, Murray M, Cakmak M, Zettlemoyer L (2019) Vision-and-dialog navigation. In: 3rd Annual conference on robot learning, CoRL. Proceedings of machine learning research, vol 100, pp 394\u2013406"},{"key":"9217_CR46","doi-asserted-by":"crossref","unstructured":"Chi T-C, Shen M, Eric M, Kim S, Hakkani-tur D (2020) Just ask: An interactive learning framework for vision and language navigation. In: Proceedings of the AAAI conference on artificial intelligence, vol 34, pp 2459\u20132466","DOI":"10.1609\/aaai.v34i03.5627"},{"key":"9217_CR47","unstructured":"de Vries H, Shuster K, Batra D, Parikh D, Weston J, Kiela D (2018) Talk the walk: Navigating New York city through grounded dialogue. CoRR arXiv:1807.03367"},{"key":"9217_CR48","unstructured":"Banerjee S, Thomason J, Corso JJ (2020) The robotslang benchmark: dialog-guided robot localization and navigation. In: CoRL. Proceedings of machine learning research, vol 155, pp 1384\u20131393"},{"key":"9217_CR49","doi-asserted-by":"crossref","unstructured":"Blukis V, Brukhim N, Bennett A, Knepper RA, Artzi Y (2018) Following high-level navigation instructions on a simulated quadcopter with imitation learning. In: Robotics: science and systems XIV","DOI":"10.15607\/RSS.2018.XIV.066"},{"key":"9217_CR50","doi-asserted-by":"crossref","unstructured":"Shah S, Dey D, Lovett C, Kapoor A (2017) Airsim: high-fidelity visual and physical simulation for autonomous vehicles. In: Field and service robotics, results of the 11th international conference, FSR. Springer proceedings in advanced robotics, vol 5, pp 621\u2013635","DOI":"10.1007\/978-3-319-67361-5_40"},{"issue":"8","key":"9217_CR51","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter S, Schmidhuber J (1997) Long short-term memory. Neural Comput 9(8):1735\u20131780","journal-title":"Neural Comput"},{"key":"9217_CR52","unstructured":"Blukis V, Misra DK, Knepper RA, Artzi Y (2018) Mapping navigation instructions to continuous control actions with position-visitation prediction. In: 2nd Annual conference on robot learning, CoRL. Proceedings of machine learning research, vol 87, pp 505\u2013518"},{"key":"9217_CR53","unstructured":"Blukis V, Terme Y, Niklasson E, Knepper RA, Artzi Y (2019) Learning to map natural language instructions to physical quadcopter control using simulated flight. In: 3rd Annual conference on robot learning, CoRL. Proceedings of machine learning research, vol 100, pp 1415\u20131438"},{"key":"9217_CR54","doi-asserted-by":"crossref","unstructured":"He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: 2016 IEEE conference on computer vision and pattern recognition, CVPR, pp 770\u2013778","DOI":"10.1109\/CVPR.2016.90"},{"key":"9217_CR55","unstructured":"Storks S, Gao Q, Thattai G, T\u00fcr G (2021) Are we there yet? Learning to localize in embodied instruction following. CoRR arXiv:2101.03431"},{"key":"9217_CR56","unstructured":"Singh KP, Bhambri S, Kim B, Mottaghi R, Choi J (2020) MOCA: A modular object-centric approach for interactive instruction following. CoRR arXiv:2012.03208"},{"key":"9217_CR57","unstructured":"Yu H, Zhang H, Xu W (2017) A deep compositional framework for human-like language acquisition in virtual environment. arXiv preprint arXiv:1703.09831"},{"key":"9217_CR58","unstructured":"Anand A, Belilovsky E, Kastner K, Larochelle H, Courville AC (2018) Blindfold baselines for embodied QA. CoRR arXiv:1811.05013"},{"key":"9217_CR59","doi-asserted-by":"crossref","unstructured":"Das A, Gkioxari G, Lee S, Parikh D, Batra D (2018) Neural modular control for embodied question answering. In: 2nd Annual conference on robot learning, CoRL 2018. Proceedings of machine learning research, vol 87, pp 53\u201362","DOI":"10.1109\/CVPR.2018.00008"},{"key":"9217_CR60","doi-asserted-by":"crossref","unstructured":"Parvaneh A, Abbasnejad E, Teney D, Shi Q, van\u00a0den Hengel A (2020) Counterfactual vision-and-language navigation: Unravelling the unseen. In: Advances in neural information processing systems 33: annual conference on neural information processing systems 2020, NeurIPS","DOI":"10.1109\/CVPR42600.2020.01006"},{"key":"9217_CR61","doi-asserted-by":"publisher","first-page":"3984","DOI":"10.1109\/TIP.2020.2967584","volume":"29","author":"Y Wu","year":"2020","unstructured":"Wu Y, Jiang L, Yang Y (2020) Revisiting EmbodiedQA: a simple baseline and beyond. IEEE Trans Image Process 29:3984\u20133992","journal-title":"IEEE Trans Image Process"},{"key":"9217_CR62","doi-asserted-by":"crossref","unstructured":"Wijmans E, Datta S, Maksymets O, Das A, Gkioxari G, Lee S, Essa I, Parikh D, Batra D (2019) Embodied question answering in photorealistic environments with point cloud perception. In: IEEE conference on computer vision and pattern recognition, CVPR, pp 6659\u20136668","DOI":"10.1109\/CVPR.2019.00682"},{"key":"9217_CR63","doi-asserted-by":"crossref","unstructured":"Yu L, Chen X, Gkioxari G, Bansal M, Berg TL, Batra D (2019) Multi-target embodied question answering. In: IEEE Conference on computer vision and pattern recognition, CVPR, pp 6309\u20136318","DOI":"10.1109\/CVPR.2019.00647"},{"key":"9217_CR64","unstructured":"Lillicrap TP, Hunt JJ, Pritzel A, Heess N, Erez T, Tassa Y, Silver D, Wierstra D (2016) Continuous control with deep reinforcement learning. In: 4th International conference on learning representations, ICLR"},{"key":"9217_CR65","unstructured":"Mnih V, Badia AP, Mirza M, Graves A, Lillicrap TP, Harley T, Silver D, Kavukcuoglu K (2016) Asynchronous methods for deep reinforcement learning. In: Proceedings of the 33nd international conference on machine learning, ICML. JMLR workshop and conference proceedings, vol 48, pp 1928\u20131937"},{"key":"9217_CR66","doi-asserted-by":"crossref","unstructured":"Wu Y, Wu Y, Tamar A, Russell SJ, Gkioxari G, Tian Y (2019) Bayesian relational memory for semantic visual navigation. In: 2019 IEEE\/CVF International conference on computer vision, ICCV, pp 2769\u20132779","DOI":"10.1109\/ICCV.2019.00286"},{"key":"9217_CR67","doi-asserted-by":"crossref","unstructured":"Lin X, Li G, Yu Y (2021) Scene-intuitive agent for remote embodied visual grounding. In: CVPR, pp 7036\u20137045","DOI":"10.1109\/CVPR46437.2021.00696"},{"key":"9217_CR68","doi-asserted-by":"crossref","unstructured":"Caesar H, Bankiti V, Lang AH, Vora S, Liong VE, Xu Q, Krishnan A, Pan Y, Baldan G, Beijbom O (2020) nuscenes: A multimodal dataset for autonomous driving. In: 2020 IEEE\/CVF conference on computer vision and pattern recognition, CVPR, pp 11618\u201311628","DOI":"10.1109\/CVPR42600.2020.01164"},{"key":"9217_CR69","unstructured":"Yu H, Zhang H, Xu W (2018) Interactive grounded language acquisition and generalization in a 2d world. In: 6th International conference on learning representations, ICLR"},{"key":"9217_CR70","unstructured":"Anderson P, Chang AX, Chaplot DS, Dosovitskiy A, Gupta S, Koltun V, Kosecka J, Malik J, Mottaghi R, Savva M, Zamir AR (2018) On evaluation of embodied navigation agents. CoRR arXiv:1807.06757"},{"key":"9217_CR71","unstructured":"Kipf TN, Welling M (2017) Semi-supervised classification with graph convolutional networks. In: 5th International conference on learning representations, ICLR"},{"key":"9217_CR72","doi-asserted-by":"crossref","unstructured":"Sepulveda G, Niebles JC, Soto A (2018) A deep learning based behavioral approach to indoor autonomous navigation. In: 2018 IEEE International conference on robotics and automation, ICRA, pp 4646\u20134653","DOI":"10.1109\/ICRA.2018.8460646"},{"key":"9217_CR73","doi-asserted-by":"crossref","unstructured":"Huang H, Jain V, Mehta H, Baldridge J, Ie E (2019) Multi-modal discriminative model for vision-and-language navigation. CoRR arXiv:1905.13358","DOI":"10.18653\/v1\/W19-1605"},{"key":"9217_CR74","unstructured":"Fried D, Hu R, Cirik V, Rohrbach A, Andreas J, Morency L, Berg-Kirkpatrick T, Saenko K, Klein D, Darrell T (2018) Speaker-follower models for vision-and-language navigation, pp 3318\u20133329"},{"key":"9217_CR75","unstructured":"Ilharco G, Jain V, Ku A, Ie E, Baldridge J (2019) General evaluation for instruction conditioned navigation using dynamic time warping"},{"key":"9217_CR76","doi-asserted-by":"crossref","unstructured":"Zhao M, Anderson P, Jain V, Wang S, Ku A, Baldridge J, Ie E (2021) On the evaluation of vision-and-language navigation instructions, pp 1302\u20131316","DOI":"10.18653\/v1\/2021.eacl-main.111"},{"key":"9217_CR77","doi-asserted-by":"crossref","unstructured":"Anderson P, Fernando B, Johnson M, Gould S (2016) Spice: semantic propositional image caption evaluation. In: European conference on computer vision. Springer, Berlin, pp 382\u2013398","DOI":"10.1007\/978-3-319-46454-1_24"},{"key":"9217_CR78","doi-asserted-by":"crossref","unstructured":"Papineni K, Roukos S, Ward T, Zhu W-J (2002) BLEU: a method for automatic evaluation of machine translation. In: Proceedings of the 40th annual meeting of the association for computational linguistics, pp 311\u2013318","DOI":"10.3115\/1073083.1073135"},{"key":"9217_CR79","unstructured":"Lin C-Y (2004) Rouge: a package for automatic evaluation of summaries. In: Text summarization branches out, pp 74\u201381"},{"key":"9217_CR80","doi-asserted-by":"crossref","unstructured":"Denkowski M, Lavie A (2014) Meteor universal: language specific translation evaluation for any target language. In: Proceedings of the ninth workshop on statistical machine translation, pp 376\u2013380","DOI":"10.3115\/v1\/W14-3348"},{"key":"9217_CR81","doi-asserted-by":"crossref","unstructured":"Vedantam R, Lawrence\u00a0Zitnick C, Parikh D (2015) Cider: consensus-based image description evaluation. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4566\u20134575","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"9217_CR82","doi-asserted-by":"crossref","unstructured":"Wang X, Huang Q, Celikyilmaz A, Gao J, Shen D, Wang Y-F, Wang WY, Zhang L (2019) Reinforced cross-modal matching and self-supervised imitation learning for vision-language navigation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 6629\u20136638","DOI":"10.1109\/CVPR.2019.00679"},{"key":"9217_CR83","unstructured":"Deng Z, Narasimhan K, Russakovsky O (2020) Evolving graphical planner: contextual global planning for vision-and-language navigation. CoRR arXiv:2007.05655"},{"key":"9217_CR84","doi-asserted-by":"crossref","unstructured":"Hong Y, Wu Q, Qi Y, Opazo CR, Gould S (2020) A recurrent vision-and-language BERT for navigation. CoRR arXiv:2011.13922","DOI":"10.1109\/CVPR46437.2021.00169"},{"key":"9217_CR85","unstructured":"Ma C, Lu J, Wu Z, AlRegib G, Kira Z, Socher R, Xiong C (2019) Self-monitoring navigation agent via auxiliary progress estimation"},{"key":"9217_CR86","doi-asserted-by":"crossref","unstructured":"Ma C-Y, Wu Z, AlRegib G, Xiong C, Kira Z (2019) The regretful agent: heuristic-aided navigation through progress estimation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 6732\u20136740","DOI":"10.1109\/CVPR.2019.00689"},{"key":"9217_CR87","doi-asserted-by":"crossref","unstructured":"Ke L, Li X, Bisk Y, Holtzman A, Gan Z, Liu J, Gao J, Choi Y, Srinivasa S (2019) Tactical rewind: self-correction via backtracking in vision-and-language navigation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 6741\u20136749","DOI":"10.1109\/CVPR.2019.00690"},{"key":"9217_CR88","doi-asserted-by":"crossref","unstructured":"Huang H, Jain V, Mehta H, Ku A, Magalhaes G, Baldridge J, Ie E (2019) Transferable representation learning in vision-and-language navigation. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 7404\u20137413","DOI":"10.1109\/ICCV.2019.00750"},{"key":"9217_CR89","doi-asserted-by":"crossref","unstructured":"Zhu F, Zhu Y, Chang X, Liang X (2020) Vision-language navigation with self-supervised auxiliary reasoning tasks. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 10012\u201310022","DOI":"10.1109\/CVPR42600.2020.01003"},{"key":"9217_CR90","doi-asserted-by":"crossref","unstructured":"Wang H, Wang W, Shu T, Liang W, Shen J (2020) Active visual information gathering for vision-language navigation. In: European conference on computer vision. Springer, Berlin, pp 307\u2013322","DOI":"10.1007\/978-3-030-58542-6_19"},{"key":"9217_CR91","doi-asserted-by":"crossref","unstructured":"Wang H, Wang W, Liang W, Xiong C, Shen J (2021) Structured scene memory for vision-language navigation. In: CVPR, pp 8455\u20138464","DOI":"10.1109\/CVPR46437.2021.00835"},{"key":"9217_CR92","doi-asserted-by":"crossref","unstructured":"Zhang W, Ma C, Wu Q, Yang X (2020) Language-guided navigation via cross-modal grounding and alternate adversarial learning. IEEE Trans Circuits Syst Video Technol","DOI":"10.1109\/TCSVT.2020.3039522"},{"key":"9217_CR93","unstructured":"Deng Z, Narasimhan K, Russakovsky O (2020) Evolving graphical planner: contextual global planning for vision-and-language navigation. In: NeurIPS"},{"key":"9217_CR94","doi-asserted-by":"crossref","unstructured":"Chen S, Guhur P-L, Schmid C, Laptev I (2021) History aware multimodal transformer for vision-and-language navigation. In: NeurIPS","DOI":"10.1109\/ICCV48922.2021.00166"},{"key":"9217_CR95","doi-asserted-by":"crossref","unstructured":"Chen S, Guhur P-L, Tapaswi M, Schmid C, Laptev I (2022) Think global, act local: dual-scale graph transformer for vision-and-language navigation. In: CVPR","DOI":"10.1109\/CVPR52688.2022.01604"},{"key":"9217_CR96","unstructured":"Landi F, Baraldi L, Cornia M, Corsini M, Cucchiara R (2019) Perceive, transform, and act: multi-modal attention networks for vision-and-language navigation. CoRR arXiv:1911.12377"},{"issue":"4","key":"9217_CR97","doi-asserted-by":"publisher","first-page":"6258","DOI":"10.1109\/LRA.2021.3092686","volume":"6","author":"A Magassouba","year":"2021","unstructured":"Magassouba A, Sugiura K, Kawai H (2021) Crossmap transformer: a crossmodal masked path transformer using double back-translation for vision-and-language navigation. IEEE Robotics Autom Lett 6(4):6258\u20136265","journal-title":"IEEE Robotics Autom Lett"},{"key":"9217_CR98","doi-asserted-by":"crossref","unstructured":"Wu Z, Liu Z, Wang T, Wang D (2021) Improved speaker and navigator for vision-and-language navigation. IEEE MultiMedia","DOI":"10.1109\/MMUL.2021.3058314"},{"key":"9217_CR99","doi-asserted-by":"crossref","unstructured":"Mao S, Wu J, Hong S (2020) Vision and language navigation using multi-head attention mechanism. In: 2020 6th International conference on big data and information analytics (BigDIA). IEEE, pp 74\u201379","DOI":"10.1109\/BigDIA51454.2020.00020"},{"key":"9217_CR100","unstructured":"Hong Y, Opazo CR, Qi Y, Wu Q, Gould S (2020) Language and visual entity relationship graph for agent navigation"},{"key":"9217_CR101","unstructured":"Xia Q, Li X, Li C, Bisk Y, Sui Z, Gao J, Choi Y, Smith NA (2020) Multi-view learning for vision-and-language navigation. CoRR arXiv:2003.00857"},{"key":"9217_CR102","doi-asserted-by":"crossref","unstructured":"Qi Y, Pan Z, Zhang S, van\u00a0den Hengel A, Wu Q (2020) Object-and-action aware model for visual language navigation. In: Proceedings of the European conference on computer vision (ECCV). Springer, Berlin, pp 23\u201328","DOI":"10.1007\/978-3-030-58607-2_18"},{"key":"9217_CR103","doi-asserted-by":"crossref","unstructured":"Tan H, Yu L, Bansal M (2019) Learning to navigate unseen environments: back translation with environmental dropout, pp 2610\u20132621","DOI":"10.18653\/v1\/N19-1268"},{"key":"9217_CR104","doi-asserted-by":"crossref","unstructured":"Parvaneh A, Abbasnejad E, Teney D, Shi Q, van\u00a0den Hengel A (2020) Counterfactual vision-and-language navigation: unravelling the unseen. Adv Neural Inf Process Syst 33","DOI":"10.1109\/CVPR42600.2020.01006"},{"key":"9217_CR105","doi-asserted-by":"crossref","unstructured":"Wang X, Xiong W, Wang H, Wang WY (2018) Look before you leap: bridging model-free and model-based reinforcement learning for planned-ahead vision-and-language navigation. In: Proceedings of the European conference on computer vision (ECCV), pp 37\u201353","DOI":"10.1007\/978-3-030-01270-0_3"},{"key":"9217_CR106","unstructured":"Lansing L, Jain V, Mehta H, Huang H, Ie E (2019) VALAN: vision and language agent navigation. CoRR arXiv:1912.03241"},{"key":"9217_CR107","doi-asserted-by":"crossref","unstructured":"Wang H, Wu Q, Shen C (2020) Soft expert reward learning for vision-and-language navigation 12354:126\u2013141","DOI":"10.1007\/978-3-030-58545-7_8"},{"key":"9217_CR108","doi-asserted-by":"crossref","unstructured":"Zhou L, Small K (2021) Inverse reinforcement learning with natural language goals. In: AAAI, pp 11116\u201311124","DOI":"10.1609\/aaai.v35i12.17326"},{"key":"9217_CR109","doi-asserted-by":"crossref","unstructured":"Hu R, Fried D, Rohrbach A, Klein D, Darrell T, Saenko K (2019) Are you looking? Grounding to multiple modalities in vision-and-language navigation, pp 6551\u20136557","DOI":"10.18653\/v1\/P19-1655"},{"key":"9217_CR110","unstructured":"Kurita S, Cho K (2021) Generative language-grounded policy in vision-and-language navigation with Bayes\u2019 rule. In: ICLR"},{"key":"9217_CR111","doi-asserted-by":"crossref","unstructured":"Hong Y, Opazo CR, Wu Q, Gould S (2020) Sub-instruction aware vision-and-language navigation, pp 3360\u20133376","DOI":"10.18653\/v1\/2020.emnlp-main.271"},{"key":"9217_CR112","unstructured":"Agarwal S, Parikh D, Batra D, Anderson P, Lee S (2019) Visual landmark selection for generating grounded and interpretable navigation instructions. In: CVPR workshop on deep learning for semantic visual navigation"},{"key":"9217_CR113","doi-asserted-by":"crossref","unstructured":"Fu T-J, Wang XE, Peterson MF, Grafton ST, Eckstein MP, Wang WY (2020) Counterfactual vision-and-language navigation via adversarial path sampler. In: European conference on computer vision. Springer, Berlin, pp 71\u201386","DOI":"10.1007\/978-3-030-58539-6_5"},{"key":"9217_CR114","doi-asserted-by":"crossref","unstructured":"Yu F, Deng Z, Narasimhan K, Russakovsky O (2020) Take the scenic route: improving generalization in vision-and-language navigation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition workshops, pp 920\u2013921","DOI":"10.1109\/CVPRW50498.2020.00468"},{"key":"9217_CR115","doi-asserted-by":"crossref","unstructured":"An D, Qi Y, Huang Y, Wu Q, Wang L, Tan T (2021) Neighbor-view enhanced model for vision and language navigation. In: ACM multimedia, pp 5101\u20135109","DOI":"10.1145\/3474085.3475282"},{"key":"9217_CR116","doi-asserted-by":"crossref","unstructured":"Liu C, Zhu F, Chang X, Liang X, Ge Z, Shen Y (2021) Vision-language navigation with random environmental mixup. In: ICCV, pp 1624\u20131634","DOI":"10.1109\/ICCV48922.2021.00167"},{"key":"9217_CR117","doi-asserted-by":"crossref","unstructured":"Sun Q, Zhuang Y, Chen Z, Fu Y, Xue X (2021) Depth-guided AdaIN and shift attention network for vision-and-language navigation. In: 2021 IEEE international conference on multimedia and expo (ICME). IEEE, pp 1\u20136","DOI":"10.1109\/ICME51207.2021.9428422"},{"key":"9217_CR118","doi-asserted-by":"crossref","unstructured":"Li X, Li C, Xia Q, Bisk Y, Celikyilmaz A, Gao J, Smith NA, Choi Y (2019) Robust navigation with language pretraining and stochastic sampling. In: EMNLP-IJCNLP, pp 1494\u20131499","DOI":"10.18653\/v1\/D19-1159"},{"key":"9217_CR119","doi-asserted-by":"crossref","unstructured":"Hao W, Li C, Li X, Carin L, Gao J (2020) Towards learning a generic agent for vision-and-language navigation via pre-training. In: 2020 IEEE\/CVF conference on computer vision and pattern recognition, CVPR, pp 13134\u201313143","DOI":"10.1109\/CVPR42600.2020.01315"},{"key":"9217_CR120","doi-asserted-by":"crossref","unstructured":"Huang J, Huang B, Zhu L, Ma L, Liu J, Zeng G, Shi Z (2020) Real-time vision-language-navigation based on a lite pre-training model. In: iThings\/GreenCom\/CPSCom\/SmartData\/Cybermatics, pp 399\u2013404","DOI":"10.1109\/iThings-GreenCom-CPSCom-SmartData-Cybermatics50389.2020.00077"},{"key":"9217_CR121","doi-asserted-by":"crossref","unstructured":"Majumdar A, Shrivastava A, Lee S, Anderson P, Parikh D, Batra D (2020) Improving vision-and-language navigation with image-text pairs from the web. In: European conference on computer vision. Springer, Berlin, pp 259\u2013274","DOI":"10.1007\/978-3-030-58539-6_16"},{"key":"9217_CR122","doi-asserted-by":"crossref","unstructured":"Hong Y, Wu Q, Qi Y, Opazo CR, Gould S (2021) VLN BERT: A recurrent vision-and-language BERT for navigation. In: CVPR, pp 1643\u20131653","DOI":"10.1109\/CVPR46437.2021.00169"},{"key":"9217_CR123","doi-asserted-by":"crossref","unstructured":"Qi Y, Pan Z, Hong Y, Yang M, van\u00a0den Hengel A, Wu Q (2021) Know what and know where: An object-and-room informed sequential BERT for indoor vision-language navigation. CoRR arXiv:2104.04167","DOI":"10.1109\/ICCV48922.2021.00168"},{"key":"9217_CR124","doi-asserted-by":"crossref","unstructured":"Guhur P-L, Tapaswi M, Chen S, Laptev I, Schmid C (2021) Airbert: in-domain pretraining for vision-and-language navigation. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 1634\u20131643","DOI":"10.1109\/ICCV48922.2021.00166"},{"key":"9217_CR125","unstructured":"Anderson P, Shrivastava A, Truong J, Majumdar A, Parikh D, Batra D, Lee S (2020) Sim-to-real transfer for vision-and-language navigation. In: CoRL. Proceedings of Machine Learning Research, vol 155, pp 671\u2013681"},{"key":"9217_CR126","doi-asserted-by":"crossref","unstructured":"Zhu W, Qi Y, Narayana P, Sone K, Basu S, Wang X, Wu Q, Eckstein MP, Wang WY (2022) Diagnosing vision-and-language navigation: What really matters. In: NAACL-HLT, pp 5981\u20135993","DOI":"10.18653\/v1\/2022.naacl-main.438"},{"key":"9217_CR127","unstructured":"Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser L, Polosukhin I (2017) Attention is all you need. In: Advances in neural information processing systems 30: annual conference on neural information processing systems 2017, pp 5998\u20136008"},{"key":"9217_CR128","unstructured":"Devlin J, Chang M, Lee K, Toutanova K (2019) BERT: pre-training of deep bidirectional transformers for language understanding. In: Proceedings of the 2019 conference of the North American chapter of the association for computational linguistics: human language technologies, NAACL-HLT, vol 1, pp 4171\u20134186"},{"key":"9217_CR129","unstructured":"Su W, Zhu X, Cao Y, Li B, Lu L, Wei F, Dai J (2020) VL-BERT: pre-training of generic visual-linguistic representations. In: 8th International conference on learning representations, ICLR"},{"key":"9217_CR130","unstructured":"Brown TB, Mann B, Ryder N, Subbiah M, Kaplan J, Dhariwal P, Neelakantan A, Shyam P, Sastry G, Askell A, Agarwal S, Herbert-Voss A, Krueger G, Henighan T, Child R, Ramesh A, Ziegler DM, Wu J, Winter C, Hesse C, Chen M, Sigler E, Litwin M, Gray S, Chess B, Clark J, Berner C, McCandlish S, Radford A, Sutskever I, Amodei D (2020) Language models are few-shot learners. In: Advances in neural information processing systems 33: annual conference on neural information processing systems 2020, NeurIPS 6\u201312, 2020, virtual"},{"key":"9217_CR131","unstructured":"Anderson P, Shrivastava A, Parikh D, Batra D, Lee S (2019) Chasing ghosts: instruction following as Bayesian state tracking. In: NeurIPS, pp 369\u2013379"},{"key":"9217_CR132","doi-asserted-by":"crossref","unstructured":"Li X, Li C, Xia Q, Bisk Y, Celikyilmaz A, Gao J, Smith NA, Choi Y (2019) Robust navigation with language pretraining and stochastic sampling, pp 1494\u20131499","DOI":"10.18653\/v1\/D19-1159"},{"key":"9217_CR133","doi-asserted-by":"crossref","unstructured":"Chen K, Chen JK, Chuang J, V\u00e1zquez M, Savarese S (2021) Topological planning with transformers for vision-and-language navigation. In: CVPR, pp 11276\u201311286","DOI":"10.1109\/CVPR46437.2021.01112"},{"key":"9217_CR134","unstructured":"Wang T, Wu Z, Wang D (2020) Visual perception generalization for vision-and-language navigation via meta-learning. CoRR arXiv:2012.05446"},{"key":"9217_CR135","doi-asserted-by":"crossref","unstructured":"Xiang J, Wang X, Wang WY (2020) Learning to stop: a simple yet effective approach to urban vision-language navigation. In: EMNLP (Findings). Findings of ACL, vol EMNLP 2020, pp 699\u2013707","DOI":"10.18653\/v1\/2020.findings-emnlp.62"},{"key":"9217_CR136","doi-asserted-by":"crossref","unstructured":"Zhu W, Wang X, Fu T, Yan A, Narayana P, Sone K, Basu S, Wang WY (2021) Multimodal text style transfer for outdoor vision-and-language navigation. In: EACL, pp 1207\u20131221","DOI":"10.18653\/v1\/2021.eacl-main.103"},{"key":"9217_CR137","doi-asserted-by":"crossref","unstructured":"Mehta H, Artzi Y, Baldridge J, Ie E, Mirowski P (2020) Retouchdown: releasing touchdown on streetlearn as a public resource for language grounding tasks in street view. In: Proceedings of the third international workshop on spatial language understanding","DOI":"10.18653\/v1\/2020.splu-1.7"},{"key":"9217_CR138","unstructured":"Mirowski P, Grimes MK, Malinowski M, Hermann KM, Anderson K, Teplyashin D, Simonyan K, Kavukcuoglu K, Zisserman A, Hadsell R (2018) Learning to navigate in cities without a map. In: NeurIPS, pp 2424\u20132435"},{"issue":"1","key":"9217_CR139","doi-asserted-by":"publisher","first-page":"246","DOI":"10.1007\/s11263-020-01374-3","volume":"129","author":"AB Vasudevan","year":"2021","unstructured":"Vasudevan AB, Dai D, Gool LV (2021) Talk2nav: Long-range vision-and-language navigation with dual attention and spatial memory. Int J Comput Vis 129(1):246\u2013266","journal-title":"Int J Comput Vis"},{"key":"9217_CR140","unstructured":"Cirik V, Zhang Y, Baldridge J (2018) Following formulaic map instructions in a street simulation environment. In: 2018 NeurIPS workshop on visually grounded interaction and language, vol 1"},{"key":"9217_CR141","doi-asserted-by":"crossref","unstructured":"Zhu Y, Zhu F, Zhan Z, Lin B, Jiao J, Chang X, Liang X (2020) Vision-dialog navigation by exploring cross-modal memory. In: 2020 IEEE\/CVF conference on computer vision and pattern recognition, CVPR, pp 10727\u201310736","DOI":"10.1109\/CVPR42600.2020.01074"},{"key":"9217_CR142","doi-asserted-by":"crossref","unstructured":"Roman\u00a0Roman H, Bisk Y, Thomason J, Celikyilmaz A, Gao J (2020) RMM: A recursive mental model for dialogue navigation. In: Findings of the association for computational linguistics: EMNLP 2020","DOI":"10.18653\/v1\/2020.findings-emnlp.157"},{"key":"9217_CR143","doi-asserted-by":"crossref","unstructured":"Mikhail EM, Bethel JS, McGlone JC (2001) Introduction to modern photogrammetry. New York 19","DOI":"10.1515\/9781400847488-004"},{"key":"9217_CR144","doi-asserted-by":"crossref","unstructured":"Wortsman M, Ehsani K, Rastegari M, Farhadi A, Mottaghi R (2019) Learning to learn how to learn: self-adaptive visual navigation using meta-learning. In: IEEE conference on computer vision and pattern recognition, CVPR, pp 6750\u20136759","DOI":"10.1109\/CVPR.2019.00691"},{"issue":"2","key":"9217_CR145","doi-asserted-by":"publisher","first-page":"1090","DOI":"10.1109\/LRA.2021.3056373","volume":"6","author":"B Liu","year":"2021","unstructured":"Liu B, Xiao X, Stone P (2021) A lifelong learning approach to mobile robot navigation. IEEE Robotics Autom Lett 6(2):1090\u20131096","journal-title":"IEEE Robotics Autom Lett"},{"key":"9217_CR146","doi-asserted-by":"crossref","unstructured":"Nguyen T, Nguyen D, Le T (2019) Reinforcement learning based navigation with semantic knowledge of indoor environments. In: 11th International conference on knowledge and systems engineering, KSE, pp 1\u20137","DOI":"10.1109\/KSE.2019.8919366"},{"key":"9217_CR147","doi-asserted-by":"crossref","unstructured":"Li X, Yin X, Li C, Zhang P, Hu X, Zhang L, Wang L, Hu H, Dong L, Wei F et al (2020) Oscar: object-semantics aligned pre-training for vision-language tasks. In: European conference on computer vision. Springer, Berlin, pp 121\u2013137","DOI":"10.1007\/978-3-030-58577-8_8"},{"key":"9217_CR148","doi-asserted-by":"crossref","unstructured":"Hao W, Li C, Li X, Carin L, Gao J (2020) Towards learning a generic agent for vision-and-language navigation via pre-training. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 13137\u201313146","DOI":"10.1109\/CVPR42600.2020.01315"},{"key":"9217_CR149","doi-asserted-by":"crossref","unstructured":"Hu Y, Subagdja B, Tan A-H, Yin Q (2021) Vision-based topological mapping and navigation with self-organizing neural networks. IEEE Trans Neural Netw Learn Syst","DOI":"10.1109\/TNNLS.2021.3084212"},{"key":"9217_CR150","doi-asserted-by":"crossref","unstructured":"Tadokoro S (2009) Rescue robotics: DDT project on robots and systems for urban search and rescue","DOI":"10.1007\/978-1-84882-474-4"},{"key":"9217_CR151","unstructured":"Bhirangi RM, Hellebrekers TL, Majidi C, Gupta A (2021) Reskin: versatile, replaceable, lasting tactile skins. In: CoRL. Proceedings of machine learning research, vol 164, pp 587\u2013597"},{"issue":"6","key":"9217_CR152","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3414685.3417768","volume":"39","author":"B Smith","year":"2020","unstructured":"Smith B, Wu C, Wen H, Peluse P, Sheikh Y, Hodgins JK, Shiratori T (2020) Constraining dense hand surface tracking with elasticity. ACM Trans Graph (TOG) 39(6):1\u201314","journal-title":"ACM Trans Graph (TOG)"},{"key":"9217_CR153","first-page":"103","volume":"97","author":"C Chen","year":"2019","unstructured":"Chen C, Jain U, Schissler C, Gari SVA, Al-Halah Z, Ithapu VK, Robinson P, Grauman K (2019) Audio-visual embodied navigation. Environment 97:103","journal-title":"Environment"}],"container-title":["Neural Computing and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00521-023-09217-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00521-023-09217-1\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00521-023-09217-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,2,9]],"date-time":"2024-02-09T12:04:22Z","timestamp":1707480262000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00521-023-09217-1"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,11,27]]},"references-count":153,"journal-issue":{"issue":"7","published-print":{"date-parts":[[2024,3]]}},"alternative-id":["9217"],"URL":"https:\/\/doi.org\/10.1007\/s00521-023-09217-1","relation":{},"ISSN":["0941-0643","1433-3058"],"issn-type":[{"value":"0941-0643","type":"print"},{"value":"1433-3058","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,11,27]]},"assertion":[{"value":"21 April 2022","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 October 2023","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"27 November 2023","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"All authors declare that no conflicts of interest exist.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}