{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,26]],"date-time":"2025-11-26T16:41:07Z","timestamp":1764175267687,"version":"3.40.3"},"publisher-location":"Cham","reference-count":105,"publisher":"Springer Nature Switzerland","isbn-type":[{"type":"print","value":"9783031200588"},{"type":"electronic","value":"9783031200595"}],"license":[{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022]]},"DOI":"10.1007\/978-3-031-20059-5_16","type":"book-chapter","created":{"date-parts":[[2022,10,28]],"date-time":"2022-10-28T16:02:50Z","timestamp":1666972970000},"page":"271-289","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":12,"title":["ASSISTER: Assistive Navigation via\u00a0Conditional Instruction Generation"],"prefix":"10.1007","author":[{"given":"Zanming","family":"Huang","sequence":"first","affiliation":[]},{"given":"Zhongkai","family":"Shangguan","sequence":"additional","affiliation":[]},{"given":"Jimuyang","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Gilad","family":"Bar","sequence":"additional","affiliation":[]},{"given":"Matthew","family":"Boyd","sequence":"additional","affiliation":[]},{"given":"Eshed","family":"Ohn-Bar","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2022,10,29]]},"reference":[{"key":"16_CR1","doi-asserted-by":"crossref","unstructured":"Ahmetovic, D., Gleason, C., Ruan, C., Kitani, K., Takagi, H., Asakawa, C.: NavCog: a navigational cognitive assistant for the blind. In: MobileHCI (2016)","DOI":"10.1145\/2935334.2935361"},{"key":"16_CR2","doi-asserted-by":"crossref","unstructured":"Ahmetovic, D., Guerreiro, J., Ohn-Bar, E., Kitani, K.M., Asakawa, C.: Impact of expertise on interaction preferences for navigation assistance of visually impaired individuals. In: W4A (2019)","DOI":"10.1145\/3315002.3317561"},{"key":"16_CR3","doi-asserted-by":"crossref","unstructured":"Ahmetovic, D., et al.: Achieving practical and accurate indoor navigation for people with visual impairments. In: W4A (2017)","DOI":"10.1145\/3058555.3058560"},{"key":"16_CR4","unstructured":"Aira: aira app. https:\/\/aira.io\/"},{"key":"16_CR5","unstructured":"Anderson, P., et al.: On evaluation of embodied navigation agents. arXiv (2018)"},{"key":"16_CR6","doi-asserted-by":"crossref","unstructured":"Anderson, P., et al.: Vision-and-language navigation: interpreting visually-grounded navigation instructions in real environments. In: CVPR (2018)","DOI":"10.1109\/CVPR.2018.00387"},{"key":"16_CR7","doi-asserted-by":"crossref","unstructured":"Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C.L., Parikh, D.: VQA: visual question answering. In: ICCV (2015)","DOI":"10.1109\/ICCV.2015.279"},{"issue":"2","key":"16_CR8","doi-asserted-by":"publisher","first-page":"118","DOI":"10.1177\/0145482X1310700205","volume":"107","author":"A Arditi","year":"2013","unstructured":"Arditi, A., Tian, Y.: User interface preferences in the design of a camera-based navigation and wayfinding aid. J. Vis. Impairment Blindness 107(2), 118\u2013129 (2013)","journal-title":"J. Vis. Impairment Blindness"},{"key":"16_CR9","doi-asserted-by":"crossref","unstructured":"Banovic, N., Franz, R.L., Truong, K.N., Mankoff, J., Dey, A.K.: Uncovering information needs for independent spatial learning for users who are visually impaired. In: ASSETS (2013)","DOI":"10.1145\/2513383.2513445"},{"key":"16_CR10","doi-asserted-by":"crossref","unstructured":"Bigham, J.P., et al.: VizWiz: nearly real-time answers to visual questions. In: UIST (2010)","DOI":"10.1145\/1866029.1866080"},{"key":"16_CR11","unstructured":"Blukis, V., Paxton, C., Fox, D., Garg, A., Artzi, Y.: A persistent spatial semantic representation for high-level natural language instruction execution. arXiv (2021)"},{"key":"16_CR12","doi-asserted-by":"crossref","unstructured":"Brady, E.L., Sato, D., Ruan, C., Takagi, H., Asakawa, C.: Exploring interface design for independent navigation by people with visual impairments. In: ASSETS (2015)","DOI":"10.1145\/2700648.2811383"},{"key":"16_CR13","doi-asserted-by":"crossref","unstructured":"Chen, H.,et al.: Touchdown: natural language navigation and spatial reasoning in visual street environments. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.01282"},{"key":"16_CR14","doi-asserted-by":"crossref","unstructured":"Codevilla, F., M\u00fcller, M., L\u00f3pez, A., Koltun, V., Dosovitskiy, A.: End-to-end driving via conditional imitation learning. In: ICRA (2018)","DOI":"10.1109\/ICRA.2018.8460487"},{"key":"16_CR15","doi-asserted-by":"crossref","unstructured":"Codevilla, F., Santana, E., L\u00f3pez, A.M., Gaidon, A.: Exploring the limitations of behavior cloning for autonomous driving. In: ICCV (2019)","DOI":"10.1109\/ICCV.2019.00942"},{"key":"16_CR16","doi-asserted-by":"crossref","unstructured":"Daniele, A.F., Bansal, M., Walter, M.R.: Navigational instruction generation as inverse reinforcement learning with neural machine translation. In: HRI (2017)","DOI":"10.1145\/2909824.3020241"},{"key":"16_CR17","doi-asserted-by":"crossref","unstructured":"Das, A., et al.: Visual dialog. In: CVPR (2017)","DOI":"10.1109\/CVPR.2017.121"},{"key":"16_CR18","unstructured":"Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: BERT: pre-training of deep bidirectional transformers for language understanding. In: ACL (2018)"},{"key":"16_CR19","unstructured":"Dosovitskiy, A., Ros, G., Codevilla, F., Lopez, A., Koltun, V.: CARLA: an open urban driving simulator. In: CoRL (2017)"},{"key":"16_CR20","doi-asserted-by":"crossref","unstructured":"Duvallet, F., Kollar, T., Stentz, A.: Imitation learning for natural language direction following through unknown environments. In: ICRA (2013)","DOI":"10.1109\/ICRA.2013.6630702"},{"key":"16_CR21","series-title":"Springer Tracts in Advanced Robotics","doi-asserted-by":"publisher","first-page":"373","DOI":"10.1007\/978-3-319-23778-7_25","volume-title":"Experimental Robotics","author":"F Duvallet","year":"2016","unstructured":"Duvallet, F., et al.: Inferring maps and behaviors from natural language instructions. In: Hsieh, M.A., Khatib, O., Kumar, V. (eds.) Experimental Robotics. STAR, vol. 109, pp. 373\u2013388. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-23778-7_25"},{"key":"16_CR22","doi-asserted-by":"crossref","unstructured":"Easley, W., et al.: Let\u2019s get lost: exploring social norms in predominately blind environments. In: CHI (2016)","DOI":"10.1145\/2851581.2892470"},{"key":"16_CR23","doi-asserted-by":"crossref","unstructured":"Erickson, Z., Gangaram, V., Kapusta, A., Liu, C.K., Kemp, C.C.: Assistive gym: a physics simulation framework for assistive robotics. ICRA (2020)","DOI":"10.1109\/ICRA40945.2020.9197411"},{"issue":"1","key":"16_CR24","first-page":"21","volume":"25","author":"N Fallah","year":"2013","unstructured":"Fallah, N., Apostolopoulos, I., Bekris, K., Folmer, E.: Indoor human navigation systems: a survey. Interact. Comput. 25(1), 21\u201333 (2013)","journal-title":"Interact. Comput."},{"key":"16_CR25","unstructured":"Fried, D., et al.: Speaker-follower models for vision-and-language navigation. In: NeurIPS (2018)"},{"issue":"1","key":"16_CR26","doi-asserted-by":"publisher","first-page":"55","DOI":"10.1007\/s10462-012-9365-8","volume":"43","author":"J Fuentes-Pacheco","year":"2015","unstructured":"Fuentes-Pacheco, J., Ruiz-Ascencio, J., Rend\u00f3n-Mancha, J.M.: Visual simultaneous localization and mapping: a survey. Artif. Intell. Rev. 43(1), 55\u201381 (2015). https:\/\/doi.org\/10.1007\/s10462-012-9365-8","journal-title":"Artif. Intell. Rev."},{"issue":"7","key":"16_CR27","doi-asserted-by":"publisher","first-page":"525","DOI":"10.1097\/00006324-199807000-00022","volume":"75","author":"DR Geruschat","year":"1998","unstructured":"Geruschat, D.R., Turano, K.A., Stahl, J.W.: Traditional measures of mobility performance and retinitis pigmentosa. Optom. Vis. Sci. 75(7), 525\u2013537 (1998)","journal-title":"Optom. Vis. Sci."},{"key":"16_CR28","doi-asserted-by":"crossref","unstructured":"Giudice, N.A., Legge, G.E.: Blind navigation and the role of technology. In: The Engineering Handbook of Smart Technology for Aging, Disability, and Independence (2008)","DOI":"10.1002\/9780470379424.ch25"},{"key":"16_CR29","unstructured":"Google: Google speech-to-text. https:\/\/cloud.google.com\/speech-to-text"},{"issue":"4","key":"16_CR30","doi-asserted-by":"publisher","first-page":"277","DOI":"10.1177\/0145482X211027492","volume":"115","author":"C Granquist","year":"2021","unstructured":"Granquist, C., Sun, S.Y., Montezuma, S.R., Tran, T.M., Gage, R., Legge, G.E.: Evaluation and comparison of artificial intelligence vision aids: orcam myeye 1 and seeing AI. J. Vis. Impairment Blindness 115(4), 277\u2013285 (2021)","journal-title":"J. Vis. Impairment Blindness"},{"key":"16_CR31","doi-asserted-by":"crossref","unstructured":"Guerreiro, J., Ahmetovic, D., Sato, D., Kitani, K., Asakawa, C.: Airport accessibility and navigation assistance for people with visual impairments. In: CHI (2019)","DOI":"10.1145\/3290605.3300246"},{"key":"16_CR32","doi-asserted-by":"crossref","unstructured":"Guerreiro, J., Ohn-Bar, E., Ahmetovic, D., Kitani, K., Asakawa, C.: How context and user behavior affect indoor navigation assistance for blind people. In: W4A (2018)","DOI":"10.1145\/3192714.3192829"},{"key":"16_CR33","doi-asserted-by":"crossref","unstructured":"Guhur, P.L., Tapaswi, M., Chen, S., Laptev, I., Schmid, C.: Airbert: In-domain pretraining for vision-and-language navigation. In: ICCV (2021)","DOI":"10.1109\/ICCV48922.2021.00166"},{"key":"16_CR34","doi-asserted-by":"crossref","unstructured":"Gupta, A., Johnson, J., Fei-Fei, L., Savarese, S., Alahi, A.: Social GAN: socially acceptable trajectories with generative adversarial networks. In: CVPR (2018)","DOI":"10.1109\/CVPR.2018.00240"},{"key":"16_CR35","doi-asserted-by":"crossref","unstructured":"Gurari, D., et al.: VizWiz-Priv: A dataset for recognizing the presence and purpose of private visual information in images taken by blind people. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00103"},{"key":"16_CR36","doi-asserted-by":"crossref","unstructured":"Gurari, D., et al.: VizWiz grand challenge: answering visual questions from blind people. In: CVPR (2018)","DOI":"10.1109\/CVPR.2018.00380"},{"key":"16_CR37","doi-asserted-by":"crossref","unstructured":"Hahn, M., Krantz, J., Batra, D., Parikh, D., Rehg, J.M., Lee, S., Anderson, P.: Where are you? localization from embodied dialog (2020)","DOI":"10.18653\/v1\/2020.emnlp-main.59"},{"issue":"2","key":"16_CR38","doi-asserted-by":"publisher","first-page":"100","DOI":"10.1109\/TSSC.1968.300136","volume":"4","author":"PE Hart","year":"1968","unstructured":"Hart, P.E., Nilsson, N.J., Raphael, B.: A formal basis for the heuristic determination of minimum cost paths. IEEE Trans. Syst. Sci. Cybern. 4(2), 100\u2013107 (1968)","journal-title":"IEEE Trans. Syst. Sci. Cybern."},{"key":"16_CR39","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.90"},{"issue":"2","key":"16_CR40","doi-asserted-by":"publisher","first-page":"753","DOI":"10.1109\/LRA.2019.2893432","volume":"4","author":"Z Hu","year":"2019","unstructured":"Hu, Z., Pan, J., Fan, T., Yang, R., Manocha, D.: Safe navigation with human instructions in complex scenes. IEEE Robot. Autom. Lett. 4(2), 753\u2013760 (2019)","journal-title":"IEEE Robot. Autom. Lett."},{"key":"16_CR41","unstructured":"Hudson, D.A., Manning, C.D.: GQA: a new dataset for compositional question answering over real-world images. In: CVPR (2019)"},{"key":"16_CR42","doi-asserted-by":"crossref","unstructured":"Kacorri, H., Kitani, K.M., Bigham, J.P., Asakawa, C.: People with visual impairment training personal object recognizers: feasibility and challenges. In: CHI (2017)","DOI":"10.1145\/3025453.3025899"},{"key":"16_CR43","doi-asserted-by":"crossref","unstructured":"Kacorri, H., Mascetti, S., Gerino, A., Ahmetovic, D., Takagi, H., Asakawa, C.: Supporting orientation of people with visual impairment: analysis of large scale usage data. In: ASSETS (2016)","DOI":"10.1145\/2982142.2982178"},{"key":"16_CR44","doi-asserted-by":"crossref","unstructured":"Kamikubo, R., Kato, N., Higuchi, K., Yonetani, R., Sato, Y.: Support strategies for remote guides in assisting people with visual impairments for effective indoor navigation. In: CHI (2020)","DOI":"10.1145\/3313831.3376823"},{"key":"16_CR45","doi-asserted-by":"crossref","unstructured":"Kollar, T., Tellex, S., Roy, D., Roy, N.: Toward understanding natural language directions. In: HRI (2010)","DOI":"10.1109\/HRI.2010.5453186"},{"key":"16_CR46","unstructured":"Kottur, S., Moura, J.M.F., Parikh, D., Batra, D., Rohrbach, M.: CLEV-dialog: a diagnostic dataset for multi-round reasoning in visual dialog. In: NAACL (2019)"},{"key":"16_CR47","doi-asserted-by":"crossref","unstructured":"Krantz, J., Gokaslan, A., Batra, D., Lee, S., Maksymets, O.: Waypoint models for instruction-guided navigation in continuous environments. In: ICCV (2021)","DOI":"10.1109\/ICCV48922.2021.01488"},{"key":"16_CR48","doi-asserted-by":"crossref","unstructured":"Ku, A., Anderson, P., Patel, R., Ie, E., Baldridge, J.: Room-across-room: multilingual vision-and-language navigation with dense spatiotemporal grounding (2020)","DOI":"10.18653\/v1\/2020.emnlp-main.356"},{"key":"16_CR49","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"121","DOI":"10.1007\/978-3-030-58577-8_8","volume-title":"Computer Vision \u2013 ECCV 2020","author":"X LI","year":"2020","unstructured":"LI, X., et al.: Oscar: object-semantics aligned pre-training for vision-language tasks. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12375, pp. 121\u2013137. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58577-8_8"},{"key":"16_CR50","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"740","DOI":"10.1007\/978-3-319-10602-1_48","volume-title":"Computer Vision \u2013 ECCV 2014","author":"TY Lin","year":"2014","unstructured":"Lin, T.Y., et al.: Microsoft COCO: common objects in context. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8693, pp. 740\u2013755. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10602-1_48"},{"key":"16_CR51","doi-asserted-by":"crossref","unstructured":"Liu, G., et al.: Tactile compass: enabling visually impaired people to follow a path with continuous directional feedback. In: CHI (2021)","DOI":"10.1145\/3411764.3445644"},{"key":"16_CR52","unstructured":"Long, R.G., Hill, E.: Establishing and maintaining orientation for mobility. Found. Orientation Mobility, 1 (1997)"},{"key":"16_CR53","unstructured":"Lu, J., Batra, D., Parikh, D., Lee, S.: ViLBERT: pretraining task-agnostic visiolinguistic representations for Vision-and-Language Tasks. In: NeurIPS (2019)"},{"key":"16_CR54","doi-asserted-by":"crossref","unstructured":"Savva, M., et al.: Habitat: a platform for embodied AI research. arXiv (2019)","DOI":"10.1109\/ICCV.2019.00943"},{"issue":"8","key":"16_CR55","doi-asserted-by":"publisher","first-page":"475","DOI":"10.1177\/0145482X0309700803","volume":"97","author":"JR Marston","year":"2003","unstructured":"Marston, J.R., Golledge, R.G.: The hidden demand for participation in activities and travel by persons who are visually impaired. J. Vis. Impairment Blindness 97(8), 475\u2013488 (2003)","journal-title":"J. Vis. Impairment Blindness"},{"key":"16_CR56","unstructured":"Matuszek, C., FitzGerald, N., Zettlemoyer, L., Bo, L., Fox, D.: A joint model of language and perception for grounded attribute learning. In: ICML (2012)"},{"key":"16_CR57","doi-asserted-by":"publisher","unstructured":"Matuszek, C., Herbst, E., Zettlemoyer, L., Fox, D.: Learning to parse natural language commands to a robot control system. In: Desai, J., Dudek, G., Khatib, O., Kumar, V. (eds.) Experimental Robotics. Springer Tracts in Advanced Robotics, vol. 88, pp. 403\u2013415, Springer, Heidelberg (2013). https:\/\/doi.org\/10.1007\/978-3-319-00065-7_28","DOI":"10.1007\/978-3-319-00065-7_28"},{"key":"16_CR58","unstructured":"Maunder, D., Venter, C., Rickert, T., Sentinella, J.: Improving transport access and mobility for people with disabilities. In: CILT (2004)"},{"key":"16_CR59","unstructured":"Microsoft: seeing AI app from microsoft. https:\/\/www.microsoft.com\/en-us\/ai\/seeing-ai"},{"key":"16_CR60","doi-asserted-by":"crossref","unstructured":"Misra, D., Bennett, A., Blukis, V., Niklasson, E., Shatkhin, M., Artzi, Y.: Mapping instructions to actions in 3D environments with visual goal prediction. In: EMNLP (2018)","DOI":"10.18653\/v1\/D18-1287"},{"key":"16_CR61","unstructured":"Misra, D.K., Sung, J., Lee, K., Saxena, A.: Tell me DAVE: context sensitive grounding of natural language to mobile manipulation instructions. In: RSS (2014)"},{"key":"16_CR62","unstructured":"Moudgil, A., Majumdar, A., Agrawal, H., Lee, S., Batra, D.: SOAT: a scene- and object-aware transformer for vision-and-language navigation. In: NeurIPS (2021)"},{"key":"16_CR63","doi-asserted-by":"crossref","unstructured":"Narasimhan, K., Kulkarni, T.D., Barzilay, R.: Language understanding for textbased games using deep reinforcement learning. In: EMNLP (2015)","DOI":"10.18653\/v1\/D15-1001"},{"key":"16_CR64","doi-asserted-by":"crossref","unstructured":"Nguyen, K., Dey, D., Brockett, C., Dolan, B.: Vision-based navigation with language-based assistance via imitation learning with indirect intervention. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.01281"},{"key":"16_CR65","unstructured":"Ohn-Bar, E., Kitani, K., Asakawa, C.: Personalized dynamics models for adaptive assistive navigation systems. In: CoRL (2018)"},{"key":"16_CR66","doi-asserted-by":"crossref","unstructured":"Ohn-Bar, E., Prakash, A., Behl, A., Chitta, K., Geiger, A.: Learning situational driving. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.01131"},{"key":"16_CR67","doi-asserted-by":"crossref","unstructured":"Osa, T., Pajarinen, J., Neumann, G., Bagnell, J.A., Abbeel, P., Peters, J.: An algorithmic perspective on imitation learning. arXiv (2018)","DOI":"10.1561\/9781680834116"},{"issue":"3","key":"16_CR68","doi-asserted-by":"publisher","first-page":"331","DOI":"10.1007\/s12369-017-0403-1","volume":"9","author":"H Peng","year":"2017","unstructured":"Peng, H., Song, G., You, J., Zhang, Y., Lian, J.: An indoor navigation service robot system based on vibration tactile feedback. Int. J. Soc. Robot. 9(3), 331\u2013341 (2017)","journal-title":"Int. J. Soc. Robot."},{"key":"16_CR69","unstructured":"Puig, X., et al.: Watch-and-help: a challenge for social perception and human-ai collaboration. In: ICLR (2021)"},{"key":"16_CR70","doi-asserted-by":"crossref","unstructured":"Qi, Y., Wu, Q., Anderson, P., Liu, M., Shen, C., van den Hengel, A.: Reverie: remote embodied referring expressions in real indoor environments. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.01000"},{"key":"16_CR71","unstructured":"Ramakrishnan, S., Agrawal, A., Lee, S.: Overcoming language priors in visual question answering with adversarial regularization. In: NeurIPS (2018)"},{"key":"16_CR72","doi-asserted-by":"crossref","unstructured":"Rasouli, A., Kotseruba, I., Kunic, T., Tsotsos, J.K.: Pie: A large-scale dataset and models for pedestrian intention estimation and trajectory prediction. In: ICCV (2019)","DOI":"10.1109\/ICCV.2019.00636"},{"key":"16_CR73","unstructured":"Ren, S., He, K., Girshick, R., Sun, J.: Faster R-CNN: towards real-time object detection with region proposal networks. In: NeurIPS (2015)"},{"issue":"6","key":"16_CR74","doi-asserted-by":"publisher","first-page":"213","DOI":"10.1177\/0145482X8207600602","volume":"76","author":"JJ Rieser","year":"1982","unstructured":"Rieser, J.J., Guth, D., Hill, E.: Mental processes mediating independent travel: implications for orientation and mobility. J. Vis. Impairment Blindness 76(6), 213\u2013218 (1982)","journal-title":"J. Vis. Impairment Blindness"},{"key":"16_CR75","unstructured":"Roberts, P.W., Babinard, J.: Transport strategy to improve accessibility in developing countries (2004)"},{"key":"16_CR76","unstructured":"Roh, J., Paxton, C., Pronobis, A., Farhadi, A., Fox, D.: Conditional driving from natural language instructions. In: CoRL (2020)"},{"key":"16_CR77","doi-asserted-by":"crossref","unstructured":"Sato, D., Oh, U., Naito, K., Takagi, H., Kitani, K., Asakawa, C.: Navcog3: an evaluation of a smartphone-based blind indoor navigation assistant with semantic features in a large-scale environment. In: ASSETS (2017)","DOI":"10.1145\/3132525.3132535"},{"key":"16_CR78","doi-asserted-by":"crossref","unstructured":"Scheutz, M., Krause, E.A., Oosterveld, B., Frasca, T.M., Platt, R.W.: Spoken instruction-based one-shot object and action learning in a cognitive robotic architecture. In: AAMAS (2017)","DOI":"10.24963\/ijcai.2018\/752"},{"key":"16_CR79","doi-asserted-by":"crossref","unstructured":"Schinazi, V.R., Thrash, T., Chebat, D.R.: Spatial navigation by congenitally blind individuals. In: Cognitive Science, Wiley Interdisciplinary Reviews (2016)","DOI":"10.1002\/wcs.1375"},{"issue":"9","key":"16_CR80","doi-asserted-by":"publisher","first-page":"657","DOI":"10.1097\/00006324-200109000-00011","volume":"78","author":"GP Soong","year":"2001","unstructured":"Soong, G.P., Lovie-Kitchin, J.E., Brown, B.: Does mobility performance of visually impaired adults improve immediately after orientation and mobility training? Optom. Vis. Sci. 78(9), 657\u2013666 (2001)","journal-title":"Optom. Vis. Sci."},{"issue":"2","key":"16_CR81","doi-asserted-by":"publisher","first-page":"226","DOI":"10.1037\/0033-295X.92.2.226","volume":"92","author":"ER Strelow","year":"1985","unstructured":"Strelow, E.R.: What is needed for a theory of mobility: direct perceptions and cognitive maps-lessons from the blind. Psychol. Rev. 92(2), 226 (1985)","journal-title":"Psychol. Rev."},{"key":"16_CR82","doi-asserted-by":"crossref","unstructured":"Tellex, S., Knepper, R.A., Li, A., Rus, D., Roy, N.: Asking for help using inverse semantics. In: RSS (2014)","DOI":"10.15607\/RSS.2014.X.024"},{"key":"16_CR83","doi-asserted-by":"crossref","unstructured":"Tellex, S., et al.: Understanding natural language commands for robotic navigation and mobile manipulation. In: AAAI (2011)","DOI":"10.1609\/aaai.v25i1.7979"},{"key":"16_CR84","doi-asserted-by":"crossref","unstructured":"Thomason, J., Gordan, D., Bisk, Y.: Shifting the baseline: single modality performance on visual navigation & QA. In: NAACL (2019)","DOI":"10.18653\/v1\/N19-1197"},{"key":"16_CR85","unstructured":"Thomason, J., Murray, M., Cakmak, M., Zettlemoyer, L.: Vision-and-dialog navigation. In: CoRL (2019)"},{"key":"16_CR86","doi-asserted-by":"crossref","unstructured":"Thomason, J., et al.: Improving grounded natural language understanding through human-robot dialog. In: ICRA (2019)","DOI":"10.1109\/ICRA.2019.8794287"},{"key":"16_CR87","unstructured":"Thomason, J., Zhang, S., Mooney, R., Stone, P.: Learning to interpret natural language commands through human-robot dialog. In: IJCAI (2015)"},{"issue":"12","key":"16_CR88","doi-asserted-by":"publisher","first-page":"879","DOI":"10.1097\/00006324-199812000-00010","volume":"75","author":"K Turano","year":"1998","unstructured":"Turano, K., Geruschat, D., Stahl, J.W.: Mental effort required for walking: effects of retinitis pigmentosa. Optom. Vis. Sci. 75(12), 879\u2013886 (1998)","journal-title":"Optom. Vis. Sci."},{"key":"16_CR89","unstructured":"Vaswani, A., et al.: Attention is all you need. In: NeurIPS (2017)"},{"key":"16_CR90","doi-asserted-by":"crossref","unstructured":"Vedantam, R., Zitnick, C., Parikh, D.: Cider: Consensus-based image description evaluation. In: CVPR (2015)","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"16_CR91","unstructured":"de Vries, H., Shuster, K., Batra, D., Parikh, D., Weston, J., Kiela, D.: Talk the walk: navigating New York city through grounded dialogue (2018)"},{"key":"16_CR92","doi-asserted-by":"crossref","unstructured":"Wang, H.C., Katzschmann, R.K., Teng, S., Araki, B., Giarr\u00e9, L., Rus, D.: Enabling independent navigation for visually impaired people through a wearable vision-based feedback system. In: ICRA (2017)","DOI":"10.1109\/ICRA.2017.7989772"},{"key":"16_CR93","doi-asserted-by":"crossref","unstructured":"Wang, S., et al.: Less is more: generating grounded navigation instructions from landmarks. arXiv (2021)","DOI":"10.1109\/CVPR52688.2022.01499"},{"key":"16_CR94","doi-asserted-by":"crossref","unstructured":"Wang, X., et al.: Reinforced cross-modal matching and self-supervised imitation learning for vision-language navigation. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00679"},{"key":"16_CR95","doi-asserted-by":"crossref","unstructured":"Williams, M.A., Galbraith, C., Kane, S.K., Hurst, A.: \"just let the cane hit it\" how the blind and sighted see navigation differently. In: ASSETS (2014)","DOI":"10.1145\/2661334.2661380"},{"key":"16_CR96","doi-asserted-by":"crossref","unstructured":"Williams, M.A., Hurst, A., Kane, S.K.: \" pray before you step out\" describing personal and situational blind navigation behaviors. In: ASSETS (2013)","DOI":"10.1145\/2513383.2513449"},{"key":"16_CR97","doi-asserted-by":"publisher","first-page":"85","DOI":"10.1016\/j.healthplace.2017.11.009","volume":"49","author":"S Wong","year":"2018","unstructured":"Wong, S.: Traveling with blindness: A qualitative space-time approach to understanding visual impairment and urban mobility. Health Place 49, 85\u201392 (2018)","journal-title":"Health Place"},{"key":"16_CR98","unstructured":"Xu, K., et al.: Show, attend and tell: neural image caption generation with visual attention. In: ICML, pp. 2048\u20132057. PMLR (2015)"},{"key":"16_CR99","unstructured":"Yi, K., Wu, J., Gan, C., Torralba, A., Kohli, P., Tenenbaum, J.B.: Neural-symbolic VQA: disentangling reasoning from vision and language understanding. In: NeurIPS (2018)"},{"key":"16_CR100","doi-asserted-by":"crossref","unstructured":"Zellers, R., Bisk, Y., Farhadi, A., Choi, Y.: From recognition to cognition: visual commonsense reasoning. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00688"},{"key":"16_CR101","doi-asserted-by":"crossref","unstructured":"Zhang, J., Ohn-Bar, E.: Learning by watching. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.01252"},{"key":"16_CR102","doi-asserted-by":"crossref","unstructured":"Zhang, J., Zheng, M., Boyd, M., Ohn-Bar, E.: X-world: accessibility, vision, and autonomy meet. In: ICCV (2021)","DOI":"10.1109\/ICCV48922.2021.00962"},{"key":"16_CR103","doi-asserted-by":"crossref","unstructured":"Zhang, J., Zhu, R., Ohn-Bar, E.: SelfD: self-learning large-scale driving policies from the web. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.01680"},{"key":"16_CR104","doi-asserted-by":"crossref","unstructured":"Zhao, M., et al.: On the evaluation of vision-and-language navigation instructions. ArXiv (2021)","DOI":"10.18653\/v1\/2021.eacl-main.111"},{"key":"16_CR105","unstructured":"Zhu, F., Zhu, Y., Lee, V., Liang, X., Chang, X.: Deep learning for embodied vision navigation: a survey. arXiv (2021)"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2022"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-20059-5_16","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,10,28]],"date-time":"2022-10-28T16:09:35Z","timestamp":1666973375000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-20059-5_16"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022]]},"ISBN":["9783031200588","9783031200595"],"references-count":105,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-20059-5_16","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2022]]},"assertion":[{"value":"29 October 2022","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Tel Aviv","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Israel","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2022","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"23 October 2022","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"27 October 2022","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"17","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2022","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2022.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Double-blind","order":1,"name":"type","label":"Type","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"CMT","order":2,"name":"conference_management_system","label":"Conference Management System","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"5804","order":3,"name":"number_of_submissions_sent_for_review","label":"Number of Submissions Sent for Review","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"1645","order":4,"name":"number_of_full_papers_accepted","label":"Number of Full Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"0","order":5,"name":"number_of_short_papers_accepted","label":"Number of Short Papers Accepted","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"28% - The value is computed by the equation \"Number of Full Papers Accepted \/ Number of Submissions Sent for Review * 100\" and then rounded to a whole number.","order":6,"name":"acceptance_rate_of_full_papers","label":"Acceptance Rate of Full Papers","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"3.21","order":7,"name":"average_number_of_reviews_per_paper","label":"Average Number of Reviews per Paper","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"3.91","order":8,"name":"average_number_of_papers_per_reviewer","label":"Average Number of Papers per Reviewer","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}},{"value":"Yes","order":9,"name":"external_reviewers_involved","label":"External Reviewers Involved","group":{"name":"ConfEventPeerReviewInformation","label":"Peer Review Information (provided by the conference organizers)"}}]}}