{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,7]],"date-time":"2026-07-07T04:18:21Z","timestamp":1783397901947,"version":"3.54.6"},"reference-count":75,"publisher":"Springer Science and Business Media LLC","issue":"8","license":[{"start":{"date-parts":[[2023,10,26]],"date-time":"2023-10-26T00:00:00Z","timestamp":1698278400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2023,10,26]],"date-time":"2023-10-26T00:00:00Z","timestamp":1698278400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Auton Robot"],"published-print":{"date-parts":[[2023,12]]},"abstract":"<jats:title>Abstract<\/jats:title><jats:p>Robot visual navigation is a relevant research topic. Current deep navigation models conveniently learn the navigation policies in simulation, given the large amount of experience they need to collect. Unfortunately, the resulting models show a limited generalization ability when deployed in the real world. In this work we explore solutions to facilitate the development of visual navigation policies trained in simulation that can be successfully transferred in the real world. We first propose an efficient evaluation tool to reproduce realistic navigation episodes in simulation. We then investigate a variety of deep fusion architectures to combine a set of mid-level representations, with the aim of finding the best merge strategy that maximize the real world performances. Our experiments, performed both in simulation and on a robotic platform, show the effectiveness of the considered mid-level representations-based models and confirm the reliability of the evaluation tool. The 3D models of the environment and the code of the validation tool are publicly available at the following link:\u00a0<jats:ext-link xmlns:xlink=\"http:\/\/www.w3.org\/1999\/xlink\" ext-link-type=\"uri\" xlink:href=\"https:\/\/iplab.dmi.unict.it\/EmbodiedVN\/\">https:\/\/iplab.dmi.unict.it\/EmbodiedVN\/<\/jats:ext-link>.\n<\/jats:p>","DOI":"10.1007\/s10514-023-10147-z","type":"journal-article","created":{"date-parts":[[2023,10,26]],"date-time":"2023-10-26T06:02:36Z","timestamp":1698300156000},"page":"1483-1502","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":6,"title":["Image-based Navigation in Real-World Environments via Multiple Mid-level Representations: Fusion Models, Benchmark and Efficient Evaluation"],"prefix":"10.1007","volume":"47","author":[{"given":"Marco","family":"Rosano","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Antonino","family":"Furnari","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Luigi","family":"Gulino","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Corrado","family":"Santoro","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Giovanni Maria","family":"Farinella","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2023,10,26]]},"reference":[{"key":"10147_CR1","unstructured":"Anderson, P., Shrivastava, A., Truong, J., Majumdar, A., Parikh, D., Batra, D., & Lee, S. (2020). Sim-to-real transfer for vision-and-language navigation. In Conference on robot learning (CoRL)."},{"key":"10147_CR2","doi-asserted-by":"crossref","unstructured":"Anderson, P., Wu, Q., Teney, D., Bruce, J., Johnson, M., S\u00fcnderhauf, N., Reid, I., Gould, S., & van den Hengel, A. (2018). Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In Conference on computer vision and pattern recognition (CVPR) (pp. 3674\u20133683).","DOI":"10.1109\/CVPR.2018.00387"},{"issue":"3","key":"10147_CR3","doi-asserted-by":"publisher","first-page":"263","DOI":"10.1007\/s10846-008-9235-4","volume":"53","author":"F Bonin-Font","year":"2008","unstructured":"Bonin-Font, F., Ortiz, A., & Oliver, G. (2008). Visual navigation for mobile robots: A survey. Journal of Intelligent and Robotic Systems (JINT), 53(3), 263.","journal-title":"Journal of Intelligent and Robotic Systems (JINT)"},{"key":"10147_CR4","doi-asserted-by":"crossref","unstructured":"Bousmalis, K., Silberman, N., Dohan, D., Erhan, D., & Krishnan, D. (2017). Unsupervised pixel-level domain adaptation with generative adversarial networks. In Conference on computer vision and pattern recognition (CVPR) (pp. 3722\u20133731).","DOI":"10.1109\/CVPR.2017.18"},{"key":"10147_CR5","doi-asserted-by":"crossref","unstructured":"Cadena, C., Carlone, L., Carrillo, H., Latif, Y., Scaramuzza, D., Neira, J., Reid, I., & Leonard, J. J. (2016). Past, present, and future of simultaneous localization and mapping: Toward the robust-perception age. IEEE Transactions on Robotics (T-RO), 32(6), 1309\u20131332.","DOI":"10.1109\/TRO.2016.2624754"},{"key":"10147_CR6","doi-asserted-by":"crossref","unstructured":"Carpin, S., Lewis, M., Wang, J., Balakirsky, S., & Scrapper, C. (2007). Usarsim: A robot simulator for research and education. In Proceedings 2007 IEEE international conference on robotics and automation (pp. 1400\u20131405). IEEE.","DOI":"10.1109\/ROBOT.2007.363180"},{"key":"10147_CR7","doi-asserted-by":"crossref","unstructured":"Chang, A., Dai, A., Funkhouser, T., Halber, M., Niessner, M., Savva, M., Song, S., Zeng, A., & Zhang, Y. (2017). Matterport3d: Learning from RGB-d data in indoor environments. In International conference on 3D vision (3DV).","DOI":"10.1109\/3DV.2017.00081"},{"key":"10147_CR8","unstructured":"Chaplot, D. S., Gandhi, D., Gupta, S., Gupta, A., & Salakhutdinov, R. (2020). Learning to explore using active neural slam. In International conference on learning representations (ICLR)."},{"key":"10147_CR9","unstructured":"Chaplot, D. S., Gandhi, D. P., Gupta, A., & Salakhutdinov, R. R. (2020). Object goal navigation using goal-oriented semantic exploration. In International conference on neural information processing systems (NeurIPS)."},{"key":"10147_CR10","unstructured":"Chaplot, D. S., Salakhutdinov, R., Gupta, A., & Gupta, S. (2020). Neural topological slam for visual navigation. In Conference on computer vision and pattern recognition (CVPR)."},{"key":"10147_CR11","unstructured":"Chen, B., Sax, A., Lewis, F., Savarese, S., Zamir, A., Malik, J., & Pinto, L. (2020). Robust policies via mid-level visual representations: An experimental study in manipulation and navigation. In Conference on robot learning (CoRL)."},{"key":"10147_CR12","doi-asserted-by":"crossref","unstructured":"Chen, C., Jain, U., Schissler, C., Gari, S. V. A., Al-Halah, Z., Ithapu, V. K., Robinson, P., & Grauman, K. (2020). Soundspaces: Audio-visual navigation in 3d environments. In European conference on computer vision (ECCV).","DOI":"10.1007\/978-3-030-58539-6_2"},{"key":"10147_CR13","doi-asserted-by":"crossref","unstructured":"Chen, D., & Mooney, R. (2011). Learning to interpret natural language navigation instructions from observations. In Association for the advancement of artificial intelligence (AAAI) (Vol. 25, No. 1).","DOI":"10.1609\/aaai.v25i1.7974"},{"key":"10147_CR14","unstructured":"Chen, T., Gupta, S., & Gupta, A. (2019). Learning exploration policies for navigation. In International conference on learning representations (ICLR)."},{"key":"10147_CR15","doi-asserted-by":"publisher","first-page":"51416","DOI":"10.1109\/ACCESS.2021.3068769","volume":"9","author":"J Collins","year":"2021","unstructured":"Collins, J., Chand, S., Vanderkop, A., & Howard, D. (2021). A review of physics simulators for robotic applications. IEEE Access, 9, 51416\u201351431.","journal-title":"IEEE Access"},{"key":"10147_CR16","doi-asserted-by":"crossref","unstructured":"Dai, A., Chang, A. X., Savva, M., Halber, M., Funkhouser, T., & Nie\u00dfner, M. (2017). Scannet: Richly-annotated 3d reconstructions of indoor scenes. In Conference on computer vision and pattern recognition (CVPR).","DOI":"10.1109\/CVPR.2017.261"},{"key":"10147_CR17","doi-asserted-by":"crossref","unstructured":"Das, A., Datta, S., Gkioxari, G., Lee, S., Parikh, D., & Batra, D. (2018). Embodied question answering. In Conference on computer vision and pattern recognition (CVPR) (pp. 2054\u20132063).","DOI":"10.1109\/CVPR.2018.00008"},{"key":"10147_CR18","doi-asserted-by":"crossref","unstructured":"Deitke, M., Han, W., Herrasti, A., Kembhavi, A., Kolve, E., Mottaghi, R., Salvador, J., Schwenk, D., VanderBilt, E., Wallingford, M., Weihs, L., Yatskar, M., & Farhadi, A. (2020). RoboTHOR: An open simulation-to-real embodied AI platform. In Conference on computer vision and pattern recognition (CVPR).","DOI":"10.1109\/CVPR42600.2020.00323"},{"issue":"7","key":"10147_CR19","doi-asserted-by":"publisher","first-page":"1171","DOI":"10.1002\/rob.21887","volume":"36","author":"J Delmerico","year":"2019","unstructured":"Delmerico, J., Mintchev, S., Giusti, A., Gromov, B., Melo, K., Horvat, T., Cadena, C., Hutter, M., Ijspeert, A., Floreano, D., et al. (2019). The current state and future outlook of rescue robotics. Journal of Field Robotics, 36(7), 1171\u20131191.","journal-title":"Journal of Field Robotics"},{"key":"10147_CR20","unstructured":"Fried, D., Hu, R., Cirik, V., Rohrbach, A., Andreas, J., Morency, L. P., Berg-Kirkpatrick, T., Saenko, K., Klein, D., & Darrell, T. (2018). Speaker-follower models for vision-and-language navigation. In International conference on neural information processing systems (NeurIPS) ."},{"issue":"1","key":"10147_CR21","doi-asserted-by":"publisher","first-page":"55","DOI":"10.1007\/s10462-012-9365-8","volume":"43","author":"J Fuentes-Pacheco","year":"2015","unstructured":"Fuentes-Pacheco, J., Ruiz-Ascencio, J., & Rend\u00f3n-Mancha, J. M. (2015). Visual simultaneous localization and mapping: A survey. Artificial Intelligence Review, 43(1), 55\u201381.","journal-title":"Artificial Intelligence Review"},{"key":"10147_CR22","doi-asserted-by":"crossref","unstructured":"Gordon, D., Kembhavi, A., Rastegari, M., Redmon, J., Fox, D., & Farhadi, A. (2018). Iqa: Visual question answering in interactive environments. In Conference on computer vision and pattern recognition (CVPR) (pp. 4089\u20134098).","DOI":"10.1109\/CVPR.2018.00430"},{"key":"10147_CR23","doi-asserted-by":"crossref","unstructured":"Gupta, S., Davidson, J., Levine, S., Sukthankar, R., & Malik, J. (2017). Cognitive mapping and planning for visual navigation. In Conference on computer vision and pattern recognition (CVPR).","DOI":"10.1109\/CVPR.2017.769"},{"key":"10147_CR24","doi-asserted-by":"publisher","first-page":"302","DOI":"10.1016\/j.neucom.2019.11.118","volume":"406","author":"S Hao","year":"2020","unstructured":"Hao, S., Zhou, Y., & Guo, Y. (2020). A brief survey on semantic segmentation with deep learning. Neurocomputing, 406, 302\u2013321.","journal-title":"Neurocomputing"},{"issue":"8","key":"10147_CR25","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735\u20131780.","journal-title":"Neural Computation"},{"key":"10147_CR26","unstructured":"Hoffman, J., Tzeng, E., Park, T., Zhu, J. Y., Isola, P., Saenko, K., Efros, A., & Darrell, T. (2018). Cycada: Cycle-consistent adversarial domain adaptation. In International conference on machine learning (ICML)."},{"key":"10147_CR27","doi-asserted-by":"crossref","unstructured":"Hu, J., Shen, L., & Sun, G. (2018). Squeeze-and-excitation networks. In Conference on computer vision and pattern recognition (CVPR) (pp. 7132\u20137141).","DOI":"10.1109\/CVPR.2018.00745"},{"key":"10147_CR28","doi-asserted-by":"crossref","unstructured":"Hu, L., Kan, M., Shan, S., & Chen, X. (2018). Duplex generative adversarial network for unsupervised domain adaptation. In Conference on computer vision and pattern recognition (CVPR) (pp 1498\u20131507).","DOI":"10.1109\/CVPR.2018.00162"},{"key":"10147_CR29","doi-asserted-by":"crossref","unstructured":"James, S., Wohlhart, P., Kalakrishnan, M., Kalashnikov, D., Irpan, A., Ibarz, J., Levine, S., Hadsell, R., & Bousmalis, K. (2019). Sim-to-real via sim-to-sim: Data-efficient robotic grasping via randomized-to-canonical adaptation networks. In Conference on computer vision and pattern recognition (CVPR) (pp. 12627\u201312637).","DOI":"10.1109\/CVPR.2019.01291"},{"key":"10147_CR30","unstructured":"Johnson, J., Douze, M., & J\u00e9gou, H. (2017). Billion-scale similarity search with GPUs. arXiv:1702.08734"},{"key":"10147_CR31","unstructured":"Kadian, A., Truong, J., Gokaslan, A., Clegg, A., Wijmans, E., Lee, S., Savva, M., Chernova, S., & Batra, D. (2020). Are we making real progress in simulated environments? Measuring the sim2real gap in embodied visual navigation. In International conference on intelligent robots and systems (IROS)."},{"key":"10147_CR32","doi-asserted-by":"crossref","unstructured":"Koenig, N., & Howard, A. (2004). Design and use paradigms for gazebo, an open-source multi-robot simulator. In 2004 IEEE\/RSJ international conference on intelligent robots and systems (IROS) (IEEE Cat. No. 04CH37566) (Vol.\u00a03, pp. 2149\u20132154). IEEE.","DOI":"10.1109\/IROS.2004.1389727"},{"key":"10147_CR33","unstructured":"Kolve, E., Mottaghi, R., Han, W., VanderBilt, E., Weihs, L., Herrasti, A., Gordon, D., Zhu, Y., Gupta, A., & Farhadi, A. (2017). Ai2-thor: An interactive 3d environment for visual AI. arXiv:1712.05474"},{"key":"10147_CR34","unstructured":"Konda, V. R., & Tsitsiklis, J. N. (2000). Actor-critic algorithms. In International conference on neural information processing systems (NeurIPS)."},{"issue":"1","key":"10147_CR35","first-page":"5943","volume":"17","author":"WM Kouw","year":"2016","unstructured":"Kouw, W. M., Van Der Maaten, L. J., Krijthe, J. H., & Loog, M. (2016). Feature-level domain adaptation. The Journal of Machine Learning Research, 17(1), 5943\u20135974.","journal-title":"The Journal of Machine Learning Research"},{"key":"10147_CR36","doi-asserted-by":"crossref","unstructured":"Krantz, J., Wijmans, E., Majumdar, A., Batra, D., & Lee, S. (2020). Beyond the nav-graph: Vision-and-language navigation in continuous environments. arXiv:2004.02857","DOI":"10.1007\/978-3-030-58604-1_7"},{"key":"10147_CR37","unstructured":"Li, C., Xia, F., Mart\u00edn-Mart\u00edn, R., Lingelbach, M., Srivastava, S., Shen, B., Vainio, K., Gokmen, C., Dharan, G., Jain, T., Kurenkov, A., Liu, C. K., Gweon, H., Wu, J., Fei-Fei, L., & Savarese, S. (2021). igibson 2.0: Object-centric simulation for robot learning of everyday household tasks. arXiv:2108.03272"},{"key":"10147_CR38","unstructured":"Li, S., Chaplot, D. S., Tsai, Y. H. H., Wu, Y., Morency, L. P., & Salakhutdinov, R. (2020). Unsupervised domain adaptation for visual navigation. arXiv:2010.14543"},{"key":"10147_CR39","doi-asserted-by":"crossref","unstructured":"Li, Z., Yu, T.W., Sang, S., Wang, S., Song, M., Liu, Y., Yeh, Y. Y., Zhu, R., Gundavarapu, N., Shi, J., Bi, S., Yu, H. X., Xu, Z., Sunkavalli, K., Hasan, M., Ramamoorthi, R., & Chandraker, M. (2021). Openrooms: An open framework for photorealistic indoor scene datasets. In Conference on computer vision and pattern recognition (CVPR).","DOI":"10.1109\/CVPR46437.2021.00711"},{"issue":"2","key":"10147_CR40","doi-asserted-by":"publisher","first-page":"261","DOI":"10.1007\/s11263-019-01247-4","volume":"128","author":"L Liu","year":"2020","unstructured":"Liu, L., Ouyang, W., Wang, X., Fieguth, P., Chen, J., Liu, X., & Pietik\u00e4inen, M. (2020). Deep learning for generic object detection: A survey. International Journal of Computer Vision, 128(2), 261\u2013318.","journal-title":"International Journal of Computer Vision"},{"key":"10147_CR41","doi-asserted-by":"crossref","unstructured":"Loquercio, A., Kaufmann, E., Ranftl, R., Dosovitskiy, A., Koltun, V., & Scaramuzza, D. (2020). Deep drone racing: From simulation to reality with domain randomization. IEEE Transactions on Robotics (T-RO), PP, 1\u201314.","DOI":"10.1109\/TRO.2019.2942989"},{"key":"10147_CR42","unstructured":"Makoviychuk, V., Wawrzyniak, L., Guo, Y., Lu, M., Storey, K., Macklin, M., Hoeller, D., Rudin, N., Allshire A., Handa, A., & State, G. (2021). Isaac gym: High performance GPU-based physics simulation for robot learning. arXiv:2108.10470"},{"key":"10147_CR43","unstructured":"Mirowski, P., Pascanu, R., Viola, F., Soyer, H., Ballard, A. J., Banino, A., Denil, M., Goroshin, R., Sifre, L., Kavukcuoglu, K., et\u00a0al. (2016). Learning to navigate in complex environments. arXiv:1611.03673"},{"key":"10147_CR44","doi-asserted-by":"crossref","unstructured":"Morad, S. D., Mecca, R., Poudel, R. P., Liwicki, S., & Cipolla, R. (2021). Embodied visual navigation with automatic curriculum learning in real environments. Robotics and Automation Letters (RA-L), 6(2), 683\u2013690.","DOI":"10.1109\/LRA.2020.3048662"},{"key":"10147_CR45","doi-asserted-by":"crossref","unstructured":"Mousavian, A., Toshev, A., Fi\u0161er, M., Ko\u0161eck\u00e1, J., Wahid, A., & Davidson, J. (2019). Visual representations for semantic target driven navigation. In International Conference on Robotics and Automation (ICRA) (pp. 8846\u20138852).","DOI":"10.1109\/ICRA.2019.8793493"},{"key":"10147_CR46","doi-asserted-by":"publisher","DOI":"10.1016\/j.robot.2021.103837","volume":"145","author":"R M\u00f6ller","year":"2021","unstructured":"M\u00f6ller, R., Furnari, A., Battiato, S., H\u00e4rm\u00e4, A., & Farinella, G. M. (2021). A survey on human-aware robot navigation. Robotics and Autonomous Systems (RAS), 145, 103837.","journal-title":"Robotics and Autonomous Systems (RAS)"},{"key":"10147_CR47","doi-asserted-by":"crossref","unstructured":"Narasimhan, M., Wijmans, E., Chen, X., Darrell, T., Batra, D., Parikh, D., & Singh, A. (2020). Seeing the un-scene: Learning amodal semantic maps for room navigation. arXiv:2007.09841","DOI":"10.1007\/978-3-030-58523-5_30"},{"key":"10147_CR48","doi-asserted-by":"crossref","unstructured":"Rao, K., Harris, C., Irpan, A., Levine, S., Ibarz, J., & Khansari, M. (2020). RL-cycleGAN: Reinforcement learning aware simulation-to-real. In: Conference on computer vision and pattern recognition (CVPR).","DOI":"10.1109\/CVPR42600.2020.01117"},{"key":"10147_CR49","doi-asserted-by":"crossref","unstructured":"Rosano, M., Furnari, A., Gulino, L., & Farinella, G. M. (2020a). A comparison of visual navigation approaches based on localization and reinforcement learning in virtual and real environments. In International conference on computer vision theory and applications (VISAPP).","DOI":"10.5220\/0008950806280635"},{"key":"10147_CR50","unstructured":"Rosano, M., Furnari, A., Gulino, L., & Farinella, G. M. (2020b). On embodied visual navigation in real environments through habitat. In International conference on pattern recognition (ICPR)."},{"key":"10147_CR51","doi-asserted-by":"crossref","unstructured":"Sadeghi, F., & Levine, S. (2016). Cad2rl: Real single-image flight without a single real image. arXiv:1611.04201","DOI":"10.15607\/RSS.2017.XIII.034"},{"key":"10147_CR52","unstructured":"Savinov, N., Dosovitskiy, A., & Koltun, V. (2018). Semi-parametric topological memory for navigation. In International conference on learning representations (ICLR)."},{"key":"10147_CR53","unstructured":"Savva, M., Chang, A. X., Dosovitskiy, A., Funkhouser, T., & Koltun, V. (2017). MINOS: Multimodal indoor simulator for navigation in complex environments. arXiv:1712.03931"},{"key":"10147_CR54","doi-asserted-by":"crossref","unstructured":"Savva, M., Kadian, A., Maksymets, O., Zhao, Y., Wijmans, E., Jain, B., Straub, J., Liu, J., Koltun, V., Malik, J., Parikh, D., & Batra, D. (2019). Habitat: A platform for embodied AI research. In International conference on computer vision (ICCV).","DOI":"10.1109\/ICCV.2019.00943"},{"key":"10147_CR55","unstructured":"Sax, A., Emi, B., Zamir, A. R., Guibas, L. J., Savarese, S., & Malik, J. (2019). Mid-level visual representations improve generalization and sample efficiency for learning visuomotor policies. In Conference on robot learning (CoRL)."},{"key":"10147_CR56","doi-asserted-by":"crossref","unstructured":"Sch\u00f6nberger, J. L., & Frahm, J. M. (2016). Structure-from-motion revisited. In Conference on computer vision and pattern recognition (CVPR).","DOI":"10.1109\/CVPR.2016.445"},{"key":"10147_CR57","unstructured":"Schulman, J., Wolski, F., Dhariwal, P., Radford, A., & Klimov, O. (2017). Proximal policy optimization algorithms. In CoRR\u00a0abs\/1707.06347"},{"key":"10147_CR58","doi-asserted-by":"crossref","unstructured":"Shen, W. B., Xu, D., Zhu, Y., Guibas, L. J., Fei-Fei, L., Savarese, S. (2019). Situational fusion of visual representation for visual navigation. In International conference on computer vision (ICCV).","DOI":"10.1109\/ICCV.2019.00297"},{"key":"10147_CR59","unstructured":"Straub, J., Whelan, T.,\u00a0Ma, L.,\u00a0Chen, Y.,\u00a0Wijmans, E.,\u00a0Green, S., Engel, J.J.,\u00a0Mur-Artal, R.,\u00a0Ren, C.,\u00a0Verma, S.,\u00a0Clarkson, A.,\u00a0Yan, M.,\u00a0Budge, B.,\u00a0Yan, Y.,\u00a0Pan, X.,\u00a0Yon, J.,\u00a0Zou, Y.,\u00a0Leon, K.,\u00a0Carter, N.,\u00a0Briales, J.,\u00a0Gillingham, T.,\u00a0Mueggler, E.,\u00a0Pesqueira, L.,\u00a0Savva, M.,\u00a0Batra, D., Strasdat, H.M., Nardi, R.D.,\u00a0Goesele, M.,\u00a0Lovegrove, S., &\u00a0Newcombe, R. (2019). The Replica dataset: A digital replica of indoor spaces. arXiv:1906.05797"},{"key":"10147_CR60","unstructured":"Szot, A.,\u00a0Clegg, A.,\u00a0Undersander, E.,\u00a0Wijmans, E.,\u00a0Zhao, Y.,\u00a0Turner, J.,\u00a0Maestre, N.,\u00a0Mukadam, M.,\u00a0Chaplot, D.,\u00a0Maksymets, O.,\u00a0Gokaslan, A.,\u00a0Vondrus, V.,\u00a0Dharur, S.,\u00a0Meier, F.,\u00a0Galuba, W.,\u00a0Chang, A.,\u00a0Kira, Z.,\u00a0Koltun, V.,\u00a0Malik, J.,\u00a0Savva, M., &\u00a0Batra, D. (2021). Habitat 2.0: Training home assistants to rearrange their habitat. arXiv:2106.14405"},{"key":"10147_CR61","doi-asserted-by":"crossref","unstructured":"Tai, L.,\u00a0Paolo, G., &\u00a0Liu, M. (2017). Virtual-to-real deep reinforcement learning: Continuous control of mobile robots for mapless navigation. International Conference on Intelligent Robots and Systems (IROS): 31\u201336 .","DOI":"10.1109\/IROS.2017.8202134"},{"key":"10147_CR62","doi-asserted-by":"crossref","unstructured":"Takaya, K., Asai, T.,\u00a0Kroumov, V., &\u00a0Smarandache, F. (2016). Simulation environment for mobile robots testing using ROS and gazebo. In 2016 20th International conference on system theory, control and computing (ICSTCC) (pp. 96\u2013101). IEEE.","DOI":"10.1109\/ICSTCC.2016.7790647"},{"issue":"3","key":"10147_CR63","doi-asserted-by":"publisher","first-page":"52","DOI":"10.1145\/504729.504754","volume":"45","author":"S Thrun","year":"2002","unstructured":"Thrun, S. (2002). Probabilistic robotics. Communications of the ACM, 45(3), 52\u201357.","journal-title":"Communications of the ACM"},{"key":"10147_CR64","doi-asserted-by":"crossref","unstructured":"Truong, J., Chernova, S., & Batra, D. (2021). Bi-directional domain adaptation for sim2real transfer of embodied navigation agents. Robotics and Automation Letters (RA-L), 6(2), 2634\u20132641.","DOI":"10.1109\/LRA.2021.3062303"},{"key":"10147_CR65","doi-asserted-by":"crossref","unstructured":"Tzeng, E.,\u00a0Hoffman, J.,\u00a0Saenko, K., &\u00a0Darrell, T. (2017). Adversarial discriminative domain adaptation. In Conference on computer vision and pattern recognition (CVPR) (pp. 7167\u20137176).","DOI":"10.1109\/CVPR.2017.316"},{"key":"10147_CR66","doi-asserted-by":"crossref","unstructured":"Wang, C.,\u00a0Meng, L.,\u00a0She, S., Mitchell, I.M.,\u00a0Li, T.,\u00a0Tung, F.,\u00a0Wan, W., Meng, M. Q. H., & de\u00a0Silva, C. W. (2017). Autonomous mobile robot navigation in uneven and unstructured indoor environments. In 2017 IEEE\/RSJ international conference on intelligent robots and systems (IROS) (pp. 109\u2013116). IEEE.","DOI":"10.1109\/IROS.2017.8202145"},{"key":"10147_CR67","doi-asserted-by":"publisher","first-page":"135","DOI":"10.1016\/j.neucom.2018.05.083","volume":"312","author":"M Wang","year":"2018","unstructured":"Wang, M., & Deng, W. (2018). Deep visual domain adaptation: A survey. Neurocomputing, 312, 135\u2013153.","journal-title":"Neurocomputing"},{"key":"10147_CR68","unstructured":"Wijmans, E.,\u00a0Kadian, A.,\u00a0Morcos, A.,\u00a0Lee, S.,\u00a0Essa, I.,\u00a0Parikh, D.,\u00a0Savva, M., &\u00a0Batra, D. (2020). Dd-ppo: Learning near-perfect pointgoal navigators from 2.5 billion frames. In International Conference on Learning Representations (ICLR)."},{"key":"10147_CR69","unstructured":"Wu, Y.,\u00a0Wu, Y.,\u00a0Gkioxari, G., &\u00a0Tian, Y. (2018). Building generalizable agents with a realistic and rich 3d environment. arXiv:1801.02209"},{"key":"10147_CR70","doi-asserted-by":"crossref","unstructured":"Xia, F.,\u00a0Zamir, A.\u00a0R., He, Z.Y.,\u00a0Sax, A.,\u00a0Malik, J., &\u00a0Savarese, S. (2018). Gibson env: real-world perception for embodied agents. In Conference on computer vision and pattern recognition (CVPR).","DOI":"10.1109\/CVPR.2018.00945"},{"key":"10147_CR71","doi-asserted-by":"crossref","unstructured":"Xie, S.,\u00a0Girshick, R.,\u00a0Doll\u00e1r, P.,\u00a0Tu, Z., &\u00a0He, K. (2016). Aggregated residual transformations for deep neural networks. arXiv:1611.05431","DOI":"10.1109\/CVPR.2017.634"},{"key":"10147_CR72","doi-asserted-by":"crossref","unstructured":"Zamir, A. R.,\u00a0Sax, A., Shen, W. B., Guibas, L.J.,\u00a0Malik, J., &\u00a0Savarese, S. (2018). Taskonomy: Disentangling task transfer learning. In Conference on computer vision and pattern recognition (CVPR).","DOI":"10.24963\/ijcai.2019\/871"},{"issue":"10\u201311","key":"10147_CR73","doi-asserted-by":"publisher","first-page":"1229","DOI":"10.1177\/0278364919870227","volume":"38","author":"F Zhang","year":"2019","unstructured":"Zhang, F., Leitner, J., Ge, Z., Milford, M., & Corke, P. (2019). Adversarial discriminative sim-to-real transfer of visuo-motor policies. The International Journal of Robotics Research, 38(10\u201311), 1229\u20131245.","journal-title":"The International Journal of Robotics Research"},{"key":"10147_CR74","doi-asserted-by":"crossref","unstructured":"Zhu, J. Y.,\u00a0Park, T.,\u00a0Isola, P., & Efros, A. A. (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In International conference on computer vision (ICCV).","DOI":"10.1109\/ICCV.2017.244"},{"key":"10147_CR75","doi-asserted-by":"crossref","unstructured":"Zhu, Y.,\u00a0Mottaghi, R.,\u00a0Kolve, E., Lim, J. J.,\u00a0Gupta, A.,\u00a0Fei-Fei, L., &\u00a0Farhadi, A. (2017). Target-driven visual navigation in indoor scenes using deep reinforcement learning. In International conference on robotics and automation (ICRA).","DOI":"10.1109\/ICRA.2017.7989381"}],"container-title":["Autonomous Robots"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10514-023-10147-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s10514-023-10147-z\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10514-023-10147-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,11,28]],"date-time":"2023-11-28T18:15:35Z","timestamp":1701195335000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s10514-023-10147-z"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,10,26]]},"references-count":75,"journal-issue":{"issue":"8","published-print":{"date-parts":[[2023,12]]}},"alternative-id":["10147"],"URL":"https:\/\/doi.org\/10.1007\/s10514-023-10147-z","relation":{},"ISSN":["0929-5593","1573-7527"],"issn-type":[{"value":"0929-5593","type":"print"},{"value":"1573-7527","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,10,26]]},"assertion":[{"value":"16 September 2022","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"26 September 2023","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"26 October 2023","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors have no relevant financial or non-financial interests to disclose.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}},{"value":"This declaration is not applicable.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethical approval"}}]}}