{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T07:21:13Z","timestamp":1740122473691,"version":"3.37.3"},"reference-count":56,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2021,2,1]],"date-time":"2021-02-01T00:00:00Z","timestamp":1612137600000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2021,2,1]],"date-time":"2021-02-01T00:00:00Z","timestamp":1612137600000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100010221","name":"Higher Education Commision, Pakistan","doi-asserted-by":"publisher","award":["NRPU(2016-17)"],"award-info":[{"award-number":["NRPU(2016-17)"]}],"id":[{"id":"10.13039\/501100010221","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Auton Robot"],"published-print":{"date-parts":[[2021,2]]},"DOI":"10.1007\/s10514-020-09965-2","type":"journal-article","created":{"date-parts":[[2021,2,20]],"date-time":"2021-02-20T17:31:17Z","timestamp":1613842277000},"page":"313-333","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":6,"title":["A sketch is worth a thousand navigational instructions"],"prefix":"10.1007","volume":"45","author":[{"given":"Haseeb","family":"Ahmad","sequence":"first","affiliation":[]},{"given":"Sardar Muhammad","family":"Usama","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2899-7493","authenticated-orcid":false,"given":"Wajahat","family":"Hussain","sequence":"additional","affiliation":[]},{"given":"Muhammad Latif","family":"Anjum","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2021,2,20]]},"reference":[{"key":"9965_CR1","doi-asserted-by":"crossref","unstructured":"Ammirato, P., Poirson, P., Park, E., Ko\u0161eck\u00e1, J., & Berg, A. C. (2017). A dataset for developing and benchmarking active vision. In ICRA. IEEE","DOI":"10.1109\/ICRA.2017.7989164"},{"key":"9965_CR2","doi-asserted-by":"crossref","unstructured":"Anderson, P., Wu, Q., Teney, D., Bruce, J., Johnson, M., S\u00fcnderhauf, N., Reid, I., Gould, S., & van\u00a0den Hengel, A. (2018). Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR.","DOI":"10.1109\/CVPR.2018.00387"},{"key":"9965_CR3","doi-asserted-by":"crossref","unstructured":"Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Lawrence\u00a0Zitnick, C., & Parikh, D. (2015). VQA: Visual question answering. In ICCV.","DOI":"10.1109\/ICCV.2015.279"},{"key":"9965_CR4","unstructured":"Bahdanau, D., Cho, K., & Bengio, Y. (2014). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473."},{"key":"9965_CR5","doi-asserted-by":"crossref","unstructured":"Bansal, A., Russell, B., & Gupta, A. (2016). Marr revisited: 2d\u20133d alignment via surface normal prediction. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 5965\u20135974).","DOI":"10.1109\/CVPR.2016.642"},{"key":"9965_CR6","doi-asserted-by":"crossref","unstructured":"Boniardi, F., Valada, A., Burgard, W., & Tipaldi, G. D. (2016). Autonomous indoor robot navigation using a sketch interface for drawing maps and routes. In ICRA.","DOI":"10.1109\/ICRA.2016.7487453"},{"key":"9965_CR7","doi-asserted-by":"crossref","unstructured":"Busta, M., Neumann, L., & Matas, J. (2017). Deep textspotter: An end-to-end trainable scene text localization and recognition framework. In ICCV.","DOI":"10.1109\/ICCV.2017.242"},{"key":"9965_CR8","doi-asserted-by":"crossref","unstructured":"Chen, D. L., & Mooney, R. J. (2011). Learning to interpret natural language navigation instructions from observations. In AAAI.","DOI":"10.1609\/aaai.v25i1.7974"},{"key":"9965_CR9","unstructured":"Chen, X., Fang, H., Lin, T. Y., Vedantam, R., Gupta, S., Doll\u00e1r, P., & Zitnick, C. L. (2015). Microsoft coco captions: Data collection and evaluation server. arXiv preprint arXiv:1504.00325."},{"key":"9965_CR10","doi-asserted-by":"crossref","unstructured":"Chen, X., Shrivastava, A., & Gupta, A. (2013). Neil: Extracting visual knowledge from web data. In ICCV. IEEE","DOI":"10.1109\/ICCV.2013.178"},{"issue":"5","key":"9965_CR11","doi-asserted-by":"publisher","first-page":"2101","DOI":"10.1109\/TITS.2014.2308977","volume":"15","author":"A Cherubini","year":"2014","unstructured":"Cherubini, A., Spindler, F., & Chaumette, F. (2014). Autonomous visual navigation and laser-based moving obstacle avoidance. IEEE Transactions on Intelligent Transportation Systems, 15(5), 2101\u20132110.","journal-title":"IEEE Transactions on Intelligent Transportation Systems"},{"key":"9965_CR12","doi-asserted-by":"crossref","unstructured":"Cimpoi, M., Maji, S., Kokkinos, I., Mohamed, S., & Vedaldi, A. (2014). Describing textures in the wild. In CVPR.","DOI":"10.1109\/CVPR.2014.461"},{"key":"9965_CR13","doi-asserted-by":"crossref","unstructured":"Coronado, E., Villalobos, J., Bruno, B., & Mastrogiovanni, F. (2017). Gesture-based robot control: Design challenges and evaluation with humans. In ICRA. IEEE","DOI":"10.1109\/ICRA.2017.7989321"},{"key":"9965_CR14","unstructured":"Costante, G., Forster, C., Delmerico, J., Valigi, P., & Scaramuzza, D. (2016). Perception-aware path planning. arXiv preprint arXiv:1605.04151."},{"key":"9965_CR15","doi-asserted-by":"crossref","unstructured":"Das, A., Kottur, S., Gupta, K., Singh, A., Yadav, D., Moura, J. M., Parikh, D., & Batra, D. (2017). Visual dialog. In CVPR.","DOI":"10.1109\/CVPR.2017.121"},{"key":"9965_CR16","doi-asserted-by":"crossref","unstructured":"Doumanoglou, A., Kouskouridas, R., Malassiotis, S., & Kim, T. K. (2016). Recovering 6d object pose and predicting next-best-view in the crowd. In CVPR.","DOI":"10.1109\/CVPR.2016.390"},{"key":"9965_CR17","doi-asserted-by":"crossref","unstructured":"Flint, A., Murray, D., & Reid, I. (2011). Manhattan scene understanding using monocular, stereo, and 3d features. In ICCV. IEEE","DOI":"10.1109\/ICCV.2011.6126501"},{"key":"9965_CR18","doi-asserted-by":"crossref","unstructured":"Furlan, A., Miller, S. D., Sorrenti, D. G., Li, F. F., Savarese, S. (2013). Free your camera: 3d indoor scene understanding from arbitrary camera motion. In BMVC.","DOI":"10.5244\/C.27.24"},{"key":"9965_CR19","doi-asserted-by":"crossref","unstructured":"Gupta, A., & Davis, L. S. (2008). Beyond nouns: Exploiting prepositions and comparative adjectives for learning visual classifiers. In ECCV. Springer.","DOI":"10.1007\/978-3-540-88682-2_3"},{"key":"9965_CR20","doi-asserted-by":"crossref","unstructured":"Gupta, S., Davidson, J., Levine, S., Sukthankar, R., & Malik, J. (2017). Cognitive mapping and planning for visual navigation. In CVPR.","DOI":"10.1109\/CVPR.2017.769"},{"key":"9965_CR21","volume-title":"Multiple view geometry in computer vision","author":"R Hartley","year":"2003","unstructured":"Hartley, R., & Zisserman, A. (2003). Multiple view geometry in computer vision. Cambridge: Cambridge University Press."},{"key":"9965_CR22","doi-asserted-by":"crossref","unstructured":"Hedau, V., Hoiem, D., & Forsyth, D. (2009). Recovering the spatial layout of cluttered rooms. In ICCV. IEEE","DOI":"10.1109\/ICCV.2009.5459411"},{"key":"9965_CR23","doi-asserted-by":"crossref","unstructured":"Heitz, G., & Koller, D. (2008). Learning spatial context: Using stuff to find things. In ECCV.","DOI":"10.1007\/978-3-540-88682-2_4"},{"key":"9965_CR24","doi-asserted-by":"crossref","unstructured":"Hemachandra, S., Duvallet, F., Howard, T. M., Roy, N., Stentz, A., & Walter, M. R. (2015). Learning models for following natural language directions in unknown environments. In ICRA. IEEE","DOI":"10.1109\/ICRA.2015.7139984"},{"key":"9965_CR25","doi-asserted-by":"crossref","unstructured":"Hussain, W., Civera, J., Montano, L., & Hebert, M. (2016). Dealing with small data and training blind spots in the manhattan world. In WACV. IEEE","DOI":"10.1109\/WACV.2016.7477649"},{"key":"9965_CR26","doi-asserted-by":"crossref","unstructured":"Khosla, A., An\u00a0An, B., Lim, J. J., & Torralba, A. (2014). Looking beyond the visible scene. In CVPR.","DOI":"10.1109\/CVPR.2014.474"},{"key":"9965_CR27","doi-asserted-by":"crossref","unstructured":"Kong, C., Lin, D., Bansal, M., Urtasun, R., & Fidler, S. (2014). What are you talking about? text-to-image coreference. In CVPR.","DOI":"10.1109\/CVPR.2014.455"},{"key":"9965_CR28","unstructured":"Lam, O., Dayoub, F., Schulz, R., & Corke, P. (2015). Automated topometric graph generation from floor plan analysis. In ACRA."},{"key":"9965_CR29","doi-asserted-by":"crossref","unstructured":"Lee, D. C., Hebert, M., & Kanade, T. (2009). Geometric reasoning for single image structure recovery. In 2009 IEEE conference on computer vision and pattern recognition (pp. 2136\u20132143). IEEE.","DOI":"10.1109\/CVPR.2009.5206872"},{"key":"9965_CR30","doi-asserted-by":"crossref","unstructured":"Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., et al. (2014). Microsoft coco: Common objects in context. In ECCV. Springer.","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"9965_CR31","unstructured":"Liu, C., Schwing, A. G., Kundu, K., Urtasun, R., & Fidler, S. (2015). Rent3d: Floor-plan priors for monocular layout estimation. In CVPR."},{"key":"9965_CR32","doi-asserted-by":"crossref","unstructured":"Liu, C., Wu, J., & Furukawa, Y. (2018). Floornet: A unified framework for floorplan reconstruction from 3d scans. In ECCV. Springer.","DOI":"10.1007\/978-3-030-01231-1_13"},{"key":"9965_CR33","doi-asserted-by":"publisher","first-page":"337","DOI":"10.1016\/j.patcog.2019.02.002","volume":"90","author":"Y Liu","year":"2019","unstructured":"Liu, Y., Jin, L., Zhang, S., Luo, C., & Zhang, S. (2019). Curved scene text detection via transverse and longitudinal sequence connection. Pattern Recognition, 90, 337\u2013345.","journal-title":"Pattern Recognition"},{"key":"9965_CR34","unstructured":"MacMahon, M., Stankiewicz, B., & Kuipers, B. (2006). Walk the talk: Connecting language, knowledge, and action in route instructions. In AAAI."},{"key":"9965_CR35","unstructured":"Matuszek, C., Fox, D., Koscher, K. (2010). Following directions using statistical machine translation. In 2010 5th ACM\/IEEE international conference on human\u2013robot interaction (HRI). IEEE."},{"key":"9965_CR36","doi-asserted-by":"crossref","unstructured":"Mishra, A., Alahari, K., & Jawahar, C. (2012). Top-down and bottom-up cues for scene text recognition. In CVPR.","DOI":"10.1109\/CVPR.2012.6247990"},{"key":"9965_CR37","doi-asserted-by":"crossref","unstructured":"Nabbe, B., Hoiem, D., Efros, A. A., & Hebert, M. (2006). Opportunistic use of vision to push back the path-planning horizon. In IROS. IEEE","DOI":"10.1109\/IROS.2006.281676"},{"key":"9965_CR38","doi-asserted-by":"crossref","unstructured":"Quattoni, A., & Torralba, A. (2009). Recognizing indoor scenes. In CVPR.","DOI":"10.1109\/CVPR.2009.5206537"},{"key":"9965_CR39","doi-asserted-by":"crossref","unstructured":"Quy Phan, T., Shivakumara, P., Tian, S., & Lim Tan, C. (2013). Recognizing text with perspective distortion in natural scenes. In ICCV.","DOI":"10.1109\/ICCV.2013.76"},{"key":"9965_CR40","doi-asserted-by":"crossref","unstructured":"Redmon, J., & Farhadi, A. (2017). Yolo9000: Better, faster, stronger. In CVPR.","DOI":"10.1109\/CVPR.2017.690"},{"issue":"3","key":"9965_CR41","doi-asserted-by":"publisher","first-page":"211","DOI":"10.1007\/s11263-015-0816-y","volume":"115","author":"O Russakovsky","year":"2015","unstructured":"Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., et al. (2015). Imagenet large scale visual recognition challenge. IJCV, 115(3), 211\u2013252.","journal-title":"IJCV"},{"key":"9965_CR42","doi-asserted-by":"crossref","unstructured":"Salas, M., Hussain, W., Concha, A., Montano, L., Civera, J., & Montiel, J. (2015). Layout aware visual tracking and mapping. In IROS. IEEE","DOI":"10.1109\/IROS.2015.7353367"},{"key":"9965_CR43","doi-asserted-by":"crossref","unstructured":"Sangkloy, P., Burnell, N., Ham, C., & Hays, J. (2016). The sketchy database: Learning to retrieve badly drawn bunnies. SIGGRAPH","DOI":"10.1145\/2897824.2925954"},{"key":"9965_CR44","unstructured":"Savva, M., Chang, A. X., Dosovitskiy, A., Funkhouser, T., & Koltun, V. (2017). Minos: Multimodal indoor simulator for navigation in complex environments. arXiv preprint arXiv:1712.03931."},{"key":"9965_CR45","doi-asserted-by":"crossref","unstructured":"Sharif Razavian, A., Azizpour, H., Sullivan, J., & Carlsson, S. (2014). Cnn features off-the-shelf: an astounding baseline for recognition. In CVPR workshops.","DOI":"10.1109\/CVPRW.2014.131"},{"key":"9965_CR46","doi-asserted-by":"crossref","unstructured":"Shrivastava, A., Malisiewicz, T., Gupta, A., & Efros, A. A. (2011). Data-driven visual similarity for cross-domain image matching. In ACM transactions on graphics (Vol.\u00a030, p. 154). ACM.","DOI":"10.1145\/2070781.2024188"},{"key":"9965_CR47","unstructured":"Skubic, M., Blisard, S., Carle, A., & Matsakis, P. (2002). Hand-drawn maps for robot navigation. In AAAI."},{"key":"9965_CR48","doi-asserted-by":"crossref","unstructured":"Tellex, S., Kollar, T., Dickerson, S., Walter, M. R., Banerjee, A. G., Teller, S. J., & Roy, N. (2011). Understanding natural language commands for robotic navigation and mobile manipulation. In AAAI.","DOI":"10.1609\/aaai.v25i1.7979"},{"key":"9965_CR49","unstructured":"Wah, C., Branson, S., Welinder, P., Perona, P., & Belongie, S. (2011). The caltech-ucsd birds-200-2011 dataset."},{"key":"9965_CR50","doi-asserted-by":"crossref","unstructured":"Wang, S., Fidler, S., & Urtasun, R. (2015). Lost shopping! monocular localization in large indoor spaces. In ICCV.","DOI":"10.1109\/ICCV.2015.309"},{"key":"9965_CR51","unstructured":"Winograd, T. (1971). Procedures as a representation for data in a computer program for understanding natural language. Massachusetts Institute of Tech Cambridge Project MAC, Technical report."},{"issue":"4","key":"9965_CR52","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/2461912.2461968","volume":"32","author":"K Xu","year":"2013","unstructured":"Xu, K., Chen, K., Fu, H., Sun, W. L., & Hu, S. M. (2013). Sketch2scene: Sketch-based co-retrieval and co-placement of 3d models. ACM Transactions on Graphics (TOG), 32(4), 1\u201315.","journal-title":"ACM Transactions on Graphics (TOG)"},{"key":"9965_CR53","doi-asserted-by":"crossref","unstructured":"Yamauchi, B. (1997). A frontier-based approach for autonomous exploration. In 1997 IEEE international symposium on computational intelligence in robotics and automation, 1997. CIRA\u201997, Proceedings. IEEE.","DOI":"10.1109\/CIRA.1997.613851"},{"key":"9965_CR54","unstructured":"Yuliang, L., Lianwen, J., Shuaitao, Z., & Sheng, Z. (2017). Detecting curve text in the wild: New dataset and new solution. arXiv preprint arXiv:1712.02170."},{"key":"9965_CR55","doi-asserted-by":"crossref","unstructured":"Zhu, Y., Mottaghi, R., Kolve, E., Lim, J. J., Gupta, A., Fei-Fei, L., et al. (2017). Target-driven visual navigation in indoor scenes using deep reinforcement learning. In ICRA. IEEE","DOI":"10.1109\/ICRA.2017.7989381"},{"key":"9965_CR56","doi-asserted-by":"crossref","unstructured":"Zitnick, C. L., & Parikh, D. (2013). Bringing semantics into focus using visual abstraction. In CVPR.","DOI":"10.1109\/CVPR.2013.387"}],"container-title":["Autonomous Robots"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10514-020-09965-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s10514-020-09965-2\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10514-020-09965-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,12,18]],"date-time":"2022-12-18T09:32:42Z","timestamp":1671355962000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s10514-020-09965-2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,2]]},"references-count":56,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2021,2]]}},"alternative-id":["9965"],"URL":"https:\/\/doi.org\/10.1007\/s10514-020-09965-2","relation":{},"ISSN":["0929-5593","1573-7527"],"issn-type":[{"type":"print","value":"0929-5593"},{"type":"electronic","value":"1573-7527"}],"subject":[],"published":{"date-parts":[[2021,2]]},"assertion":[{"value":"15 January 2019","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"29 December 2020","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"20 February 2021","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}