{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,28]],"date-time":"2026-04-28T03:22:11Z","timestamp":1777346531366,"version":"3.51.4"},"reference-count":29,"publisher":"Springer Science and Business Media LLC","issue":"4","license":[{"start":{"date-parts":[[2018,8,17]],"date-time":"2018-08-17T00:00:00Z","timestamp":1534464000000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100003725","name":"National Research Foundation of Korea","doi-asserted-by":"publisher","award":["2017R1A2B2002608"],"award-info":[{"award-number":["2017R1A2B2002608"]}],"id":[{"id":"10.13039\/501100003725","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Intel Serv Robotics"],"published-print":{"date-parts":[[2018,10]]},"DOI":"10.1007\/s11370-018-0257-x","type":"journal-article","created":{"date-parts":[[2018,8,17]],"date-time":"2018-08-17T10:43:58Z","timestamp":1534502638000},"page":"347-354","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":15,"title":["Scene understanding using natural language description based on 3D semantic graph map"],"prefix":"10.1007","volume":"11","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-5208-7836","authenticated-orcid":false,"given":"Jiyoun","family":"Moon","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Beomhee","family":"Lee","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2018,8,17]]},"reference":[{"key":"257_CR1","doi-asserted-by":"crossref","unstructured":"Tellex S, Knepper RA, Li A, Rus D, Roy N (2014) Asking for help using inverse semantics. In: Robotics: science and systems, vol\u00a02","DOI":"10.15607\/RSS.2014.X.024"},{"key":"257_CR2","doi-asserted-by":"crossref","unstructured":"Knepper RA, Layton T, Romanishin J, Rus D (2013) Ikeabot: an autonomous multi-robot coordinated furniture assembly system. In: 2013 IEEE international conference on robotics and automation (ICRA). IEEE, pp 855\u2013862","DOI":"10.1109\/ICRA.2013.6630673"},{"key":"257_CR3","unstructured":"Matuszek C, Fox D, Koscher K (2010) Following directions using statistical machine translation. In: 2010 5th ACM\/IEEE international conference on human\u2013robot interaction (HRI). IEEE, pp 251\u2013258"},{"key":"257_CR4","unstructured":"Chen DL, Mooney RJ (2011) Learning to interpret natural language navigation instructions from observations. In: AAAI, vol 2, pp 1\u20132"},{"key":"257_CR5","doi-asserted-by":"crossref","unstructured":"Hemachandra S, Walter MR, Tellex S, Teller S (2014) Learning spatial-semantic representations from natural language descriptions and scene classifications. In: 2014 IEEE international conference on robotics and automation (ICRA). IEEE, pp 2623\u20132630","DOI":"10.1109\/ICRA.2014.6907235"},{"key":"257_CR6","doi-asserted-by":"crossref","unstructured":"Bowman SL, Atanasov N, Daniilidis K, Pappas GJ (2017) Probabilistic data association for semantic slam. In: 2017 IEEE international conference on robotics and automation (ICRA). IEEE, pp 1722\u20131729","DOI":"10.1109\/ICRA.2017.7989203"},{"key":"257_CR7","doi-asserted-by":"crossref","unstructured":"Agrawal P, Girshick R, Malik J (2014) Analyzing the performance of multilayer neural networks for object recognition. In: European conference on computer vision. Springer, pp 329\u2013344","DOI":"10.1007\/978-3-319-10584-0_22"},{"issue":"9","key":"257_CR8","doi-asserted-by":"publisher","first-page":"1167","DOI":"10.1177\/0278364914537359","volume":"33","author":"MR Walter","year":"2014","unstructured":"Walter MR, Hemachandra S, Homberg B, Tellex S, Teller S (2014) A framework for learning semantic maps from grounded natural language descriptions. Int J Robot Res 33(9):1167\u20131190","journal-title":"Int J Robot Res"},{"key":"257_CR9","doi-asserted-by":"crossref","unstructured":"Galindo C, Saffiotti A, Coradeschi S, Buschka P, Fernandez-Madrigal JA, Gonz\u00e1lez J (2005) Multi-hierarchical semantic maps for mobile robotics. In: 2005 IEEE\/RSJ international conference on intelligent robots and systems (IROS). IEEE, pp 2278\u20132283","DOI":"10.1109\/IROS.2005.1545511"},{"key":"257_CR10","doi-asserted-by":"crossref","unstructured":"Mallya A, Lazebnik S (2017) Recurrent models for situation recognition. arXiv preprint \n                    arXiv:1703.06233","DOI":"10.1109\/ICCV.2017.57"},{"key":"257_CR11","doi-asserted-by":"crossref","unstructured":"Chen X, Lawrence\u00a0Zitnick C (2015) Mind\u2019s eye: a recurrent visual representation for image caption generation. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2422\u20132431","DOI":"10.1109\/CVPR.2015.7298856"},{"key":"257_CR12","unstructured":"Lin D, Kong C, Fidler S, Urtasun R (2015) Generating multi-sentence lingual descriptions of indoor scenes. arXiv preprint \n                    arXiv:1503.00064"},{"key":"257_CR13","doi-asserted-by":"crossref","unstructured":"Vinyals O, Toshev A, Bengio S, Erhan D (2015) Show and tell: a neural image caption generator. In: 2015 IEEE conference on computer vision and pattern recognition (CVPR). IEEE, pp 3156\u20133164","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"257_CR14","doi-asserted-by":"crossref","unstructured":"Karpathy A, Fei-Fei L (2015) Deep visual-semantic alignments for generating image descriptions. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 3128\u20133137","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"257_CR15","doi-asserted-by":"crossref","unstructured":"Li Y, Ouyang W, Wang X, Tang X (2017) ViP-CNN: visual phrase guided convolutional neural network. In: 2017 IEEE conference on computer vision and pattern recognition (CVPR). IEEE, pp 7244\u20137253","DOI":"10.1109\/CVPR.2017.766"},{"key":"257_CR16","doi-asserted-by":"crossref","unstructured":"Zhang H, Kyaw Z, Yu J, Chang SF (2017) PPR-FCN: weakly supervised visual relation detection via parallel pairwise R-FCN. arXiv preprint \n                    arXiv:1708.01956","DOI":"10.1109\/ICCV.2017.454"},{"key":"257_CR17","doi-asserted-by":"crossref","unstructured":"Li R, Tapaswi M, Liao R, Jia J, Urtasun R, Fidler S (2017a) Situation recognition with graph neural networks. arXiv preprint \n                    arXiv:1708.04320","DOI":"10.1109\/ICCV.2017.448"},{"key":"257_CR18","doi-asserted-by":"crossref","unstructured":"Li Y, Ouyang W, Zhou B, Wang K, Wang X (2017b) Scene graph generation from objects, phrases and region captions. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1261\u20131270","DOI":"10.1109\/ICCV.2017.142"},{"key":"257_CR19","doi-asserted-by":"crossref","unstructured":"Juan L, Oubong G (2010) Surf applied in panorama image stitching. In: 2010 2nd international conference on image processing theory tools and applications (IPTA). IEEE, pp 495\u2013499","DOI":"10.1109\/IPTA.2010.5586723"},{"key":"257_CR20","doi-asserted-by":"publisher","first-page":"119","DOI":"10.1016\/j.sigpro.2014.09.005","volume":"112","author":"B Leng","year":"2015","unstructured":"Leng B, Guo S, Zhang X, Xiong Z (2015) 3d object retrieval with stacked local convolutional autoencoder. Signal Process 112:119\u2013128","journal-title":"Signal Process"},{"key":"257_CR21","unstructured":"Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. arXiv preprint \n                    arXiv:1409.1556"},{"key":"257_CR22","unstructured":"Ren S, He K, Girshick R, Sun J (2015) Faster R-CNN: towards real-time object detection with region proposal networks. In: Advances in neural information processing systems, pp 91\u201399"},{"key":"257_CR23","unstructured":"Wei XS, Xie CW, Wu J (2016) Mask-CNN: localizing parts and selecting descriptors for fine-grained image recognition. arXiv preprint \n                    arXiv:1605.06878"},{"key":"257_CR24","unstructured":"Henaff M, Bruna J, LeCun Y (2015) Deep convolutional networks on graph-structured data. arXiv preprint \n                    arXiv:1506.05163"},{"key":"257_CR25","unstructured":"Defferrard M, Bresson X, Vandergheynst P (2016) Convolutional neural networks on graphs with fast localized spectral filtering. In: Advances in Neural Information Processing Systems, pp 3844\u20133852"},{"key":"257_CR26","unstructured":"Kipf TN, Welling M (2016) Semi-supervised classification with graph convolutional networks. arXiv preprint \n                    arXiv:1609.02907"},{"key":"257_CR27","doi-asserted-by":"crossref","unstructured":"Xiao J, Ehinger KA, Oliva A, Torralba A (2012) Recognizing scene viewpoint using panoramic place representation. In: 2012 IEEE conference on computer vision and pattern recognition (CVPR). IEEE, pp 2695\u20132702","DOI":"10.1109\/CVPR.2012.6247991"},{"key":"257_CR28","unstructured":"Dozat T (2016) Incorporating nesterov momentum into adam. In: ICLR Workshop, no 1, pp 2013\u20132016"},{"key":"257_CR29","unstructured":"Papineni K, Roukos S, Ward T, Zhu WJ (2002) Bleu: a method for automatic evaluation of machine translation. In: Proceedings of the 40th annual meeting on association for computational linguistics, Association for Computational Linguistics, pp 311\u2013318"}],"container-title":["Intelligent Service Robotics"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11370-018-0257-x\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11370-018-0257-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11370-018-0257-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,9,24]],"date-time":"2019-09-24T15:28:03Z","timestamp":1569338883000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11370-018-0257-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,8,17]]},"references-count":29,"journal-issue":{"issue":"4","published-print":{"date-parts":[[2018,10]]}},"alternative-id":["257"],"URL":"https:\/\/doi.org\/10.1007\/s11370-018-0257-x","relation":{},"ISSN":["1861-2776","1861-2784"],"issn-type":[{"value":"1861-2776","type":"print"},{"value":"1861-2784","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018,8,17]]},"assertion":[{"value":"11 April 2018","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"7 August 2018","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"17 August 2018","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}