{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T22:13:02Z","timestamp":1740175982021,"version":"3.37.3"},"reference-count":33,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"4","license":[{"start":{"date-parts":[[2021,10,1]],"date-time":"2021-10-01T00:00:00Z","timestamp":1633046400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2021,10,1]],"date-time":"2021-10-01T00:00:00Z","timestamp":1633046400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,10,1]],"date-time":"2021-10-01T00:00:00Z","timestamp":1633046400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"JSPS KAKENHI","award":["20H04269"],"award-info":[{"award-number":["20H04269"]}]},{"name":"JST CREST"},{"DOI":"10.13039\/501100003051","name":"New Energy and Industrial Technology Development Organization","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100003051","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Robot. Autom. Lett."],"published-print":{"date-parts":[[2021,10]]},"DOI":"10.1109\/lra.2021.3107026","type":"journal-article","created":{"date-parts":[[2021,8,24]],"date-time":"2021-08-24T20:05:55Z","timestamp":1629835555000},"page":"8371-8378","source":"Crossref","is-referenced-by-count":4,"title":["Case Relation Transformer: A Crossmodal Language Generation Model for Fetching Instructions"],"prefix":"10.1109","volume":"6","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-1991-9119","authenticated-orcid":false,"given":"Motonari","family":"Kambara","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0261-0510","authenticated-orcid":false,"given":"Komei","family":"Sugiura","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.375"},{"key":"ref32","article-title":"An image is worth 16x16 words: Transformers for image recognition at scale","author":"dosovitskiy","year":"0","journal-title":"Int Conf Learn Represent"},{"key":"ref31","first-page":"6105","article-title":"Rethinking model scaling for convolutional neural networks","author":"tan","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref30","first-page":"2048","article-title":"Show, attend and tell: Neural image caption generation with visual attention","author":"xu","year":"0","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511519857"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2018\/168"},{"key":"ref12","first-page":"6837","article-title":"Stack-captioning: Coarse-to-fine learning for image captioning","volume":"32","author":"gu","year":"0","journal-title":"Proc AAAI Conf Artif Intell"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2019.2963649"},{"key":"ref14","first-page":"76","article-title":"Multimodal attention branch network for perspective-free sentence generation","author":"magassouba","year":"0","journal-title":"Proc Conf Robot Learn"},{"key":"ref15","first-page":"13","article-title":"ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks","author":"lu","year":"0","journal-title":"Proc Neural Inf Process Syst"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58577-8_7"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58539-6_16"},{"key":"ref18","article-title":"VL-BERT: Pre-training of generic visual-linguistic representations","author":"su","year":"2020","journal-title":"Int Conf Learn Represent"},{"article-title":"The case for case","year":"0","author":"fillmore","key":"ref19"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2016.2577031"},{"key":"ref4","first-page":"11137","article-title":"Image captioning: Transforming objects into words","author":"herdade","year":"0","journal-title":"Proc Neural Inf Process Syst"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref3","first-page":"5998","article-title":"Attention is all you need","author":"vaswani","year":"0","journal-title":"Proc Neural Inf Process Syst"},{"article-title":"Unifying visual-semantic embeddings with multimodal neural language models","year":"2014","author":"kiros","key":"ref6"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8460699"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2018.2798607"},{"key":"ref8","doi-asserted-by":"crossref","first-page":"1183","DOI":"10.1613\/jair.1.11688","article-title":"Trends in integration of vision and language research: A survey of tasks, datasets, and methods","volume":"71","author":"mogadala","year":"2021","journal-title":"J Artificial Intell Res"},{"key":"ref7","article-title":"Deep captioning with multimodal recurrent neural networks (M-RNN)","author":"mao","year":"2015","journal-title":"Int Conf Learn Represent"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.3010735"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1016\/j.csl.2014.09.005"},{"key":"ref1","first-page":"1302","article-title":"On the evaluation of vision-and-language navigation instructions","author":"zhao","year":"0","journal-title":"Proc Eur Conf Artif Life"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00636"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.3115\/1073083.1073135"},{"key":"ref21","first-page":"740","article-title":"Microsoft coco: Common objects in context","author":"lin","year":"0","journal-title":"Proc IEEE Eur Conf Comput Vis"},{"key":"ref24","first-page":"65","article-title":"METEOR: An automatic metric for MT evaluation with improved correlation with human judgments","author":"banerjee","year":"0","journal-title":"Proc ACL Workshop Intrinsic Extrinsic Eval Measures Mach Transl Summarization"},{"key":"ref23","first-page":"74","article-title":"ROUGE: A package for automatic evaluation of summaries","author":"lin","year":"0","journal-title":"Proc Text Summarization Branches Out"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46454-1_24"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7299087"}],"container-title":["IEEE Robotics and Automation Letters"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7083369\/9475905\/09521827.pdf?arnumber=9521827","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,5,10]],"date-time":"2022-05-10T14:54:13Z","timestamp":1652194453000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9521827\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,10]]},"references-count":33,"journal-issue":{"issue":"4"},"URL":"https:\/\/doi.org\/10.1109\/lra.2021.3107026","relation":{},"ISSN":["2377-3766","2377-3774"],"issn-type":[{"type":"electronic","value":"2377-3766"},{"type":"electronic","value":"2377-3774"}],"subject":[],"published":{"date-parts":[[2021,10]]}}}