{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T01:14:09Z","timestamp":1740100449880,"version":"3.37.3"},"reference-count":31,"publisher":"IEEE","license":[{"start":{"date-parts":[[2021,11,17]],"date-time":"2021-11-17T00:00:00Z","timestamp":1637107200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2021,11,17]],"date-time":"2021-11-17T00:00:00Z","timestamp":1637107200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,11,17]],"date-time":"2021-11-17T00:00:00Z","timestamp":1637107200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61872338"],"award-info":[{"award-number":["61872338"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,11,17]]},"DOI":"10.1109\/ic-nidc54101.2021.9660575","type":"proceedings-article","created":{"date-parts":[[2022,1,4]],"date-time":"2022-01-04T20:36:16Z","timestamp":1641328576000},"page":"373-377","source":"Crossref","is-referenced-by-count":0,"title":["DSAMT: Dual-Source Aligned Multimodal Transformers for TextCaps"],"prefix":"10.1109","author":[{"given":"Chenyang","family":"Liao","sequence":"first","affiliation":[]},{"given":"Ruifang","family":"Liu","sequence":"additional","affiliation":[]},{"given":"Sheng","family":"Gao","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref31","article-title":"Bertscore: Evaluating text generation with BERT","volume":"abs 1904 9675","author":"zhang","year":"2019","journal-title":"CoRR"},{"key":"ref30","article-title":"Vinvl: Making visual representations matter in vision-language models","volume":"682abs 2101 529","author":"zhang","year":"2021","journal-title":"CoRR"},{"key":"ref10","article-title":"Rich feature hierarchies for accurate object detection and semantic segmentation","volume":"abs 1311 2524","author":"girshick","year":"2013","journal-title":"CoRR"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.322"},{"key":"ref12","article-title":"Iterative answer prediction with pointer-augmented multimodal transformers for textvqa","volume":"abs 1911 6258","author":"hu","year":"2019","journal-title":"CoRR"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00473"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00686"},{"key":"ref15","article-title":"Unicoder-vl: A universal encoder for vision and language by cross-modal pre-training","volume":"abs 1908 6066","author":"li","year":"2019","journal-title":"CoRR"},{"key":"ref16","article-title":"Visualbert: A simple and performant baseline for vision and language","volume":"abs 1908 3557","author":"li","year":"2019","journal-title":"CoRR"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58577-8_8"},{"key":"ref18","first-page":"74","article-title":"ROUGE: A package for automatic evaluation of summaries","author":"lin","year":"2004","journal-title":"Text Summarization Branches Out"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00983"},{"key":"ref28","article-title":"Visual question answering: A survey of methods and datasets","volume":"abs 1607 5910","author":"wu","year":"2016","journal-title":"CoRR"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00959"},{"key":"ref27","article-title":"Cider: Consensus-based image description evaluation","volume":"abs 1411 5726","author":"vedantam","year":"2014","journal-title":"CoRR"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00636"},{"key":"ref6","article-title":"Enriching word vectors with subword information","volume":"abs 1607 4606","author":"bojanowski","year":"2016","journal-title":"CoRR"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00166"},{"key":"ref5","first-page":"65","article-title":"METEOR: an automatic metric for MT evaluation with improved correlation with human judgments","author":"banerjee","year":"2005","journal-title":"Proceedings of the Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and\/or Summarization ACL 2005"},{"key":"ref8","article-title":"Microsoft COCO captions: Data collection and evaluation server","volume":"abs 1504 325","author":"chen","year":"2015","journal-title":"CoRR"},{"key":"ref7","article-title":"Rosetta: Large scale system for568text detection and recognition in images","volume":"abs 1910 5085","author":"borisyuk","year":"2019","journal-title":"CoRR"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2014.2339814"},{"key":"ref9","article-title":"BERT: pre-training of deep bidirectional transformers for language understanding","volume":"abs 1810 4805","author":"devlin","year":"2018","journal-title":"CoRR"},{"key":"ref1","article-title":"no-caps: novel object captioning at scale","volume":"abs 1812 865","author":"agrawal","year":"2018","journal-title":"CoRR"},{"key":"ref20","article-title":"Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks","volume":"abs 1908 226","author":"lu","year":"2019","journal-title":"CoRR"},{"key":"ref22","first-page":"91","article-title":"Faster R-CNN: towards real-time object detection with region proposal networks","author":"ren","year":"2015","journal-title":"Advances in Neural Information Processing Systems 28 Annual Conference on Neural Information Processing Systems 2015"},{"key":"ref21","first-page":"311","article-title":"Bleu: a method for automatic evaluation of machine translation","author":"papineni","year":"2002","journal-title":"Proceedings of the 40th Annual Meeting on Association for Computational Linguistics  - ACL '02"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00851"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58536-5_44"},{"key":"ref26","article-title":"A corpus for reasoning about natural language grounded in photographs","volume":"abs 1811 491","author":"suhr","year":"2018","journal-title":"CoRR"},{"key":"ref25","article-title":"VL-BERT: pre-training of generic visual-linguistic representations","volume":"abs 1908 8530","author":"su","year":"2019","journal-title":"CoRR"}],"event":{"name":"2021 7th IEEE International Conference on Network Intelligence and Digital Content (IC-NIDC)","start":{"date-parts":[[2021,11,17]]},"location":"Beijing, China","end":{"date-parts":[[2021,11,19]]}},"container-title":["2021 7th IEEE International Conference on Network Intelligence and Digital Content (IC-NIDC)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9660393\/9660398\/09660575.pdf?arnumber=9660575","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,5,10]],"date-time":"2022-05-10T16:56:38Z","timestamp":1652201798000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9660575\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,11,17]]},"references-count":31,"URL":"https:\/\/doi.org\/10.1109\/ic-nidc54101.2021.9660575","relation":{},"subject":[],"published":{"date-parts":[[2021,11,17]]}}}