{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,3]],"date-time":"2026-03-03T11:53:29Z","timestamp":1772538809877,"version":"3.50.1"},"reference-count":49,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"9","license":[{"start":{"date-parts":[[2019,9,1]],"date-time":"2019-09-01T00:00:00Z","timestamp":1567296000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2019,9,1]],"date-time":"2019-09-01T00:00:00Z","timestamp":1567296000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2019,9,1]],"date-time":"2019-09-01T00:00:00Z","timestamp":1567296000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61672523"],"award-info":[{"award-number":["61672523"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61771468"],"award-info":[{"award-number":["61771468"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61773385"],"award-info":[{"award-number":["61773385"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100012226","name":"Fundamental Research Funds for the Central Universities","doi-asserted-by":"crossref","id":[{"id":"10.13039\/501100012226","id-type":"DOI","asserted-by":"crossref"}]},{"name":"Research Funds of Renmin University of China","award":["18XNLG19"],"award-info":[{"award-number":["18XNLG19"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Multimedia"],"published-print":{"date-parts":[[2019,9]]},"DOI":"10.1109\/tmm.2019.2896494","type":"journal-article","created":{"date-parts":[[2019,1,30]],"date-time":"2019-01-30T20:31:26Z","timestamp":1548880286000},"page":"2347-2360","source":"Crossref","is-referenced-by-count":88,"title":["COCO-CN for Cross-Lingual Image Tagging, Captioning, and Retrieval"],"prefix":"10.1109","volume":"21","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-0220-8310","authenticated-orcid":false,"given":"Xirong","family":"Li","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4883-1703","authenticated-orcid":false,"given":"Chaoxi","family":"Xu","sequence":"additional","affiliation":[]},{"given":"Xiaoxu","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Weiyu","family":"Lan","sequence":"additional","affiliation":[]},{"given":"Zhengxiong","family":"Jia","sequence":"additional","affiliation":[]},{"given":"Gang","family":"Yang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6228-0317","authenticated-orcid":false,"given":"Jieping","family":"Xu","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","article-title":"Neural machine translation by jointly learning to align and translate","author":"bahdanau","year":"0","journal-title":"Proc Int Conf Learn Represent"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2017.2716829"},{"key":"ref32","first-page":"35","article-title":"Which languages do people speak on Flickr? a language and geo-location study of the YFCC100m dataset","author":"koochali","year":"0","journal-title":"Proc ACM Workshop Multimedia COMMONS"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1613\/jair.3994"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00166"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.634"},{"key":"ref36","first-page":"707","article-title":"Binary codes capable of correcting deletions, insertions and reversals","volume":"10","author":"levenshtein","year":"1966","journal-title":"Soviet Phys Doklady"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-25207-0_48"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1145\/2911996.2912036"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2018.2832602"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2017.2723841"},{"key":"ref29","first-page":"139","article-title":"Collecting image annotations using Amazon's mechanical Turk","author":"rashtchian","year":"0","journal-title":"Proc NAACL-HLT Workshop Creating Speech Lang Data Amazon's Mech Turk"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2017.2729019"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2017.2724843"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-40802-1_26"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D17-1303"},{"key":"ref21","article-title":"Clarifai image and video recognition API","year":"2018"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1017\/ATSIP.2017.12"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/2906152"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2017.2705068"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2017.2761985"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P16-1168"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P16-1227"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2006.100"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N16-1021"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1145\/3095713.3095751"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1145\/3123266.3123366"},{"key":"ref15","first-page":"130","article-title":"Imagination improves multimodal translation","author":"elliott","year":"0","journal-title":"Proc 8th Int Joint Conf Natural Lang Process"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D15-1070"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P17-2066"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1145\/2911996.2912049"},{"key":"ref19","article-title":"AI challenger: A large-scale dataset for going deeper in image understanding","author":"wu","year":"2017","journal-title":"arXiv 1711 06475"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1145\/1646396.1646452"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2017.2760101"},{"key":"ref5","article-title":"Microsoft COCO captions: Data collection and evaluation server","author":"chen","year":"2015","journal-title":"arXiv 1504 00325"},{"key":"ref8","article-title":"Using artificial tokens to control languages for multilingual image caption generation","author":"tsutsui","year":"0","journal-title":"Proc Conf Comput Vis Pattern Recognit"},{"key":"ref7","first-page":"13","article-title":"The IAPR benchmark: A new evaluation resource for visual information systems","author":"grubinger","year":"0","journal-title":"Proc Int Conf Lang Resour Eval"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2852503"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/W16-3210"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1145\/2590974"},{"key":"ref45","article-title":"From deterministic to generative: Multi-modal stochastic RNNs for video captioning","author":"song","year":"0","journal-title":"IEEE Trans Neural Netw Learning Syst"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2017.2742704"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2814344"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2016.2601260"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1145\/2611388"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1145\/3240508.3240577"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2017.2749159"}],"container-title":["IEEE Transactions on Multimedia"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6046\/8811648\/08630050.pdf?arnumber=8630050","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,7,13]],"date-time":"2022-07-13T20:58:20Z","timestamp":1657745900000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8630050\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,9]]},"references-count":49,"journal-issue":{"issue":"9"},"URL":"https:\/\/doi.org\/10.1109\/tmm.2019.2896494","relation":{},"ISSN":["1520-9210","1941-0077"],"issn-type":[{"value":"1520-9210","type":"print"},{"value":"1941-0077","type":"electronic"}],"subject":[],"published":{"date-parts":[[2019,9]]}}}