{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,21]],"date-time":"2026-01-21T09:30:20Z","timestamp":1768987820071,"version":"3.49.0"},"reference-count":114,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"},{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"am","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China Program","doi-asserted-by":"publisher","award":["41930107"],"award-info":[{"award-number":["41930107"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2021]]},"DOI":"10.1109\/access.2021.3129782","type":"journal-article","created":{"date-parts":[[2021,11,22]],"date-time":"2021-11-22T20:54:49Z","timestamp":1637614489000},"page":"156799-156817","source":"Crossref","is-referenced-by-count":3,"title":["A Scientometric Visualization Analysis of Image Captioning Research From 2010 to 2020"],"prefix":"10.1109","volume":"9","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-1528-4224","authenticated-orcid":false,"given":"Wenxuan","family":"Liu","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3971-0512","authenticated-orcid":false,"given":"Huayi","family":"Wu","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3521-4178","authenticated-orcid":false,"given":"Kai","family":"Hu","sequence":"additional","affiliation":[]},{"given":"Qing","family":"Luo","sequence":"additional","affiliation":[]},{"given":"Xiaoqiang","family":"Cheng","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2016.2587640"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/P15-2017"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.127"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1002\/asi.20317"},{"key":"ref30","doi-asserted-by":"crossref","first-page":"133","DOI":"10.1007\/s11192-011-0374-1","article-title":"Co-word analysis of the trends in stem cells field based on subject heading weighting","volume":"88","author":"an","year":"2011","journal-title":"Scientometrics"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298754"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46454-1_24"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.108"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00636"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/s11192-009-0146-3"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1177\/0165551504042802"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1016\/j.ssci.2020.105093"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1613\/jair.4900"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3008733"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2018.05.080"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1177\/053901883022002003"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.3390\/ijgi5050066"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1084"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1002\/asi.21419"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2020.02.041"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1007\/BF02129600"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2016.2642953"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2018.2813306"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01280"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00436"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2019.2896494"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1145\/3123266.3123366"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1145\/3132847.3132920"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1145\/3240508.3240640"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1145\/3240508.3240527"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN.2019.8851721"},{"key":"ref40","article-title":"Explain images with multimodal recurrent neural networks","author":"mao","year":"2014","journal-title":"arXiv 1410 1090"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICPHYS.2019.8780171"},{"key":"ref3","article-title":"Word-sentence framework for remote sensing image captioning","author":"wang","year":"2020","journal-title":"IEEE Trans Geosci Remote Sens"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/2964284.2964299"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICDM.2019.00083"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.214"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.524"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/WACV45572.2020.9093592"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1182"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00618"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00728"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.780"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.74"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.9"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.515"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298878"},{"key":"ref73","first-page":"2422","article-title":"Mind's eye: A recurrent visual representation for image caption generation","author":"chen","year":"2015","journal-title":"Proc IEEE Conf Comput Vis Pattern Recognit (CVPR)"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.3390\/rs11060612"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.503"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.8"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.494"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.291"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2015.2477044"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46478-7_28"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.100"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.277"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01278"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.559"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.571"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1145\/3077136.3084144"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00271"},{"key":"ref66","first-page":"311","article-title":"BLEU: A method for automatic evaluation of machine translation","author":"papineni","year":"2002","journal-title":"Proc 40th Ann Meeting Assoc for Computational Linguistics (ACL 02)"},{"key":"ref67","first-page":"65","article-title":"METEOR: An automatic metric for MT evaluation with improved correlation with human judgments","author":"banerjee","year":"2005","journal-title":"Proc Workshop Intrinsic Extrinsic Eval Measures Mach Transl Summarization (ACL)"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.3115\/1626394.1626406"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2016.7552912"},{"key":"ref69","first-page":"74","article-title":"ROUGE: A package for automatic evaluation of summaries","author":"lin","year":"2004","journal-title":"Proc Workshop Text Summarization Branches Out"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00583"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01059"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.130"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.128"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2020\/128"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-93037-4_8"},{"key":"ref93","article-title":"Unsupervised cross-lingual image captioning","author":"gao","year":"2020","journal-title":"arXiv 2010 01288"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00177"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00425"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-016-0981-7"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2020.08.019"},{"key":"ref104","article-title":"Dense relational image captioning via multi-task triple-stream networks","author":"kim","year":"2020","journal-title":"arXiv 2010 03855"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1145\/3025453.3025814"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413859"},{"key":"ref102","doi-asserted-by":"publisher","DOI":"10.1145\/3240508.3240583"},{"key":"ref111","first-page":"11137","article-title":"Image captioning: Transforming objects into words","author":"herdade","year":"2019","journal-title":"Proc Adv Neural Inf Process Syst (NIPS)"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00902"},{"key":"ref110","article-title":"Image captioning through image transformer","author":"he","year":"2020","journal-title":"arXiv 2004 14231"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00751"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1109\/ICARM49381.2020.9195335"},{"key":"ref96","article-title":"Unified vision-language pre-training for image captioning and VQA","author":"zhou","year":"2019","journal-title":"arXiv 1909 11059"},{"key":"ref97","article-title":"Scheduled sampling in vision-language pretraining with decoupled encoder-decoder network","author":"li","year":"2021","journal-title":"arXiv 2101 11562"},{"key":"ref10","first-page":"2048","article-title":"Show, attend and tell: Neural image caption generation with visual attention","author":"xu","year":"2015","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2017.2677464"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.29"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.345"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CITS.2016.7546397"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2017.2776321"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2018.2869276"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.131"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/s00371-018-1566-y"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.323"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.3233\/HIS-170246"},{"key":"ref84","first-page":"4133","article-title":"Image caption with global-local attention","author":"li","year":"2017","journal-title":"Proc 31st AAAI Conf Artif Intell (AAAI)"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1145\/3295748"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.667"},{"key":"ref114","first-page":"691","article-title":"Experimental assessment of beam search algorithm for improvement in image caption generation","volume":"22","author":"chowdhary","year":"2019","journal-title":"J Appl Sci Eng"},{"key":"ref113","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2019.2947482"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.140"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2017.2708709"},{"key":"ref85","first-page":"4176","article-title":"Attention correctness in neural image captioning","author":"liu","year":"2017","journal-title":"Proc AAAI Conf Artif Intell (AAAI)"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2017.2729019"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00754"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6287639\/9312710\/09623457.pdf?arnumber=9623457","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,3,8]],"date-time":"2022-03-08T22:02:35Z","timestamp":1646776955000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9623457\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021]]},"references-count":114,"URL":"https:\/\/doi.org\/10.1109\/access.2021.3129782","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2021]]}}}