{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,31]],"date-time":"2026-03-31T08:40:55Z","timestamp":1774946455442,"version":"3.50.1"},"reference-count":72,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"6","license":[{"start":{"date-parts":[[2017,11,1]],"date-time":"2017-11-01T00:00:00Z","timestamp":1509494400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Signal Process. Mag."],"published-print":{"date-parts":[[2017,11]]},"DOI":"10.1109\/msp.2017.2741510","type":"journal-article","created":{"date-parts":[[2017,11,9]],"date-time":"2017-11-09T16:36:42Z","timestamp":1510245402000},"page":"109-116","source":"Crossref","is-referenced-by-count":99,"title":["Deep Learning for Image-to-Text Generation: A Technical Overview"],"prefix":"10.1109","volume":"34","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-9463-9168","authenticated-orcid":false,"given":"Xiaodong","family":"He","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1014-0790","authenticated-orcid":false,"given":"Li","family":"Deng","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref72","article-title":"Generative adversarial text to image synthesis","author":"reed","year":"0","journal-title":"Proc Int Conf Machine Learning"},{"key":"ref71","year":"0","journal-title":"Seeing AI"},{"key":"ref70","doi-asserted-by":"crossref","DOI":"10.1016\/j.cviu.2017.05.001","article-title":"Visual question answering: A survey of methods and data sets","author":"wu","year":"2017","journal-title":"Computer Vision and Image Understanding"},{"key":"ref39","article-title":"Gated feedback recurrent neural networks","author":"chung","year":"0","journal-title":"Proc Int Conf Machine Learning"},{"key":"ref38","article-title":"Neural machine translation by jointly learning to align and translate","author":"bahdanau","year":"0","journal-title":"Proc Int Conf Learning Representations"},{"key":"ref33","first-page":"434","article-title":"Rich image captioning in the wild. Deep Vision Workshop","author":"tran","year":"0","journal-title":"Proc Conf Computer Vision and Pattern Recognition"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.496"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.503"},{"key":"ref30","article-title":"Review networks for caption generation","author":"yang","year":"0","journal-title":"Proc Conf Neural Information Processing Systems"},{"key":"ref37","article-title":"Sequence to sequence learning with neural networks","author":"sutskever","year":"0","journal-title":"Proc Conf Neural Information Processing Systems"},{"key":"ref36","doi-asserted-by":"crossref","DOI":"10.1561\/9781601988157","author":"deng","year":"2014","journal-title":"Deep Learning Methods and Applications"},{"key":"ref35","author":"shallue","year":"2016","journal-title":"Open-source code on show and tell A neural image caption generator"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1145\/2998181.2998364"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2012.2205597"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46478-7_9"},{"key":"ref61","author":"koenigsbauer","year":"2016","journal-title":"Microsoft Office Blogs"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46487-9_50"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.29"},{"key":"ref64","author":"anderson","year":"0","journal-title":"Bottom-up and top-down attention for image captioning and VQA"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.494"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.128"},{"key":"ref66","author":"lin","year":"0","journal-title":"Adversarial ranking for language generation"},{"key":"ref29","article-title":"Show, attend and tell: Neural image caption generation with visual attention","author":"xu","year":"0","journal-title":"Proc Int Conf Machine Learning"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.131"},{"key":"ref68","article-title":"SeqGAN: Sequence generative adversarial nets with policy gradient","author":"yu","year":"0","journal-title":"Association for the Advancement of Artificial Intelligence"},{"key":"ref69","author":"goodfellow","year":"2016","journal-title":"Deep Learning"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298856"},{"key":"ref1","article-title":"Delving deeper into convolutional networks for learning video representations","author":"ballas","year":"0","journal-title":"Proc Int Conf Learning Representations"},{"key":"ref20","article-title":"Im2text: Describing images using 1 million captioned photographs","author":"ordonez","year":"0","journal-title":"Proc Conf Neural Information Processing Systems"},{"key":"ref22","article-title":"Variational autoencoder for deep learning of images, labels and captions","author":"pu","year":"0","journal-title":"Proc Conf Neural Information Processing Systems"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.497"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/N15-1173"},{"key":"ref23","article-title":"Very deep convolutional networks for large-scale image recognition","author":"simonyan","year":"0","journal-title":"Proc Computer Science Conf"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.515"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/P14-2074"},{"key":"ref51","article-title":"Microsoft COCO: Common objects in context","author":"lin","year":"0","journal-title":"Proc European Conf Computer Vision"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2134090"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N16-1147"},{"key":"ref57","article-title":"StackGAN: Text to photo-realistic image synthesis with stacked generative adversarial networks","author":"zhang","year":"0","journal-title":"Proc Int Conf Computer Vision"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.121"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-016-0966-6"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.10"},{"key":"ref53","year":"0","journal-title":"Microsoft Cognitive Services Computer Vision API"},{"key":"ref52","author":"cui","year":"2015","journal-title":"COCO captioning challenge"},{"key":"ref10","doi-asserted-by":"crossref","first-page":"853","DOI":"10.1613\/jair.3994","article-title":"Framing image description as a ranking task: Data, models and evaluation metrics","volume":"47","author":"hodosh","year":"2013","journal-title":"J Artif Intell Res"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.277"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"ref13","article-title":"Multimodal neural language models","author":"kiros","year":"0","journal-title":"Proc Int Conf Machine Learning"},{"key":"ref14","author":"krishna","year":"2016","journal-title":"Visual genome Connecting language and vision using crowdsourced dense image annotations"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1145\/3065386"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2012.162"},{"key":"ref17","first-page":"220","article-title":"Composing simple image descriptions using web-scale n-grams","author":"li","year":"0","journal-title":"Proc 15th Conf Computational Natural Language Learning"},{"key":"ref18","author":"liu","year":"2016","journal-title":"Attention Correctness in Neural Image Captioning"},{"key":"ref19","article-title":"Deep captioning with multimodal recurrent neural networks (m-RNN)","author":"mao","year":"0","journal-title":"Proc Int Conf Learning Representations"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.21236\/ADA623249"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/P15-2017"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-15561-1_2"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298754"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.169"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.127"},{"key":"ref49","doi-asserted-by":"crossref","first-page":"67","DOI":"10.1162\/tacl_a_00166","article-title":"From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions","volume":"2","author":"young","year":"0","journal-title":"Association of Computational Linguistics"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.3115\/1073083.1073135"},{"key":"ref48","article-title":"Collecting image annotations using Amazon's mechanical turk","author":"rashtchian","year":"0","journal-title":"Proc NAACL HLT Workshop Creating Speech and Language Data with Amazon's Mechanical Turk"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46454-1_24"},{"key":"ref42","article-title":"On learning to localize objects with minimal supervision","author":"song","year":"0","journal-title":"Proc Int Conf Machine Learning"},{"key":"ref41","first-page":"248","article-title":"ImageNet: A large-scale hierarchical image database","author":"deng","year":"0","journal-title":"Proc Conf Computer Vision and Pattern Recognition"},{"key":"ref44","article-title":"METEOR: An automatic metric for MT evaluation with improved correlation with human judgments","author":"banerjee","year":"0","journal-title":"Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation and\/or Summarization"},{"key":"ref43","article-title":"Multiple instance boosting for object detection","author":"zhang","year":"0","journal-title":"Proc Conf Neural Information Processing Systems"}],"container-title":["IEEE Signal Processing Magazine"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/79\/8103076\/08103169.pdf?arnumber=8103169","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,12]],"date-time":"2022-01-12T11:39:29Z","timestamp":1641987569000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/8103169\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,11]]},"references-count":72,"journal-issue":{"issue":"6"},"URL":"https:\/\/doi.org\/10.1109\/msp.2017.2741510","relation":{},"ISSN":["1053-5888"],"issn-type":[{"value":"1053-5888","type":"print"}],"subject":[],"published":{"date-parts":[[2017,11]]}}}