{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,16]],"date-time":"2026-07-16T08:52:58Z","timestamp":1784191978940,"version":"3.55.0"},"reference-count":73,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"4","license":[{"start":{"date-parts":[[2017,4,1]],"date-time":"2017-04-01T00:00:00Z","timestamp":1491004800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2017,4,1]],"date-time":"2017-04-01T00:00:00Z","timestamp":1491004800000},"content-version":"am","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2017,4,1]],"date-time":"2017-04-01T00:00:00Z","timestamp":1491004800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2017,4,1]],"date-time":"2017-04-01T00:00:00Z","timestamp":1491004800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100000185","name":"DARPA's","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100000185","id-type":"DOI","asserted-by":"publisher"}]},{"name":"MSEE"},{"name":"SMISC"},{"DOI":"10.13039\/100000001","name":"NSF","doi-asserted-by":"publisher","award":["IIS-1427425"],"award-info":[{"award-number":["IIS-1427425"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000001","name":"NSF","doi-asserted-by":"publisher","award":["IIS-1212798"],"award-info":[{"award-number":["IIS-1212798"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Berkeley Vision and Learning Center"},{"DOI":"10.13039\/100007065","name":"NVIDIA","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100007065","id-type":"DOI","asserted-by":"publisher"}]},{"name":"FITweltweit-Program"},{"name":"German Academic Exchange Service (DAAD)"},{"DOI":"10.13039\/100014037","name":"NDSEG","doi-asserted-by":"crossref","id":[{"id":"10.13039\/100014037","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Pattern Anal. Mach. Intell."],"published-print":{"date-parts":[[2017,4,1]]},"DOI":"10.1109\/tpami.2016.2599174","type":"journal-article","created":{"date-parts":[[2016,9,1]],"date-time":"2016-09-01T20:05:11Z","timestamp":1472760311000},"page":"677-691","source":"Crossref","is-referenced-by-count":1014,"title":["Long-Term Recurrent Convolutional Networks for Visual Recognition and Description"],"prefix":"10.1109","volume":"39","author":[{"given":"Jeff","family":"Donahue","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Lisa Anne","family":"Hendricks","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Marcus","family":"Rohrbach","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Subhashini","family":"Venugopalan","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Sergio","family":"Guadarrama","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kate","family":"Saenko","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Trevor","family":"Darrell","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.493"},{"key":"ref72","article-title":"Grounding of textual phrases in images by reconstruction","volume":"abs 1511 3745","author":"rohrbach","year":"2015"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.512"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.515"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/P15-2017"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"ref33","first-page":"740","article-title":"Microsoft COCO: Common objects in context","author":"lin","year":"2014","journal-title":"Eur Conf Comput Vis"},{"key":"ref32","doi-asserted-by":"crossref","first-page":"67","DOI":"10.1162\/tacl_a_00166","article-title":"From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions","volume":"2","author":"peter young","year":"2014","journal-title":"Transactions of the Association for Computational Linguistics"},{"key":"ref31","article-title":"Unifying visual-semantic embeddings with multimodal neural language models","volume":"abs 1411 2539","author":"kiros","year":"2014","journal-title":"CoRR"},{"key":"ref30","first-page":"2121","article-title":"Devise: A deep visual-semantic embedding model","author":"frome","year":"2013","journal-title":"Advances Neural Inf Process Syst"},{"key":"ref37","first-page":"25","article-title":"Rouge: A package for automatic evaluation of summaries","author":"lin","year":"0","journal-title":"Proc ACL Workshop Text Summarization Branches Out"},{"key":"ref36","first-page":"65","article-title":"METEOR: An automatic metric for MT evaluation with improved correlation with human judgments","author":"banerjee","year":"0","journal-title":"Proceedings of the ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for Machine Translation"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.3115\/1073083.1073135"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2011.6130425"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2013.340"},{"key":"ref61","first-page":"102","article-title":"Video in sentences out","author":"barbu","year":"0","journal-title":"Proc Conf Uncertainty of Artificial Intelligence"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1145\/2072298.2072411"},{"key":"ref28","first-page":"1889","article-title":"Deep fragment embeddings for bidirectional image sentence mapping","author":"karpathy","year":"0","journal-title":"Proc Advances Neural Inf Process Syst"},{"key":"ref64","first-page":"1218","article-title":"Integrating language and vision to generate natural language descriptions of videos in the wild","author":"thomason","year":"0","journal-title":"Proc 25th Int Conf Comput Linguistics"},{"key":"ref27","article-title":"Deep captioning with multimodal recurrent neural networks (m-RNN)","author":"mao","year":"2015"},{"key":"ref65","doi-asserted-by":"crossref","DOI":"10.21437\/Interspeech.2014-305","article-title":"Sequence discriminative distributed training of long short-term memory recurrent neural networks","author":"sak","year":"2014"},{"key":"ref66","first-page":"4694","article-title":"Beyond short snippets: Deep networks for video classification","author":"ng","year":"0","journal-title":"Proc IEEE Conf Comput Vis Pattern Recog"},{"key":"ref29","doi-asserted-by":"crossref","first-page":"207","DOI":"10.1162\/tacl_a_00177","article-title":"Grounded compositional semantics for finding and describing images with sentences","volume":"2","author":"socher","year":"2014","journal-title":"Transactions of the Association for Computational Linguistics"},{"key":"ref67","article-title":"Every moment counts: Dense detailed labeling of actions in complex videos","volume":"abs 1507 5738","author":"yeung","year":"2015"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.8"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/N15-1173"},{"key":"ref2","first-page":"29","article-title":"Sequential deep learning for human action recognition","author":"baccouche","year":"0","journal-title":"Proc 2nd Int Conf Human Behavior Understanding"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2012.59"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1179"},{"key":"ref22","first-page":"818","article-title":"Visualizing and understanding convolutional networks","author":"zeiler","year":"0","journal-title":"Proc Eur Conf Comput Vis"},{"key":"ref21","first-page":"25","article-title":"High accuracy optical flow estimation based on a theory for warping","author":"brox","year":"0","journal-title":"Proc Eur Conf Comput Vis"},{"key":"ref24","first-page":"248","article-title":"ImageNet: A large-scale hierarchical image database","author":"deng","year":"0","journal-title":"Proc IEEE Conf Comput Vis Pattern Recog"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-015-0816-y"},{"key":"ref26","doi-asserted-by":"crossref","first-page":"853","DOI":"10.1613\/jair.3994","article-title":"Framing image description as a ranking task: Data, models and evaluation metrics","volume":"47","author":"micah hodosh and","year":"2013","journal-title":"J Artificial Intell Res"},{"key":"ref25","first-page":"12","article-title":"UCF101: A dataset of 101 human actions classes from videos in the wild","author":"soomro","year":"2012"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.441"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2011.6126543"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.337"},{"key":"ref58","first-page":"595","article-title":"Multimodal neural language models","author":"kiros","year":"0","journal-title":"Proc 31st Int Conf Mach Learn"},{"key":"ref57","first-page":"359","article-title":"Collective generation of natural image descriptions","author":"kuznetsova","year":"0","journal-title":"Proc 50th Annu Meeting Assoc for Comput Linguist Long Papers-Vol 1"},{"key":"ref56","first-page":"747","article-title":"Midge: Generating image descriptions from computer vision detections","author":"mitchell","year":"0","journal-title":"Proc 13th Conf Eur Chapter Assoc Comput Linguistics"},{"key":"ref55","first-page":"444","article-title":"Corpus-guided sentence generation of natural images","author":"yang","year":"0","journal-title":"Proc Conf Empirical Methods Natural Language Process"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.5995466"},{"key":"ref53","first-page":"15","article-title":"Every picture tells a story: Generating sentences from images","author":"farhadi","year":"0","journal-title":"Proc 11th Eur Conf Comput Vis"},{"key":"ref52","first-page":"154","article-title":"Action classification in soccer videos with long short-term memory recurrent neural networks","author":"baccouche","year":"0","journal-title":"Proc Int Conf Artif Neural Netw"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/W14-4012"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.61"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.291"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1145\/2647868.2654889"},{"key":"ref13","article-title":"Learning to execute","volume":"abs 1410 4615","author":"zaremba","year":"2014"},{"key":"ref14","article-title":"Generating sequences with recurrent neural networks","volume":"abs 1308 850","author":"graves","year":"2013"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2012.6288816"},{"key":"ref16","first-page":"1017","article-title":"Generating text with recurrent neural networks","author":"sutskever","year":"0","journal-title":"Proc 28th Int Conf Mach Learn"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1145\/3065386"},{"key":"ref18","article-title":"Very deep convolutional networks for large-scale image recognition","author":"simonyan","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"ref4","first-page":"568","article-title":"Two-stream convolutional networks for action recognition in videos","author":"simonyan","year":"0","journal-title":"Proc Advances Neural Inf Process Syst"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.223"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1989.1.2.270"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.21236\/ADA164453"},{"key":"ref8","first-page":"1764","article-title":"Towards end-to-end speech recognition with recurrent neural networks","author":"graves","year":"0","journal-title":"Proc 31st Int Conf Mach Learn"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-012-0594-8"},{"key":"ref9","first-page":"3104","article-title":"Sequence to sequence learning with neural networks","author":"sutskever","year":"0","journal-title":"Proc Advances Neural Inf Process Syst"},{"key":"ref46","doi-asserted-by":"crossref","first-page":"351","DOI":"10.1162\/tacl_a_00188","article-title":"TreeTalk: Composition and compression of trees for image descriptions","volume":"2","author":"kuznetsova","year":"2014","journal-title":"Transactions of the Association for Computational Linguistics"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"ref48","doi-asserted-by":"crossref","DOI":"10.1007\/978-3-319-11752-2_15","article-title":"Coherent multi-sentence video description with variable level of detail","author":"rohrbach","year":"2014","journal-title":"German Conference on Pattern Recognition (GCPR)"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.3115\/1557769.1557821"},{"key":"ref42","article-title":"Exploring nearest neighbor approaches for image captioning","volume":"abs 1505 4467","author":"devlin","year":"2015"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298754"},{"key":"ref44","article-title":"Show, attend and tell: Neural image caption generation with visual attention","author":"xu","year":"2015"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298878"}],"container-title":["IEEE Transactions on Pattern Analysis and Machine Intelligence"],"original-title":[],"link":[{"URL":"http:\/\/ieeexplore.ieee.org\/ielaam\/34\/7870775\/7558228-aam.pdf","content-type":"application\/pdf","content-version":"am","intended-application":"syndication"},{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/34\/7870775\/07558228.pdf?arnumber=7558228","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,6,19]],"date-time":"2024-06-19T04:38:13Z","timestamp":1718771893000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7558228\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,4,1]]},"references-count":73,"journal-issue":{"issue":"4"},"URL":"https:\/\/doi.org\/10.1109\/tpami.2016.2599174","relation":{},"ISSN":["0162-8828","2160-9292"],"issn-type":[{"value":"0162-8828","type":"print"},{"value":"2160-9292","type":"electronic"}],"subject":[],"published":{"date-parts":[[2017,4,1]]}}}