{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,24]],"date-time":"2026-07-24T10:55:56Z","timestamp":1784890556448,"version":"3.55.0"},"reference-count":48,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2015,6]]},"DOI":"10.1109\/cvpr.2015.7298878","type":"proceedings-article","created":{"date-parts":[[2015,10,15]],"date-time":"2015-10-15T22:42:06Z","timestamp":1444948926000},"page":"2625-2634","source":"Crossref","is-referenced-by-count":3012,"title":["Long-term recurrent convolutional networks for visual recognition and description"],"prefix":"10.1109","author":[{"given":"Jeff","family":"Donahue","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Lisa Anne","family":"Hendricks","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Sergio","family":"Guadarrama","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Marcus","family":"Rohrbach","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Subhashini","family":"Venugopalan","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Trevor","family":"Darrell","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kate","family":"Saenko","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref39","article-title":"Sequence to sequence learning with neural networks","author":"sutskever","year":"2014","journal-title":"NIPS"},{"key":"ref38","article-title":"Generating text with recurrent neural networks","author":"sutskever","year":"2011","journal-title":"ICML"},{"key":"ref33","article-title":"Two-stream convolutional networks for action recognition in videos","author":"simonyan","year":"2014","journal-title":"arXiv preprint arXiv 1406 2199"},{"key":"ref32","article-title":"ImageNet Large Scale Visual Recognition Challenge","author":"russakovsky","year":"2014"},{"key":"ref31","article-title":"Learning internal representations by error propagation","author":"rumelhart","year":"1985","journal-title":"Technical report DTIC Document"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.61"},{"key":"ref37","article-title":"UCF 101: A dataset of 101 human actions classes from videos in the wild","author":"soomro","year":"2012","journal-title":"arXiv preprint arXiv 1212 0402"},{"key":"ref36","article-title":"Grounded compositional semantics for finding and describing images with sentences","author":"socher","year":"2013","journal-title":"NIPS Deep Learning Workshop"},{"key":"ref35","article-title":"Very deep convolutional networks for large-scale image recognition","author":"simonyan","year":"0","journal-title":"ICLR 2015"},{"key":"ref34","article-title":"Very deep convolutional networks for large-scale image recognition","author":"simonyan","year":"2014","journal-title":"arXiv preprint arXiv 1409 1556"},{"key":"ref10","article-title":"Towards end-to-end speech recognition with recurrent neural networks","author":"graves","year":"2014","journal-title":"ICML"},{"key":"ref40","article-title":"Going deeper with convolutions","author":"szegedy","year":"2014","journal-title":"arXiv preprint arXiv 1409 4842"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.337"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2012.59"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1145\/2647868.2654889"},{"key":"ref15","article-title":"Deep fragment embeddings for bidirectional image sentence mapping","author":"karpathy","year":"2014","journal-title":"NIPS"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.223"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2011.6130425"},{"key":"ref18","article-title":"Unifying visual-semantic embeddings with multimodal neural language models","author":"kiros","year":"2014","journal-title":"arXiv preprint arXiv 1411 2539"},{"key":"ref19","article-title":"Multimodal neurallanguage models","author":"kiros","year":"2014","journal-title":"ICML"},{"key":"ref28","doi-asserted-by":"crossref","first-page":"67","DOI":"10.1162\/tacl_a_00166","article-title":"From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions","volume":"2","author":"peter young","year":"2014","journal-title":"TACL"},{"key":"ref4","article-title":"High accuracy optical flow estimation based on a theory for warping","author":"brox","year":"2004","journal-title":"ECCV"},{"key":"ref27","article-title":"BLEU: a method for automatic evaluation of machine translation","author":"papineni","year":"2002","journal-title":"ACL"},{"key":"ref3","article-title":"Video in sentences out","author":"barbu","year":"2012","journal-title":"UAI"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2013.340"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-11752-2_15"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/W14-4012"},{"key":"ref8","article-title":"DeViSE: A deep visual-semantic embedding model","author":"frome","year":"2013","journal-title":"NIPS"},{"key":"ref7","article-title":"ImageNet: A large-scale hierarchical image database","author":"deng","year":"2009","journal-title":"CVPR"},{"key":"ref2","doi-asserted-by":"crossref","DOI":"10.1007\/978-3-642-25446-8_4","article-title":"Sequential deep learning for human action recognition","author":"baccouche","year":"2011","journal-title":"Human Behavior Understanding"},{"key":"ref9","article-title":"Generating sequences with recurrent neural networks","author":"graves","year":"2013","journal-title":"arXiv preprint arXiv 1308 0850"},{"key":"ref1","article-title":"Action classification in soccer videos with long short-term memory recurrent neural networks","author":"baccouche","year":"2010","journal-title":"ICANN"},{"key":"ref46","article-title":"Learning to execute","author":"zaremba","year":"2014","journal-title":"arXiv preprint arXiv 1410 4615"},{"key":"ref20","article-title":"Multimodal neural language models","author":"kiros","year":"2013","journal-title":"NIPS Deep Learning Workshop"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1989.1.2.270"},{"key":"ref48","article-title":"Visualizing and understanding convolutional networks","author":"zeiler","year":"2014","journal-title":"ECCV"},{"key":"ref22","article-title":"ImageNet classification with deep convolutional neural networks","author":"krizhevsky","year":"2012","journal-title":"NIPS"},{"key":"ref47","article-title":"Recurrent neural network regularization","author":"zaremba","year":"2014","journal-title":"arXiv preprint arXiv 1409 2329"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.3115\/1557769.1557821"},{"key":"ref42","article-title":"Integrating language and vision to generate natural language descriptions of videos in the wild","author":"thomason","year":"2014","journal-title":"COLING"},{"key":"ref24","article-title":"Microsoft coco: Common objects in context","author":"lin","year":"2014","journal-title":"arXiv preprint arXiv 1405 0312"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1145\/2072298.2072411"},{"key":"ref23","doi-asserted-by":"crossref","first-page":"351","DOI":"10.1162\/tacl_a_00188","article-title":"Treetalk: Composition and compression of trees for image descriptions","volume":"2","author":"kuznetsova","year":"2014","journal-title":"Transactions of the Association for Computational Linguistics"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-012-0594-8"},{"key":"ref26","doi-asserted-by":"crossref","first-page":"853","DOI":"10.1613\/jair.3994","article-title":"Framing image description as a ranking task: Data, models and evaluation metrics","volume":"47","author":"micah hodosh","year":"2013","journal-title":"JAIR"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2012.6288816"},{"key":"ref25","article-title":"Explain images with multimodal recurrent neural networks","author":"mao","year":"2014","journal-title":"arXiv preprint arXiv 1410 1090"}],"event":{"name":"2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)","location":"Boston, MA, USA","start":{"date-parts":[[2015,6,7]]},"end":{"date-parts":[[2015,6,12]]}},"container-title":["2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7293313\/7298593\/07298878.pdf?arnumber=7298878","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,9,9]],"date-time":"2020-09-09T21:12:04Z","timestamp":1599685924000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7298878\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015,6]]},"references-count":48,"URL":"https:\/\/doi.org\/10.1109\/cvpr.2015.7298878","relation":{},"subject":[],"published":{"date-parts":[[2015,6]]}}}