{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,24]],"date-time":"2026-07-24T16:28:46Z","timestamp":1784910526515,"version":"3.55.0"},"reference-count":76,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2015,6]]},"DOI":"10.1109\/cvpr.2015.7298940","type":"proceedings-article","created":{"date-parts":[[2015,10,15]],"date-time":"2015-10-15T18:42:06Z","timestamp":1444934526000},"page":"3202-3212","source":"Crossref","is-referenced-by-count":329,"title":["A dataset for Movie Description"],"prefix":"10.1109","author":[{"given":"Anna","family":"Rohrbach","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Marcus","family":"Rohrbach","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Niket","family":"Tandon","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Bernt","family":"Schiele","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2010.5539970"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.441"},{"key":"ref71","article-title":"Show and tell: A neural image caption generator","author":"vinyals","year":"2014","journal-title":"arXiv 1411 4555 [cs]"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/N15-1173"},{"key":"ref76","article-title":"Learning Deep Features for Scene Recognition using Places Database","author":"zhou","year":"2014","journal-title":"Advances in Neural Information Processing Systems (NIPS)"},{"key":"ref74","article-title":"Video description generation incorporating spatio-temporal features and a soft-attention mechanism","author":"yao","year":"2015","journal-title":"arXiv 1502 08029v3"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1023\/A:1020346032608"},{"key":"ref75","article-title":"It makes sense: A wide-coverage word sense disambiguation system for free text","author":"zhong","year":"2010","journal-title":"Proceedings of the ACL 2010 System Demonstrations"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.3115\/1557769.1557821"},{"key":"ref33","article-title":"Deep visual-semantic alignments for generating image descriptions","author":"karpathy","year":"2014","journal-title":"ar Xiv 1412 2306"},{"key":"ref32","article-title":"LSDA: Large scale detection through adaptation","author":"hoffman","year":"2014","journal-title":"Advances in Neural Information Processing Systems (NIPS)"},{"key":"ref31","article-title":"From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions","author":"hodosh","year":"2014","journal-title":"Transactions of the Association for Computational Linguistics"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-33863-2_37"},{"key":"ref37","article-title":"Unifying visual-semantic embeddings with multimodal neural language models","author":"kiros","year":"2014","journal-title":"arXiv 1411 2539"},{"key":"ref36","article-title":"Multimodal neural language models","author":"kiros","year":"2014","journal-title":"Proceedings of the International Conference on Machine Learning (ICML)"},{"key":"ref35","article-title":"Extending verbnet with novel verb classes","author":"kipper","year":"2006","journal-title":"Proceedings of the International Conference on Language Resources and Evaluation (LREC)"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2011.6130425"},{"key":"ref60","article-title":"ImageNet Large Scale Visual Recognition Challenge","author":"russakovsky","year":"2014"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1145\/1282280.1282354"},{"key":"ref61","doi-asserted-by":"crossref","DOI":"10.1163\/9789401209564_012","article-title":"A corpus-based analysis of audio description","author":"salway","year":"2007","journal-title":"Media for All Subtitling for the Deaf Audio Description and Sign Language"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.3115\/1620950.1620957"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.337"},{"key":"ref64","article-title":"who are you?&#x201D;-learning person specific classifiers from video","author":"sivic","year":"2009","journal-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW.2010.5543575"},{"key":"ref65","article-title":"Grounded compositional semantics for finding and describing images with sentences","author":"socher","year":"0","journal-title":"Transactions of the Association for Computational Linguistics"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1145\/2072298.2072411"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206492"},{"key":"ref67","article-title":"knock! knock! who is it?&#x201D; probabilistic person identification in tv-series","author":"tapaswi","year":"2012","journal-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)"},{"key":"ref68","article-title":"Integrating language and vision to generate natural language descriptions of videos in the wild","author":"thomason","year":"2014","journal-title":"Proceedings of the International Conference On Computational Linguistics (COLING)"},{"key":"ref69","article-title":"Using descriptive video services to create a large data source for video annotation research","author":"torabi","year":"2015","journal-title":"arXiv 1503 01070v1"},{"key":"ref2","year":"2014","journal-title":"Castingwords transcription service"},{"key":"ref1","year":"2014"},{"key":"ref20","article-title":"Long-term recurrent convolutional networks for visual recognition and description","author":"donahue","year":"2015","journal-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.5244\/C.20.92"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2009.5459279"},{"key":"ref24","article-title":"From captions to visual concepts and back","author":"fang","year":"2014","journal-title":"arXiv 1411 4952"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/2623330.2623677"},{"key":"ref26","doi-asserted-by":"crossref","DOI":"10.7551\/mitpress\/7287.001.0001","author":"fellbaum","year":"1998","journal-title":"WordNet An Electronic Lexical Database"},{"key":"ref25","article-title":"Every picture tells a story: Generating sentences from images","author":"farhadi","year":"2010","journal-title":"Proceedings of the European Conference on Computer Vision (ECCV)"},{"key":"ref50","article-title":"Deep captioning with multimodal recurrent neural networks (m-rnn)","author":"mao","year":"2014","journal-title":"arXiv 1412 6632"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206557"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.61"},{"key":"ref58","doi-asserted-by":"crossref","DOI":"10.1007\/978-3-319-11752-2_15","article-title":"Coherent multi-sentence video description with variable level of detail","author":"rohrbach","year":"2014","journal-title":"Proc German Conf Pattern Recognit"},{"key":"ref57","doi-asserted-by":"crossref","DOI":"10.1162\/tacl_a_00207","article-title":"Grounding Action Descriptions in Videos","volume":"1","author":"regneri","year":"2013","journal-title":"Transactions of the Association for Computational Linguistics"},{"key":"ref56","article-title":"Linking people in videos with &#x201C;their&#x201D; names using coreference resolution","author":"ramanathan","year":"2014","journal-title":"Proceedings of the European Conference on Computer Vision (ECCV)"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.3115\/1614025.1614037"},{"key":"ref54","article-title":"Trecvid 2012 - an overview of the goals, tasks, data, evaluation mechanisms and metrics","author":"over","year":"2012","journal-title":"Proc of TRECVID 2012"},{"key":"ref53","article-title":"Im2text: Describing images using 1 million captioned photographs","author":"ordonez","year":"2011","journal-title":"Advances in Neural Information Processing Systems (NIPS)"},{"key":"ref52","article-title":"Midge: Generating image descriptions from computer vision detections","author":"mitchell","year":"2012","journal-title":"Proceedings of the Conference of the European Chapter of the Association for Computational Linguistics (EACL)"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.283"},{"key":"ref11","article-title":"Weakly supervised action labeling in videos under ordering constraints","author":"bojanowski","year":"2014","journal-title":"Proceedings of the European Conference on Computer Vision (ECCV)"},{"key":"ref40","article-title":"Imagenet classification with deep convolutional neural networks","author":"krizhevsky","year":"2012","journal-title":"Advances in Neural Information Processing Systems (NIPS)"},{"key":"ref12","article-title":"Collecting highly parallel data for paraphrase evaluation","author":"chen","year":"2011","journal-title":"Proc Ann Meeting on Assoc for Computational Linguistics (ACL)"},{"key":"ref13","article-title":"Learning a recurrent visual representation for image caption generation","author":"chen","year":"2014","journal-title":"arXiv 1411 5654"},{"key":"ref14","article-title":"Movie\/script: Alignment and parsing of video and text transcription","author":"cour","year":"2008","journal-title":"Proceedings of the European Conference on Computer Vision (ECCV)"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206667"},{"key":"ref16","article-title":"An exact dual decomposition algorithm for shallow semantic parsing with constraints","author":"das","year":"2012","journal-title":"Proceedings of the Annual Meeting of the As-sociationfor Computational Linguistics (ACL)"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2013.340"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1145\/2488388.2488420"},{"key":"ref19","article-title":"Imagenet: A large-scale hierarchical image database","author":"deng","year":"2009","journal-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)"},{"key":"ref4","year":"2014","journal-title":"Subtitle edit"},{"key":"ref3","year":"2014","journal-title":"Makemkv"},{"key":"ref6","article-title":"Semantic parsing with combinatory categorial grammars","author":"artzi","year":"2013","journal-title":"Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL)"},{"key":"ref5","year":"2014","journal-title":"del"},{"key":"ref8","article-title":"Video in sentences out. In Proceedings of the conference on Uncertainty in Artificial Intelligence (UAI)","author":"barbu","year":"2012"},{"key":"ref7","article-title":"The berkeley framenet project","author":"baker","year":"1998","journal-title":"Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL)"},{"key":"ref49","article-title":"Microsoft coco: Common objects in context","author":"lin","year":"2014","journal-title":"Proceedings of the European Conference on Computer Vision (ECCV)"},{"key":"ref9","article-title":"Semantic parsing on freebase from question-answer pairs","author":"berant","year":"2013","journal-title":"Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP)"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/P14-1135"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2008.4587756"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.5995681"},{"key":"ref47","article-title":"Composing simple image descriptions using web-scale N-grams","author":"li","year":"2011","journal-title":"Proceedings of the Fifteenth Conference on Computational Natural Language Learning (CoNLL)"},{"key":"ref42","article-title":"Collective generation of natural image descriptions","author":"kuznetsova","year":"2012","journal-title":"Proceedings of the Annual Meeting of the Association for Computational Linguistics (ACL)"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.5995466"},{"key":"ref44","article-title":"The semi-automatic generation of audio description from screenplays","author":"lakritz","year":"2006","journal-title":"Technical report Dept of Computing Technical Report University of Surrey"},{"key":"ref43","doi-asserted-by":"crossref","DOI":"10.1162\/tacl_a_00188","article-title":"Treetalk: Composition and compression of trees for image descriptions","author":"kuznetsova","year":"2014","journal-title":"Transactions of the Association for Computational Linguistics"}],"event":{"name":"2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)","location":"Boston, MA, USA","start":{"date-parts":[[2015,6,7]]},"end":{"date-parts":[[2015,6,12]]}},"container-title":["2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7293313\/7298593\/07298940.pdf?arnumber=7298940","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,8,15]],"date-time":"2023-08-15T07:38:42Z","timestamp":1692085122000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7298940\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015,6]]},"references-count":76,"URL":"https:\/\/doi.org\/10.1109\/cvpr.2015.7298940","relation":{},"subject":[],"published":{"date-parts":[[2015,6]]}}}