{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,8,2]],"date-time":"2026-08-02T20:07:29Z","timestamp":1785701249544,"version":"3.56.0"},"reference-count":112,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2017,2,6]],"date-time":"2017-02-06T00:00:00Z","timestamp":1486339200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2017,2,6]],"date-time":"2017-02-06T00:00:00Z","timestamp":1486339200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"funder":[{"DOI":"10.13039\/100008502","name":"Brown Institute for Media Innovation","doi-asserted-by":"crossref","id":[{"id":"10.13039\/100008502","id-type":"DOI","asserted-by":"crossref"}]},{"name":"Yahoo Inc."},{"name":"Stanford University Computer Science Department"},{"DOI":"10.13039\/100000006","name":"Office of Naval Research","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100000006","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Stanford University Computer Science Department"},{"DOI":"10.13039\/100000006","name":"Office of Naval Research","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100000006","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100004362","name":"Toyota USA","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100004362","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2017,5]]},"DOI":"10.1007\/s11263-016-0981-7","type":"journal-article","created":{"date-parts":[[2017,2,6]],"date-time":"2017-02-06T03:28:11Z","timestamp":1486351691000},"page":"32-73","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":3629,"title":["Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations"],"prefix":"10.1007","volume":"123","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-8784-2531","authenticated-orcid":false,"given":"Ranjay","family":"Krishna","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yuke","family":"Zhu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Oliver","family":"Groth","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Justin","family":"Johnson","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kenji","family":"Hata","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Joshua","family":"Kravitz","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Stephanie","family":"Chen","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yannis","family":"Kalantidis","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Li-Jia","family":"Li","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"David A.","family":"Shamma","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Michael S.","family":"Bernstein","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Li","family":"Fei-Fei","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2017,2,6]]},"reference":[{"key":"981_CR1","doi-asserted-by":"crossref","unstructured":"Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C.\u00a0L., et al. (2015). VQA: Visual question answering. In International conference on computer vision (ICCV).","DOI":"10.1109\/ICCV.2015.279"},{"key":"981_CR2","doi-asserted-by":"crossref","unstructured":"Antol, S., Zitnick, C.\u00a0L., & Parikh, D. (2014). Zero-shot learning via visual abstraction. In European conference on computer vision (pp. 401\u2013416). Springer.","DOI":"10.1007\/978-3-319-10593-2_27"},{"key":"981_CR3","unstructured":"Baker, C.\u00a0F., Fillmore, C.\u00a0J., & Lowe, J.\u00a0B. (1998). The Berkeley framenet project. In Proceedings of the 36th annual meeting of the association for computational linguistics and 17th international conference on computational linguistics\u2014Volume 1, ACL\u201998 (pp. 86\u201390). Stroudsburg, PA: Association for Computational Linguistics."},{"key":"981_CR4","unstructured":"Betteridge, J., Carlson, A., Hong, S. A., Hruschka, E. R, Jr., Law, E. L., Mitchell, T. M., et al. (2009). Toward never ending language learning. In AAAI spring symposium: Learning by reading and learning to read (pp. 1\u20132)."},{"key":"981_CR5","doi-asserted-by":"crossref","unstructured":"Bird, S. (2006). NLTK: The natural language toolkit. In Proceedings of the COLING\/ACL on interactive presentation sessions (pp. 69\u201372). Association for Computational Linguistics.","DOI":"10.3115\/1225403.1225421"},{"issue":"6","key":"981_CR6","doi-asserted-by":"publisher","first-page":"344","DOI":"10.1159\/000276535","volume":"33","author":"J Bruner","year":"1990","unstructured":"Bruner, J. (1990). Culture and human development: A new look. Human Development, 33(6), 344\u2013355.","journal-title":"Human Development"},{"key":"981_CR7","doi-asserted-by":"crossref","unstructured":"Bunescu, R.\u00a0C., & Mooney, R.\u00a0J. (2005). A shortest path dependency kernel for relation extraction. In Proceedings of the conference on human language technology and empirical methods in natural language processing (pp. 724\u2013731). Association for Computational Linguistics.","DOI":"10.3115\/1220575.1220666"},{"key":"981_CR8","doi-asserted-by":"crossref","unstructured":"Chang, A.\u00a0X., Savva, M., & Manning, C.\u00a0D. (2014). Semantic parsing for text to 3D scene generation. In ACL 2014 (p.\u00a017).","DOI":"10.3115\/v1\/W14-2404"},{"key":"981_CR9","unstructured":"Chen, X., Fang, H., Lin, T.-Y., Vedantam, R., Gupta, S., Dollar, P., et al. (2015). Microsoft COCO captions: Data collection and evaluation server. \n                    arXiv:1504.00325\n                    \n                  ."},{"key":"981_CR10","doi-asserted-by":"crossref","unstructured":"Chen, X., & Lawrence\u00a0Zitnick, C. (2015). Mind\u2019s eye: A recurrent visual representation for image caption generation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2422\u20132431).","DOI":"10.1109\/CVPR.2015.7298856"},{"key":"981_CR11","doi-asserted-by":"crossref","unstructured":"Chen, X., Liu, Z., & Sun, M. (2014). A unified model for word sense representation and disambiguation. In EMNLP (pp. 1025\u20131035). Citeseer.","DOI":"10.3115\/v1\/D14-1110"},{"key":"981_CR12","doi-asserted-by":"crossref","unstructured":"Chen, X., Shrivastava, A., & Gupta, A. (2013). Neil: Extracting visual knowledge from web data. In 2013 IEEE international conference on computer vision (ICCV) (pp. 1409\u20131416). IEEE.","DOI":"10.1109\/ICCV.2013.178"},{"key":"981_CR13","doi-asserted-by":"crossref","unstructured":"Choi, W., Chao, Y.-W., Pantofaru, C., & Savarese, S. (2013). Understanding indoor scenes using 3D geometric phrases. In 2013 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 33\u201340). IEEE.","DOI":"10.1109\/CVPR.2013.12"},{"key":"981_CR14","doi-asserted-by":"crossref","unstructured":"Culotta, A., & Sorensen, J. (2004). Dependency tree kernels for relation extraction. In Proceedings of the 42nd annual meeting on association for computational linguistics (p. 423). Association for Computational Linguistics.","DOI":"10.3115\/1218955.1219009"},{"key":"981_CR15","unstructured":"Dauphin, Y., de\u00a0Vries, H., & Bengio, Y. (2015). Equilibrated adaptive learning rates for non-convex optimization. In Advances in neural information processing systems (pp. 1504\u20131512)."},{"key":"981_CR16","doi-asserted-by":"crossref","unstructured":"Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei-Fei, L. (2009). Imagenet: A large-scale hierarchical image database. In IEEE conference on computer vision and pattern recognition, 2009 (CVPR 2009) (pp. 248\u2013255). IEEE.","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"981_CR17","doi-asserted-by":"crossref","unstructured":"Denkowski, M., & Lavie, A. (2014). Meteor universal: Language specific translation evaluation for any target language. In Proceedings of the ninth workshop on statistical machine translation. Citeseer.","DOI":"10.3115\/v1\/W14-3348"},{"issue":"4","key":"981_CR18","doi-asserted-by":"publisher","first-page":"743","DOI":"10.1109\/TPAMI.2011.155","volume":"34","author":"P Dollar","year":"2012","unstructured":"Dollar, P., Wojek, C., Schiele, B., & Perona, P. (2012). Pedestrian detection: An evaluation of the state of the art. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(4), 743\u2013761.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"981_CR19","doi-asserted-by":"crossref","unstructured":"Donahue, J., Anne\u00a0Hendricks, L., Guadarrama, S., Rohrbach, M., Venugopalan, S., Saenko, K., et al. (2015). Long-term recurrent convolutional networks for visual recognition and description. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2625\u20132634).","DOI":"10.1109\/CVPR.2015.7298878"},{"issue":"2","key":"981_CR20","doi-asserted-by":"publisher","first-page":"303","DOI":"10.1007\/s11263-009-0275-4","volume":"88","author":"M Everingham","year":"2010","unstructured":"Everingham, M., Van Gool, L., Williams, C. K., Winn, J., & Zisserman, A. (2010). The pascal visual object classes (VOC) challenge. International Journal of Computer Vision, 88(2), 303\u2013338.","journal-title":"International Journal of Computer Vision"},{"key":"981_CR21","doi-asserted-by":"crossref","unstructured":"Fang, H., Gupta, S., Iandola, F., Srivastava, R.\u00a0K., Deng, L., Doll\u00e1r, P., et\u00a0al. (2015). From captions to visual concepts and back. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1473\u20131482).","DOI":"10.1109\/CVPR.2015.7298754"},{"key":"981_CR22","doi-asserted-by":"crossref","unstructured":"Farhadi, A., Endres, I., Hoiem, D., & Forsyth, D. (2009). Describing objects by their attributes. In IEEE conference on computer vision and pattern recognition, 2009 (CVPR 2009) (pp. 1778\u20131785). IEEE.","DOI":"10.1109\/CVPR.2009.5206772"},{"key":"981_CR23","doi-asserted-by":"crossref","unstructured":"Farhadi, A., Hejrati, M., Sadeghi, M.\u00a0A., Young, P., Rashtchian, C., Hockenmaier, J., et al. (2010). Every picture tells a story: Generating sentences from images. In Computer vision\u2013ECCV 2010 (pp. 15\u201329). Springer.","DOI":"10.1007\/978-3-642-15561-1_2"},{"issue":"1","key":"981_CR24","doi-asserted-by":"publisher","first-page":"59","DOI":"10.1016\/j.cviu.2005.09.012","volume":"106","author":"L Fei-Fei","year":"2007","unstructured":"Fei-Fei, L., Fergus, R., & Perona, P. (2007). Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. Computer Vision and Image Understanding, 106(1), 59\u201370.","journal-title":"Computer Vision and Image Understanding"},{"key":"981_CR25","unstructured":"Ferrari, V., & Zisserman, A. (2007). Learning visual attributes. In Advances in neural information processing systems (pp. 433\u2013440)."},{"issue":"3","key":"981_CR26","doi-asserted-by":"crossref","first-page":"59","DOI":"10.1609\/aimag.v31i3.2303","volume":"31","author":"D Ferrucci","year":"2010","unstructured":"Ferrucci, D., Brown, E., Chu-Carroll, J., Fan, J., Gondek, D., Kalyanpur, A. A., et al. (2010). Building watson: An overview of the deepqa project. AI Magazine, 31(3), 59\u201379.","journal-title":"AI Magazine"},{"key":"981_CR27","unstructured":"Firestone, C., & Scholl, B.\u00a0J. (2015). Cognition does not affect perception: Evaluating the evidence for top-down effects. Behavioral and brain sciences (pp. 1\u201372)."},{"issue":"1","key":"981_CR28","doi-asserted-by":"publisher","first-page":"85","DOI":"10.1016\/0004-3702(84)90038-9","volume":"24","author":"KD Forbus","year":"1984","unstructured":"Forbus, K. D. (1984). Qualitative process theory. Artificial Intelligence, 24(1), 85\u2013168.","journal-title":"Artificial Intelligence"},{"key":"981_CR29","unstructured":"Gao, H., Mao, J., Zhou, J., Huang, Z., Wang, L., & Xu, W. (2015). Are you talking to a machine? Dataset and methods for multilingual image question. In Advances in neural information processing systems (pp. 2296\u20132304)."},{"issue":"12","key":"981_CR30","doi-asserted-by":"crossref","first-page":"3618","DOI":"10.1073\/pnas.1422953112","volume":"112","author":"D Geman","year":"2015","unstructured":"Geman, D., Geman, S., Hallonquist, N., & Younes, L. (2015). Visual turing test for computer vision systems. Proceedings of the National Academy of Sciences, 112(12), 3618\u20133623.","journal-title":"Proceedings of the National Academy of Sciences"},{"key":"981_CR31","doi-asserted-by":"crossref","unstructured":"Girshick, R. (2015). Fast R-CNN. In Proceedings of the IEEE international conference on computer vision (pp. 1440\u20131448).","DOI":"10.1109\/ICCV.2015.169"},{"key":"981_CR32","doi-asserted-by":"crossref","unstructured":"Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In 2014 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 580\u2013587). IEEE.","DOI":"10.1109\/CVPR.2014.81"},{"key":"981_CR33","doi-asserted-by":"crossref","unstructured":"Goering, C., Rodner, E., Freytag, A., & Denzler, J. (2014). Nonparametric part transfer for fine-grained recognition. In 2014 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 2489\u20132496). IEEE.","DOI":"10.1109\/CVPR.2014.319"},{"key":"981_CR34","unstructured":"Griffin, G., Holub, A., & Perona, P. (2007). Caltech-256 object category dataset. Technical Report 7694."},{"key":"981_CR35","doi-asserted-by":"crossref","unstructured":"GuoDong, Z., Jian, S., Jie, Z., & Min, Z. (2005). Exploring various knowledge in relation extraction. In Proceedings of the 43rd annual meeting on association for computational linguistics (pp. 427\u2013434). Association for Computational Linguistics.","DOI":"10.3115\/1219840.1219893"},{"key":"981_CR36","doi-asserted-by":"crossref","unstructured":"Gupta, A., & Davis, L.\u00a0S. (2008). Beyond nouns: Exploiting prepositions and comparative adjectives for learning visual classifiers. In Computer vision\u2013ECCV 2008 (pp. 16\u201329). Springer.","DOI":"10.1007\/978-3-540-88682-2_3"},{"issue":"10","key":"981_CR37","doi-asserted-by":"publisher","first-page":"1775","DOI":"10.1109\/TPAMI.2009.83","volume":"31","author":"A Gupta","year":"2009","unstructured":"Gupta, A., Kembhavi, A., & Davis, L. S. (2009). Observing human\u2013object interactions: Using spatial and functional compatibility for recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 31(10), 1775\u20131789.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"981_CR38","unstructured":"Hayes, P.\u00a0J. (1978). The naive physics manifesto. Geneva: Institut pour les \u00e9tudes s\u00e9mantiques et cognitives\/Universit\u00e9 de Gen\u00e8ve."},{"key":"981_CR39","unstructured":"Hayes, P.\u00a0J. (1985). The second naive physics manifesto. Theories of the commonsense world (pp. 1\u201336)."},{"issue":"4","key":"981_CR40","doi-asserted-by":"publisher","first-page":"18","DOI":"10.1109\/5254.708428","volume":"13","author":"MA Hearst","year":"1998","unstructured":"Hearst, M. A., Dumais, S. T., Osman, E., Platt, J., & Scholkopf, B. (1998). Support vector machines. IEEE Intelligent Systems and their Applications, 13(4), 18\u201328.","journal-title":"IEEE Intelligent Systems and their Applications"},{"issue":"8","key":"981_CR41","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 9(8), 1735\u20131780.","journal-title":"Neural Computation"},{"issue":"1","key":"981_CR42","doi-asserted-by":"crossref","first-page":"853","DOI":"10.1613\/jair.3994","volume":"47","author":"M Hodosh","year":"2013","unstructured":"Hodosh, M., Young, P., & Hockenmaier, J. (2013). Framing image description as a ranking task: Data, models and evaluation metrics. Journal of Artificial Intelligence Research, 47(1), 853\u2013899.","journal-title":"Journal of Artificial Intelligence Research"},{"key":"981_CR43","doi-asserted-by":"crossref","unstructured":"Hou, C.-S.\u00a0J., Noy, N.\u00a0F., & Musen, M.\u00a0A. (2002). A template-based approach toward acquisition of logical sentences. In Intelligent information processing (pp. 77\u201389). Springer.","DOI":"10.1007\/978-0-387-35602-0_8"},{"key":"981_CR44","unstructured":"Huang, G.\u00a0B., Mattar, M., Berg, T., & Learned-Miller, E. (2008). Labeled faces in the wild: A database forstudying face recognition in unconstrained environments. In Workshop on faces in \u2019real-life\u2019 images: Detection, alignment, and recognition."},{"key":"981_CR45","doi-asserted-by":"crossref","unstructured":"Isola, P., Lim, J.\u00a0J., & Adelson, E.\u00a0H. (2015). Discovering states and transformations in image collections. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1383\u20131391).","DOI":"10.1109\/CVPR.2015.7298744"},{"key":"981_CR46","doi-asserted-by":"crossref","unstructured":"Izadinia, H., Sadeghi, F., & Farhadi, A. (2014). Incorporating scene context and object layout into appearance modeling. In 2014 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 232\u2013239). IEEE.","DOI":"10.1109\/CVPR.2014.37"},{"key":"981_CR47","doi-asserted-by":"crossref","unstructured":"Johnson, J., Krishna, R., Stark, M., Li, L.-J., Shamma, D.\u00a0A., Bernstein, M., et al. (2015). Image retrieval using scene graphs. In IEEE conference on computer vision and pattern recognition (CVPR).","DOI":"10.1109\/CVPR.2015.7298990"},{"key":"981_CR48","doi-asserted-by":"crossref","unstructured":"Karpathy, A., & Fei-Fei, L. (2015). Deep visual-semantic alignments for generating image descriptions. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3128\u20133137).","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"981_CR49","unstructured":"Kiros, R., Salakhutdinov, R., & Zemel, R. (2014). Multimodal neural language models. In Proceedings of the 31st international conference on machine learning (ICML-14) (pp. 595\u2013603)."},{"key":"981_CR50","doi-asserted-by":"crossref","unstructured":"Krishna, R., Hata, K., Chen, S., Kravitz, J., Shamma, D.\u00a0A., Fei-Fei, L., et al. (2016). Embracing error to enable rapid crowdsourcing. In CHI\u201916-SIGCHI conference on human factors in computing system.","DOI":"10.1145\/2858036.2858115"},{"key":"981_CR51","unstructured":"Krizhevsky, A., Sutskever, I., & Hinton, G.\u00a0E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems (pp. 1097\u20131105)."},{"key":"981_CR52","doi-asserted-by":"crossref","unstructured":"Lampert, C.\u00a0H., Nickisch, H., & Harmeling, S. (2009). Learning to detect unseen object classes by between-class attribute transfer. In IEEE conference on computer vision and pattern recognition, 2009 (CVPR 2009) (pp. 951\u2013958). IEEE.","DOI":"10.1109\/CVPR.2009.5206594"},{"issue":"1","key":"981_CR53","first-page":"147","volume":"24","author":"C Leacock","year":"1998","unstructured":"Leacock, C., Miller, G. A., & Chodorow, M. (1998). Using corpus statistics and wordnet relations for sense identification. Computational Linguistics, 24(1), 147\u2013165.","journal-title":"Computational Linguistics"},{"key":"981_CR54","unstructured":"Lebret, R., Pinheiro, P.\u00a0O., & Collobert, R. (2015). Phrase-based image captioning. \n                    arXiv:1502.03671\n                    \n                  ."},{"key":"981_CR55","doi-asserted-by":"crossref","unstructured":"Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., et al. (2014). Microsoft COCO: Common objects in context. In Computer vision\u2013ECCV 2014 (pp. 740\u2013755). Springer.","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"981_CR56","unstructured":"Lu, C., Krishna, R., Bernstein, M., & Fei-Fei, L. (2016). Visual relationship detection using language priors. In European conference on computer vision (ECCV). IEEE."},{"key":"981_CR57","unstructured":"Ma, L., Lu, Z., & Li, H. (2015). Learning to answer questions from image using convolutional neural network. \n                    arXiv:1506.00333\n                    \n                  ."},{"key":"981_CR58","unstructured":"Malinowski, M., & Fritz, M. (2014). A multi-world approach to question answering about real-world scenes based on uncertain input. In Advances in neural information processing systems (pp. 1682\u20131690)."},{"key":"981_CR59","doi-asserted-by":"crossref","unstructured":"Malinowski, M., Rohrbach, M., & Fritz, M. (2015). Ask your neurons: A neural-based approach to answering questions about images. In Proceedings of the IEEE international conference on computer vision (pp. 1\u20139).","DOI":"10.1109\/ICCV.2015.9"},{"key":"981_CR60","doi-asserted-by":"crossref","unstructured":"Malisiewicz, T., Efros, A., et\u00a0al. (2008). Recognition by association via learning per-exemplar distances. In IEEE conference on computer vision and pattern recognition, 2008 (CVPR 2008) (pp. 1\u20138). IEEE.","DOI":"10.1109\/CVPR.2008.4587462"},{"key":"981_CR61","unstructured":"Manning, C.\u00a0D., Surdeanu, M., Bauer, J., Finkel, J., Bethard, S.\u00a0J., & McClosky, D. (2014). The Stanford CoreNLP natural language processing toolkit. In Proceedings of 52nd annual meeting of the association for computational linguistics: system demonstrations (pp. 55\u201360)."},{"key":"981_CR62","unstructured":"Mao, J., Xu, W., Yang, Y., Wang, J., & Yuille, A.\u00a0L. (2014). Explain images with multimodal recurrent neural networks. \n                    arXiv:1410.1090\n                    \n                  ."},{"key":"981_CR63","unstructured":"Mihalcea, R., Chklovski, T. A., & Kilgarriff, A. (2004). The senseval-3 English lexical sample task. Association for Computational Linguistics, UNT Digital Library."},{"key":"981_CR64","unstructured":"Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. \n                    arXiv:1301.3781\n                    \n                  ."},{"issue":"11","key":"981_CR65","doi-asserted-by":"publisher","first-page":"39","DOI":"10.1145\/219717.219748","volume":"38","author":"GA Miller","year":"1995","unstructured":"Miller, G. A. (1995). Wordnet: a lexical database for english. Communications of the ACM, 38(11), 39\u201341.","journal-title":"Communications of the ACM"},{"issue":"3","key":"981_CR66","doi-asserted-by":"publisher","first-page":"42","DOI":"10.4018\/jswis.2012070103","volume":"8","author":"F Niu","year":"2012","unstructured":"Niu, F., Zhang, C., R\u00e9, C., & Shavlik, J. (2012). Elementary: Large-scale knowledge-base construction via machine learning and statistical inference. International Journal on Semantic Web and Information Systems (IJSWIS), 8(3), 42\u201373.","journal-title":"International Journal on Semantic Web and Information Systems (IJSWIS)"},{"key":"981_CR67","unstructured":"Ordonez, V., Kulkarni, G., & Berg, T.\u00a0L. (2011). Im2text: Describing images using 1 million captioned photographs. In J. Shawe-Taylor, R. Zemel, P. Bartlett, F. Pereira, & K. Weinberger (Eds.), Advances in neural information processing systems (Vol. 24, pp. 1143\u20131151). Red Hook: Curran Associates, Inc."},{"key":"981_CR68","unstructured":"Pal, A.\u00a0R., & Saha, D. (2015). Word sense disambiguation: A survey. \n                    arXiv:1508.01346\n                    \n                  ."},{"key":"981_CR69","unstructured":"Papineni, K., Roukos, S., Ward, T., & Zhu, W.-J. (2002). BLEU: A method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting on association for computational linguistics (pp. 311\u2013318). Association for Computational Linguistics."},{"issue":"1\u20132","key":"981_CR70","doi-asserted-by":"publisher","first-page":"59","DOI":"10.1007\/s11263-013-0695-z","volume":"108","author":"G Patterson","year":"2014","unstructured":"Patterson, G., Xu, C., Su, H., & Hays, J. (2014). The sun attribute database: Beyond categories for deeper scene understanding. International Journal of Computer Vision, 108(1\u20132), 59\u201381.","journal-title":"International Journal of Computer Vision"},{"key":"981_CR71","doi-asserted-by":"crossref","unstructured":"Perronnin, F., S\u00e1nchez, J., & Mensink, T. (2010). Improving the fisher kernel for large-scale image classification. In Computer vision\u2013ECCV 2010 (pp. 143\u2013156). Springer.","DOI":"10.1007\/978-3-642-15561-1_11"},{"issue":"3","key":"981_CR72","doi-asserted-by":"publisher","first-page":"601","DOI":"10.1109\/TPAMI.2011.158","volume":"34","author":"A Prest","year":"2012","unstructured":"Prest, A., Schmid, C., & Ferrari, V. (2012). Weakly supervised learning of interactions between humans and objects. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(3), 601\u2013614.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"981_CR73","doi-asserted-by":"crossref","unstructured":"Ramanathan, V., Li, C., Deng, J., Han, W., Li, Z., Gu, K., et al. (2015). Learning semantic relationships for better action retrieval in images. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1100\u20131109).","DOI":"10.1109\/CVPR.2015.7298713"},{"key":"981_CR74","unstructured":"Ren, M., Kiros, R., & Zemel, R. (2015a). Image question answering: A visual semantic embedding model and a new dataset. \n                    arXiv:1505.02074\n                    \n                  ."},{"key":"981_CR75","unstructured":"Ren, S., He, K., Girshick, R., & Sun, J. (2015b). Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems (pp. 91\u201399)."},{"key":"981_CR76","doi-asserted-by":"crossref","unstructured":"Ronchi, M.\u00a0R., & Perona, P. (2015). Describing common human visual actions in images. In X. Xie, M. W. Jones, & G. K. L. Tam (Eds.), Proceedings of the British machine vision conference (BMVC 2015) (pp. 52.1\u201352.12). BMVA Press.","DOI":"10.5244\/C.29.52"},{"key":"981_CR77","unstructured":"Rothe, S., & Sch\u00fctze, H. (2015). Autoextend: Extending word embeddings to embeddings for synsets and lexemes. \n                    arXiv:1507.01127\n                    \n                  ."},{"key":"981_CR78","doi-asserted-by":"crossref","unstructured":"Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., et al. (2015). ImageNet large scale visual recognition challenge. International journal of computer vision (IJCV) (pp. 1\u201342).","DOI":"10.1007\/s11263-015-0816-y"},{"issue":"1\u20133","key":"981_CR79","doi-asserted-by":"publisher","first-page":"157","DOI":"10.1007\/s11263-007-0090-8","volume":"77","author":"BC Russell","year":"2008","unstructured":"Russell, B. C., Torralba, A., Murphy, K. P., & Freeman, W. T. (2008). Labelme: A database and web-based tool for image annotation. International Journal of Computer Vision, 77(1\u20133), 157\u2013173.","journal-title":"International Journal of Computer Vision"},{"key":"981_CR80","doi-asserted-by":"crossref","unstructured":"Sadeghi, F., Divvala, S.\u00a0K., & Farhadi, A. (2015). Viske: Visual knowledge extraction and question answering by visual verification of relation phrases. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1456\u20131464).","DOI":"10.1109\/CVPR.2015.7298752"},{"key":"981_CR81","doi-asserted-by":"crossref","unstructured":"Sadeghi, M.\u00a0A., & Farhadi, A. (2011). Recognition using visual phrases. In 2011 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 1745\u20131752). IEEE.","DOI":"10.1109\/CVPR.2011.5995711"},{"key":"981_CR82","doi-asserted-by":"crossref","unstructured":"Salehi, N., Irani, L.\u00a0C., & Bernstein, M.\u00a0S. (2015). We are dynamo: Overcoming stalling and friction in collective action for crowd workers. In Proceedings of the 33rd annual ACM conference on human factors in computing systems (pp. 1621\u20131630). ACM.","DOI":"10.1145\/2702123.2702508"},{"key":"981_CR83","doi-asserted-by":"crossref","unstructured":"Schank, R.\u00a0C., & Abelson, R.\u00a0P. (2013). Scripts, plans, goals, and understanding: An inquiry into human knowledge structures. Hove: Psychology Press.","DOI":"10.4324\/9780203781036"},{"key":"981_CR84","unstructured":"Schuler, K.\u00a0K. (2005). VerbNet: A broad-coverage, comprehensive verb lexicon. Ph.D. thesis, University of Pennsylvania, Philadelphia, PA, USA (AAI3179808)."},{"key":"981_CR85","doi-asserted-by":"crossref","unstructured":"Schuster, S., Krishna, R., Chang, A., Fei-Fei, L., & Manning, C.\u00a0D. (2015). Generating semantically precise scene graphs from textual descriptions for improved image retrieval. In Proceedings of the fourth workshop on vision and language (pp. 70\u201380). Citeseer.","DOI":"10.18653\/v1\/W15-2812"},{"key":"981_CR86","unstructured":"Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., & LeCun, Y. (2013). Overfeat: Integrated recognition, localization and detection using convolutional networks. \n                    arXiv:1312.6229\n                    \n                  ."},{"key":"981_CR87","doi-asserted-by":"crossref","unstructured":"Silberman, N., Hoiem, D., Kohli, P., & Fergus, R. (2012). Indoor segmentation and support inference from RGBD images. In ECCV.","DOI":"10.1007\/978-3-642-33715-4_54"},{"key":"981_CR88","unstructured":"Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. \n                    arXiv:1409.1556\n                    \n                  ."},{"key":"981_CR89","doi-asserted-by":"crossref","unstructured":"Snow, R., O\u2019Connor, B., Jurafsky, D., & Ng, A.\u00a0Y. (2008). Cheap and fast\u2014But is it good?: Evaluating non-expert annotations for natural language tasks. In Proceedings of the conference on empirical methods in natural language processing (pp. 254\u2013263). Association for Computational Linguistics.","DOI":"10.3115\/1613715.1613751"},{"key":"981_CR90","unstructured":"Socher, R., Huval, B., Manning, C.\u00a0D., & Ng, A.\u00a0Y. (2012). Semantic compositionality through recursive matrix-vector spaces. In Proceedings of the 2012 joint conference on empirical methods in natural language processing and computational natural language learning (pp. 1201\u20131211). Association for Computational Linguistics."},{"key":"981_CR91","unstructured":"Steinbach, M., Karypis, G., Kumar, V., et\u00a0al. (2000). A comparison of document clustering techniques. In KDD workshop on text mining, Boston (Vol. 400, pp. 525\u2013526)."},{"key":"981_CR92","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., et al. (2015). Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1\u20139).","DOI":"10.1109\/CVPR.2015.7298594"},{"issue":"2","key":"981_CR93","doi-asserted-by":"publisher","first-page":"64","DOI":"10.1145\/2812802","volume":"59","author":"B Thomee","year":"2016","unstructured":"Thomee, B., Shamma, D. A., Friedland, G., Elizalde, B., Ni, K., Poland, D., et al. (2016). YFCC100M: The new data in multimedia research. Communications of the ACM, 59(2), 64\u201373.","journal-title":"Communications of the ACM"},{"issue":"11","key":"981_CR94","doi-asserted-by":"publisher","first-page":"1958","DOI":"10.1109\/TPAMI.2008.128","volume":"30","author":"A Torralba","year":"2008","unstructured":"Torralba, A., Fergus, R., & Freeman, W. T. (2008). 80 million tiny images: A large data set for nonparametric object and scene recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 30(11), 1958\u20131970.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"issue":"1\u20132","key":"981_CR95","doi-asserted-by":"publisher","first-page":"61","DOI":"10.1007\/s11263-005-4635-4","volume":"62","author":"M Varma","year":"2005","unstructured":"Varma, M., & Zisserman, A. (2005). A statistical approach to texture classification from single images. International Journal of Computer Vision, 62(1\u20132), 61\u201381.","journal-title":"International Journal of Computer Vision"},{"key":"981_CR96","doi-asserted-by":"crossref","unstructured":"Vedantam, R., Lawrence\u00a0Zitnick, C., & Parikh, D. (2015a). Cider: Consensus-based image description evaluation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4566\u20134575).","DOI":"10.1109\/CVPR.2015.7299087"},{"key":"981_CR97","doi-asserted-by":"crossref","unstructured":"Vedantam, R., Lin, X., Batra, T., Lawrence\u00a0Zitnick, C., & Parikh, D. (2015b). Learning common sense through visual abstraction. In Proceedings of the IEEE international conference on computer vision (pp. 2542\u20132550).","DOI":"10.1109\/ICCV.2015.292"},{"key":"981_CR98","doi-asserted-by":"crossref","unstructured":"Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and tell: A neural image caption generator. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3156\u20133164).","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"981_CR99","unstructured":"Wah, C., Branson, S., Welinder, P., Perona, P., & Belongie, S. (2011). The Caltech-UCSD birds-200-2011 dataset. Technical Report CNS-TR-2011-001, California Institute of Technology."},{"key":"981_CR100","doi-asserted-by":"crossref","unstructured":"Xiao, J., Hays, J., Ehinger, K., Oliva, A., Torralba, A., et\u00a0al. (2010). Sun database: Large-scale scene recognition from abbey to zoo. In 2010 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 3485\u20133492). IEEE.","DOI":"10.1109\/CVPR.2010.5539970"},{"key":"981_CR101","unstructured":"Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A.\u00a0C., Salakhutdinov, R., Zemel, R.\u00a0S., and Bengio, Y. (2015). Show, attend and tell: Neural image caption generation with visual attention. CoRR. \n                    arXiv:1502.03044\n                    \n                  ."},{"key":"981_CR102","doi-asserted-by":"crossref","unstructured":"Yang, Y., Baker, S., Kannan, A., & Ramanan, D. (2012). Recognizing proxemics in personal photos. In 2012 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 3522\u20133529). IEEE.","DOI":"10.1109\/CVPR.2012.6248095"},{"key":"981_CR103","doi-asserted-by":"crossref","unstructured":"Yao, B., & Fei-Fei, L. (2010). Modeling mutual context of object and human pose in human\u2013object interaction activities. In 2010 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 17\u201324). IEEE.","DOI":"10.1109\/CVPR.2010.5540235"},{"key":"981_CR104","doi-asserted-by":"crossref","unstructured":"Yao, B., Yang, X., & Zhu, S.-C. (2007). Introduction to a large-scale general purpose ground truth database: methodology, annotation tool and benchmarks. In Energy minimization methods in computer vision and pattern recognition (pp. 169\u2013183). Springer.","DOI":"10.1007\/978-3-540-74198-5_14"},{"key":"981_CR105","doi-asserted-by":"crossref","first-page":"67","DOI":"10.1162\/tacl_a_00166","volume":"2","author":"P Young","year":"2014","unstructured":"Young, P., Lai, A., Hodosh, M., & Hockenmaier, J. (2014). From image descriptions to visual denotations: New similarity metrics for semantic inference over event descriptions. Transactions of the Association for Computational Linguistics, 2, 67\u201378.","journal-title":"Transactions of the Association for Computational Linguistics"},{"key":"981_CR106","unstructured":"Yu, L., Park, E., Berg, A.\u00a0C., & Berg, T.\u00a0L. (2015). Visual madlibs: Fill in the blank image generation and question answering. \n                    arXiv:1506.00278\n                    \n                  ."},{"key":"981_CR107","unstructured":"Zeng, D., Liu, K., Lai, S., Zhou, G., & Zhao, J. (2014). Relation classification via convolutional deep neural network. In Proceedings of COLING (pp. 2335\u20132344)."},{"key":"981_CR108","unstructured":"Zhou, G., Zhang, M., Ji, D.\u00a0H., & Zhu, Q. (2007). Tree kernel-based relation extraction with context-sensitive structured parse tree information. In EMNLP-CoNLL 2007 (p. 728)."},{"key":"981_CR109","doi-asserted-by":"crossref","unstructured":"Zhu, J., Nie, Z., Liu, X., Zhang, B., & Wen, J.-R. (2009). Statsnowball: A statistical approach to extracting entity relationships. In Proceedings of the 18th international conference on world wide web (pp. 101\u2013110). ACM.","DOI":"10.1145\/1526709.1526724"},{"key":"981_CR110","doi-asserted-by":"crossref","unstructured":"Zhu, Y., Fathi, A., & Fei-Fei, L. (2014). Reasoning about object affordances in a knowledge base representation. In European conference on computer vision.","DOI":"10.1007\/978-3-319-10605-2_27"},{"key":"981_CR111","unstructured":"Zhu, Y., Zhang, C., R\u00e9, C., & Fei-Fei, L. (2015). Building a large-scale multimodal knowledge base system for answering visual queries. \n                    arXiv:1507.05670\n                    \n                  ."},{"key":"981_CR112","doi-asserted-by":"crossref","unstructured":"Zitnick, C.\u00a0L., & Parikh, D. (2013). Bringing semantics into focus using visual abstraction. In 2013 IEEE conference on computer vision and pattern recognition (CVPR) (pp. 3009\u20133016). IEEE.","DOI":"10.1109\/CVPR.2013.387"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-016-0981-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11263-016-0981-7\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-016-0981-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,5,17]],"date-time":"2020-05-17T07:14:37Z","timestamp":1589699677000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11263-016-0981-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,2,6]]},"references-count":112,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2017,5]]}},"alternative-id":["981"],"URL":"https:\/\/doi.org\/10.1007\/s11263-016-0981-7","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2017,2,6]]},"assertion":[{"value":"23 February 2016","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"12 September 2016","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"6 February 2017","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}