{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,17]],"date-time":"2026-04-17T09:01:05Z","timestamp":1776416465329,"version":"3.51.2"},"reference-count":102,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2015,4,11]],"date-time":"2015-04-11T00:00:00Z","timestamp":1428710400000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2015,12]]},"DOI":"10.1007\/s11263-015-0816-y","type":"journal-article","created":{"date-parts":[[2015,4,10]],"date-time":"2015-04-10T04:47:45Z","timestamp":1428641265000},"page":"211-252","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":29766,"title":["ImageNet Large Scale Visual Recognition Challenge"],"prefix":"10.1007","volume":"115","author":[{"given":"Olga","family":"Russakovsky","sequence":"first","affiliation":[]},{"given":"Jia","family":"Deng","sequence":"additional","affiliation":[]},{"given":"Hao","family":"Su","sequence":"additional","affiliation":[]},{"given":"Jonathan","family":"Krause","sequence":"additional","affiliation":[]},{"given":"Sanjeev","family":"Satheesh","sequence":"additional","affiliation":[]},{"given":"Sean","family":"Ma","sequence":"additional","affiliation":[]},{"given":"Zhiheng","family":"Huang","sequence":"additional","affiliation":[]},{"given":"Andrej","family":"Karpathy","sequence":"additional","affiliation":[]},{"given":"Aditya","family":"Khosla","sequence":"additional","affiliation":[]},{"given":"Michael","family":"Bernstein","sequence":"additional","affiliation":[]},{"given":"Alexander C.","family":"Berg","sequence":"additional","affiliation":[]},{"given":"Li","family":"Fei-Fei","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2015,4,11]]},"reference":[{"issue":"14","key":"816_CR1","doi-asserted-by":"crossref","first-page":"2037","DOI":"10.1109\/TPAMI.2006.244","volume":"28","author":"T Ahonen","year":"2006","unstructured":"Ahonen, T., Hadid, A., & Pietikinen, M. (2006). Face description with local binary patterns: Application to face recognition. Pattern Analysis and Machine Intelligence, 28(14), 2037\u20132041.","journal-title":"Pattern Analysis and Machine Intelligence"},{"issue":"11","key":"816_CR2","doi-asserted-by":"crossref","first-page":"2189","DOI":"10.1109\/TPAMI.2012.28","volume":"34","author":"B Alexe","year":"2012","unstructured":"Alexe, B., Deselares, T., & Ferrari, V. (2012). Measuring the objectness of image windows. IEEE Transactions on Pattern Analysis and Machine Intelligence, 34(11), 2189\u20132202.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"816_CR3","doi-asserted-by":"crossref","unstructured":"Arandjelovic, R., & Zisserman, A. (2012). Three things everyone should know to improve object retrieval. In CVPR.","DOI":"10.1109\/CVPR.2012.6248018"},{"key":"816_CR4","doi-asserted-by":"crossref","unstructured":"Arbel\u00e1ez, P., Pont-Tuset, J., Barron, J., Marques, F., & Malik, J. (2014). Multiscale combinatorial grouping. In Computer vision and pattern recognition.","DOI":"10.1109\/CVPR.2014.49"},{"key":"816_CR5","doi-asserted-by":"crossref","first-page":"898","DOI":"10.1109\/TPAMI.2010.161","volume":"33","author":"P Arbelaez","year":"2011","unstructured":"Arbelaez, P., Maire, M., Fowlkes, C., & Malik, J. (2011). Contour detection and hierarchical image segmentation. IEEE Transaction on Pattern Analysis and Machine Intelligence, 33, 898\u2013916.","journal-title":"IEEE Transaction on Pattern Analysis and Machine Intelligence"},{"key":"816_CR6","unstructured":"Batra, D., Agrawal, H., Banik, P., Chavali, N., Mathialagan, C. S., & Alfadda, A. (2013). Cloudcv: Large-scale distributed computer vision as a cloud service."},{"key":"816_CR7","doi-asserted-by":"crossref","unstructured":"Bell, S., Upchurch, P., Snavely, N., & Bala, K. (2013). OpenSurfaces: A richly annotated catalog of surface appearance. In ACM transactions on graphics (SIGGRAPH).","DOI":"10.1145\/2461912.2462002"},{"key":"816_CR8","unstructured":"Berg, A., Farrell, R., Khosla, A., Krause, J., Fei-Fei, L., Li, J., & Maji, S. (2013). Fine-grained competition. https:\/\/sites.google.com\/site\/fgcomp2013\/ ."},{"key":"816_CR9","doi-asserted-by":"crossref","unstructured":"Chatfield, K., Simonyan, K., Vedaldi, A., & Zisserman, A. (2014). Return of the devil in the details: Delving deep into convolutional nets. CoRR, abs\/1405.3531.","DOI":"10.5244\/C.28.6"},{"key":"816_CR10","unstructured":"Chen, Q., Song, Z., Huang, Z., Hua, Y., & Yan, S. (2014). Contextualizing object detection and classification. In CVPR."},{"key":"816_CR11","first-page":"551","volume":"7","author":"K Crammer","year":"2006","unstructured":"Crammer, K., Dekel, O., Keshet, J., Shalev-Shwartz, S., & Singer, Y. (2006). Online passive-aggressive algorithms. Journal of Machine Learning Research, 7, 551\u2013585.","journal-title":"Journal of Machine Learning Research"},{"key":"816_CR12","unstructured":"Criminisi, A. (2004). Microsoft Research Cambridge (MSRC) object recognition image database (version 2.0). http:\/\/research.microsoft.com\/vision\/cambridge\/recognition ."},{"key":"816_CR13","doi-asserted-by":"crossref","unstructured":"Dean, T., Ruzon, M., Segal, M., Shlens, J., Vijayanarasimhan, S., & Yagnik, J. (2013). Fast, accurate detection of 100,000 object classes on a single machine. In CVPR.","DOI":"10.1109\/CVPR.2013.237"},{"key":"816_CR14","doi-asserted-by":"crossref","unstructured":"Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei-Fei, L. (2009). ImageNet: A large-scale hierarchical image database. In CVPR.","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"816_CR15","doi-asserted-by":"crossref","unstructured":"Deng, J., Russakovsky, O., Krause, J., Bernstein, M., Berg, A. C., & Fei-Fei, L. (2014). Scalable multi-label annotation. In CHI.","DOI":"10.1145\/2556288.2557011"},{"key":"816_CR16","unstructured":"Donahue, J., Jia, Y., Vinyals, O., Hoffman, J., Zhang, N., Tzeng, E., & Darrell, T. (2013). Decaf: A deep convolutional activation feature for generic visual recognition. CoRR, abs\/1310.1531."},{"key":"816_CR17","doi-asserted-by":"crossref","unstructured":"Dubout, C., & Fleuret, F. (2012). Exact acceleration of linear object detectors. In Proceedings of the European conference on computer vision (ECCV).","DOI":"10.1007\/978-3-642-33712-3_22"},{"key":"816_CR18","unstructured":"Everingham, M., Gool, L. V., Williams, C., Winn, J., & Zisserman, A. (2005\u20132012). PASCAL Visual Object Classes Challenge (VOC). http:\/\/www.pascal-network.org\/challenges\/VOC\/voc2012\/workshop\/index.html ."},{"issue":"2","key":"816_CR19","doi-asserted-by":"crossref","first-page":"303","DOI":"10.1007\/s11263-009-0275-4","volume":"88","author":"M Everingham","year":"2010","unstructured":"Everingham, M., Van Gool, L., Williams, C. K. I., Winn, J., & Zisserman, A. (2010). The Pascal Visual Object Classes (VOC) challenge. International Journal of Computer Vision, 88(2), 303\u2013338.","journal-title":"International Journal of Computer Vision"},{"key":"816_CR20","doi-asserted-by":"crossref","first-page":"98","DOI":"10.1007\/s11263-014-0733-5","volume":"111","author":"M Everingham","year":"2014","unstructured":"Everingham, M., Eslami, S. M. A., Van Gool, L., Williams, C. K. I., Winn, J., & Zisserman, A. (2014). The Pascal Visual Object Classes (VOC) challenge\u2014A retrospective. International Journal of Computer Vision, 111, 98\u2013136.","journal-title":"International Journal of Computer Vision"},{"key":"816_CR21","doi-asserted-by":"crossref","unstructured":"Fei-Fei, L., & Perona, P. (2005). A Bayesian hierarchical model for learning natural scene categories. In CVPR.","DOI":"10.1109\/CVPR.2005.16"},{"key":"816_CR22","doi-asserted-by":"crossref","unstructured":"Fei-Fei, L., Fergus, R., & Perona, P. (2004). Learning generative visual models from few examples: An incremental bayesian approach tested on 101 object categories. In CVPR.","DOI":"10.1109\/CVPR.2004.383"},{"issue":"9","key":"816_CR23","doi-asserted-by":"crossref","first-page":"1627","DOI":"10.1109\/TPAMI.2009.167","volume":"32","author":"P Felzenszwalb","year":"2010","unstructured":"Felzenszwalb, P., Girshick, R., McAllester, D., & Ramanan, D. (2010). Object detection with discriminatively trained part based models. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(9), 1627\u20131645.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"816_CR24","unstructured":"Frome, A., Corrado, G., Shlens, J., Bengio, S., Dean, J., Ranzato, M., & Mikolov, T. (2013). Devise: A deep visual-semantic embedding model. In Advances in neural information processing systems, NIPS."},{"key":"816_CR25","doi-asserted-by":"crossref","first-page":"1231","DOI":"10.1177\/0278364913491297","volume":"32","author":"A Geiger","year":"2013","unstructured":"Geiger, A., Lenz, P., Stiller, C., & Urtasun, R. (2013). Vision meets robotics: The kitti dataset. International Journal of Robotics Research, 32, 1231\u20131237.","journal-title":"International Journal of Robotics Research"},{"key":"816_CR26","unstructured":"Girshick, R. B., Donahue, J., Darrell, T., & Malik, J. (2013). Rich feature hierarchies for accurate object detection and semantic segmentation (v4). CoRR."},{"key":"816_CR27","doi-asserted-by":"crossref","unstructured":"Girshick, R., Donahue, J., Darrell, T., & Malik., J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR.","DOI":"10.1109\/CVPR.2014.81"},{"key":"816_CR28","doi-asserted-by":"crossref","unstructured":"Gould, S., Fulton, R., & Koller, D. (2009). Decomposing a scene into geometric and semantically consistent regions. In ICCV.","DOI":"10.1109\/ICCV.2009.5459211"},{"key":"816_CR29","unstructured":"Graham, B. (2013). Sparse arrays of signatures for online character recognition. CoRR."},{"key":"816_CR30","unstructured":"Griffin, G., Holub, A., & Perona, P. (2007). Caltech-256 object category dataset. Technical report 7694, Caltech."},{"key":"816_CR31","unstructured":"Harada, T., & Kuniyoshi, Y. (2012). Graphical Gaussian vector for image categorization. In NIPS."},{"key":"816_CR32","doi-asserted-by":"crossref","unstructured":"Harel, J., Koch, C., & Perona, P. (2007). Graph-based visual saliency. In NIPS.","DOI":"10.7551\/mitpress\/7503.003.0073"},{"key":"816_CR33","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., & Su, J. (2014). Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV.","DOI":"10.1007\/978-3-319-10578-9_23"},{"key":"816_CR34","unstructured":"Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., & Salakhutdinov, R. (2012). Improving neural networks by preventing co-adaptation of feature detectors. CoRR, abs\/1207.0580."},{"key":"816_CR35","doi-asserted-by":"crossref","unstructured":"Hoiem, D., Chodpathumwan, Y., & Dai, Q. (2012). Diagnosing error in object detectors. In ECCV.","DOI":"10.1007\/978-3-642-33712-3_25"},{"key":"816_CR36","unstructured":"Howard, A. (2014). Some improvements on deep convolutional neural network based image classification. In ICLR."},{"key":"816_CR37","unstructured":"Huang, G. B., Ramesh, M., Berg, T., & Learned-Miller, E. (2007). Labeled faces in the wild: A database for studying face recognition in unconstrained environments. Technical report 07\u201349, University of Massachusetts, Amherst."},{"key":"816_CR38","unstructured":"Iandola, F. N., Moskewicz, M. W., Karayev, S., Girshick, R. B., Darrell, T., & Keutzer, K. (2014). Densenet: Implementing efficient convnet descriptor pyramids. CoRR."},{"key":"816_CR39","unstructured":"Jia, Y. (2013). Caffe: An open source convolutional architecture for fast feature embedding. http:\/\/caffe.berkeleyvision.org\/ ."},{"key":"816_CR40","doi-asserted-by":"crossref","unstructured":"Jojic, N., Frey, B. J., & Kannan, A. (2003). Epitomic analysis of appearance and shape. In ICCV.","DOI":"10.1109\/ICCV.2003.1238311"},{"key":"816_CR41","doi-asserted-by":"crossref","unstructured":"Kanezaki, A., Inaba, S., Ushiku, Y., Yamashita, Y., Muraoka, H., Kuniyoshi, Y., & Harada, T. (2014). Hard negative classes for multiple object detection. In ICRA.","DOI":"10.1109\/ICRA.2014.6907300"},{"key":"816_CR42","unstructured":"Khosla, A., Jayadevaprakash, N., Yao, B., & Fei-Fei, L. (2011). Novel dataset for fine-grained image categorization. In First workshop on fine-grained visual categorization, CVPR."},{"key":"816_CR43","unstructured":"Krizhevsky, A., Sutskever, I., & Hinton, G. (2012). ImageNet classification with deep convolutional neural networks. In NIPS."},{"key":"816_CR44","doi-asserted-by":"crossref","unstructured":"Kuettel, D., Guillaumin, M., & Ferrari, V. (2012). Segmentation propagation in ImageNet. In ECCV.","DOI":"10.1007\/978-3-642-33786-4_34"},{"key":"816_CR45","doi-asserted-by":"crossref","unstructured":"Lazebnik, S., Schmid, C., & Ponce, J. (2006). Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories. In CVPR.","DOI":"10.1109\/CVPR.2006.68"},{"key":"816_CR46","unstructured":"Lin, M., Chen, Q., & Yan, S. (2014a). Network in network. In ICLR."},{"key":"816_CR47","doi-asserted-by":"crossref","unstructured":"Lin, Y., Lv, F., Cao, L., Zhu, S., Yang, M., Cour, T., Yu, K., & Huang, T. (2011). Large-scale image classification: Fast feature extraction and SVM training. In CVPR.","DOI":"10.1109\/CVPR.2011.5995477"},{"key":"816_CR48","doi-asserted-by":"crossref","unstructured":"Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollr, P., & Zitnick, C. L. (2014b). Microsoft COCO: Common objects in context. In ECCV.","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"816_CR49","doi-asserted-by":"crossref","first-page":"2368","DOI":"10.1109\/TPAMI.2011.131","volume":"32","author":"C Liu","year":"2011","unstructured":"Liu, C., Yuen, J., & Torralba, A. (2011). Nonparametric scene parsing via label transfer. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32, 2368\u20132382.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"issue":"2","key":"816_CR50","doi-asserted-by":"crossref","first-page":"91","DOI":"10.1023\/B:VISI.0000029664.99615.94","volume":"60","author":"DG Lowe","year":"2004","unstructured":"Lowe, D. G. (2004). Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2), 91\u2013110.","journal-title":"International Journal of Computer Vision"},{"key":"816_CR51","doi-asserted-by":"crossref","unstructured":"Maji, S., & Malik, J. (2009). Object detection using a max-margin hough transform. In CVPR.","DOI":"10.1109\/CVPR.2009.5206693"},{"key":"816_CR52","doi-asserted-by":"crossref","unstructured":"Manen, S., Guillaumin, M., & Van Gool, L. (2013). Prime object proposals with randomized Prim\u2019s algorithm. In ICCV.","DOI":"10.1109\/ICCV.2013.315"},{"key":"816_CR53","doi-asserted-by":"crossref","unstructured":"Mensink, T., Verbeek, J., Perronnin, F., & Csurka, G. (2012). Metric learning for large scale image classification: Generalizing to new classes at near-zero cost. In ECCV.","DOI":"10.1007\/978-3-642-33709-3_35"},{"key":"816_CR54","unstructured":"Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. In ICLR."},{"issue":"11","key":"816_CR55","doi-asserted-by":"crossref","first-page":"39","DOI":"10.1145\/219717.219748","volume":"38","author":"GA Miller","year":"1995","unstructured":"Miller, G. A. (1995). Wordnet: A lexical database for English. Commun. ACM, 38(11), 39\u201341.","journal-title":"Commun. ACM"},{"key":"816_CR56","doi-asserted-by":"crossref","unstructured":"Oliva, A., & Torralba, A. (2001). Modeling the shape of the scene: A holistic representation of the spatial envelope. In IJCV.","DOI":"10.1023\/A:1011139631724"},{"key":"816_CR57","doi-asserted-by":"crossref","unstructured":"Ordonez, V., Deng, J., Choi, Y., Berg, A. C., & Berg, T. L. (2013). From large scale image categorization to entry-level categories. In IEEE international conference on computer vision (ICCV).","DOI":"10.1109\/ICCV.2013.344"},{"key":"816_CR58","doi-asserted-by":"crossref","unstructured":"Ouyang, W., & Wang, X. (2013). Joint deep learning for pedestrian detection. In ICCV.","DOI":"10.1109\/ICCV.2013.257"},{"key":"816_CR59","unstructured":"Ouyang, W., Luo, P., Zeng, X., Qiu, S., Tian, Y., Li, H., Yang, S., Wang, Z., Xiong, Y., Qian, C., Zhu, Z., Wang, R., Loy, C. C., Wang, X., & Tang, X. (2014). Deepid-net: multi-stage and deformable deep convolutional neural networks for object detection. CoRR, abs\/1409.3505."},{"key":"816_CR60","unstructured":"Papandreou, G. (2014). Deep epitomic convolutional neural networks. CoRR."},{"key":"816_CR61","doi-asserted-by":"crossref","unstructured":"Papandreou, G., Chen, L.-C., & Yuille, A. L. (2014). Modeling image patches with a generic dictionary of mini-epitomes.","DOI":"10.1109\/CVPR.2014.264"},{"key":"816_CR62","doi-asserted-by":"crossref","unstructured":"Perronnin, F., & Dance, C. R. (2007). Fisher kernels on visual vocabularies for image categorization. In CVPR.","DOI":"10.1109\/CVPR.2007.383266"},{"key":"816_CR63","doi-asserted-by":"crossref","unstructured":"Perronnin, F., Akata, Z., Harchaoui, Z., & Schmid, C. (2012). Towards good practice in large-scale learning for image classification. In CVPR.","DOI":"10.1109\/CVPR.2012.6248090"},{"key":"816_CR64","doi-asserted-by":"crossref","unstructured":"Perronnin, F., S\u00e1nchez, J., & Mensink, T. (2010). Improving the fisher kernel for large-scale image classification. In ECCV (4).","DOI":"10.1007\/978-3-642-15561-1_11"},{"key":"816_CR65","doi-asserted-by":"crossref","unstructured":"Russakovsky, O., Deng, J., Huang, Z., Berg, A., & Fei-Fei, L. (2013). Detecting avocados to zucchinis: What have we done, & where are we going? In ICCV.","DOI":"10.1109\/ICCV.2013.258"},{"key":"816_CR66","unstructured":"Russell, B., Torralba, A., Murphy, K., & Freeman, W. T. (2007). LabelMe: A database and web-based tool for image annotation. In IJCV."},{"key":"816_CR67","unstructured":"Sanchez, J., & Perronnin, F. (2011). High-dim. signature compression for large-scale image classification. In CVPR."},{"key":"816_CR68","doi-asserted-by":"crossref","unstructured":"Sanchez, J., Perronnin, F., & de Campos, T. (2012). Modeling spatial layout of images beyond spatial pyramids. In PRL.","DOI":"10.1016\/j.patrec.2012.07.019"},{"key":"816_CR69","doi-asserted-by":"crossref","unstructured":"Scheirer, W., Kumar, N., Belhumeur, P. N., & Boult, T. E. (2012). Multi-attribute spaces: Calibration for attribute fusion and similarity search. In CVPR.","DOI":"10.1109\/CVPR.2012.6248021"},{"key":"816_CR70","unstructured":"Schmidhuber, J. (2012). Multi-column deep neural networks for image classification. In CVPR."},{"key":"816_CR71","unstructured":"Sermanet, P., Eigen, D., Zhang, X., Mathieu, M., Fergus, R., & LeCun, Y. (2013). Overfeat: Integrated recognition, localization and detection using convolutional networks. CoRR, abs\/1312.6229."},{"key":"816_CR72","doi-asserted-by":"crossref","unstructured":"Sheng, V. S., Provost, F., & Ipeirotis, P. G. (2008). Get another label? Improving data quality and data mining using multiple, noisy labelers. In SIGKDD.","DOI":"10.1145\/1401890.1401965"},{"key":"816_CR73","unstructured":"Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. CoRR, abs\/1409.1556."},{"key":"816_CR74","unstructured":"Simonyan, K., Vedaldi, A., & Zisserman, A. (2013). Deep fisher networks for large-scale image classification. In NIPS."},{"key":"816_CR75","doi-asserted-by":"crossref","unstructured":"Sorokin, A., & Forsyth, D. (2008). Utility data annotation with Amazon Mechanical Turk. In InterNet08.","DOI":"10.1109\/CVPRW.2008.4562953"},{"key":"816_CR76","unstructured":"Su, H., Deng, J., & Fei-Fei, L. (2012). Crowdsourcing annotations for visual object detection. In AAAI human computation workshop."},{"key":"816_CR77","unstructured":"Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., & Rabinovich, A. (2014). Going deeper with convolutions. Technical report."},{"key":"816_CR78","unstructured":"Tang, Y. (2013). Deep learning using support vector machines. CoRR, abs\/1306.0239."},{"issue":"6582","key":"816_CR79","doi-asserted-by":"crossref","first-page":"520","DOI":"10.1038\/381520a0","volume":"381","author":"S Thorpe","year":"1996","unstructured":"Thorpe, S., Fize, D., Marlot, C., et al. (1996). Speed of processing in the human visual system. Nature, 381(6582), 520\u2013522.","journal-title":"Nature"},{"key":"816_CR80","doi-asserted-by":"crossref","unstructured":"Torralba, A., & Efros, A. A. (2011). Unbiased look at dataset bias. In CVPR\u201911.","DOI":"10.1109\/CVPR.2011.5995347"},{"key":"816_CR81","doi-asserted-by":"crossref","first-page":"1958","DOI":"10.1109\/TPAMI.2008.128","volume":"30","author":"A Torralba","year":"2008","unstructured":"Torralba, A., Fergus, R., & Freeman, W. (2008). 80 million tiny images: A large data set for nonparametric object and scene recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 30, 1958\u20131970.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"816_CR82","doi-asserted-by":"crossref","first-page":"154","DOI":"10.1007\/s11263-013-0620-5","volume":"104","author":"J Uijlings","year":"2013","unstructured":"Uijlings, J., van de Sande, K., Gevers, T., & Smeulders, A. (2013). Selective search for object recognition. International Journal of Computer Vision, 104, 154\u2013171.","journal-title":"International Journal of Computer Vision"},{"key":"816_CR83","unstructured":"Urtasun, R., Fergus, R., Hoiem, D., Torralba, A., Geiger, A., Lenz, P., Silberman, N., Xiao, J., & Fidler, S. (2013\u20132014). Reconstruction meets recognition challenge. http:\/\/ttic.uchicago.edu\/rurtasun\/rmrc\/ ."},{"key":"816_CR84","doi-asserted-by":"crossref","unstructured":"van de Sande, K. E. A., Snoek, C. G. M., & Smeulders, A. W. M. (2014). Fisher and vlad with flair. In Proceedings of the IEEE conference on computer vision and pattern recognition.","DOI":"10.1109\/CVPR.2014.304"},{"key":"816_CR85","doi-asserted-by":"crossref","unstructured":"van de Sande, K. E. A., Uijlings, J. R. R., Gevers, T., & Smeulders, A. W. M. (2011b). Segmentation as selective search for object recognition. In ICCV.","DOI":"10.1109\/ICCV.2011.6126456"},{"issue":"9","key":"816_CR86","doi-asserted-by":"crossref","first-page":"1582","DOI":"10.1109\/TPAMI.2009.154","volume":"32","author":"KEA Sande van de","year":"2010","unstructured":"van de Sande, K. E. A., Gevers, T., & Snoek, C. G. M. (2010). Evaluating color descriptors for object and scene recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 32(9), 1582\u20131596.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"issue":"1","key":"816_CR87","doi-asserted-by":"crossref","first-page":"60","DOI":"10.1109\/TMM.2010.2091400","volume":"13","author":"KEA Sande van de","year":"2011","unstructured":"van de Sande, K. E. A., Gevers, T., & Snoek, C. G. M. (2011a). Empowering visual categorization with the GPU. IEEE Transactions on Multimedia, 13(1), 60\u201370.","journal-title":"IEEE Transactions on Multimedia"},{"key":"816_CR88","doi-asserted-by":"crossref","unstructured":"Vittayakorn, S., & Hays, J. (2011). Quality assessment for crowdsourced object annotations. In BMVC.","DOI":"10.5244\/C.25.109"},{"key":"816_CR89","unstructured":"von Ahn, L., & Dabbish, L. (2005). Esp: Labeling images with a computer game. In AAAI spring symposium: Knowledge collection from volunteer contributors."},{"key":"816_CR90","first-page":"184","volume":"1010","author":"C Vondrick","year":"2012","unstructured":"Vondrick, C., Patterson, D., & Ramanan, D. (2012). Efficiently scaling up crowdsourced video annotation. International Journal of Computer Vision, 1010, 184\u2013204.","journal-title":"International Journal of Computer Vision"},{"key":"816_CR91","unstructured":"Wan, L., Zeiler, M., Zhang, S., LeCun, Y., & Fergus, R. (2013). Regularization of neural networks using dropconnect. In Proceedings of the international conference on machine learning (ICML\u201913)."},{"key":"816_CR92","unstructured":"Wang, M., Xiao, T., Li, J., Hong, C., Zhang, J., & Zhang, Z. (2014). Minerva: A scalable and highly efficient training platform for deep learning. In APSys."},{"key":"816_CR93","doi-asserted-by":"crossref","unstructured":"Wang, J., Yang, J., Yu, K., Lv, F., Huang, T., & Gong, Y. (2010). Locality-constrained linear coding for image classification. In CVPR.","DOI":"10.1109\/CVPR.2010.5540018"},{"key":"816_CR94","doi-asserted-by":"crossref","unstructured":"Wang, X., Yang, M., Zhu, S., & Lin, Y. (2013). Regionlets for generic object detection. In ICCV.","DOI":"10.1109\/ICCV.2013.10"},{"key":"816_CR95","unstructured":"Welinder, P., Branson, S., Belongie, S., & Perona, P. (2010). The multidimensional wisdom of crowds. In NIPS."},{"key":"816_CR96","doi-asserted-by":"crossref","unstructured":"Xiao, J., Hays, J., Ehinger, K., Oliva, A., & Torralba., A. (2010). SUN database: Large-scale scene recognition from Abbey to Zoo. In CVPR.","DOI":"10.1109\/CVPR.2010.5539970"},{"key":"816_CR97","unstructured":"Yang, J., Yu, K., Gong, Y., & Huang, T. (2009). Linear spatial pyramid matching using sparse coding for image classification. In CVPR."},{"key":"816_CR98","volume-title":"Introduction to a large scale general purpose ground truth dataset: methodology, annotation tool, and benchmarks","author":"B Yao","year":"2007","unstructured":"Yao, B., Yang, X., & Zhu, S.-C. (2007). Introduction to a large scale general purpose ground truth dataset: methodology, annotation tool, and benchmarks. Berlin: Springer."},{"key":"816_CR99","unstructured":"Zeiler, M. D., & Fergus, R. (2013). Visualizing and understanding convolutional networks. CoRR, abs\/1311.2901."},{"key":"816_CR100","doi-asserted-by":"crossref","unstructured":"Zeiler, M. D., Taylor, G. W., & Fergus, R. (2011). Adaptive deconvolutional networks for mid and high level feature learning. In ICCV.","DOI":"10.1109\/ICCV.2011.6126474"},{"key":"816_CR101","unstructured":"Zhou, B., Lapedriza, A., Xiao, J., Torralba, A., & Oliva, A. (2014). Learning deep features for scene recognition using places database. In NIPS."},{"key":"816_CR102","doi-asserted-by":"crossref","unstructured":"Zhou, X., Yu, K., Zhang, T., & Huang, T. (2010). Image classification using super-vector coding of local image descriptors. In ECCV.","DOI":"10.1007\/978-3-642-15555-0_11"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-015-0816-y.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11263-015-0816-y\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-015-0816-y","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,8,9]],"date-time":"2023-08-09T10:00:30Z","timestamp":1691575230000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11263-015-0816-y"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015,4,11]]},"references-count":102,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2015,12]]}},"alternative-id":["816"],"URL":"https:\/\/doi.org\/10.1007\/s11263-015-0816-y","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2015,4,11]]}}}