{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,18]],"date-time":"2026-05-18T22:45:45Z","timestamp":1779144345205,"version":"3.51.4"},"reference-count":74,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2017,6,5]],"date-time":"2017-06-05T00:00:00Z","timestamp":1496620800000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2017,9]]},"DOI":"10.1007\/s11263-017-1016-8","type":"journal-article","created":{"date-parts":[[2017,6,5]],"date-time":"2017-06-05T11:20:02Z","timestamp":1496661602000},"page":"237-254","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":421,"title":["End-to-End Learning of Deep Visual Representations for Image Retrieval"],"prefix":"10.1007","volume":"124","author":[{"given":"Albert","family":"Gordo","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jon","family":"Almaz\u00e1n","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jerome","family":"Revaud","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Diane","family":"Larlus","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2017,6,5]]},"reference":[{"key":"1016_CR1","doi-asserted-by":"crossref","unstructured":"Antol, S., Agrawal, A., Lu, J., Mitchell, M., Batra, D., Zitnick, C. L., et al. (2015). Vqa: Visual question answering. In ICCV.","DOI":"10.1109\/ICCV.2015.279"},{"key":"1016_CR2","doi-asserted-by":"crossref","unstructured":"Arandjelovic, R., & Zisserman, A. (2012). Three things everyone should know to improve object retrieval. In CVPR.","DOI":"10.1109\/CVPR.2012.6248018"},{"key":"1016_CR3","doi-asserted-by":"crossref","unstructured":"Arandjelovic, R., Gronat, P., Torii, A., Pajdla, T., & Sivic, J. (2016). NetVLAD: CNN architecture for weakly supervised place recognition. In CVPR.","DOI":"10.1109\/CVPR.2016.572"},{"key":"1016_CR4","unstructured":"Azizpour, H., Razavian, A., Sullivan, J., Maki, A., & Carlsson, S. (2015). Factors of transferability for a generic convnet representation. IEEE Transactions on Pattern Analysis and Machine Intelligence, (99):1\u20131."},{"key":"1016_CR5","unstructured":"Babenko, A., & Lempitsky, V. S. (2015). Aggregating deep convolutional features for image retrieval. In ICCV."},{"key":"1016_CR6","doi-asserted-by":"crossref","unstructured":"Babenko, A., Slesarev, A., Chigorin, A., & Lempitsky, V. S. (2014). Neural codes for image retrieval. In ECCV.","DOI":"10.1007\/978-3-319-10590-1_38"},{"key":"1016_CR7","doi-asserted-by":"crossref","unstructured":"Chopra, S., Hadsell, R., & Lecun, Y. (2005). Learning a similarity metric discriminatively, with application to face verification. In Proceedings of computer vision and pattern recognition conference.","DOI":"10.1109\/CVPR.2005.202"},{"key":"1016_CR8","doi-asserted-by":"crossref","unstructured":"Chum, O., Philbin, J., Sivic, J., Isard, M., & Zisserman, A. (2007). Total recall: Automatic query expansion with a generative feature model for object retrieval. In ICCV.","DOI":"10.1109\/ICCV.2007.4408891"},{"key":"1016_CR9","doi-asserted-by":"crossref","unstructured":"Chum, O., Mikulik, A., Perdoch, M., & Matas, J. (2011). Total recall II: Query expansion revisited. In CVPR.","DOI":"10.1109\/CVPR.2011.5995601"},{"key":"1016_CR10","unstructured":"Danfeng, Q., Gammeter, S., Bossard, L., Quack, T., & Van Gool, L. (2011). Hello neighbor: Accurate object retrieval with k-reciprocal nearest neighbors. In CVPR."},{"key":"1016_CR11","doi-asserted-by":"crossref","unstructured":"Deng, C., Ji, R., Liu, W., Tao, D., & Gao, X. (2013). Visual reranking through weakly supervised multi-graph learning. In ICCV.","DOI":"10.1109\/ICCV.2013.323"},{"key":"1016_CR12","doi-asserted-by":"crossref","unstructured":"Deng, J., Dong, W., Socher, R., Li, LJ., Li, K., & Fei-Fei, L. (2009). ImageNet: A large-scale hierarchical image database. In CVPR.","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"1016_CR13","doi-asserted-by":"crossref","unstructured":"Douze, M., Jegou, H., & Perronnin, F. (2016). Polysemous codes. In ECCV.","DOI":"10.1007\/978-3-319-46475-6_48"},{"key":"1016_CR14","unstructured":"Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Ranzato, M. A., & Mikolov, T. (2013). Devise: A deep visual-semantic embedding model. In NIPS."},{"key":"1016_CR15","doi-asserted-by":"crossref","unstructured":"Girshick, R. (2015). Fast R-CNN. In CVPR.","DOI":"10.1109\/ICCV.2015.169"},{"key":"1016_CR16","doi-asserted-by":"crossref","unstructured":"Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In CVPR.","DOI":"10.1109\/CVPR.2014.81"},{"key":"1016_CR17","doi-asserted-by":"crossref","unstructured":"Gong, Y., Wang, L., Guo, R., & Lazebnik, S. (2014). Multi-scale orderless pooling of deep convolutional activation features. In ECCV.","DOI":"10.1007\/978-3-319-10584-0_26"},{"key":"1016_CR18","doi-asserted-by":"crossref","unstructured":"Gordo, A., Rodr\u00edguez-Serrano, J. A., Perronnin, F., & Valveny, E. (2012). Leveraging category-level labels for instance-level image retrieval. In CVPR.","DOI":"10.1109\/CVPR.2012.6248035"},{"key":"1016_CR19","doi-asserted-by":"crossref","unstructured":"Gordo, A., Almaz\u00e1n, J., Revaud, J., & Larlus, D. (2016). Deep image retrieval: Learning global representations for image search. In ECCV.","DOI":"10.1007\/978-3-319-46466-4_15"},{"key":"1016_CR20","doi-asserted-by":"crossref","unstructured":"Hadsell, R., Chopra, S., & Lecun, Y. (2006). Dimensionality reduction by learning an invariant mapping. In CVPR.","DOI":"10.1109\/CVPR.2006.100"},{"key":"1016_CR21","doi-asserted-by":"crossref","unstructured":"Hays, J., & Efros, A. A. (2008). im2gps: Estimating geographic information from a single image. In CVPR.","DOI":"10.1109\/CVPR.2008.4587784"},{"key":"1016_CR22","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., & Sun, J. (2014). Spatial pyramid pooling in deep convolutional networks for visual recognition. In ECCV.","DOI":"10.1007\/978-3-319-10578-9_23"},{"key":"1016_CR23","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In CVPR.","DOI":"10.1109\/CVPR.2016.90"},{"key":"1016_CR24","doi-asserted-by":"crossref","unstructured":"Hoffer, E., & Ailon, N. (2015). Deep metric learning using triplet network. In SIMBAD.","DOI":"10.1007\/978-3-319-24261-3_7"},{"key":"1016_CR25","doi-asserted-by":"crossref","unstructured":"Hu, J., Lu, J., & Tan, Y. P. (2014). Discriminative deep metric learning for face verification in the wild. In CVPR.","DOI":"10.1109\/CVPR.2014.242"},{"key":"1016_CR26","doi-asserted-by":"crossref","unstructured":"J\u00e9gou, H., & Chum, O. (2012). Negative evidences and co-occurences in image retrieval: The benefit of PCA and whitening. In ECCV.","DOI":"10.1007\/978-3-642-33709-3_55"},{"key":"1016_CR27","doi-asserted-by":"crossref","unstructured":"J\u00e9gou, H., & Zisserman, A. (2014). Triangulation embedding and democratic aggregation for image search. In CVPR.","DOI":"10.1109\/CVPR.2014.417"},{"key":"1016_CR28","doi-asserted-by":"crossref","unstructured":"J\u00e9gou, H., Douze, M., & Schmid, C. (2008). Hamming embedding and weak geometric consistency for large scale image search. In ECCV.","DOI":"10.1007\/978-3-540-88682-2_24"},{"key":"1016_CR29","doi-asserted-by":"crossref","unstructured":"J\u00e9gou, H., Douze, M., & Schmid, C. (2010). Improving bag-of-features for large scale image search. In IJCV.","DOI":"10.1007\/s11263-009-0285-2"},{"key":"1016_CR30","doi-asserted-by":"crossref","unstructured":"J\u00e9gou, H., Douze, M., Schmid, C., & P\u00e9rez, P. (2010). Aggregating local descriptors into a compact image representation. In CVPR.","DOI":"10.1109\/CVPR.2010.5540039"},{"key":"1016_CR31","doi-asserted-by":"crossref","unstructured":"Jegou, H., Douze, M., & Schmid, C. (2011). Product quantization for nearest neighbor search. In TPAMI.","DOI":"10.1109\/TPAMI.2010.57"},{"key":"1016_CR32","doi-asserted-by":"crossref","unstructured":"Kalantidis, Y., Mellina, C., & Osindero, S. (2016). Cross-dimensional weighting for aggregated deep convolutional features. In Workshop on web-scale vision and social media (VSM), ECCV.","DOI":"10.1007\/978-3-319-46604-0_48"},{"key":"1016_CR33","unstructured":"Karpathy, A., Joulin, A., & Fei-Fei, L. (2014). Deep fragment embeddings for bidirectional image-sentence mapping. In NIPS."},{"key":"1016_CR34","unstructured":"Krizhevsky, A., Sutskever, I., & Hinton, G. (2012). ImageNet classification with deep convolutional neural networks. In NIPS."},{"key":"1016_CR35","doi-asserted-by":"crossref","unstructured":"Laptev, D., Savinov, N., Buhmann, J. M., & Pollefeys, M. (2016). Ti-pooling: Transformation-invariant pooling for feature learning in convolutional neural networks. In CVPR.","DOI":"10.1109\/CVPR.2016.38"},{"key":"1016_CR36","unstructured":"Li, X., Larson, M., & Hanjalic, A. (2015). Pairwise geometric matching for large-scale object retrieval. In CVPR."},{"key":"1016_CR37","doi-asserted-by":"crossref","unstructured":"Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. In CVPR.","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"1016_CR38","doi-asserted-by":"crossref","unstructured":"Lowe, D. G. (2004). Distinctive image features from scale-invariant keypoints. In IJCV.","DOI":"10.1023\/B:VISI.0000029664.99615.94"},{"key":"1016_CR39","doi-asserted-by":"crossref","unstructured":"Makadia, A., Pavlovic, V., & Kumar, S. (2008). A new baseline for image annotation. In ECCV.","DOI":"10.1007\/978-3-540-88690-7_24"},{"key":"1016_CR40","doi-asserted-by":"crossref","unstructured":"Mikolajczyk, K., & Schmid, C. (2004), Scale and affine invariant interest point detectors. In IJCV.","DOI":"10.1023\/B:VISI.0000027790.02288.f2"},{"key":"1016_CR41","doi-asserted-by":"crossref","unstructured":"Mikul\u00edk, A., Perdoch, M., Chum, O., & Matas, J. (2010). Learning a fine vocabulary. In ECCV.","DOI":"10.1007\/978-3-642-15558-1_1"},{"key":"1016_CR42","doi-asserted-by":"crossref","unstructured":"Mikulik, A., Perdoch, M., Chum, O., & Matas, J. (2013). Learning vocabularies over a fine quantization. In IJCV.","DOI":"10.1007\/s11263-012-0600-1"},{"key":"1016_CR43","doi-asserted-by":"crossref","unstructured":"Ng, J. Y. H., Yang, F., & Davis, L. S. (2015). Exploiting local features from deep networks for image retrieval. In CVPR workshops.","DOI":"10.1109\/CVPRW.2015.7301272"},{"key":"1016_CR44","doi-asserted-by":"crossref","unstructured":"Nister, D., & Stewenius, H. (2006). Scalable recognition with a vocabulary tree. In CVPR.","DOI":"10.1109\/CVPR.2006.264"},{"key":"1016_CR45","doi-asserted-by":"crossref","unstructured":"Paulin, M., Douze, M., Harchaoui, Z., Mairal, J., Perronin, F., & Schmid, C. (2015). Local convolutional features with unsupervised training for image retrieval. In ICCV.","DOI":"10.1109\/ICCV.2015.19"},{"key":"1016_CR46","doi-asserted-by":"crossref","unstructured":"Perdoch, M., Chum, O., & Matas, J. (2009). Efficient representation of local geometry for large scale object retrieval. In CVPR.","DOI":"10.1109\/CVPR.2009.5206529"},{"key":"1016_CR47","doi-asserted-by":"crossref","unstructured":"Perronnin, F., & Dance, C. (2007). Fisher kernels on visual vocabularies for image categorization. In CVPR.","DOI":"10.1109\/CVPR.2007.383266"},{"key":"1016_CR48","doi-asserted-by":"crossref","unstructured":"Perronnin, F., & Larlus, D. (2015). Fisher vectors meet neural networks: A hybrid classification architecture. In CVPR.","DOI":"10.1109\/CVPR.2015.7298998"},{"key":"1016_CR49","doi-asserted-by":"crossref","unstructured":"Perronnin, F., Liu, Y., S\u00e1nchez, J., & Poirier, H. (2010). Large-scale image retrieval with compressed fisher vectors. In CVPR.","DOI":"10.1109\/CVPR.2010.5540009"},{"key":"1016_CR50","doi-asserted-by":"crossref","unstructured":"Philbin, J., Chum, O., Isard, M., Sivic, J., & Zisserman, A. (2007). Object retrieval with large vocabularies and fast spatial matching. In CVPR.","DOI":"10.1109\/CVPR.2007.383172"},{"key":"1016_CR51","doi-asserted-by":"crossref","unstructured":"Philbin, J., Chum, O., Isard, M., Sivic, J., & Zisserman, A. (2008). Lost in quantization: Improving particular object retrieval in large scale image databases. In CVPR.","DOI":"10.1109\/CVPR.2008.4587635"},{"key":"1016_CR52","doi-asserted-by":"crossref","unstructured":"Philbin, J., Isard, M., Sivic, J., & Zisserman, A. (2010). Descriptor learning for efficient retrieval. In ECCV.","DOI":"10.1007\/978-3-642-15558-1_49"},{"key":"1016_CR53","doi-asserted-by":"crossref","unstructured":"Radenovic, F., Jegou, H., & Chum, O. (2015). Multiple measurements and joint dimensionality reduction for large scale image search with short vectors-extended version. In International Conference on Multimedia Retrieval.","DOI":"10.1145\/2671188.2749366"},{"key":"1016_CR54","doi-asserted-by":"crossref","unstructured":"Radenovic, F., Tolias, G., & Chum, O. (2016). CNN image retrieval learns from BoW: Unsupervised fine-tuning with hard examples. In ECCV.","DOI":"10.1007\/978-3-319-46448-0_1"},{"key":"1016_CR55","doi-asserted-by":"crossref","unstructured":"Razavian, A.S., Azizpour, H., Sullivan, J., & Carlsson, S. (2014). CNN features off-the-shelf: An astounding baseline for recognition. In CVPR deep vision workshop.","DOI":"10.1109\/CVPRW.2014.131"},{"key":"1016_CR56","unstructured":"Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS."},{"key":"1016_CR57","unstructured":"Rodriguez-Serrano, J., Larlus, D., & Dai, Z. (2015). Data-driven detection of prominent objects. In TPAMI."},{"key":"1016_CR58","doi-asserted-by":"crossref","unstructured":"Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, AC., & Fei-Fei, L. (2015). ImageNet large scale visual recognition challenge. In IJCV.","DOI":"10.1007\/s11263-015-0816-y"},{"key":"1016_CR59","unstructured":"Schmidhuber, J. (2012). Multi-column deep neural networks for image classification. In CVPR."},{"key":"1016_CR60","doi-asserted-by":"crossref","unstructured":"Schroff, F., Kalenichenko, D., & Philbin, J. (2015). Facenet: A unified embedding for face recognition and clustering. In CVPR.","DOI":"10.1109\/CVPR.2015.7298682"},{"key":"1016_CR61","doi-asserted-by":"crossref","unstructured":"Shen, X., Lin, Z., Brandt, J., & Wu, Y. (2014). Spatially-constrained similarity measurefor large-scale object retrieval. In TPAMI.","DOI":"10.1109\/TPAMI.2013.237"},{"key":"1016_CR62","doi-asserted-by":"crossref","unstructured":"Simo-Serra, E., Trulls, E., Ferraz, L., Kokkinos, I., Fua, P., & Moreno-Noguer, F. (2015). Discriminative learning of deep convolutional feature point descriptors. In ICCV.","DOI":"10.1109\/ICCV.2015.22"},{"key":"1016_CR63","unstructured":"Simonyan, K., & Zisserman, A. (2015). Very deep convolutional networks for large-scale image recognition. In ICLR."},{"key":"1016_CR64","doi-asserted-by":"crossref","unstructured":"Sivic, J., & Zisserman, A. (2003). Video google: A text retrieval approach to object matching in videos. In ICCV.","DOI":"10.1109\/ICCV.2003.1238663"},{"key":"1016_CR65","doi-asserted-by":"crossref","unstructured":"Song, H.O., Xiang, Y., Jegelka, S., & Savarese, S. (2016). Deep metric learning via lifted structured feature embedding. In CVPR.","DOI":"10.1109\/CVPR.2016.434"},{"key":"1016_CR66","unstructured":"Sun, Y., Chen, Y., Wang, X., & Tang, X. (2014). Deep learning face representation by joint identification-verification. In NIPS."},{"key":"1016_CR67","doi-asserted-by":"crossref","unstructured":"Tao, R., Gavves, E., Snoek, C.G., & Smeulders, AW. (2014). Locality in generic instance search from one example. In CVPR.","DOI":"10.1109\/CVPR.2014.269"},{"key":"1016_CR68","unstructured":"Tolias, G., & J\u00e9gou, H. (2015). Visual query expansion with or without geometry: Refining local descriptors by feature aggregation. In PR."},{"key":"1016_CR69","unstructured":"Tolias, G., Avrithis, Y., & J\u00e9gou, H. (2015). Image search with selective match kernels: Aggregation across single and multiple images. In IJCV."},{"key":"1016_CR70","unstructured":"Tolias, G., Sicre, R., & J\u00e9gou, H. (2016). Particular object retrieval with integral max-pooling of CNN activations. In ICLR."},{"key":"1016_CR71","doi-asserted-by":"publisher","unstructured":"Torralba, A., Fergus, R., & Freeman, W. T. (2008). 80 million tiny images: A large data set for nonparametric object and scene recognition. IEEE Transactions on PAMI, 30(11), 1958\u20131970. doi: 10.1109\/TPAMI.2008.128 .","DOI":"10.1109\/TPAMI.2008.128"},{"key":"1016_CR72","doi-asserted-by":"crossref","unstructured":"Turcot, P., & Lowe, D.G. (2009). Better matching with fewer features: The selection of useful features in large database recognition problems. In ICCV Workshops.","DOI":"10.1109\/ICCVW.2009.5457541"},{"key":"1016_CR73","unstructured":"Vardi, Y., & Zhang, C. H. (2004). The multivariate L1-median and associated data depth. In Proceedings of the National Academy of Sciences."},{"key":"1016_CR74","doi-asserted-by":"crossref","unstructured":"Wang, J., Song, Y., Leung, T., Rosenberg, C., Wang, J., Philbin, J., et al. (2014) Learning fine-grained image similarity with deep ranking. In CVPR.","DOI":"10.1109\/CVPR.2014.180"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11263-017-1016-8\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-017-1016-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-017-1016-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,9,25]],"date-time":"2019-09-25T16:21:42Z","timestamp":1569428502000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11263-017-1016-8"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,6,5]]},"references-count":74,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2017,9]]}},"alternative-id":["1016"],"URL":"https:\/\/doi.org\/10.1007\/s11263-017-1016-8","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2017,6,5]]}}}