{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,6]],"date-time":"2026-02-06T05:05:33Z","timestamp":1770354333606,"version":"3.49.0"},"reference-count":43,"publisher":"Institute of Electronics, Information and Communications Engineers (IEICE)","issue":"5","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEICE Trans. Inf. &amp; Syst."],"published-print":{"date-parts":[[2023,5,1]]},"DOI":"10.1587\/transinf.2022edp7163","type":"journal-article","created":{"date-parts":[[2023,4,30]],"date-time":"2023-04-30T22:25:10Z","timestamp":1682893510000},"page":"1069-1080","source":"Crossref","is-referenced-by-count":2,"title":["Learning Local Similarity with Spatial Interrelations on Content-Based Image Retrieval"],"prefix":"10.1587","volume":"E106.D","author":[{"given":"Longjiao","family":"ZHAO","sequence":"first","affiliation":[{"name":"Graduate School of Informatics, Nagoya University"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yu","family":"WANG","sequence":"additional","affiliation":[{"name":"Center for Information and Communication Technology, Hitotsubashi University"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jien","family":"KATO","sequence":"additional","affiliation":[{"name":"College of Information Science and Engineering, Ritsumeikan University"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yoshiharu","family":"ISHIKAWA","sequence":"additional","affiliation":[{"name":"Graduate School of Informatics, Nagoya University"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"532","reference":[{"key":"1","unstructured":"[1] A. Krizhevsky, I. Sutskever, and G.E. Hinton, \u201cImagenet classification with deep convolutional neural networks,\u201d Advances in Neural Information Processing Systems, pp.1097-1105, 2012."},{"key":"2","doi-asserted-by":"crossref","unstructured":"[2] Y. Gong, L. Wang, R. Guo, and S. Lazebnik, \u201cMulti-scale orderless pooling of deep convolutional activation features,\u201d ECCV, vol.8695, pp.392-407, 2014. 10.1007\/978-3-319-10584-0_26","DOI":"10.1007\/978-3-319-10584-0_26"},{"key":"3","doi-asserted-by":"crossref","unstructured":"[3] A.B. Yandex and V. Lempitsky, \u201cAggregating local deep features for image retrieval,\u201d The IEEE International Conference on Computer Vision (ICCV), pp.1269-1277, Dec. 2015. 10.1109\/iccv.2015.150","DOI":"10.1109\/ICCV.2015.150"},{"key":"4","doi-asserted-by":"publisher","unstructured":"[4] A.S. Razavian, J. Sullivan, S. Carlsson, and A. Maki, \u201cVisual instance retrieval with deep convolutional networks,\u201d ITE Transactions on Media Technology and Applications, vol.4, no.3, pp.251-258, 2016. 10.3169\/mta.4.251","DOI":"10.3169\/mta.4.251"},{"key":"5","doi-asserted-by":"crossref","unstructured":"[5] B. Babenko, P. Dollar, and S. Belongie, \u201cTask specific local region matching,\u201d 2007 IEEE 11th International Conference on Computer Vision, pp.1-8, 2007. 10.1109\/iccv.2007.4408848","DOI":"10.1109\/ICCV.2007.4408848"},{"key":"6","doi-asserted-by":"crossref","unstructured":"[6] B. Zhou, A. Khosla, A. Lapedriza, A. Oliva, and A. Torralba, \u201cLearning deep features for discriminative localization,\u201d Proc. IEEE Conference on Computer Vision and Pattern Recognition, pp.2921-2929, 2016. 10.1109\/cvpr.2016.319","DOI":"10.1109\/CVPR.2016.319"},{"key":"7","doi-asserted-by":"crossref","unstructured":"[7] R.R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, and D. Batra, \u201cGrad-cam: Visual explanations from deep networks via gradient-based localization,\u201d Proc. IEEE International Conference on Computer Vision, pp.618-626, 2017. 10.1109\/iccv.2017.74","DOI":"10.1109\/ICCV.2017.74"},{"key":"8","doi-asserted-by":"crossref","unstructured":"[8] Z. Chen, Z. Kuang, W. Zhang, and K.-Y.K. Wong, \u201cLearning local similarity with spatial relations for object retrieval,\u201d Proc. 27th ACM International Conference on Multimedia, MM &apos;19, pp.1703-1711, 2019. 10.1145\/3343031.3351005","DOI":"10.1145\/3343031.3351005"},{"key":"9","doi-asserted-by":"publisher","unstructured":"[9] Y. Rui, T.S. Huang, M. Ortega, and S. Mehrotra, \u201cRelevance feedback: a power tool for interactive content-based image retrieval,\u201d IEEE Trans. Circuits Syst. Video Technol., vol.8, no.5, pp.644-655, 1998. 10.1109\/76.718510","DOI":"10.1109\/76.718510"},{"key":"10","doi-asserted-by":"publisher","unstructured":"[10] A.W.M. Smeulders, M. Worring, S. Santini, A. Gupta, and R. Jain, \u201cContent-based image retrieval at the end of the early years,\u201d IEEE Trans. Pattern Anal. Mach. Intell., vol.22, no.12, pp.1349-1380, 2000. 10.1109\/34.895972","DOI":"10.1109\/34.895972"},{"key":"11","doi-asserted-by":"publisher","unstructured":"[11] M.S. Lew, N. Sebe, C. Djeraba, and R. Jain, \u201cContent-based multimedia information retrieval: State of the art and challenges,\u201d ACM Trans. Multimedia Comput. Commun. Appl., vol.2, no.1, pp.1-19, Feb. 2006. 10.1145\/1126004.1126005","DOI":"10.1145\/1126004.1126005"},{"key":"12","doi-asserted-by":"publisher","unstructured":"[12] Y. Liu, D. Zhang, G. Lu, and W.-Y. Ma, \u201cA survey of content-based image retrieval with high-level semantics,\u201d Pattern Recognition, vol.40, no.1, pp.262-282, 2007. 10.1016\/j.patcog.2006.04.045","DOI":"10.1016\/j.patcog.2006.04.045"},{"key":"13","doi-asserted-by":"crossref","unstructured":"[13] D.G. Lowe, \u201cObject recognition from local scale-invariant features,\u201d Proc. 7th IEEE Conference on International Conference on Computer Vision, vol.2, pp.1150-1157, 1999. 10.1109\/iccv.1999.790410","DOI":"10.1109\/ICCV.1999.790410"},{"key":"14","doi-asserted-by":"publisher","unstructured":"[14] N. Dalal and B. Triggs, \u201cHistograms of oriented gradients for human detection,\u201d Proc. IEEE Conference on Computer Vision and Pattern Recognition, pp.886-893, 2005. 10.1109\/cvpr.2005.177","DOI":"10.1109\/CVPR.2005.177"},{"key":"15","doi-asserted-by":"crossref","unstructured":"[15] J. Sivic and A. Zisserman, \u201cVideo google: A text retrieval approach to object matching in videos,\u201d IEEE International Conference on Computer Vision, vol.2, pp.1470-1470, 2003. 10.1109\/iccv.2003.1238663","DOI":"10.1109\/ICCV.2003.1238663"},{"key":"16","doi-asserted-by":"crossref","unstructured":"[16] F. Perronnin, J. S\u00e1nchez, and T. Mensink, \u201cImproving the fisher kernel for large-scale image classification,\u201d Computer Vision-ECCV 2010, vol.6314, pp.143-156, 2010. 10.1007\/978-3-642-15561-1_11","DOI":"10.1007\/978-3-642-15561-1_11"},{"key":"17","doi-asserted-by":"publisher","unstructured":"[17] H. J\u00e9gou, F. Perronnin, M. Douze, J. S\u00e1nchez, P. P\u00e9rez, and C. Schmid, \u201cAggregating local image descriptors into compact codes,\u201d IEEE Trans. Pattern Anal. Mach. Intell., vol.34, no.9, pp.1704-1716, 2012. 10.1109\/tpami.2011.235","DOI":"10.1109\/TPAMI.2011.235"},{"key":"18","doi-asserted-by":"crossref","unstructured":"[18] P. Wu, S.C.H. Hoi, H. Xia, P. Zhao, D. Wang, and C. Miao, \u201cOnline multimodal deep similarity learning with application to image retrieval,\u201d Proc. 21st ACM International Conference on Multimedia, pp.153-162, 2013. 10.1145\/2502081.2502112","DOI":"10.1145\/2502081.2502112"},{"key":"19","doi-asserted-by":"crossref","unstructured":"[19] A. Babenko, A. Slesarev, A. Chigorin, and V. Lempitsky, \u201cNeural codes for image retrieval,\u201d Proc. 12th European conference on computer vision, vol.8689, pp.584-599, Springer, 2014. 10.1007\/978-3-319-10590-1_38","DOI":"10.1007\/978-3-319-10590-1_38"},{"key":"20","doi-asserted-by":"publisher","unstructured":"[20] C.-Q. Huang, S.-M. Yang, Y. Pan, and H.-J. Lai, \u201cObject-location-aware hashing for multi-label image retrieval via automatic mask learning,\u201d IEEE Trans. Image Process., vol.27, no.9, pp.4490-4502, 2018. 10.1109\/tip.2018.2839522","DOI":"10.1109\/TIP.2018.2839522"},{"key":"21","doi-asserted-by":"publisher","unstructured":"[21] N. Garcia and G. Vogiatzis, \u201cLearning non-metric visual similarity for image retrieval,\u201d Image and Vision Computing, vol.82, pp.18-25, 2019. 10.1016\/j.imavis.2019.01.001","DOI":"10.1016\/j.imavis.2019.01.001"},{"key":"22","unstructured":"[22] E.J. Ong, S. Husain, and M. Bober, \u201cSiamese network of deep fisher-vector descriptors for image retrieval,\u201d arXiv preprint arXiv:1702.00338, 2017."},{"key":"23","doi-asserted-by":"crossref","unstructured":"[23] A. Gordo, J. Almaz\u00e1n, J. Revaud, and D. Larlus, \u201cDeep image retrieval: Learning global representations for image search,\u201d Proc. 14th European conference on computer vision, vol.9910, pp.241-257, Springer, 2016. 10.1007\/978-3-319-46466-4_15","DOI":"10.1007\/978-3-319-46466-4_15"},{"key":"24","doi-asserted-by":"crossref","unstructured":"[24] R. Arandjelovic, P. Gronat, A. Torii, T. Pajdla, and J. Sivic, \u201cNetvlad: Cnn architecture for weakly supervised place recognition,\u201d Proc. IEEE Conference on Computer Vision and Pattern Recognition, pp.5297-5307, 2016. 10.1109\/cvpr.2016.572","DOI":"10.1109\/CVPR.2016.572"},{"key":"25","doi-asserted-by":"crossref","unstructured":"[25] Y. Kalantidis, C. Mellina, and S. Osindero, \u201cCross-dimensional weighting for aggregated deep convolutional features,\u201d European conference on computer vision, vol.9913, pp.685-701, Springer, 2016. 10.1007\/978-3-319-46604-0_48","DOI":"10.1007\/978-3-319-46604-0_48"},{"key":"26","doi-asserted-by":"crossref","unstructured":"[26] A. Jimenez, J.M. Alvarez, and X. Giro-i-Nieto, \u201cClass-weighted convolutional features for visual instance search,\u201d arXiv preprint arXiv:1707.02581, 2017.","DOI":"10.5244\/C.31.144"},{"key":"27","doi-asserted-by":"publisher","unstructured":"[27] T.-T. Do, T. Hoang, D.-K.L. Tan, H. Le, T.V. Nguyen, and N.-M. Cheung, \u201cFrom selective deep convolutional features to compact binary representations for image retrieval,\u201d ACM Trans. Multimedia Comput. Commun. Appl., vol.15, no.2, pp.1-22, June 2019. 10.1145\/3314051","DOI":"10.1145\/3314051"},{"key":"28","doi-asserted-by":"publisher","unstructured":"[28] J. Xu, C. Shi, C. Qi, C. Wang, and B. Xiao, \u201cUnsupervised part-based weighting aggregation of deep convolutional features for image retrieval,\u201d Proc. AAAI Conference on Artificial Intelligence, vol.32, no.1, 2018. 10.1609\/aaai.v32i1.12231","DOI":"10.1609\/aaai.v32i1.12231"},{"key":"29","doi-asserted-by":"publisher","unstructured":"[29] F. Radenovi\u0107, G. Tolias, and O. Chum, \u201cFine-tuning cnn image retrieval with no human annotation,\u201d IEEE Trans. Pattern Anal. Mach. Intell., vol.41, no.7, pp.1655-1668, 2019. 10.1109\/tpami.2018.2846566","DOI":"10.1109\/TPAMI.2018.2846566"},{"key":"30","unstructured":"[30] G. Tolias, R. Sicre, and H. J\u00e9gou, \u201cParticular object retrieval with integral max-pooling of cnn activations,\u201d arXiv preprint arXiv:1511.05879, 2015."},{"key":"31","doi-asserted-by":"crossref","unstructured":"[31] B. Cao, A. Araujo, and J. Sim, \u201cUnifying deep local and global features for image search,\u201d Computer Vision-ECCV 2020, ed. A. Vedaldi, H. Bischof, T. Brox, and J.M. Frahm, Cham, vol.12365, pp.726-743, Springer International Publishing, 2020. 10.1007\/978-3-030-58565-5_43","DOI":"10.1007\/978-3-030-58565-5_43"},{"key":"32","doi-asserted-by":"crossref","unstructured":"[32] S. Hausler, S. Garg, M. Xu, M. Milford, and T. Fischer, \u201cPatch-netvlad: Multi-scale fusion of locally-global descriptors for place recognition,\u201d Proc. IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp.14141-14152, 2021. 10.1109\/cvpr46437.2021.01392","DOI":"10.1109\/CVPR46437.2021.01392"},{"key":"33","doi-asserted-by":"crossref","unstructured":"[33] M. Yang, D. He, M. Fan, B. Shi, X. Xue, F. Li, E. Ding, and J. Huang, \u201cDolg: Single-stage image retrieval with deep orthogonal fusion of local and global features,\u201d 2021 IEEE\/CVF International Conference on Computer Vision (ICCV), pp.11752-11761, 2021. 10.1109\/iccv48922.2021.01156","DOI":"10.1109\/ICCV48922.2021.01156"},{"key":"34","unstructured":"[34] K. Simonyan and A. Zisserman, \u201cVery deep convolutional networks for large-scale image recognition,\u201d arXiv preprint arXiv:1409.1556, 2014."},{"key":"35","doi-asserted-by":"crossref","unstructured":"[35] K. He, X. Zhang, S. Ren, and J. Sun, \u201cDeep residual learning for image recognition,\u201d Proc. IEEE conference on computer vision and pattern recognition, pp.770-778, 2016. 10.1109\/cvpr.2016.90","DOI":"10.1109\/CVPR.2016.90"},{"key":"36","doi-asserted-by":"crossref","unstructured":"[36] G. Huang, Z. Liu, L. Van Der Maaten, and K.Q. Weinberger, \u201cDensely connected convolutional networks,\u201d Proc. IEEE conference on computer vision and pattern recognition, pp.2261-2269, 2017. 10.1109\/cvpr.2017.243","DOI":"10.1109\/CVPR.2017.243"},{"key":"37","doi-asserted-by":"crossref","unstructured":"[37] M.D. Zeiler and R. Fergus, \u201cVisualizing and understanding convolutional networks,\u201d Proc. 12th European conference on computer vision, vol.8689, pp.818-833, Springer, 2014. 10.1007\/978-3-319-10590-1_53","DOI":"10.1007\/978-3-319-10590-1_53"},{"key":"38","unstructured":"[38] S. Zhang, S. Guo, W. Huang, M.R. Scott, and L. Wang, \u201cV4d: 4d convolutional neural networks for video-level representation learning,\u201d Proc. International Conference on Learning Representations, 2020."},{"key":"39","doi-asserted-by":"crossref","unstructured":"[39] F. Radenovi\u0107, G. Tolias, and O. Chum, \u201cCnn image retrieval learns from bow: Unsupervised fine-tuning with hard examples,\u201d Proc. 14th European Conference on Computer Vision, vol.9905, pp.3-20, 2016. 10.1007\/978-3-319-46448-0_1","DOI":"10.1007\/978-3-319-46448-0_1"},{"key":"40","doi-asserted-by":"crossref","unstructured":"[40] J. Philbin, O. Chum, M. Isard, J. Sivic, and A. Zisserman, \u201cObject retrieval with large vocabularies and fast spatial matching,\u201d Proc. IEEE Conference on Computer Vision and Pattern Recognition, pp.1-8, 2007. 10.1109\/cvpr.2007.383172","DOI":"10.1109\/CVPR.2007.383172"},{"key":"41","doi-asserted-by":"crossref","unstructured":"[41] J. Philbin, O. Chum, M. Isard, J. Sivic, and A. Zisserman, \u201cLost in quantization: Improving particular object retrieval in large scale image databases,\u201d Proc. IEEE Conference on Computer Vision and Pattern Recognition, pp.1-8, 2008. 10.1109\/cvpr.2008.4587635","DOI":"10.1109\/CVPR.2008.4587635"},{"key":"42","unstructured":"[42] C. Wah, S. Branson, P. Welinder, P. Perona, and S. Belongie, \u201cThe Caltech-UCSD Birds-200-2011 Dataset,\u201d Tech. Rep. CNS-TR-2011-001, California Institute of Technology, 2011."},{"key":"43","unstructured":"[43] A. Paszke, S. Gross, F. Massa, A. Lerer, J. Bradbury, G. Chanan, T. Killeen, Z. Lin, N. Gimelshein, L. Antiga, A. Desmaison, A. Kopf, E. Yang, Z. DeVito, M. Raison, A. Tejani, S. Chilamkurthy, B. Steiner, L. Fang, J. Bai, and S. Chintala, \u201cPytorch: An imperative style, high-performance deep learning library,\u201d in Advances in Neural Information Processing Systems 32, ed. H. Wallach, H. Larochelle, A. Beygelzimer, F. d&apos;Alch\u00e9-Buc, E. Fox, and R. Garnett, pp.8024-8035, Curran Associates, Inc., 2019."}],"container-title":["IEICE Transactions on Information and Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/www.jstage.jst.go.jp\/article\/transinf\/E106.D\/5\/E106.D_2022EDP7163\/_pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,5,6]],"date-time":"2023-05-06T04:18:09Z","timestamp":1683346689000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.jstage.jst.go.jp\/article\/transinf\/E106.D\/5\/E106.D_2022EDP7163\/_article"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,5,1]]},"references-count":43,"journal-issue":{"issue":"5","published-print":{"date-parts":[[2023]]}},"URL":"https:\/\/doi.org\/10.1587\/transinf.2022edp7163","relation":{},"ISSN":["0916-8532","1745-1361"],"issn-type":[{"value":"0916-8532","type":"print"},{"value":"1745-1361","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,5,1]]},"article-number":"2022EDP7163"}}