{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,22]],"date-time":"2026-04-22T12:19:31Z","timestamp":1776860371646,"version":"3.51.2"},"reference-count":59,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2025,4,21]],"date-time":"2025-04-21T00:00:00Z","timestamp":1745193600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0"},{"start":{"date-parts":[[2025,4,21]],"date-time":"2025-04-21T00:00:00Z","timestamp":1745193600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0"}],"funder":[{"name":"The \"Haiyou Plan\" Industry Leadership Talent Project in Jinan"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Neural Process Lett"],"DOI":"10.1007\/s11063-025-11757-7","type":"journal-article","created":{"date-parts":[[2025,4,21]],"date-time":"2025-04-21T21:27:01Z","timestamp":1745270821000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":3,"title":["Rethinking Attention Mechanism: Channel Re-attention and Spatial Multi-region Attention for Fine-grained Visual Classification"],"prefix":"10.1007","volume":"57","author":[{"given":"XiaoHui","family":"Wang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yulin","family":"Sun","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xin","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhipeng","family":"Zou","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Li","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kun","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaoyang","family":"Liang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wei","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,4,21]]},"reference":[{"key":"11757_CR1","unstructured":"Welinder P, Branson S, Mita T, Wah C, Schroff F, Belongie S, Perona P (2010) Caltech-ucsd birds 200"},{"key":"11757_CR2","unstructured":"Khosla A, Jayadevaprakash N, Yao B, Li F-F (2011) Novel dataset for fine-grained image categorization: Stanford dogs. In: Proc. CVPR workshop on fine-grained visual categorization (FGVC), vol 2. Citeseer"},{"key":"11757_CR3","doi-asserted-by":"crossref","unstructured":"Krause J, Stark M, Deng J, Fei-Fei L (2013) 3d object representations for fine-grained categorization. In: Proceedings of the IEEE international conference on computer vision workshops, pp 554\u2013561","DOI":"10.1109\/ICCVW.2013.77"},{"key":"11757_CR4","doi-asserted-by":"crossref","unstructured":"Woo S, Park J, Lee J-Y, Kweon IS (2018) Cbam: Convolutional block attention module. In: Proceedings of the European conference on computer vision (ECCV), pp 3\u201319","DOI":"10.1007\/978-3-030-01234-2_1"},{"key":"11757_CR5","doi-asserted-by":"crossref","unstructured":"Zheng H, Fu J, Mei T, Luo J (2017) Learning multi-attention convolutional neural network for fine-grained image recognition. In: Proceedings of the IEEE international conference on computer vision, pp 5209\u20135217","DOI":"10.1109\/ICCV.2017.557"},{"key":"11757_CR6","doi-asserted-by":"crossref","unstructured":"Hanselmann H, Ney H (2020) Elope: Fine-grained visual classification with efficient localization, pooling and embedding. In: Proceedings of the IEEE\/CVF winter conference on applications of computer vision, pp 1247\u20131256","DOI":"10.1109\/WACV45572.2020.9093601"},{"key":"11757_CR7","doi-asserted-by":"crossref","unstructured":"Lin T-Y, RoyChowdhury A, Maji S (2015) Bilinear cnn models for fine-grained visual recognition. In: Proceedings of the IEEE international conference on computer vision, pp 1449\u20131457","DOI":"10.1109\/ICCV.2015.170"},{"key":"11757_CR8","doi-asserted-by":"crossref","unstructured":"Kong S, Fowlkes C (2017) Low-rank bilinear pooling for fine-grained classification. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 365\u2013374","DOI":"10.1109\/CVPR.2017.743"},{"key":"11757_CR9","doi-asserted-by":"crossref","unstructured":"Lin D, Shen X, Lu C, Jia J (2015) Deep lac: Deep localization, alignment and classification for fine-grained recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1666\u20131674","DOI":"10.1109\/CVPR.2015.7298775"},{"key":"11757_CR10","doi-asserted-by":"crossref","unstructured":"Zhang N, Donahue J, Girshick R, Darrell T (2014) Part-based r-cnns for fine-grained category detection. In: European conference on computer vision, pp 834\u2013849. Springer","DOI":"10.1007\/978-3-319-10590-1_54"},{"key":"11757_CR11","doi-asserted-by":"crossref","unstructured":"Fu J, Zheng H, Mei T (2017) Look closer to see better: recurrent attention convolutional neural network for fine-grained image recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4438\u20134446","DOI":"10.1109\/CVPR.2017.476"},{"key":"11757_CR12","doi-asserted-by":"crossref","unstructured":"Yang Z, Luo T, Wang D, Hu Z, Gao J, Wang L (2018) Learning to navigate for fine-grained classification. In: Proceedings of the European conference on computer vision (ECCV), pp 420\u2013435","DOI":"10.1007\/978-3-030-01264-9_26"},{"key":"11757_CR13","unstructured":"Yang S, Liu S, Yang C, Wang C (2021) Re-rank coarse classification with local region enhanced features for fine-grained image recognition. arXiv preprint arXiv:2102.09875"},{"key":"11757_CR14","unstructured":"He X, Peng Y, Zhao J (2017) Fast fine-grained image classification via weakly supervised discriminative localization. IEEE Trans Circuits Syst Video Technol 1\u20131"},{"key":"11757_CR15","unstructured":"Hu T, Qi H, Huang Q, Lu Y (2019) See better before looking closer: Weakly supervised data augmentation network for fine-grained visual classification. arXiv preprint arXiv:1901.09891"},{"issue":"2","key":"11757_CR16","doi-asserted-by":"publisher","first-page":"648","DOI":"10.1109\/TPAMI.2021.3107160","volume":"44","author":"P Koniusz","year":"2021","unstructured":"Koniusz P, Wang L, Cherian A (2021) Tensor representations for action recognition. IEEE Trans Pattern Anal Mach Intell 44(2):648\u2013665","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"issue":"2","key":"11757_CR17","doi-asserted-by":"publisher","first-page":"591","DOI":"10.1109\/TPAMI.2021.3107164","volume":"44","author":"P Koniusz","year":"2021","unstructured":"Koniusz P, Zhang H (2021) Power normalizations in fine-grained image, few-shot image and graph classification. IEEE Trans Pattern Anal Mach Intell 44(2):591\u2013609","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"11757_CR18","doi-asserted-by":"crossref","unstructured":"Zhang C, Yao Y, Liu H, Xie G-S, Shu X, Zhou T, Zhang Z, Shen F, Tang Z (2020) Web-supervised network with softly update-drop training for fine-grained visual classification. In: Proceedings of the AAAI conference on artificial intelligence, vol 34, pp 12781\u201312788","DOI":"10.1609\/aaai.v34i07.6973"},{"key":"11757_CR19","doi-asserted-by":"publisher","first-page":"7006","DOI":"10.1109\/TIP.2020.2996736","volume":"29","author":"K Song","year":"2020","unstructured":"Song K, Wei X-S, Shu X, Song R-J, Lu J (2020) Bi-modal progressive mask attention for fine-grained recognition. IEEE Trans Image Process 29:7006\u20137018","journal-title":"IEEE Trans Image Process"},{"key":"11757_CR20","doi-asserted-by":"crossref","unstructured":"Chen T, Lin L, Chen R, Wu Y, Luo X (2018) Knowledge-embedded representation learning for fine-grained image recognition. arXiv preprint arXiv:1807.00505","DOI":"10.24963\/ijcai.2018\/87"},{"key":"11757_CR21","first-page":"1","volume":"99","author":"C Liu","year":"2020","unstructured":"Liu C, Liang Y, Xue Y, Qian X, Fu J (2020) Food and ingredient joint learning for fine-grained recognition. IEEE Trans Circuits Syst Video Technol 99:1\u20131","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"11757_CR22","doi-asserted-by":"crossref","unstructured":"Wang L, Koniusz P (2021) Self-supervising action recognition by statistical moment and subspace descriptors. In: Proceedings of the 29th ACM international conference on multimedia, pp 4324\u20134333","DOI":"10.1145\/3474085.3475572"},{"key":"11757_CR23","doi-asserted-by":"crossref","unstructured":"Wang L, Koniusz P, Huynh DQ (2019) Hallucinating idt descriptors and i3d optical flow features for action recognition with cnns. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 8698\u20138708","DOI":"10.1109\/ICCV.2019.00879"},{"key":"11757_CR24","unstructured":"Jaderberg M, Simonyan K, Zisserman A, Kavukcuoglu K (2015) Spatial transformer networks. In: MIT Press"},{"key":"11757_CR25","unstructured":"Jie H, Li S, Gang S, Albanie S (2017) Squeeze-and-excitation networks. IEEE Trans Pattern Anal Mach Intell 99"},{"key":"11757_CR26","volume-title":"Cbam: convolutional block attention module","author":"S Woo","year":"2018","unstructured":"Woo S, Park J, Lee JY, Kweon IS (2018) Cbam: convolutional block attention module. Springer, Cham"},{"key":"11757_CR27","doi-asserted-by":"crossref","unstructured":"Wang X, Girshick R, Gupta A, He K (2017) Non-local neural networks","DOI":"10.1109\/CVPR.2018.00813"},{"key":"11757_CR28","unstructured":"Attentional kernel encoding networks for fine-grained visual categorization (2021)"},{"issue":"99","key":"11757_CR29","first-page":"1","volume":"PP","author":"Y Ding","year":"2021","unstructured":"Ding Y, Han Z, Zhou Y, Zhu Y, Jiao J (2021) Dynamic perception framework for fine-grained recognition. IEEE Trans Circuits Syst Video Technol PP(99):1\u20131","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"11757_CR30","doi-asserted-by":"crossref","unstructured":"Wang L, Koniusz P (2023) 3mformer: Multi-order multi-mode transformer for skeletal action recognition. arXiv preprint arXiv:2303.14474","DOI":"10.1109\/CVPR52729.2023.00544"},{"key":"11757_CR31","doi-asserted-by":"crossref","unstructured":"Wang J, Xu Q, Jiang B, Luo B, Tang J (2024) Multi-granularity part sampling attention for fine-grained visual classification. IEEE Trans Image Process","DOI":"10.1109\/TIP.2024.3441813"},{"key":"11757_CR32","doi-asserted-by":"publisher","first-page":"9015","DOI":"10.1109\/TMM.2023.3244340","volume":"25","author":"Q Xu","year":"2023","unstructured":"Xu Q, Wang J, Jiang B, Luo B (2023) Fine-grained visual classification via internal ensemble learning transformer. IEEE Trans Multimed 25:9015\u20139028","journal-title":"IEEE Trans Multimed"},{"key":"11757_CR33","doi-asserted-by":"crossref","unstructured":"Liu D (2024) Progressive multi-task anti-noise learning and distilling frameworks for fine-grained vehicle recognition. arXiv preprint arXiv:2401.14336","DOI":"10.1109\/TITS.2024.3420151"},{"key":"11757_CR34","unstructured":"Liu M, Roy S, Li W, Zhong Z, Sebe N, Ricci E (2024) Democratizing fine-grained visual recognition with large language models. arXiv preprint arXiv:2401.13837"},{"key":"11757_CR35","doi-asserted-by":"crossref","unstructured":"Zhang T, Chang D, Ma Z, Guo J (2021) Progressive co-attention network for fine-grained visual classification. In: 2021 international conference on visual communications and image processing (VCIP), pp 1\u20135. IEEE","DOI":"10.1109\/VCIP53242.2021.9675376"},{"key":"11757_CR36","doi-asserted-by":"crossref","unstructured":"Huang H, Zhang J, Yu L, Zhang J, Wu Q, Xu C (2021) Toan: target-oriented alignment network for fine-grained image categorization with few labeled samples. IEEE Trans Circuits Syst Video Technol","DOI":"10.1109\/TCSVT.2021.3065693"},{"key":"11757_CR37","doi-asserted-by":"crossref","unstructured":"Wang L, Koniusz P (2022) Temporal-viewpoint transportation plan for skeletal few-shot action recognition. In: Proceedings of the Asian conference on computer vision, pp 4176\u20134193","DOI":"10.1007\/978-3-031-26316-3_19"},{"key":"11757_CR38","doi-asserted-by":"crossref","unstructured":"Wang L, Koniusz P (2022) Uncertainty-dtw for time series and sequences. In: Computer Vision\u2013ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23\u201327, 2022, Proceedings, Part XXI, pp 176\u2013195. Springer","DOI":"10.1007\/978-3-031-19803-8_11"},{"key":"11757_CR39","doi-asserted-by":"publisher","first-page":"4683","DOI":"10.1109\/TIP.2020.2973812","volume":"29","author":"D Chang","year":"2020","unstructured":"Chang D, Ding Y, Xie J, Bhunia AK, Li X, Ma Z, Wu M, Guo J, Song Y-Z (2020) The devil is in the channels: mutual-channel loss for fine-grained image classification. IEEE Trans Image Process 29:4683\u20134695","journal-title":"IEEE Trans Image Process"},{"key":"11757_CR40","unstructured":"Chou P-Y, Kao Y-Y, Lin C-H (2023) Fine-grained visual classification with high-temperature refinement and background suppression. arxiv preprint arxiv:2303.06442"},{"key":"11757_CR41","unstructured":"Goodfellow I, Warde-Farley D, Mirza M, Courville A, Bengio Y (2013) Maxout networks. In: International conference on machine learning, pp 1319\u20131327. PMLR"},{"key":"11757_CR42","doi-asserted-by":"crossref","unstructured":"He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 770\u2013778","DOI":"10.1109\/CVPR.2016.90"},{"key":"11757_CR43","doi-asserted-by":"crossref","unstructured":"Huang G, Liu Z, Van Der\u00a0Maaten L, Weinberger KQ (2017) Densely connected convolutional networks. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4700\u20134708","DOI":"10.1109\/CVPR.2017.243"},{"key":"11757_CR44","doi-asserted-by":"crossref","unstructured":"Deng J, Dong W, Socher R, Li L-J, Li K, Fei-Fei L (2009) Imagenet: a large-scale hierarchical image database. In: 2009 IEEE conference on computer vision and pattern recognition, pp 248\u2013255. IEEE","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"11757_CR45","doi-asserted-by":"crossref","unstructured":"Fu J, Zheng H, Mei T (2017) Look closer to see better: Recurrent attention convolutional neural network for fine-grained image recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4438\u20134446","DOI":"10.1109\/CVPR.2017.476"},{"key":"11757_CR46","doi-asserted-by":"crossref","unstructured":"Sun M, Yuan Y, Zhou F, Ding E (2018) Multi-attention multi-class constraint for fine-grained image recognition. In: Proceedings of the European conference on computer vision (ECCV), pp 805\u2013821","DOI":"10.1007\/978-3-030-01270-0_49"},{"key":"11757_CR47","doi-asserted-by":"crossref","unstructured":"Gao Y, Han X, Wang X, Huang W, Scott M (2020) Channel interaction networks for fine-grained image categorization. In: Proceedings of the AAAI conference on artificial intelligence, vol 34, pp 10818\u201310825","DOI":"10.1609\/aaai.v34i07.6712"},{"issue":"1s","key":"11757_CR48","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3446208","volume":"17","author":"Y Hu","year":"2021","unstructured":"Hu Y, Liu X, Zhang B, Han J, Cao X (2021) Alignment enhancement network for fine-grained<? brk?> visual categorization. ACM Trans Multimed Comput Commun Appl (TOMM) 17(1s):1\u201320","journal-title":"ACM Trans Multimed Comput Commun Appl (TOMM)"},{"key":"11757_CR49","doi-asserted-by":"crossref","unstructured":"Zhuang P, Wang Y, Qiao Y (2020) Learning attentive pairwise interaction for fine-grained classification. In: Proceedings of the AAAI conference on artificial intelligence, vol 34, pp 13130\u201313137","DOI":"10.1609\/aaai.v34i07.7016"},{"key":"11757_CR50","doi-asserted-by":"crossref","unstructured":"Chen Y, Bai Y, Zhang W, Mei T (2019) Destruction and construction learning for fine-grained image recognition. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 5157\u20135166","DOI":"10.1109\/CVPR.2019.00530"},{"key":"11757_CR51","doi-asserted-by":"crossref","unstructured":"Ji R, Wen L, Zhang L, Du D, Wu Y, Zhao C, Liu X, Huang F (2020) Attention convolutional binary neural tree for fine-grained visual categorization. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 10468\u201310477","DOI":"10.1109\/CVPR42600.2020.01048"},{"key":"11757_CR52","unstructured":"Liang Y, Zhu L, Wang X, Yang Y (2022) Penalizing the hard example but not too much: a strong baseline for fine-grained visual classification. IEEE Trans Neural Netw Learn Syst"},{"key":"11757_CR53","doi-asserted-by":"crossref","unstructured":"Zhang L, Huang S, Liu W, Tao D (2019) Learning a mixture of granularity-specific experts for fine-grained categorization. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 8331\u20138340","DOI":"10.1109\/ICCV.2019.00842"},{"key":"11757_CR54","doi-asserted-by":"crossref","unstructured":"Ding Y, Zhou Y, Zhu Y, Ye Q, Jiao J (2019) Selective sparse sampling for fine-grained image recognition. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 6599\u20136608","DOI":"10.1109\/ICCV.2019.00670"},{"key":"11757_CR55","doi-asserted-by":"crossref","unstructured":"Liu C, Xie H, Zha Z-J, Ma L, Yu L, Zhang Y (2020) Filtration and distillation: enhancing region attention for fine-grained visual categorization. In: Proceedings of the AAAI conference on artificial intelligence, vol 34, pp 11555\u201311562","DOI":"10.1609\/aaai.v34i07.6822"},{"key":"11757_CR56","doi-asserted-by":"crossref","unstructured":"Liang Y, Zhu L, Wang X, Yang Y (2022) A simple episodic linear probe improves visual recognition in the wild. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 9559\u20139569","DOI":"10.1109\/CVPR52688.2022.00934"},{"key":"11757_CR57","doi-asserted-by":"crossref","unstructured":"Dubey A, Gupta O, Guo P, Raskar R, Farrell R, Naik N (2018) Pairwise confusion for fine-grained visual classification. In: Proceedings of the European conference on computer vision (ECCV), pp 70\u201386","DOI":"10.1007\/978-3-030-01258-8_5"},{"key":"11757_CR58","unstructured":"Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556"},{"key":"11757_CR59","doi-asserted-by":"crossref","unstructured":"Selvaraju RR, Cogswell M, Das A, Vedantam R, Parikh D, Batra D (2017) Grad-cam: Visual explanations from deep networks via gradient-based localization. In: Proceedings of the IEEE international conference on computer vision, pp 618\u2013626","DOI":"10.1109\/ICCV.2017.74"}],"container-title":["Neural Processing Letters"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11063-025-11757-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11063-025-11757-7\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11063-025-11757-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,26]],"date-time":"2025-06-26T05:58:11Z","timestamp":1750917491000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11063-025-11757-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,4,21]]},"references-count":59,"journal-issue":{"issue":"3","published-online":{"date-parts":[[2025,6]]}},"alternative-id":["11757"],"URL":"https:\/\/doi.org\/10.1007\/s11063-025-11757-7","relation":{},"ISSN":["1573-773X"],"issn-type":[{"value":"1573-773X","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,4,21]]},"assertion":[{"value":"21 March 2025","order":1,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 April 2025","order":2,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}],"article-number":"43"}}