{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,2]],"date-time":"2025-06-02T15:09:08Z","timestamp":1748876948284,"version":"3.28.0"},"reference-count":52,"publisher":"Springer Science and Business Media LLC","issue":"5","license":[{"start":{"date-parts":[[2024,9,28]],"date-time":"2024-09-28T00:00:00Z","timestamp":1727481600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,9,28]],"date-time":"2024-09-28T00:00:00Z","timestamp":1727481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimedia Systems"],"published-print":{"date-parts":[[2024,10]]},"DOI":"10.1007\/s00530-024-01446-1","type":"journal-article","created":{"date-parts":[[2024,9,28]],"date-time":"2024-09-28T11:01:44Z","timestamp":1727521304000},"update-policy":"http:\/\/dx.doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["MT-ASM: a multi-task attention strengthening model for fine-grained object recognition"],"prefix":"10.1007","volume":"30","author":[{"given":"Dichao","family":"Liu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yu","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kenji","family":"Mase","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jien","family":"Kato","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,9,28]]},"reference":[{"key":"1446_CR1","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"1446_CR2","unstructured":"Wah, C., Branson, S., Welinder, P., Perona, P., Belongie, S.: The Caltech-UCSD Birds-200-2011 Dataset. Technical Report CNS-TR-2011-001, California Institute of Technology (2011)"},{"key":"1446_CR3","doi-asserted-by":"crossref","unstructured":"Zhou, B., Khosla, A., Lapedriza, A., Oliva, A., Torralba, A.: Learning deep features for discriminative localization. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2921\u20132929 (2016)","DOI":"10.1109\/CVPR.2016.319"},{"key":"1446_CR4","doi-asserted-by":"crossref","unstructured":"Krause, J., Stark, M., Deng, J., Fei-Fei, L.: 3d object representations for fine-grained categorization. In: 4th International IEEE Workshop on 3D Representation and Recognition (3dRR-13), Sydney, Australia (2013)","DOI":"10.1109\/ICCVW.2013.77"},{"issue":"5","key":"1446_CR5","doi-asserted-by":"publisher","first-page":"1394","DOI":"10.1109\/TCSVT.2018.2834480","volume":"29","author":"X He","year":"2018","unstructured":"He, X., Peng, Y., Zhao, J.: Fast fine-grained image classification via weakly supervised discriminative localization. IEEE Trans. Circ. Syst. Video Technol. 29(5), 1394\u20131407 (2018)","journal-title":"IEEE Trans. Circ. Syst. Video Technol."},{"key":"1446_CR6","doi-asserted-by":"crossref","unstructured":"Guo, P., Farrell, R.: Aligned to the object, not to the image: a unified pose-aligned representation for fine-grained recognition. In: 2019 IEEE Winter Conference on Applications of Computer Vision (WACV), pp. 1876\u20131885. IEEE (2019)","DOI":"10.1109\/WACV.2019.00204"},{"key":"1446_CR7","unstructured":"Jaderberg, M., Simonyan, K., Zisserman, A., : Spatial transformer networks. In: Advances in Neural Information Processing Systems, pp. 2017\u20132025 (2015)"},{"key":"1446_CR8","doi-asserted-by":"crossref","unstructured":"Zhang, H., Xu, T., Elhoseiny, M., Huang, X., Zhang, S., Elgammal, A., Metaxas, D.: SPDA-CNN: Unifying semantic part detection and abstraction for fine-grained recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1143\u20131152 (2016)","DOI":"10.1109\/CVPR.2016.129"},{"key":"1446_CR9","doi-asserted-by":"crossref","unstructured":"Zhang, N., Donahue, J., Girshick, R., Darrell, T.: Part-based R-CNNs for fine-grained category detection. In: European Conference on Computer Vision, pp. 834\u2013849. Springer (2014)","DOI":"10.1007\/978-3-319-10590-1_54"},{"key":"1446_CR10","doi-asserted-by":"crossref","unstructured":"Fu, J., Zheng, H., Mei, T.: Look closer to see better: recurrent attention convolutional neural network for fine-grained image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4438\u20134446 (2017)","DOI":"10.1109\/CVPR.2017.476"},{"key":"1446_CR11","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2020.107469","volume":"110","author":"J Zhao","year":"2020","unstructured":"Zhao, J., Du, B., Sun, L., Lv, W., Liu, Y., Xiong, H.: Deep multi-task learning with relational attention for business success prediction. Pattern Recogn. 110, (2020)","journal-title":"Pattern Recogn."},{"key":"1446_CR12","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2019.112957","volume":"143","author":"F Gao","year":"2020","unstructured":"Gao, F., Yoon, H., Wu, T., Chu, X.: A feature transfer enabled multi-task deep learning model on medical imaging. Expert Syst. Appl. 143, 112957 (2020)","journal-title":"Expert Syst. Appl."},{"key":"1446_CR13","unstructured":"Liu, D., Wang, Y., Kato, J., Mase, K.: Contrastively-reinforced attention convolutional neural network for fine-grained image recognition. In: BMVC (2020)"},{"key":"1446_CR14","unstructured":"Maji, S., Rahtu, E., Kannala, J., Blaschko, M., Vedaldi, A.: Fine-grained visual classification of aircraft. arXiv preprint arXiv:1306.5151 (2013)"},{"key":"1446_CR15","doi-asserted-by":"crossref","unstructured":"Chen, Y., Pu, Y., Zhao, Z., Xu, D., Man, Qian, W.: Image aesthetic assessment based on emotion-assisted multi-task learning network. In: Proceedings of the 2021 6th International Conference on Multimedia Systems and Signal Processing, pp. 15\u201321 (2021)","DOI":"10.1145\/3471261.3471263"},{"key":"1446_CR16","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s00530-021-00875-6","volume":"29","author":"T Hu","year":"2023","unstructured":"Hu, T., Xiang, X., Qin, J., Tan, Y.: Audio\u2013text retrieval based on contrastive learning and collaborative attention mechanism. Multimed. Syst. 29, 1\u201314 (2023)","journal-title":"Multimed. Syst."},{"key":"1446_CR17","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2020.107203","volume":"101","author":"WJ Wong","year":"2020","unstructured":"Wong, W.J., Lai, S.-H.: Multi-task CNN for restoring corrupted fingerprint images. Pattern Recogn. 101, 107203 (2020)","journal-title":"Pattern Recogn."},{"key":"1446_CR18","doi-asserted-by":"crossref","unstructured":"Zheng, Q., Deng, J., Zhu, Z., Li, Y., Zafeiriou, S.: Decoupled multi-task learning with cyclical self-regulation for face parsing. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 4156\u20134165 (2022)","DOI":"10.1109\/CVPR52688.2022.00412"},{"key":"1446_CR19","doi-asserted-by":"crossref","unstructured":"Zheng, H., Fu, J., Zha, Z.-J., Luo, J.: Looking for the devil in the details: learning trilinear attention sampling network for fine-grained image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5012\u20135021 (2019)","DOI":"10.1109\/CVPR.2019.00515"},{"issue":"1","key":"1446_CR20","doi-asserted-by":"publisher","first-page":"19205","DOI":"10.1038\/s41598-022-23835-0","volume":"12","author":"J Lu","year":"2022","unstructured":"Lu, J., Zhang, W., Zhao, Y., Sun, C.: Image local structure information learning for fine-grained visual classification. Sci. Rep. 12(1), 19205 (2022)","journal-title":"Sci. Rep."},{"key":"1446_CR21","doi-asserted-by":"crossref","unstructured":"Ge, W., Lin, X., Yu, Y.: Weakly supervised complementary parts models for fine-grained image classification from the bottom up. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3034\u20133043 (2019)","DOI":"10.1109\/CVPR.2019.00315"},{"key":"1446_CR22","doi-asserted-by":"publisher","first-page":"47","DOI":"10.1016\/j.patcog.2019.02.007","volume":"91","author":"L Qi","year":"2019","unstructured":"Qi, L., Lu, X., Li, X.: Exploiting spatial relation for fine-grained image classification. Pattern Recogn. 91, 47\u201355 (2019)","journal-title":"Pattern Recogn."},{"key":"1446_CR23","doi-asserted-by":"crossref","unstructured":"Yang, Z., Luo, T., Wang, D., Hu, Z., Gao, J., Wang, L.: Learning to navigate for fine-grained classification. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 420\u2013435 (2018)","DOI":"10.1007\/978-3-030-01264-9_26"},{"key":"1446_CR24","doi-asserted-by":"crossref","unstructured":"Sun, M., Yuan, Y., Zhou, F., Ding, E.: Multi-attention multi-class constraint for fine-grained image recognition. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 805\u2013821 (2018)","DOI":"10.1007\/978-3-030-01270-0_49"},{"key":"1446_CR25","doi-asserted-by":"crossref","unstructured":"Dubey, A., Gupta, O., Guo, P., Raskar, R., Farrell, R., Naik, N.: Pairwise confusion for fine-grained visual classification. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 70\u201386 (2018)","DOI":"10.1007\/978-3-030-01258-8_5"},{"key":"1446_CR26","unstructured":"Tan, M., Le, Q.: EfficientNet: Rethinking model scaling for convolutional neural networks. In: Chaudhuri, K., Salakhutdinov, R. (eds.) Proceedings of the 36th International Conference on Machine Learning. Proceedings of Machine Learning Research, vol. 97, pp. 6105\u20136114. PMLR, Long Beach, California, USA (2019)"},{"key":"1446_CR27","doi-asserted-by":"crossref","unstructured":"Li, P., Xie, J., Wang, Q., Gao, Z.: Towards faster training of global covariance pooling networks by iterative matrix square root normalization. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 947\u2013955 (2018)","DOI":"10.1109\/CVPR.2018.00105"},{"key":"1446_CR28","doi-asserted-by":"publisher","first-page":"1545","DOI":"10.1109\/LSP.2020.3020227","volume":"27","author":"W Luo","year":"2020","unstructured":"Luo, W., Zhang, H., Li, J., Wei, X.-S.: Learning semantically enhanced feature for fine-grained image classification. IEEE Signal Process. Lett. 27, 1545\u20131549 (2020)","journal-title":"IEEE Signal Process. Lett."},{"key":"1446_CR29","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1016\/j.patcog.2019.03.007","volume":"92","author":"Z Gao","year":"2019","unstructured":"Gao, Z., Wu, Y., Bu, X., Yu, T., Yuan, J., Jia, Y.: Learning a robust representation via a deep network on symmetric positive definite manifolds. Pattern Recogn. 92, 1\u201312 (2019)","journal-title":"Pattern Recogn."},{"key":"1446_CR30","doi-asserted-by":"publisher","first-page":"679","DOI":"10.1016\/j.patcog.2018.12.023","volume":"88","author":"J Xu","year":"2019","unstructured":"Xu, J., An, W., Zhang, L., Zhang, D.: Sparse, collaborative, or nonnegative representation: which helps pattern classification? Pattern Recogn. 88, 679\u2013688 (2019)","journal-title":"Pattern Recogn."},{"key":"1446_CR31","doi-asserted-by":"crossref","unstructured":"Gao, Y., Han, X., Wang, X., Huang, W., Scott, M.: Channel interaction networks for fine-grained image categorization. In: AAAI, pp. 10818\u201310825 (2020)","DOI":"10.1609\/aaai.v34i07.6712"},{"key":"1446_CR32","unstructured":"Hu, T., Qi, H., Huang, Q., Lu, Y.: See better before looking closer: Weakly supervised data augmentation network for fine-grained visual classification. arXiv preprint arXiv:1901.09891 (2019)"},{"key":"1446_CR33","doi-asserted-by":"crossref","unstructured":"Cubuk, E.D., Zoph, B., Mane, D., Vasudevan, V., Le, Q.V.: Autoaugment: Learning augmentation strategies from data. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 113\u2013123 (2019)","DOI":"10.1109\/CVPR.2019.00020"},{"key":"1446_CR34","first-page":"1","volume":"39","author":"C Guo","year":"2022","unstructured":"Guo, C., Lin, Y., Xu, M., Shao, M., Yao, J.: Inverse transformation sampling-based attentive cutout for fine-grained visual recognition. Vis. Comput. 39, 1\u201312 (2022)","journal-title":"Vis. Comput."},{"key":"1446_CR35","doi-asserted-by":"crossref","unstructured":"Cui, Y., Song, Y., Sun, C., Howard, A., Belongie, S.: Large scale fine-grained categorization and domain-specific transfer learning. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 4109\u20134118 (2018)","DOI":"10.1109\/CVPR.2018.00432"},{"key":"1446_CR36","doi-asserted-by":"crossref","unstructured":"Ruan, M., Yu, X., Zhang, N., Hu, C., Wang, S., Li, X.: Video-based contrastive learning on decision trees: from action recognition to autism diagnosis. In: Proceedings of the 14th Conference on ACM Multimedia Systems, pp. 289\u2013300 (2023)","DOI":"10.1145\/3587819.3590988"},{"key":"1446_CR37","unstructured":"Xiao, T., Wang, X., Efros, A.A., Darrell, T.: What should not be contrastive in contrastive learning. arXiv preprint arXiv:2008.05659 (2020)"},{"key":"1446_CR38","unstructured":"Chen, T., Kornblith, S., Norouzi, M., Hinton, G.E.: A simple framework for contrastive learning of visual representations. arXiv: 2002.05709 (2020)"},{"issue":"3","key":"1446_CR39","doi-asserted-by":"publisher","first-page":"1646","DOI":"10.1109\/TCSVT.2021.3075470","volume":"32","author":"J Gao","year":"2022","unstructured":"Gao, J., Xu, C.: Learning video moment retrieval without a single annotated video. IEEE Trans. Circ. Syst. Video Technol. 32(3), 1646\u20131657 (2022). https:\/\/doi.org\/10.1109\/TCSVT.2021.3075470","journal-title":"IEEE Trans. Circ. Syst. Video Technol."},{"issue":"12","key":"1446_CR40","doi-asserted-by":"publisher","first-page":"15949","DOI":"10.1109\/TPAMI.2023.3311447","volume":"45","author":"J Gao","year":"2023","unstructured":"Gao, J., Chen, M., Xu, C.: Vectorized evidential learning for weakly-supervised temporal action localization. IEEE Trans. Pattern Anal. Mach. Intell. 45(12), 15949\u201315963 (2023). https:\/\/doi.org\/10.1109\/TPAMI.2023.3311447","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"10","key":"1446_CR41","doi-asserted-by":"publisher","first-page":"3476","DOI":"10.1109\/TPAMI.2020.2985708","volume":"43","author":"J Gao","year":"2021","unstructured":"Gao, J., Zhang, T., Xu, C.: Learning to model relationships for zero-shot video classification. IEEE Trans. Pattern Anal. Mach. Intell. 43(10), 3476\u20133491 (2021). https:\/\/doi.org\/10.1109\/TPAMI.2020.2985708","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"1446_CR42","doi-asserted-by":"publisher","first-page":"5410","DOI":"10.1109\/TMM.2023.3333206","volume":"26","author":"Y Hu","year":"2024","unstructured":"Hu, Y., Gao, J., Dong, J., Fan, B., Liu, H.: Exploring rich semantics for open-set action recognition. IEEE Trans. Multimed. 26, 5410\u20135421 (2024). https:\/\/doi.org\/10.1109\/TMM.2023.3333206","journal-title":"IEEE Trans. Multimed."},{"key":"1446_CR43","first-page":"1545","volume":"22","author":"PR Lopez","year":"2019","unstructured":"Lopez, P.R., Dorta, D.V., Preixens, G.C., Sitjes, J.M.G., Marva, F.X.R., Gonzalez, J.: Pay attention to the activations: a modular attention mechanism for fine-grained image recognition. IEEE Trans. Multimed. 22, 502\u2013514 (2019)","journal-title":"IEEE Trans. Multimed."},{"key":"1446_CR44","doi-asserted-by":"crossref","unstructured":"Shu, C., Chen, X., Yu, C., Han, H.: A refined spatial transformer network. In: International Conference on Neural Information Processing, pp. 151\u2013161. Springer (2018)","DOI":"10.1007\/978-3-030-04182-3_14"},{"key":"1446_CR45","first-page":"9422","volume":"33","author":"Y Yu","year":"2020","unstructured":"Yu, Y., Chan, K.H.R., You, C., Song, C., Ma, Y.: Learning diverse and discriminative representations via the principle of maximal coding rate reduction. Adv. Neural Inf. Process. Syst. 33, 9422\u20139434 (2020)","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"1446_CR46","unstructured":"Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. In: International Conference on Learning Representations (2015)"},{"key":"1446_CR47","doi-asserted-by":"crossref","unstructured":"Huang, G., Liu, Z., Van Der\u00a0Maaten, L., Weinberger, K.Q.: Densely connected convolutional networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4700\u20134708 (2017)","DOI":"10.1109\/CVPR.2017.243"},{"key":"1446_CR48","doi-asserted-by":"crossref","unstructured":"Woo, S., Park, J., Lee, J.-Y., Kweon, I.S.: CBAM: Convolutional block attention module. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 3\u201319 (2018)","DOI":"10.1007\/978-3-030-01234-2_1"},{"key":"1446_CR49","doi-asserted-by":"crossref","unstructured":"He, K., Gkioxari, G., Doll\u00e1r, P., Girshick, R.: Mask R-CNN. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 2961\u20132969 (2017)","DOI":"10.1109\/ICCV.2017.322"},{"key":"1446_CR50","unstructured":"Ioffe, S., Szegedy, C.: Batch normalization: accelerating deep network training by reducing internal covariate shift. In: International Conference on Machine Learning, pp. 448\u2013456. PMLR (2015)"},{"key":"1446_CR51","doi-asserted-by":"crossref","unstructured":"Hanselmann, H., Ney, H.: Elope: Fine-grained visual classification with efficient localization, pooling and embedding. In: The IEEE Winter Conference on Applications of Computer Vision, pp. 1247\u20131256 (2020)","DOI":"10.1109\/WACV45572.2020.9093601"},{"key":"1446_CR52","doi-asserted-by":"publisher","first-page":"117944","DOI":"10.1109\/ACCESS.2019.2936118","volume":"7","author":"M Tan","year":"2019","unstructured":"Tan, M., Wang, G., Zhou, J., Peng, Z., Zheng, M.: Fine-grained classification via hierarchical bilinear pooling with aggregated slack mask. IEEE Access 7, 117944\u2013117953 (2019)","journal-title":"IEEE Access"}],"container-title":["Multimedia Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00530-024-01446-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00530-024-01446-1\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00530-024-01446-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,10,28]],"date-time":"2024-10-28T18:18:41Z","timestamp":1730139521000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00530-024-01446-1"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,9,28]]},"references-count":52,"journal-issue":{"issue":"5","published-print":{"date-parts":[[2024,10]]}},"alternative-id":["1446"],"URL":"https:\/\/doi.org\/10.1007\/s00530-024-01446-1","relation":{},"ISSN":["0942-4962","1432-1882"],"issn-type":[{"type":"print","value":"0942-4962"},{"type":"electronic","value":"1432-1882"}],"subject":[],"published":{"date-parts":[[2024,9,28]]},"assertion":[{"value":"21 January 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"1 August 2024","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"28 September 2024","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}],"article-number":"297"}}