{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,11]],"date-time":"2026-07-11T17:34:12Z","timestamp":1783791252493,"version":"3.55.0"},"reference-count":107,"publisher":"Springer Science and Business Media LLC","issue":"5","license":[{"start":{"date-parts":[[2023,1,12]],"date-time":"2023-01-12T00:00:00Z","timestamp":1673481600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,1,12]],"date-time":"2023-01-12T00:00:00Z","timestamp":1673481600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2023,5]]},"DOI":"10.1007\/s11263-022-01739-w","type":"journal-article","created":{"date-parts":[[2023,1,12]],"date-time":"2023-01-12T15:03:17Z","timestamp":1673535797000},"page":"1141-1162","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":212,"title":["ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for Image Recognition and Beyond"],"prefix":"10.1007","volume":"131","author":[{"given":"Qiming","family":"Zhang","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yufei","family":"Xu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Jing","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Dacheng","family":"Tao","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2023,1,12]]},"reference":[{"issue":"6","key":"1739_CR1","first-page":"33","volume":"29","author":"EH Adelson","year":"1984","unstructured":"Adelson, E. H., Anderson, C. H., Bergen, J. R., Burt, P. J., & Ogden, J. M. (1984). Pyramid methods in image processing. RCA Engineer, 29(6), 33\u201341.","journal-title":"RCA Engineer"},{"key":"1739_CR2","first-page":"20014","volume":"34","author":"A Ali","year":"2021","unstructured":"Ali, A., Touvron, H., Caron, M., Bojanowski, P., Douze, M., Joulin, A., Laptev, I., Neverova, N., Synnaeve, G., Verbeek, J., et al. (2021). Xcit: Cross-covariance image transformers. Advances in Neural Information Processing Systems, 34, 20014\u201320027.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"1739_CR3","unstructured":"Ba, J.L., Kiros, J.R., Hinton, G.E. (2016). Layer normalization. arXiv preprint arXiv:1607.06450"},{"key":"1739_CR4","unstructured":"Bao, H., Dong, L., Piao, S., Wei, F. (2021). Beit: Bert pre-training of image transformers. In: International conference on learning representations"},{"key":"1739_CR5","doi-asserted-by":"crossref","unstructured":"Bay, H., Tuytelaars, T., Van\u00a0Gool, L. (2006). Surf: Speeded up robust features. In: European conference on computer vision, Springer, pp. 404\u2013417","DOI":"10.1007\/11744023_32"},{"key":"1739_CR6","unstructured":"Beyer, L., H\u00e9naff, O.J., Kolesnikov, A., Zhai, X., Oord, Avd. (2020). Are we done with imagenet? arXiv preprint arXiv:2006.07159"},{"key":"1739_CR7","doi-asserted-by":"crossref","unstructured":"Bhojanapalli, S., Chakrabarti, A., Glasner, D., Li, D., Unterthiner, T., Veit, A. (2021). Understanding robustness of transformers for image classification. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp. 10231\u201310241","DOI":"10.1109\/ICCV48922.2021.01007"},{"key":"1739_CR8","doi-asserted-by":"crossref","unstructured":"Burt, P.J., Adelson, E.H. (1987). The laplacian pyramid as a compact image code. In: Readings in computer vision, Elsevier, pp. 671\u2013679","DOI":"10.1016\/B978-0-08-051581-6.50065-9"},{"key":"1739_CR9","doi-asserted-by":"crossref","unstructured":"Cai, Z., Vasconcelos, N. (2018). Cascade r-cnn: Delving into high quality object detection. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 6154\u20136162","DOI":"10.1109\/CVPR.2018.00644"},{"issue":"5","key":"1739_CR10","doi-asserted-by":"publisher","first-page":"1483","DOI":"10.1109\/TPAMI.2019.2956516","volume":"43","author":"Z Cai","year":"2019","unstructured":"Cai, Z., & Vasconcelos, N. (2019). Cascade r-CNN: High quality object detection and instance segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43(5), 1483\u20131498.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1739_CR11","unstructured":"Chen, C.F., Panda, R., Fan, Q. (2021a). Regionvit: Regional-to-local attention for vision transformers. In: international conference on learning representations"},{"key":"1739_CR12","doi-asserted-by":"crossref","unstructured":"Chen, C.F.R, Fan, Q., Panda, R. (2021b). Crossvit: Cross-attention multi-scale vision transformer for image classification. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp. 357\u2013366","DOI":"10.1109\/ICCV48922.2021.00041"},{"key":"1739_CR13","unstructured":"Chen, L.C., Papandreou, G., Schroff, F., Adam, H. (2017). Rethinking atrous convolution for semantic image segmentation. arXiv preprint arXiv:1706.05587"},{"key":"1739_CR14","doi-asserted-by":"crossref","unstructured":"Chen, X., Xie, S., He, K. (2021c). An empirical study of training self-supervised vision transformers. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 9640\u20139649","DOI":"10.1109\/ICCV48922.2021.00950"},{"key":"1739_CR15","doi-asserted-by":"crossref","unstructured":"Chen, Y., Dai, X., Chen, D., Liu, M., Dong, X., Yuan, L., Liu, Z. (2022). Mobile-former: Bridging mobilenet and transformer. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 5270\u20135279","DOI":"10.1109\/CVPR52688.2022.00520"},{"key":"1739_CR16","unstructured":"Choromanski, K.M., Likhosherstov, V., Dohan, D., Song, X., Gane, A., Sarlos, T., Hawkins, P., Davis, J.Q., Mohiuddin, A., Kaiser, L., et\u00a0al. (2020). Rethinking attention with performers. In: International conference on learning representations"},{"key":"1739_CR17","first-page":"9355","volume":"34","author":"X Chu","year":"2021","unstructured":"Chu, X., Tian, Z., Wang, Y., Zhang, B., Ren, H., Wei, X., Xia, H., & Shen, C. (2021). Twins: Revisiting the design of spatial attention in vision transformers. Advances in Neural Information Processing Systems, 34, 9355\u20139366.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"1739_CR18","unstructured":"Contributors, M. (2020). MMSegmentation: Openmmlab semantic segmentation toolbox and benchmark. https:\/\/github.com\/open-mmlab\/mmsegmentation"},{"key":"1739_CR19","first-page":"3965","volume":"34","author":"Z Dai","year":"2021","unstructured":"Dai, Z., Liu, H., Le, Q. V., & Tan, M. (2021). Coatnet: Marrying convolution and attention for all data sizes. Advances in Neural Information Processing Systems, 34, 3965\u20133977.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"1739_CR20","doi-asserted-by":"crossref","unstructured":"d\u2019Ascoli, S., Touvron, H., Leavitt, M.L., Morcos, A.S., Biroli, G., Sagun, L. (2021). Convit: Improving vision transformers with soft convolutional inductive biases. In International conference on machine learning, PMLR, pp. 2286\u20132296","DOI":"10.1088\/1742-5468\/ac9830"},{"issue":"5","key":"1739_CR21","doi-asserted-by":"publisher","first-page":"1458","DOI":"10.1109\/TIP.2010.2087767","volume":"20","author":"H Demirel","year":"2010","unstructured":"Demirel, H., & Anbarjafari, G. (2010). Image resolution enhancement by using discrete and stationary wavelet decomposition. IEEE Transactions on Image Processing, 20(5), 1458\u20131460.","journal-title":"IEEE Transactions on Image Processing"},{"key":"1739_CR22","doi-asserted-by":"crossref","unstructured":"Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L. (2009). Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, IEEE, pp. 248\u2013255","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"1739_CR23","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et\u00a0al. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. In International conference on learning representations"},{"key":"1739_CR24","doi-asserted-by":"crossref","unstructured":"Fan, H., Xiong, B., Mangalam, K., Li, Y., Yan, Z., Malik, J., Feichtenhofer, C. (2021). Multiscale vision transformers. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp. 6824\u20136835","DOI":"10.1109\/ICCV48922.2021.00675"},{"key":"1739_CR25","doi-asserted-by":"crossref","unstructured":"Graham, B., El-Nouby, A., Touvron, H., Stock, P., Joulin, A., J\u00e9gou, H., Douze, M. (2021). Levit: a vision transformer in convnet\u2019s clothing for faster inference. In Proceedings of the IEEE\/CVF international conference on computer vision, pp. 12259\u201312269","DOI":"10.1109\/ICCV48922.2021.01204"},{"key":"1739_CR26","unstructured":"Guo, M.H., Lu, C.Z., Liu, Z.N., Cheng, M.M., Hu, S.M. (2022). Visual attention network. arXiv preprint arXiv:2202.09741"},{"key":"1739_CR27","first-page":"15908","volume":"34","author":"K Han","year":"2021","unstructured":"Han, K., Xiao, A., Wu, E., Guo, J., Xu, C., & Wang, Y. (2021). Transformer in transformer. Advances in Neural Information Processing Systems, 34, 15908\u201315919.","journal-title":"Advances in Neural Information Processing Systems"},{"issue":"9","key":"1739_CR28","doi-asserted-by":"publisher","first-page":"1904","DOI":"10.1109\/TPAMI.2015.2389824","volume":"37","author":"K He","year":"2015","unstructured":"He, K., Zhang, X., Ren, S., & Sun, J. (2015). Spatial pyramid pooling in deep convolutional networks for visual recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 37(9), 1904\u20131916.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1739_CR29","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770\u2013778","DOI":"10.1109\/CVPR.2016.90"},{"key":"1739_CR30","doi-asserted-by":"crossref","unstructured":"He, K., Gkioxari, G., Doll\u00e1r, P., Girshick, R. (2017). Mask r-cnn. In Proceedings of the IEEE\/CVF international conference on computer vision, pp. 2961\u20132969","DOI":"10.1109\/ICCV.2017.322"},{"key":"1739_CR31","doi-asserted-by":"crossref","unstructured":"He, K., Chen, X., Xie, S., Li, Y., Doll,\u00e1r P, Girshick, R. (2022). Masked autoencoders are scalable vision learners. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 16000\u201316009","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"1739_CR32","first-page":"27331","volume":"34","author":"L He","year":"2021","unstructured":"He, L., Dong, Y., Wang, Y., Tao, D., & Lin, Z. (2021). Gauge equivariant transformer. Advances in Neural Information Processing Systems, 34, 27331\u201327343.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"1739_CR33","doi-asserted-by":"crossref","unstructured":"Heo, B., Yun, S., Han, D., Chun, S., Choe, J., Oh, S.J. (2021). Rethinking spatial dimensions of vision transformers. In Proceedings of the IEEE\/CVF international conference on computer vision, pp. 11936\u201311945","DOI":"10.1109\/ICCV48922.2021.01172"},{"key":"1739_CR34","unstructured":"Howard, A.G., Zhu, M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., Andreetto, M., Adam, H. (2017). Mobilenets: Efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861"},{"key":"1739_CR35","doi-asserted-by":"crossref","unstructured":"Huang, G., Liu, Z., Van Der\u00a0Maaten, L., Weinberger, K.Q. (2017). Densely connected convolutional networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 4700\u20134708","DOI":"10.1109\/CVPR.2017.243"},{"key":"1739_CR36","unstructured":"Ke, Y., Sukthankar, R. (2004). Pca-sift: A more distinctive representation for local image descriptors. In Proceedings of the IEEE conference on computer vision and pattern recognition, IEEE, vol\u00a02, pp. II\u2013II"},{"key":"1739_CR37","unstructured":"Kenton, J.D.M.W.C., Toutanova, L.K. (2019). Bert: Pre-training of deep bidirectional transformers for language understanding. In Proceedings of NAACL-HLT, pp. 4171\u20134186"},{"key":"1739_CR38","doi-asserted-by":"crossref","unstructured":"Kolesnikov, A., Beyer, L., Zhai, X., Puigcerver, J., Yung, J., Gelly, S., Houlsby, N. (2020). Big transfer (bit): General visual representation learning. In Computer Vision\u2013ECCV 2020: 16th European Conference, Glasgow, UK, August 23\u201328, 2020, Proceedings, Part V 16, Springer, pp. 491\u2013507","DOI":"10.1007\/978-3-030-58558-7_29"},{"key":"1739_CR39","doi-asserted-by":"crossref","unstructured":"Krause, J., Stark, M., Deng, J., Fei-Fei, L. (2013). 3d object representations for fine-grained categorization. In 4th International IEEE Workshop on 3D Representation and Recognition (3dRR-13), Sydney, Australia","DOI":"10.1109\/ICCVW.2013.77"},{"key":"1739_CR40","unstructured":"Krizhevsky, A., Hinton, G., et\u00a0al. (2009). Learning multiple layers of features from tiny images"},{"key":"1739_CR41","first-page":"1097","volume":"25","author":"A Krizhevsky","year":"2012","unstructured":"Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 25, 1097\u20131105.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"1739_CR42","doi-asserted-by":"crossref","unstructured":"Lai, W.S., Huang, J.B., Ahuja, N., Yang, M.H. (2017). Deep laplacian pyramid networks for fast and accurate super-resolution. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 624\u2013632","DOI":"10.1109\/CVPR.2017.618"},{"issue":"10","key":"1739_CR43","first-page":"1995","volume":"3361","author":"Y LeCun","year":"1995","unstructured":"LeCun, Y., Bengio, Y., et al. (1995). Convolutional networks for images, speech, and time series. The Handbook of Brain Theory and Neural Networks, 3361(10), 1995.","journal-title":"The Handbook of Brain Theory and Neural Networks"},{"issue":"7553","key":"1739_CR44","doi-asserted-by":"publisher","first-page":"436","DOI":"10.1038\/nature14539","volume":"521","author":"Y LeCun","year":"2015","unstructured":"LeCun, Y., Bengio, Y., & Hinton, G. (2015). Nature, 521(7553), 436\u2013444.","journal-title":"Nature"},{"key":"1739_CR45","doi-asserted-by":"crossref","unstructured":"Lee, Y., Kim, J., Willette, J., Hwang, S.J. (2022). Mpvit: Multi-path vision transformer for dense prediction. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 7287\u20137296","DOI":"10.1109\/CVPR52688.2022.00714"},{"key":"1739_CR46","unstructured":"Li, Y., Zhang, K., Cao, J., Timofte, R., Van\u00a0Gool, L. (2021). Localvit: Bringing locality to vision transformers. arXiv preprint arXiv:2104.05707"},{"key":"1739_CR47","doi-asserted-by":"crossref","unstructured":"Lin, G., Shen, C., Van Den\u00a0Hengel, A., Reid, I. (2016). Efficient piecewise training of deep structured models for semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 3194\u20133203","DOI":"10.1109\/CVPR.2016.348"},{"key":"1739_CR48","doi-asserted-by":"crossref","unstructured":"Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Doll\u00e1r, P., Zitnick, C.L. (2014). Microsoft coco: Common objects in context. In European conference on computer vision, Springer, pp. 740\u2013755","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"1739_CR49","doi-asserted-by":"crossref","unstructured":"Lin, T.Y., Doll\u00e1r, P., Girshick, R., He, K., Hariharan, B., Belongie, S. (2017). Feature pyramid networks for object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 2117\u20132125","DOI":"10.1109\/CVPR.2017.106"},{"key":"1739_CR50","unstructured":"Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., Stoyanov, V. (2019). Roberta: A robustly optimized bert pretraining approach. arXiv preprint arXiv:1907.11692"},{"key":"1739_CR51","doi-asserted-by":"crossref","unstructured":"Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B. (2021). Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE\/CVF international conference on computer vision, pp. 10012\u201310022","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"1739_CR52","doi-asserted-by":"crossref","unstructured":"Liu, Z., Hu, H., Lin, Y., Yao, Z., Xie, Z., Wei, Y., Ning, J., Cao, Y., Zhang, Z., Dong, L., et\u00a0al. (2022). Swin transformer v2: Scaling up capacity and resolution. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 12009\u201312019","DOI":"10.1109\/CVPR52688.2022.01170"},{"key":"1739_CR53","unstructured":"Loshchilov, I., Hutter, F. (2017). Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101"},{"key":"1739_CR54","unstructured":"Loshchilov, I., Hutter, F. (2018). Decoupled weight decay regularization. In International Conference on Learning Representations"},{"key":"1739_CR55","first-page":"4898","volume":"29","author":"W Luo","year":"2016","unstructured":"Luo, W., Li, Y., Urtasun, R., & Zemel, R. S. (2016). Understanding the effective receptive field in deep convolutional neural networks. Advances in Neural Information Processing Systems, 29, 4898\u20134906.","journal-title":"Advances in Neural Information Processing Systems"},{"issue":"13","key":"1739_CR56","doi-asserted-by":"publisher","first-page":"3812","DOI":"10.1093\/nar\/gkg509","volume":"31","author":"PC Ng","year":"2003","unstructured":"Ng, P. C., & Henikoff, S. (2003). Sift: Predicting amino acid changes that affect protein function. Nucleic Acids Research, 31(13), 3812\u20133814.","journal-title":"Nucleic Acids Research"},{"key":"1739_CR57","doi-asserted-by":"crossref","unstructured":"Nilsback, M.E., Zisserman, A. (2008). Automated flower classification over a large number of classes. In Indian Conference on Computer Vision, Graphics and Image Processing","DOI":"10.1109\/ICVGIP.2008.47"},{"issue":"4","key":"1739_CR58","doi-asserted-by":"publisher","first-page":"394","DOI":"10.1006\/gmip.1996.0032","volume":"58","author":"H Olkkonen","year":"1996","unstructured":"Olkkonen, H., & Pesola, P. (1996). Gaussian pyramid wavelet transform for multiresolution analysis of images. Graphical Models and Image Processing, 58(4), 394\u2013398.","journal-title":"Graphical Models and Image Processing"},{"key":"1739_CR59","doi-asserted-by":"crossref","unstructured":"Parkhi, O.M., Vedaldi, A., Zisserman, A., Jawahar, C.V. (2012). Cats and dogs. In Proceedings of the IEEE conference on computer vision and pattern recognition","DOI":"10.1109\/CVPR.2012.6248092"},{"key":"1739_CR60","unstructured":"Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein, N., Antiga, L., et\u00a0al. (2019). Pytorch: An imperative style, high-performance deep learning library. Advances in neural information processing systems 32"},{"key":"1739_CR61","doi-asserted-by":"crossref","unstructured":"Peng, Z., Huang, W., Gu, S., Xie, L., Wang, Y., Jiao, J., Ye, Q. (2021). Conformer: Local features coupling global representations for visual recognition. In Proceedings of the IEEE\/CVF international conference on computer vision, pp. 367\u2013376","DOI":"10.1109\/ICCV48922.2021.00042"},{"key":"1739_CR62","doi-asserted-by":"crossref","unstructured":"Pham, H., Dai, Z., Xie, Q., Le, Q.V. (2021). Meta pseudo labels. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 11557\u201311568","DOI":"10.1109\/CVPR46437.2021.01139"},{"key":"1739_CR63","unstructured":"Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et\u00a0al. (2021). Learning transferable visual models from natural language supervision. In international conference on machine learning, PMLR, pp. 8748\u20138763"},{"key":"1739_CR64","doi-asserted-by":"crossref","unstructured":"Radosavovic, I., Kosaraju, R.P., Girshick, R., He, K., Doll\u00e1r, P. (2020). Designing network design spaces. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 10428\u201310436","DOI":"10.1109\/CVPR42600.2020.01044"},{"key":"1739_CR65","doi-asserted-by":"crossref","unstructured":"Rublee, E., Rabaud, V., Konolige, K., Bradski, G. (2011). Orb: An efficient alternative to sift or surf. In: Proceedings of the IEEE\/CVF international conference on computer vision, IEEE, pp. 2564\u20132571","DOI":"10.1109\/ICCV.2011.6126544"},{"key":"1739_CR66","unstructured":"Sabour, S., Frosst, N., Hinton, G.E. (2017). Dynamic routing between capsules. Advances in Neural Information Processing Systems 30"},{"key":"1739_CR67","doi-asserted-by":"crossref","unstructured":"Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., & Chen, L.C. (2018). Mobilenetv2: Inverted residuals and linear bottlenecks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 4510\u20134520","DOI":"10.1109\/CVPR.2018.00474"},{"key":"1739_CR68","doi-asserted-by":"crossref","unstructured":"Selvaraju, R.R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., & Batra, D. (2017). Grad-cam: Visual explanations from deep networks via gradient-based localization. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp 618\u2013626","DOI":"10.1109\/ICCV.2017.74"},{"key":"1739_CR69","unstructured":"Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556"},{"key":"1739_CR70","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., & Rabinovich, A. (2015). Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1\u20139","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"1739_CR71","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., Wojna, Z. (2016). Rethinking the inception architecture for computer vision. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 2818\u20132826","DOI":"10.1109\/CVPR.2016.308"},{"key":"1739_CR72","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Ioffe, S., Vanhoucke, V., Alemi, A. (2017). Inception-v4, inception-resnet and the impact of residual connections on learning. In: Proceedings of the AAAI conference on artificial intelligence, vol\u00a031","DOI":"10.1609\/aaai.v31i1.11231"},{"key":"1739_CR73","unstructured":"Tan, M., Le, Q. (2019). Efficientnet: Rethinking model scaling for convolutional neural networks. In International conference on machine learning, PMLR, pp. 6105\u20136114"},{"key":"1739_CR74","unstructured":"Tang, S., Gong, R., Wang, Y., Liu, A., Wang, J., Chen, X., Yu, F., Liu, X., Song, D., Yuille, A. et\u00a0al (2021). Robustart: Benchmarking robustness on architecture design and training techniques. arXiv preprint arXiv:2109.05211"},{"key":"1739_CR75","first-page":"24261","volume":"34","author":"IO Tolstikhin","year":"2021","unstructured":"Tolstikhin, I. O., Houlsby, N., Kolesnikov, A., Beyer, L., Zhai, X., Unterthiner, T., Yung, J., Steiner, A., Keysers, D., Uszkoreit, J., et al. (2021). Mlp-mixer: An all-mlp architecture for vision. Advances in Neural Information Processing Systems, 34, 24261\u201324272.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"1739_CR76","unstructured":"Touvron, H., Cord, M., Douze, M., Massa, F., Sablayrolles, A., & J\u00e9gou, H. (2021a). Training data-efficient image transformers & distillation through attention. In International conference on machine learning, PMLR, pp. 10347\u201310357"},{"key":"1739_CR77","doi-asserted-by":"crossref","unstructured":"Touvron, H., Sablayrolles, A., Douze, M., Cord, M., & J\u00e9gou, H. (2021b). Grafit: Learning fine-grained image representations with coarse labels. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp. 874\u2013884","DOI":"10.1109\/ICCV48922.2021.00091"},{"key":"1739_CR78","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, \u0141., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems 30"},{"key":"1739_CR79","doi-asserted-by":"crossref","unstructured":"Wang, W., Xie, E., Li, X., Fan, D.P., Song, K., Liang, D., Lu, T., Luo, P., & Shao, L. (2021a). Pyramid vision transformer: A versatile backbone for dense prediction without convolutions. In Proceedings of the IEEE\/cvf international conference on computer vision, pp. 568\u2013578","DOI":"10.1109\/ICCV48922.2021.00061"},{"key":"1739_CR80","unstructured":"Wang, W., Yao, L., Chen, L., Lin, B., Cai, D., He, X., & Liu, W. (2021b). Crossformer: A versatile vision transformer hinging on cross-scale attention. In International conference on learning representations"},{"issue":"3","key":"1739_CR81","doi-asserted-by":"publisher","first-page":"415","DOI":"10.1007\/s41095-022-0274-8","volume":"8","author":"W Wang","year":"2022","unstructured":"Wang, W., Xie, E., Li, X., Fan, D. P., Song, K., Liang, D., Lu, T., Luo, P., & Shao, L. (2022). Pvt v2: Improved baselines with pyramid vision transformer. Computational Visual Media, 8(3), 415\u2013424.","journal-title":"Computational Visual Media"},{"key":"1739_CR82","doi-asserted-by":"crossref","unstructured":"Wei, C., Fan, H., Xie, S., Wu, C.Y., Yuille, A., & Feichtenhofer, C. (2022). Masked feature prediction for self-supervised visual pre-training. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 14668\u201314678","DOI":"10.1109\/CVPR52688.2022.01426"},{"key":"1739_CR83","unstructured":"Wightman, R. (2019). Pytorch image models. https:\/\/github.com\/rwightman\/pytorch-image-models, 10.5281\/zenodo.4414861"},{"key":"1739_CR84","doi-asserted-by":"crossref","unstructured":"Wu, H., Xiao, B., Codella, N., Liu, M., Dai, X., Yuan, L., & Zhang, L. (2021). Cvt: Introducing convolutions to vision transformers. In Proceedings of the IEEE\/CVF international conference on computer vision, pp. 22\u201331","DOI":"10.1109\/ICCV48922.2021.00009"},{"key":"1739_CR85","doi-asserted-by":"crossref","unstructured":"Xia, Z., Pan, X., Song, S., Li, L.E., & Huang, G. (2022). Vision transformer with deformable attention. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 4794\u20134803","DOI":"10.1109\/CVPR52688.2022.00475"},{"key":"1739_CR86","doi-asserted-by":"crossref","unstructured":"Xiao, B., Wu, H., & Wei, Y. (2018a). Simple baselines for human pose estimation and tracking. In: Proceedings of the European conference on computer vision (ECCV), pp. 466\u2013481","DOI":"10.1007\/978-3-030-01231-1_29"},{"key":"1739_CR87","doi-asserted-by":"crossref","unstructured":"Xiao, T., Liu, Y., Zhou, B., Jiang, Y., & Sun, J. (2018b). Unified perceptual parsing for scene understanding. In Proceedings of the European conference on computer vision (ECCV), pp. 418\u2013434","DOI":"10.1007\/978-3-030-01228-1_26"},{"key":"1739_CR88","doi-asserted-by":"crossref","unstructured":"Xie, Z., Zhang, Z., Cao, Y., Lin, Y., Bao, J., Yao, Z., Dai, Q., & Hu, H. (2022). Simmim: A simple framework for masked image modeling. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 9653\u20139663","DOI":"10.1109\/CVPR52688.2022.00943"},{"key":"1739_CR89","first-page":"28522","volume":"34","author":"Y Xu","year":"2021","unstructured":"Xu, Y., Zhang, Q., Zhang, J., & Tao, D. (2021). Vitae: Vision transformer advanced by exploring intrinsic inductive bias. Advances in Neural Information Processing Systems, 34, 28522\u201328535.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"1739_CR90","unstructured":"Xu, Y., Zhang, J., Zhang, Q., & Tao, D. (2022). Vitpose: Simple vision transformer baselines for human pose estimation. Advances in Neural Information Processing Systems"},{"key":"1739_CR91","unstructured":"Yan, H., Li, Z., Li, W., Wang, C., Wu, M., & Zhang, C. (2021). Contnet: Why not use convolution and transformer at the same time? arXiv preprint arXiv:2104.13497"},{"key":"1739_CR92","unstructured":"Yang, J., Li, C., Zhang, P., Dai, X., Xiao, B., Yuan, L., & Gao, J. (2021). Focal self-attention for local-global interactions in vision transformers. Advances in Neural Information Processing Systems"},{"key":"1739_CR93","unstructured":"Yu, F., & Koltun, V. (2016). Multi-scale context aggregation by dilated convolutions. In International conference on learning representations"},{"key":"1739_CR94","doi-asserted-by":"crossref","unstructured":"Yu, F., Koltun, V., & Funkhouser, T. (2017). Dilated residual networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 472\u2013480","DOI":"10.1109\/CVPR.2017.75"},{"key":"1739_CR95","unstructured":"Yu, H., Xu, Y., Zhang, J., Zhao, W., Guan, Z., & Tao, D. (2021). Ap-10k: A benchmark for animal pose estimation in the wild. In: Thirty-fifth conference on neural information processing systems datasets and benchmarks Track (Round 2)"},{"key":"1739_CR96","doi-asserted-by":"crossref","unstructured":"Yu, W., Luo, M., Zhou, P., Si, C., Zhou, Y., Wang, X., Feng, J., & Yan, S. (2022). Metaformer is actually what you need for vision. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 10819\u201310829","DOI":"10.1109\/CVPR52688.2022.01055"},{"key":"1739_CR97","doi-asserted-by":"crossref","unstructured":"Yuan, K., Guo, S., Liu, Z., Zhou, A., Yu, F., & Wu, W. (2021a). Incorporating convolution designs into visual transformers. In Proceedings of the IEEE\/CVF International conference on computer vision, pp. 579\u2013588","DOI":"10.1109\/ICCV48922.2021.00062"},{"key":"1739_CR98","doi-asserted-by":"crossref","unstructured":"Yuan, L., Chen, Y., Wang, T., Yu, W., Shi, Y., Jiang, Z.H., Tay, F.E., Feng, J., & Yan, S. (2021b). Tokens-to-token vit: Training vision transformers from scratch on imagenet. In Proceedings of the IEEE\/CVF international conference on computer vision, pp. 558\u2013567","DOI":"10.1109\/ICCV48922.2021.00060"},{"key":"1739_CR99","doi-asserted-by":"crossref","unstructured":"Zeiler, M.D., & Fergus, R. (2014). Visualizing and understanding convolutional networks. In European conference on computer vision, Springer, pp. 818\u2013833","DOI":"10.1007\/978-3-319-10590-1_53"},{"key":"1739_CR100","doi-asserted-by":"crossref","unstructured":"Zhai, X., Kolesnikov, A., Houlsby, N., & Beyer, L. (2022). Scaling vision transformers. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 12104\u201312113","DOI":"10.1109\/CVPR52688.2022.01179"},{"key":"1739_CR101","doi-asserted-by":"crossref","unstructured":"Zhang, J., Cao, Y., Wang, Y., Wen, C., & Chen, C.W. (2018). Fully point-wise convolutional neural network for modeling statistical regularities in natural images. In Proceedings of the 26th ACM international conference on Multimedia, pp. 984\u2013992","DOI":"10.1145\/3240508.3240653"},{"key":"1739_CR102","doi-asserted-by":"crossref","unstructured":"Zhang, P., Dai, X., Yang, J., Xiao, B., Yuan, L., Zhang, L., & Gao, J. (2021). Multi-scale vision longformer: A new vision transformer for high-resolution image encoding. In Proceedings of the IEEE\/CVF international conference on computer vision, pp. 2998\u20133008","DOI":"10.1109\/ICCV48922.2021.00299"},{"key":"1739_CR103","doi-asserted-by":"crossref","unstructured":"Zhang, Q., Xu, Y., Zhang, J., & Tao, D. (2022). Vsa: Learning varied-size window attention in vision transformers. In Proceedings of the European conference on computer vision (ECCV)","DOI":"10.1007\/978-3-031-19806-9_27"},{"key":"1739_CR104","doi-asserted-by":"crossref","unstructured":"Zhao, H., Shi, J., Qi, X., Wang, X., & Jia, J. (2017). Pyramid scene parsing network. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 2881\u20132890","DOI":"10.1109\/CVPR.2017.660"},{"key":"1739_CR105","doi-asserted-by":"crossref","unstructured":"Zheng, S., Lu, J., Zhao, H., Zhu, X., Luo, Z., Wang, Y., Fu, Y., Feng, J., Xiang, T., & Torr, P.H. et\u00a0al (2021). Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 6881\u20136890","DOI":"10.1109\/CVPR46437.2021.00681"},{"key":"1739_CR106","doi-asserted-by":"crossref","unstructured":"Zhou, B., Zhao, H., Puig, X., Fidler, S., Barriuso, A., & Torralba, A. (2017). Scene parsing through ade20k dataset. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 633\u2013641","DOI":"10.1109\/CVPR.2017.544"},{"issue":"3","key":"1739_CR107","doi-asserted-by":"publisher","first-page":"302","DOI":"10.1007\/s11263-018-1140-0","volume":"127","author":"B Zhou","year":"2019","unstructured":"Zhou, B., Zhao, H., Puig, X., Xiao, T., Fidler, S., Barriuso, A., & Torralba, A. (2019). Semantic understanding of scenes through the ade20k dataset. International Journal of Computer Vision, 127(3), 302\u2013321.","journal-title":"International Journal of Computer Vision"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-022-01739-w.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11263-022-01739-w\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-022-01739-w.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,4,13]],"date-time":"2023-04-13T09:20:43Z","timestamp":1681377643000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11263-022-01739-w"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,1,12]]},"references-count":107,"journal-issue":{"issue":"5","published-print":{"date-parts":[[2023,5]]}},"alternative-id":["1739"],"URL":"https:\/\/doi.org\/10.1007\/s11263-022-01739-w","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,1,12]]},"assertion":[{"value":"19 February 2022","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"18 November 2022","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"12 January 2023","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}