{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,6]],"date-time":"2026-05-06T16:18:07Z","timestamp":1778084287429,"version":"3.51.4"},"publisher-location":"Cham","reference-count":55,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031736605","type":"print"},{"value":"9783031736612","type":"electronic"}],"license":[{"start":{"date-parts":[[2024,11,10]],"date-time":"2024-11-10T00:00:00Z","timestamp":1731196800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,11,10]],"date-time":"2024-11-10T00:00:00Z","timestamp":1731196800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-73661-2_27","type":"book-chapter","created":{"date-parts":[[2024,11,9]],"date-time":"2024-11-09T11:09:05Z","timestamp":1731150545000},"page":"483-500","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":50,"title":["HiT-SR: Hierarchical Transformer for\u00a0Efficient Image Super-Resolution"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-2004-5794","authenticated-orcid":false,"given":"Xiang","family":"Zhang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2288-5079","authenticated-orcid":false,"given":"Yulun","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8829-7344","authenticated-orcid":false,"given":"Fisher","family":"Yu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,11,10]]},"reference":[{"key":"27_CR1","doi-asserted-by":"crossref","unstructured":"Agustsson, E., Timofte, R.: NTIRE 2017 challenge on single image super-resolution: dataset and study. In: CVPRW, pp. 126\u2013135 (2017)","DOI":"10.1109\/CVPRW.2017.150"},{"key":"27_CR2","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"256","DOI":"10.1007\/978-3-030-01249-6_16","volume-title":"Computer Vision \u2013 ECCV 2018","author":"N Ahn","year":"2018","unstructured":"Ahn, N., Kang, B., Sohn, K.-A.: Fast, accurate, and lightweight super-resolution with cascading residual network. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds.) ECCV 2018. LNCS, vol. 11214, pp. 256\u2013272. Springer, Cham (2018). https:\/\/doi.org\/10.1007\/978-3-030-01249-6_16"},{"key":"27_CR3","unstructured":"Ali, A., et al.: XCiT: cross-covariance image transformers. In: NIPS, vol.\u00a034, pp. 20014\u201320027 (2021)"},{"key":"27_CR4","doi-asserted-by":"crossref","unstructured":"Bevilacqua, M., Roumy, A., Guillemot, C., Alberi-Morel, M.L.: Low-complexity single-image super-resolution based on nonnegative neighbor embedding. In: BMVC (2012)","DOI":"10.5244\/C.26.135"},{"key":"27_CR5","doi-asserted-by":"crossref","unstructured":"Cai, H., Li, J., Hu, M., Gan, C., Han, S.: EfficientViT: lightweight multi-scale attention for high-resolution dense prediction. In: ICCV, pp. 17302\u201317313 (2023)","DOI":"10.1109\/ICCV51070.2023.01587"},{"key":"27_CR6","doi-asserted-by":"publisher","first-page":"205","DOI":"10.1007\/978-3-031-25066-8_9","volume-title":"ECCV 2022","author":"H Cao","year":"2022","unstructured":"Cao, H., et al.: Swin-Unet: Unet-like pure transformer for medical image segmentation. In: Karlinsky, L., Michaeli, T., Nishino, K. (eds.) ECCV 2022. LNCS, vol. 13803, pp. 205\u2013218. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-25066-8_9"},{"key":"27_CR7","unstructured":"Chen, H., et al.: Pre-trained image processing transformer. In: CVPR, pp. 12299\u201312310 (2021)"},{"key":"27_CR8","doi-asserted-by":"crossref","unstructured":"Chen, Q., et al.: MixFormer: mixing features across windows and dimensions. In: CVPR, pp. 5249\u20135259 (2022)","DOI":"10.1109\/CVPR52688.2022.00518"},{"key":"27_CR9","doi-asserted-by":"crossref","unstructured":"Chen, Z., Zhang, Y., Gu, J., Kong, L., Yang, X., Yu, F.: Dual aggregation transformer for image super-resolution. In: ICCV, pp. 12312\u201312321 (2023)","DOI":"10.1109\/ICCV51070.2023.01131"},{"key":"27_CR10","doi-asserted-by":"crossref","unstructured":"Choi, H., Lee, J., Yang, J.: N-gram in swin transformers for efficient lightweight image super-resolution. In: CVPR, pp. 2071\u20132081 (2023)","DOI":"10.1109\/CVPR52729.2023.00206"},{"key":"27_CR11","doi-asserted-by":"crossref","unstructured":"Dai, T., Cai, J., Zhang, Y., Xia, S.T., Zhang, L.: Second-order attention network for single image super-resolution. In: CVPR, pp. 11065\u201311074 (2019)","DOI":"10.1109\/CVPR.2019.01132"},{"key":"27_CR12","doi-asserted-by":"publisher","first-page":"74","DOI":"10.1007\/978-3-031-20053-3_5","volume-title":"ECCV 2022","author":"M Ding","year":"2022","unstructured":"Ding, M., Xiao, B., Codella, N., Luo, P., Wang, J., Yuan, L.: DaViT: dual attention vision transformers. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13684, pp. 74\u201392. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-20053-3_5"},{"key":"27_CR13","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"184","DOI":"10.1007\/978-3-319-10593-2_13","volume-title":"Computer Vision \u2013 ECCV 2014","author":"C Dong","year":"2014","unstructured":"Dong, C., Loy, C.C., He, K., Tang, X.: Learning a deep convolutional network for image super-resolution. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8692, pp. 184\u2013199. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10593-2_13"},{"key":"27_CR14","unstructured":"Dosovitskiy, A., et al.: An image is worth $$16\\times 16$$ words: transformers for image recognition at scale. In: ICLR (2021)"},{"key":"27_CR15","doi-asserted-by":"crossref","unstructured":"Du, Z., Liu, D., Liu, J., Tang, J., Wu, G., Fu, L.: Fast and memory-efficient network towards efficient image super-resolution. In: CVPR, pp. 853\u2013862 (2022)","DOI":"10.1109\/CVPRW56347.2022.00101"},{"key":"27_CR16","doi-asserted-by":"crossref","unstructured":"Fang, J., Lin, H., Chen, X., Zeng, K.: A hybrid network of CNN and transformer for lightweight image super-resolution. In: CVPRW, pp. 1103\u20131112 (2022)","DOI":"10.1109\/CVPRW56347.2022.00119"},{"key":"27_CR17","doi-asserted-by":"publisher","first-page":"25","DOI":"10.1023\/A:1026501619075","volume":"40","author":"WT Freeman","year":"2000","unstructured":"Freeman, W.T., Pasztor, E.C., Carmichael, O.T.: Learning low-level vision. IJCV 40, 25\u201347 (2000)","journal-title":"IJCV"},{"key":"27_CR18","doi-asserted-by":"crossref","unstructured":"Glasner, D., Bagon, S., Irani, M.: Super-resolution from a single image. In: ICCV, pp. 349\u2013356 (2009)","DOI":"10.1109\/ICCV.2009.5459271"},{"key":"27_CR19","doi-asserted-by":"crossref","unstructured":"Gu, J., Dong, C.: Interpreting super-resolution networks with local attribution maps. In: CVPR, pp. 9199\u20139208 (2021)","DOI":"10.1109\/CVPR46437.2021.00908"},{"issue":"11","key":"27_CR20","first-page":"3911","volume":"30","author":"Y Hu","year":"2019","unstructured":"Hu, Y., Li, J., Huang, Y., Gao, X.: Channel-wise and spatial feature modulation network for single image super-resolution. TCSVT 30(11), 3911\u20133927 (2019)","journal-title":"TCSVT"},{"key":"27_CR21","doi-asserted-by":"crossref","unstructured":"Huang, J.B., Singh, A., Ahuja, N.: Single image super-resolution from transformed self-exemplars. In: CVPR, pp. 5197\u20135206 (2015)","DOI":"10.1109\/CVPR.2015.7299156"},{"key":"27_CR22","doi-asserted-by":"crossref","unstructured":"Hui, Z., Gao, X., Yang, Y., Wang, X.: Lightweight image super-resolution with information multi-distillation network. In: ACMMM, pp. 2024\u20132032 (2019)","DOI":"10.1145\/3343031.3351084"},{"key":"27_CR23","doi-asserted-by":"crossref","unstructured":"Kim, J., Lee, J.K., Lee, K.M.: Accurate image super-resolution using very deep convolutional networks. In: CVPR, pp. 1646\u20131654 (2016)","DOI":"10.1109\/CVPR.2016.182"},{"key":"27_CR24","unstructured":"Kingma, D.P., Ba, J.: Adam: a method for stochastic optimization. In: ICLR (2015)"},{"key":"27_CR25","doi-asserted-by":"crossref","unstructured":"Lai, W.S., Huang, J.B., Ahuja, N., Yang, M.H.: Deep Laplacian pyramid networks for fast and accurate super-resolution. In: CVPR, pp. 624\u2013632 (2017)","DOI":"10.1109\/CVPR.2017.618"},{"key":"27_CR26","doi-asserted-by":"crossref","unstructured":"Liang, J., Cao, J., Sun, G., Zhang, K., Van\u00a0Gool, L., Timofte, R.: SwinIR: image restoration using swin transformer. In: ICCVW, pp. 1833\u20131844 (2021)","DOI":"10.1109\/ICCVW54120.2021.00210"},{"key":"27_CR27","doi-asserted-by":"crossref","unstructured":"Lim, B., Son, S., Kim, H., Nah, S., Mu\u00a0Lee, K.: Enhanced deep residual networks for single image super-resolution. In: CVPRW, pp. 136\u2013144 (2017)","DOI":"10.1109\/CVPRW.2017.151"},{"key":"27_CR28","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"41","DOI":"10.1007\/978-3-030-67070-2_2","volume-title":"Computer Vision \u2013 ECCV 2020 Workshops","author":"J Liu","year":"2020","unstructured":"Liu, J., Tang, J., Wu, G.: Residual feature distillation network for lightweight image super-resolution. In: Bartoli, A., Fusiello, A. (eds.) ECCV 2020. LNCS, vol. 12537, pp. 41\u201355. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-67070-2_2"},{"key":"27_CR29","doi-asserted-by":"crossref","unstructured":"Liu, Z., et al.: Swin Transformer V2: scaling up capacity and resolution. In: CVPR, pp. 12009\u201312019 (2022)","DOI":"10.1109\/CVPR52688.2022.01170"},{"key":"27_CR30","doi-asserted-by":"crossref","unstructured":"Liu, Z., et al.: Swin Transformer: hierarchical vision transformer using shifted windows. In: ICCV, pp. 10012\u201310022 (2021)","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"27_CR31","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"272","DOI":"10.1007\/978-3-030-58542-6_17","volume-title":"Computer Vision \u2013 ECCV 2020","author":"X Luo","year":"2020","unstructured":"Luo, X., Xie, Y., Zhang, Y., Qu, Y., Li, C., Fu, Y.: LatticeNet: towards lightweight image super-resolution with lattice block. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12367, pp. 272\u2013289. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58542-6_17"},{"key":"27_CR32","doi-asserted-by":"crossref","unstructured":"Martin, D., Fowlkes, C., Tal, D., Malik, J.: A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics. In: ICCV, vol.\u00a02, pp. 416\u2013423 (2001)","DOI":"10.1109\/ICCV.2001.937655"},{"key":"27_CR33","doi-asserted-by":"publisher","first-page":"21811","DOI":"10.1007\/s11042-016-4020-z","volume":"76","author":"Y Matsui","year":"2017","unstructured":"Matsui, Y., et al.: Sketch-based manga retrieval using manga109 dataset. Multimedia Tools Appl. 76, 21811\u201321838 (2017)","journal-title":"Multimedia Tools Appl."},{"key":"27_CR34","doi-asserted-by":"crossref","unstructured":"Mei, Y., Fan, Y., Zhou, Y., Huang, L., Huang, T.S., Shi, H.: Image super-resolution with cross-scale non-local attention and exhaustive self-exemplars mining. In: CVPR, pp. 5690\u20135699 (2020)","DOI":"10.1109\/CVPR42600.2020.00573"},{"key":"27_CR35","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"191","DOI":"10.1007\/978-3-030-58610-2_12","volume-title":"Computer Vision \u2013 ECCV 2020","author":"B Niu","year":"2020","unstructured":"Niu, B., et al.: Single image super-resolution via a holistic attention network. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12357, pp. 191\u2013207. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58610-2_12"},{"key":"27_CR36","unstructured":"Paszke, A., et al.: PyTorch: an imperative style, high-performance deep learning library. In: NIPS, vol.\u00a032 (2019)"},{"key":"27_CR37","unstructured":"Ramachandran, P., Parmar, N., Vaswani, A., Bello, I., Levskaya, A., Shlens, J.: Stand-alone self-attention in vision models. In: NIPS, vol.\u00a032 (2019)"},{"key":"27_CR38","unstructured":"Touvron, H., Cord, M., Douze, M., Massa, F., Sablayrolles, A., J\u00e9gou, H.: Training data-efficient image transformers & distillation through attention. In: ICML, pp. 10347\u201310357 (2021)"},{"key":"27_CR39","unstructured":"Vaswani, A., et al.: Attention is all you need. In: NIPS, vol.\u00a030 (2017)"},{"key":"27_CR40","doi-asserted-by":"crossref","unstructured":"Wang, H., Chen, X., Ni, B., Liu, Y., Liu, J.: Omni aggregation networks for lightweight image super-resolution. In: CVPR, pp. 22378\u201322387 (2023)","DOI":"10.1109\/CVPR52729.2023.02143"},{"issue":"9","key":"27_CR41","doi-asserted-by":"publisher","first-page":"10974","DOI":"10.1109\/TPAMI.2023.3268675","volume":"45","author":"H Wang","year":"2023","unstructured":"Wang, H., Zhang, Y., Qin, C., Van Gool, L., Fu, Y.: Global aligned structured sparsity learning for efficient image super-resolution. PAMI 45(9), 10974\u201310989 (2023)","journal-title":"PAMI"},{"key":"27_CR42","doi-asserted-by":"crossref","unstructured":"Wang, W., et al.: Pyramid vision transformer: a versatile backbone for dense prediction without convolutions. In: ICCV, pp. 568\u2013578 (2021)","DOI":"10.1109\/ICCV48922.2021.00061"},{"key":"27_CR43","unstructured":"Wang, W., et al.: CrossFormer++: a versatile vision transformer hinging on cross-scale attention. In: ICLR (2022)"},{"key":"27_CR44","doi-asserted-by":"crossref","unstructured":"Wang, Z., Cun, X., Bao, J., Zhou, W., Liu, J., Li, H.: Uformer: a general U-shaped transformer for image restoration. In: CVPR, pp. 17683\u201317693 (2022)","DOI":"10.1109\/CVPR52688.2022.01716"},{"issue":"4","key":"27_CR45","first-page":"600","volume":"13","author":"Z Wang","year":"2004","unstructured":"Wang, Z., Bovik, A.C., Sheikh, H.R., Simoncelli, E.P.: Image quality assessment: from error visibility to structural similarity. TIP 13(4), 600\u2013612 (2004)","journal-title":"TIP"},{"key":"27_CR46","doi-asserted-by":"crossref","unstructured":"Yang, J., Wright, J., Huang, T., Ma, Y.: Image super-resolution as sparse representation of raw image patches. In: CVPR, pp.\u00a01\u20138 (2008)","DOI":"10.1109\/CVPR.2008.4587647"},{"issue":"11","key":"27_CR47","first-page":"2861","volume":"19","author":"J Yang","year":"2010","unstructured":"Yang, J., Wright, J., Huang, T.S., Ma, Y.: Image super-resolution via sparse representation. TIP 19(11), 2861\u20132873 (2010)","journal-title":"TIP"},{"key":"27_CR48","doi-asserted-by":"crossref","unstructured":"Zamir, S.W., Arora, A., Khan, S., Hayat, M., Khan, F.S., Yang, M.H.: Restormer: efficient transformer for high-resolution image restoration. In: CVPR, pp. 5728\u20135739 (2022)","DOI":"10.1109\/CVPR52688.2022.00564"},{"key":"27_CR49","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"711","DOI":"10.1007\/978-3-642-27413-8_47","volume-title":"Curves and Surfaces","author":"R Zeyde","year":"2012","unstructured":"Zeyde, R., Elad, M., Protter, M.: On single image scale-up using sparse-representations. In: Boissonnat, J.-D., et al. (eds.) Curves and Surfaces 2010. LNCS, vol. 6920, pp. 711\u2013730. Springer, Heidelberg (2012). https:\/\/doi.org\/10.1007\/978-3-642-27413-8_47"},{"key":"27_CR50","doi-asserted-by":"publisher","first-page":"649","DOI":"10.1007\/978-3-031-19790-1_39","volume-title":"ECCV 2022","author":"X Zhang","year":"2022","unstructured":"Zhang, X., Zeng, H., Guo, S., Zhang, L.: Efficient long-range attention network for image super-resolution. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13677, pp. 649\u2013667. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19790-1_39"},{"key":"27_CR51","doi-asserted-by":"crossref","unstructured":"Zhang, Y., Li, K., Li, K., Wang, L., Zhong, B., Fu, Y.: Image super-resolution using very deep residual channel attention networks. In: ECCV, pp. 286\u2013301 (2018)","DOI":"10.1007\/978-3-030-01234-2_18"},{"key":"27_CR52","unstructured":"Zhang, Y., Li, K., Li, K., Zhong, B., Fu, Y.: Residual non-local attention networks for image restoration. In: ICLR (2019)"},{"key":"27_CR53","unstructured":"Zhang, Y., Wang, H., Qin, C., Fu, Y.: Learning efficient image super-resolution networks via structure-regularized pruning. In: ICLR (2021)"},{"key":"27_CR54","doi-asserted-by":"crossref","unstructured":"Zheng, S., et al.: Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers. In: CVPR, pp. 6881\u20136890 (2021)","DOI":"10.1109\/CVPR46437.2021.00681"},{"key":"27_CR55","doi-asserted-by":"crossref","unstructured":"Zhou, Y., Li, Z., Guo, C.L., Bai, S., Cheng, M.M., Hou, Q.: SRFormer: permuted self-attention for single image super-resolution. In: ICCV, pp. 12780\u201312791 (2023)","DOI":"10.1109\/ICCV51070.2023.01174"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-73661-2_27","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,9]],"date-time":"2024-11-09T12:09:18Z","timestamp":1731154158000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-73661-2_27"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,11,10]]},"ISBN":["9783031736605","9783031736612"],"references-count":55,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-73661-2_27","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,11,10]]},"assertion":[{"value":"10 November 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Milan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Italy","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 September 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2024.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}