{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,24]],"date-time":"2026-01-24T14:13:47Z","timestamp":1769264027956,"version":"3.49.0"},"reference-count":51,"publisher":"Springer Science and Business Media LLC","issue":"15","license":[{"start":{"date-parts":[[2025,9,27]],"date-time":"2025-09-27T00:00:00Z","timestamp":1758931200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,9,27]],"date-time":"2025-09-27T00:00:00Z","timestamp":1758931200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62372242"],"award-info":[{"award-number":["62372242"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J Supercomput"],"DOI":"10.1007\/s11227-025-07888-2","type":"journal-article","created":{"date-parts":[[2025,9,27]],"date-time":"2025-09-27T06:07:58Z","timestamp":1758953278000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Dsrn-svmamba: a dual-stream recursive network base on SVMamba for scene text recognition"],"prefix":"10.1007","volume":"81","author":[{"given":"Yingnan","family":"Zhao","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Fangqi","family":"Ding","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dewen","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zuguo","family":"Yang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jielin","family":"Jiang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,9,27]]},"reference":[{"issue":"1","key":"7888_CR1","doi-asserted-by":"publisher","first-page":"161","DOI":"10.1007\/s11263-020-01369-0","volume":"129","author":"S Long","year":"2021","unstructured":"Long S, He X, Yao C (2021) Scene text detection and recognition: the deep learning era. Int J Comput Vision 129(1):161\u2013184","journal-title":"Int J Comput Vision"},{"key":"7888_CR2","doi-asserted-by":"publisher","first-page":"122769","DOI":"10.1016\/j.eswa.2023.122769","volume":"243","author":"Q Zhou","year":"2024","unstructured":"Zhou Q, Gao J, Yuan Y, Wang Q (2024) Rrtrn: a lightweight and effective backbone for scene text recognition. Expert Syst Appl 243:122769","journal-title":"Expert Syst Appl"},{"issue":"11","key":"7888_CR3","doi-asserted-by":"publisher","first-page":"2298","DOI":"10.1109\/TPAMI.2016.2646371","volume":"39","author":"B Shi","year":"2016","unstructured":"Shi B, Bai X, Yao C (2016) An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Trans Pattern Anal Mach Intell 39(11):2298\u20132304","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"7888_CR4","doi-asserted-by":"crossref","unstructured":"Lee C-Y, Osindero S (2016) Recursive recurrent nets with attention modeling for ocr in the wild. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2231\u20132239","DOI":"10.1109\/CVPR.2016.245"},{"key":"7888_CR5","doi-asserted-by":"crossref","unstructured":"Graves A, Graves A (2012) Connectionist temporal classification. Supervised sequence labelling with recurrent neural networks, 61\u201393","DOI":"10.1007\/978-3-642-24797-2_7"},{"key":"7888_CR6","doi-asserted-by":"crossref","unstructured":"Fang S, Xie H, Wang Y, Mao Z, Zhang Y (2021) Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7098\u20137107","DOI":"10.1109\/CVPR46437.2021.00702"},{"key":"7888_CR7","doi-asserted-by":"crossref","unstructured":"Chu X, Wang Y (2022) Itervm: iterative vision modeling module for scene text recognition. In: 2022 26th International Conference on Pattern Recognition (ICPR), pp. 1393\u20131399. IEEE","DOI":"10.1109\/ICPR56361.2022.9956029"},{"key":"7888_CR8","unstructured":"Wang W, Xie E, Sun P, Wang W, Tian L, Shen C, Luo P (2019) Textsr: Content-aware text super-resolution guided by recognition. arXiv preprint arXiv:1909.07113"},{"key":"7888_CR9","doi-asserted-by":"crossref","unstructured":"Zheng T, Chen Z, Bai J, Xie H, Jiang Y-G (2023) Tps++: Attention-enhanced thin-plate spline for scene text recognition. arXiv preprint arXiv:2305.05322","DOI":"10.24963\/ijcai.2023\/197"},{"key":"7888_CR10","doi-asserted-by":"crossref","unstructured":"He C, Shen Y, Fang C, Xiao F, Tang L, Zhang Y, Zuo W, Guo Z, Li X (2025) Diffusion models in low-level vision: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence","DOI":"10.1109\/TPAMI.2025.3545047"},{"key":"7888_CR11","doi-asserted-by":"crossref","unstructured":"Fujitake M (2023) Diffusionstr: Diffusion model for scene text recognition. In: 2023 IEEE International Conference on Image Processing (ICIP), pp. 1585\u20131589. IEEE","DOI":"10.1109\/ICIP49359.2023.10222793"},{"key":"7888_CR12","unstructured":"Ye X, Du Y, Tao Y, Chen Z (2024) Textssr: Diffusion-based data synthesis for scene text recognition. arXiv preprint arXiv:2412.01137"},{"key":"7888_CR13","doi-asserted-by":"crossref","unstructured":"Atienza R (2021) Vision transformer for fast and efficient scene text recognition. In: International Conference on Document Analysis and Recognition, pp. 319\u2013334. Springer","DOI":"10.1007\/978-3-030-86549-8_21"},{"key":"7888_CR14","unstructured":"Vaswani A (2017) Attention is all you need. Advances in Neural Information Processing Systems"},{"key":"7888_CR15","first-page":"103031","volume":"37","author":"Y Liu","year":"2024","unstructured":"Liu Y, Tian Y, Zhao Y, Yu H, Xie L, Wang Y, Ye Q, Jiao J, Liu Y (2024) Vmamba: visual state space model. Adv Neural Inf Process Syst 37:103031\u2013103063","journal-title":"Adv Neural Inf Process Syst"},{"key":"7888_CR16","doi-asserted-by":"crossref","unstructured":"Woo S, Park J, Lee J-Y, Kweon IS (2018) Cbam: Convolutional block attention module. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 3\u201319","DOI":"10.1007\/978-3-030-01234-2_1"},{"key":"7888_CR17","doi-asserted-by":"crossref","unstructured":"Cho K, Van Merri\u00ebnboer B, Gulcehre C, Bahdanau D, Bougares F, Schwenk H, Bengio Y (2014) Learning phrase representations using rnn encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078","DOI":"10.3115\/v1\/D14-1179"},{"key":"7888_CR18","doi-asserted-by":"crossref","unstructured":"Kim J, Lee JK, Lee KM (2016) Deeply-recursive convolutional network for image super-resolution. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1637\u20131645","DOI":"10.1109\/CVPR.2016.181"},{"key":"7888_CR19","doi-asserted-by":"crossref","unstructured":"Tai Y, Yang J, Liu X (2017) Image super-resolution via deep recursive residual network. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3147\u20133155","DOI":"10.1109\/CVPR.2017.298"},{"key":"7888_CR20","doi-asserted-by":"crossref","unstructured":"He P, Huang W, Qiao Y, Loy C, Tang X (2016) Reading scene text in deep convolutional sequences. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 30","DOI":"10.1609\/aaai.v30i1.10465"},{"key":"7888_CR21","doi-asserted-by":"crossref","unstructured":"Hu W, Cai X, Hou J, Yi S, Lin Z (2020) Gtc: Guided training of ctc towards efficient and accurate scene text recognition. In: Proceedings of the AAAI Conference on Artificial Intelligence, 34, 11005\u201311012","DOI":"10.1609\/aaai.v34i07.6735"},{"key":"7888_CR22","doi-asserted-by":"crossref","unstructured":"Shi B, Wang X, Lyu P, Yao C, Bai X (2016) Robust scene text recognition with automatic rectification. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 4168\u20134176","DOI":"10.1109\/CVPR.2016.452"},{"key":"7888_CR23","doi-asserted-by":"crossref","unstructured":"Baek J, Kim G, Lee J, Park S, Han D, Yun S, Oh SJ, Lee H (2019) What is wrong with scene text recognition model comparisons? dataset and model analysis. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 4715\u20134723","DOI":"10.1109\/ICCV.2019.00481"},{"key":"7888_CR24","doi-asserted-by":"crossref","unstructured":"Wang T, Zhu Y, Jin L, Luo C, Chen X, Wu Y, Wang Q, Cai M (2020) Decoupled attention network for text recognition. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 34, pp. 12216\u201312224","DOI":"10.1609\/aaai.v34i07.6903"},{"key":"7888_CR25","doi-asserted-by":"crossref","unstructured":"Zhang B, Xie H, Wang Y, Xu J, Zhang Y (2023) Linguistic more: Taking a further step toward efficient and accurate scene text recognition. arXiv preprint arXiv:2305.05140","DOI":"10.24963\/ijcai.2023\/189"},{"key":"7888_CR26","doi-asserted-by":"crossref","unstructured":"Lan T, Yin D(2022) A lightweight backbone used for scene text recognition. In: 2022 3rd International Conference on Big Data, Artificial Intelligence and Internet of Things Engineering (ICBAIE), pp. 261\u2013265 . IEEE","DOI":"10.1109\/ICBAIE56435.2022.9985843"},{"key":"7888_CR27","unstructured":"Gu A, Dao T (2023) Mamba: Linear-time sequence modeling with selective state spaces. arXiv preprint arXiv:2312.00752"},{"key":"7888_CR28","unstructured":"Dosovitskiy A (2020) An image is worth 16x16 words: transformers for image recognition at scale. arXiv preprint arXiv:2010.11929"},{"key":"7888_CR29","unstructured":"He C, Zhang R, Xiao F, Fang C, Tang L, Zhang Y, Kong L, Fan D.-P, Li K, Farsiu S: Run: reversible unfolding network for concealed object segmentation. arXiv preprint arXiv:2501.18783 (2025)"},{"key":"7888_CR30","unstructured":"He C, Zhang R, Xiao F, Fang C, Tang L, Zhang Y, Farsiu S (2025) Unfoldir: rethinking deep unfolding network in illumination degradation image restoration. arXiv preprint arXiv:2505.06683"},{"key":"7888_CR31","unstructured":"Yue Y, Li Z (2024) Medmamba: Vision mamba for medical image classification. arXiv preprint arXiv:2403.03849"},{"key":"7888_CR32","unstructured":"Zhu L, Liao B, Zhang Q, Wang X, Liu W, Wang X (2024) Vision mamba: efficient visual representation learning with bidirectional state space model. arXiv preprint arXiv:2401.09417"},{"issue":"11","key":"7888_CR33","doi-asserted-by":"publisher","first-page":"14219","DOI":"10.1007\/s10489-022-04241-5","volume":"53","author":"S Xia","year":"2023","unstructured":"Xia S, Kou J, Liu N, Yin T (2023) Scene text recognition based on two-stage attention and multi-branch feature fusion module. Appl Intell 53(11):14219\u201314232","journal-title":"Appl Intell"},{"issue":"11","key":"7888_CR34","doi-asserted-by":"publisher","first-page":"2673","DOI":"10.1109\/78.650093","volume":"45","author":"M Schuster","year":"1997","unstructured":"Schuster M, Paliwal KK (1997) Bidirectional recurrent neural networks. IEEE Trans Signal Process 45(11):2673\u20132681","journal-title":"IEEE Trans Signal Process"},{"key":"7888_CR35","doi-asserted-by":"crossref","unstructured":"Qiao Z, Zhou Y, Yang D, Zhou Y, Wang W (2020) Seed: Semantics enhanced encoder-decoder framework for scene text recognition. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 13528\u201313537","DOI":"10.1109\/CVPR42600.2020.01354"},{"key":"7888_CR36","doi-asserted-by":"publisher","first-page":"109","DOI":"10.1016\/j.patcog.2019.01.020","volume":"90","author":"C Luo","year":"2019","unstructured":"Luo C, Jin L, Sun Z (2019) Moran: a multi-object rectified attention network for scene text recognition. Pattern Recogn 90:109\u2013118","journal-title":"Pattern Recogn"},{"key":"7888_CR37","unstructured":"Loginov V (2021) Why you should try the real data for the scene text recognition. arXiv preprint arXiv:2107.13938"},{"key":"7888_CR38","unstructured":"Jaderberg M, Simonyan K, Vedaldi A, Zisserman A (2014) Synthetic data and artificial neural networks for natural scene text recognition. arXiv preprint arXiv:1406.2227"},{"key":"7888_CR39","doi-asserted-by":"crossref","unstructured":"Gupta A, Vedaldi A, Zisserman A (2016) Synthetic data for text localisation in natural images. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2315\u20132324","DOI":"10.1109\/CVPR.2016.254"},{"key":"7888_CR40","doi-asserted-by":"crossref","unstructured":"Mishra A, Alahari K, Jawahar C (2012) Scene text recognition using higher order language priors. In: BMVC-British Machine Vision Conference. BMVA","DOI":"10.5244\/C.26.127"},{"key":"7888_CR41","unstructured":"Wang K, Babenko B, Belongie S (2011) End-to-end scene text recognition. In: 2011 International Conference on Computer Vision, pp. 1457\u20131464. IEEE"},{"key":"7888_CR42","doi-asserted-by":"crossref","unstructured":"Karatzas D, Shafait F, Uchida S, Iwamura M, Bigorda LG, Mestre SR, Mas J, Mota DF, Almazan JA, De Las Heras LP (2013) Icdar 2013 robust reading competition. In: 2013 12th International Conference on Document Analysis and Recognition, pp. 1484\u20131493. IEEE","DOI":"10.1109\/ICDAR.2013.221"},{"key":"7888_CR43","doi-asserted-by":"crossref","unstructured":"Karatzas D, Gomez-Bigorda L, Nicolaou A, Ghosh S, Bagdanov A, Iwamura M, Matas J, Neumann L, Chandrasekhar VR, Lu S, et al. (2015) Icdar 2015 competition on robust reading. In: 2015 13th International Conference on Document Analysis and Recognition (ICDAR), pp. 1156\u20131160. IEEE","DOI":"10.1109\/ICDAR.2015.7333942"},{"key":"7888_CR44","doi-asserted-by":"crossref","unstructured":"Phan TQ, Shivakumara P, Tian S, Tan CL (2013) Recognizing text with perspective distortion in natural scenes. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 569\u2013576","DOI":"10.1109\/ICCV.2013.76"},{"issue":"18","key":"7888_CR45","doi-asserted-by":"publisher","first-page":"8027","DOI":"10.1016\/j.eswa.2014.07.008","volume":"41","author":"A Risnumawan","year":"2014","unstructured":"Risnumawan A, Shivakumara P, Chan CS, Tan CL (2014) A robust arbitrary text detection system for natural scene images. Expert Syst Appl 41(18):8027\u20138048","journal-title":"Expert Syst Appl"},{"key":"7888_CR46","unstructured":"Zeiler MD (2012) Adadelta: an adaptive learning rate method. arXiv preprint arXiv:1212.5701"},{"key":"7888_CR47","doi-asserted-by":"crossref","unstructured":"He K, Zhang X, Ren S, Sun J (2015) Delving deep into rectifiers: surpassing human-level performance on imagenet classification. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 1026\u20131034","DOI":"10.1109\/ICCV.2015.123"},{"key":"7888_CR48","unstructured":"Wang J, Hu X (2017) Gated recurrent convolution neural network for ocr. Advances in Neural Information Processing Systems 30"},{"key":"7888_CR49","doi-asserted-by":"crossref","unstructured":"Borisyuk F, Gordo A, Sivakumar V (2018) Rosetta: large scale system for text detection and recognition in images. In: Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pp. 71\u201379","DOI":"10.1145\/3219819.3219861"},{"key":"7888_CR50","doi-asserted-by":"crossref","unstructured":"Yu D, Li X, Zhang C, Liu T, Han J, Liu J, Ding E (2020) Towards accurate scene text recognition with semantic reasoning networks. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 12113\u201312122","DOI":"10.1109\/CVPR42600.2020.01213"},{"issue":"3","key":"7888_CR51","doi-asserted-by":"publisher","first-page":"3444","DOI":"10.1007\/s10489-022-03728-5","volume":"53","author":"X Wu","year":"2023","unstructured":"Wu X, Tang B, Zhao M, Wang J, Guo Y (2023) Str transformer: a cross-domain transformer for scene text recognition. Appl Intell 53(3):3444\u20133458","journal-title":"Appl Intell"}],"container-title":["The Journal of Supercomputing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11227-025-07888-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11227-025-07888-2\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11227-025-07888-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,27]],"date-time":"2025-09-27T06:08:13Z","timestamp":1758953293000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11227-025-07888-2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,9,27]]},"references-count":51,"journal-issue":{"issue":"15","published-online":{"date-parts":[[2025,10]]}},"alternative-id":["7888"],"URL":"https:\/\/doi.org\/10.1007\/s11227-025-07888-2","relation":{},"ISSN":["1573-0484"],"issn-type":[{"value":"1573-0484","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,9,27]]},"assertion":[{"value":"19 April 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"17 September 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"27 September 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no Conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}],"article-number":"1386"}}