{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,26]],"date-time":"2025-03-26T12:57:58Z","timestamp":1742993878046,"version":"3.40.3"},"publisher-location":"Cham","reference-count":33,"publisher":"Springer Nature Switzerland","isbn-type":[{"type":"print","value":"9783031781186"},{"type":"electronic","value":"9783031781193"}],"license":[{"start":{"date-parts":[[2024,12,5]],"date-time":"2024-12-05T00:00:00Z","timestamp":1733356800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,12,5]],"date-time":"2024-12-05T00:00:00Z","timestamp":1733356800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-78119-3_17","type":"book-chapter","created":{"date-parts":[[2024,12,4]],"date-time":"2024-12-04T02:00:50Z","timestamp":1733277650000},"page":"237-253","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Arbitrary-Shaped Scene Text Recognition with\u00a0Deformable Ensemble Attention"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0009-0003-1394-3550","authenticated-orcid":false,"given":"Shuo","family":"Xu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-3129-6015","authenticated-orcid":false,"given":"Zeming","family":"Zhuang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-8831-1191","authenticated-orcid":false,"given":"Mingjun","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8426-9634","authenticated-orcid":false,"given":"Feng","family":"Su","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,12,5]]},"reference":[{"key":"17_CR1","doi-asserted-by":"crossref","unstructured":"Baek, J., et al.: What is wrong with scene text recognition model comparisons? Dataset and model analysis. In: ICCV, pp. 4714\u20134722 (2019)","DOI":"10.1109\/ICCV.2019.00481"},{"key":"17_CR2","doi-asserted-by":"crossref","unstructured":"Cheng, C., Wang, P., Da, C., Zheng, Q., Yao, C.: LISTER: neighbor decoding for length-insensitive scene text recognition. In: ICCV, pp. 19541\u201319551, October 2023","DOI":"10.1109\/ICCV51070.2023.01790"},{"key":"17_CR3","doi-asserted-by":"crossref","unstructured":"Cheng, Z., Bai, F., Xu, Y., Zheng, G., Pu, S., Zhou, S.: Focusing attention: towards accurate text recognition in natural images. In: ICCV, pp. 5086\u20135094, October 2017","DOI":"10.1109\/ICCV.2017.543"},{"key":"17_CR4","doi-asserted-by":"crossref","unstructured":"Du, Y., et al.: SVTR: scene text recognition with a single visual model. In: IJCAI, pp. 884\u2013890 (2022)","DOI":"10.24963\/ijcai.2022\/124"},{"key":"17_CR5","doi-asserted-by":"crossref","unstructured":"Fang, S., Xie, H., Wang, Y., Mao, Z., Zhang, Y.: Read like humans: autonomous, bidirectional and iterative language modeling for scene text recognition. In: CVPR, pp. 7094\u20137103 (2021)","DOI":"10.1109\/CVPR46437.2021.00702"},{"key":"17_CR6","doi-asserted-by":"crossref","unstructured":"Guan, T., et al.: Self-supervised implicit glyph attention for text recognition. In: CVPR, pp. 15285\u201315294 (2023)","DOI":"10.1109\/CVPR52729.2023.01467"},{"key":"17_CR7","unstructured":"Jaderberg, M., Simonyan, K., Vedaldi, A., Zisserman, A.: Synthetic data and artificial neural networks for natural scene text recognition. CoRR abs\/1406.2227 (2014)"},{"key":"17_CR8","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"512","DOI":"10.1007\/978-3-319-10593-2_34","volume-title":"Computer Vision \u2013 ECCV 2014","author":"M Jaderberg","year":"2014","unstructured":"Jaderberg, M., Vedaldi, A., Zisserman, A.: Deep features for text spotting. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8692, pp. 512\u2013528. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10593-2_34"},{"key":"17_CR9","doi-asserted-by":"crossref","unstructured":"Jiang, Q., Wang, J., Peng, D., Liu, C., Jin, L.: Revisiting scene text recognition: a data perspective. In: ICCV (2023)","DOI":"10.1109\/ICCV51070.2023.01878"},{"key":"17_CR10","doi-asserted-by":"crossref","unstructured":"Karatzas, D., et al.: ICDAR 2015 competition on robust reading. In: ICDAR, pp. 1156\u20131160 (2015)","DOI":"10.1109\/ICDAR.2015.7333942"},{"key":"17_CR11","doi-asserted-by":"crossref","unstructured":"Karatzas, D., et al.: ICDAR 2013 robust reading competition. In: ICDAR, pp. 1484\u20131493 (2013)","DOI":"10.1109\/ICDAR.2013.221"},{"key":"17_CR12","doi-asserted-by":"crossref","unstructured":"Lee, J., Park, S., Baek, J., Oh, S.J., Kim, S., Lee, H.: On recognizing texts of arbitrary shapes with 2D self-attention. In: CVPRW, pp. 2326\u20132335 (2020)","DOI":"10.1109\/CVPRW50498.2020.00281"},{"key":"17_CR13","doi-asserted-by":"crossref","unstructured":"Li, H., Wang, P., Shen, C., Zhang, G.: Show, attend and read: a simple and strong baseline for irregular text recognition. In: AAAI, vol.\u00a033, pp. 8610\u20138617, July 2019","DOI":"10.1609\/aaai.v33i01.33018610"},{"key":"17_CR14","doi-asserted-by":"crossref","unstructured":"Litman, R., Anschel, O., Tsiper, S., Litman, R., Mazor, S., Manmatha, R.: SCATTER: selective context attentional scene text recognizer. In: CVPR, pp. 11959\u201311969 (2020)","DOI":"10.1109\/CVPR42600.2020.01198"},{"key":"17_CR15","doi-asserted-by":"crossref","unstructured":"Luo, C., Jin, L., Sun, Z.: MORAN: a multi-object rectified attention network for scene text recognition. PR 90, 109\u2013118 (2019)","DOI":"10.1016\/j.patcog.2019.01.020"},{"key":"17_CR16","doi-asserted-by":"crossref","unstructured":"Mishra, A., Alahari, K., Jawahar, C.V.: Scene text recognition using higher order language priors. In: BMVC, pp. 1\u201311 (2012)","DOI":"10.5244\/C.26.127"},{"key":"17_CR17","series-title":"LNCS","doi-asserted-by":"publisher","first-page":"446","DOI":"10.1007\/978-3-031-19815-1_26","volume-title":"CCV 2022","author":"B Na","year":"2022","unstructured":"Na, B., Kim, Y., Park, S.: Multi-modal text recognition networks: interactive enhancements between visual and semantic features. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) CCV 2022. LNCS, vol. 13688, pp. 446\u2013463. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19815-1_26"},{"key":"17_CR18","doi-asserted-by":"crossref","unstructured":"Phan, T.Q., Shivakumara, P., Tian, S., Tan, C.L.: Recognizing text with perspective distortion in natural scenes. In: ICCV, pp. 569\u2013576 (2013)","DOI":"10.1109\/ICCV.2013.76"},{"key":"17_CR19","doi-asserted-by":"crossref","unstructured":"Qiao, Z., Zhou, Y., Yang, D., Zhou, Y., Wang, W.: SEED: semantics enhanced encoder-decoder framework for scene text recognition. In: CVPR, pp. 13525\u201313534 (2020)","DOI":"10.1109\/CVPR42600.2020.01354"},{"issue":"18","key":"17_CR20","first-page":"8027","volume":"41","author":"A Risnumawan","year":"2014","unstructured":"Risnumawan, A., Shivakumara, P., Chan, C.S., Tan, C.L.: A robust arbitrary text detection system for natural scene images. ESA 41(18), 8027\u20138048 (2014)","journal-title":"ESA"},{"key":"17_CR21","doi-asserted-by":"crossref","unstructured":"Shi, B., Bai, X., Yao, C.: An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE TPAMI 39(11), 2298\u20132304 (2017)","DOI":"10.1109\/TPAMI.2016.2646371"},{"key":"17_CR22","doi-asserted-by":"crossref","unstructured":"Shi, B., Yang, M., Wang, X., Lyu, P., Yao, C., Bai, X.: ASTER: an attentional scene text recognizer with flexible rectification. IEEE TPAMI 41(9), 2035\u20132048 (2019)","DOI":"10.1109\/TPAMI.2018.2848939"},{"key":"17_CR23","series-title":"LNCS","doi-asserted-by":"publisher","first-page":"481","DOI":"10.1007\/978-3-031-19815-1_28","volume-title":"ECCV 2022","author":"YL Tan","year":"2022","unstructured":"Tan, Y.L., Kong, A.W.K., Kim, J.J.: Pure transformer with integrated experts for scene text recognition. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13688, pp. 481\u2013497. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19815-1_28"},{"key":"17_CR24","unstructured":"Vaswani, A., et al.: Attention is all You need. In: NeurIPS, pp. 5998\u20136008 (2017)"},{"key":"17_CR25","unstructured":"Wang, K., Babenko, B., Belongie, S.: End-to-end scene text recognition. In: ICCV, pp. 1457\u20131464 (2011)"},{"key":"17_CR26","doi-asserted-by":"crossref","unstructured":"Wang, T., et al.: Decoupled attention network for text recognition. In: AAAI, vol.\u00a034, pp. 12216\u201312224, April 2020","DOI":"10.1609\/aaai.v34i07.6903"},{"key":"17_CR27","doi-asserted-by":"crossref","unstructured":"Wang, Y., Xie, H., Fang, S., Wang, J., Zhu, S., Zhang, Y.: From two to one: a new scene text recognizer with visual language modeling network. In: ICCV, pp. 14174\u201314183 (2021)","DOI":"10.1109\/ICCV48922.2021.01393"},{"key":"17_CR28","series-title":"LNCS","doi-asserted-by":"publisher","first-page":"303","DOI":"10.1007\/978-3-031-19815-1_18","volume-title":"ECCV 2022","author":"X Xie","year":"2022","unstructured":"Xie, X., Fu, L., Zhang, Z., Wang, Z., Bai, X.: Toward understanding WordArt: corner-guided transformer for scene text recognition. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13688, pp. 303\u2013321. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19815-1_18"},{"key":"17_CR29","doi-asserted-by":"crossref","unstructured":"Xu, J., Wang, Y., Xie, H., Zhang, Y.: OTE: exploring accurate scene text recognition using one token. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 28327\u201328336, June 2024","DOI":"10.1109\/CVPR52733.2024.02676"},{"key":"17_CR30","doi-asserted-by":"crossref","unstructured":"Yu, D., et al.: Towards accurate scene text recognition with semantic reasoning networks. In: CVPR, pp. 12110\u201312119 (2020)","DOI":"10.1109\/CVPR42600.2020.01213"},{"key":"17_CR31","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"135","DOI":"10.1007\/978-3-030-58529-7_9","volume-title":"Computer Vision \u2013 ECCV 2020","author":"X Yue","year":"2020","unstructured":"Yue, X., Kuang, Z., Lin, C., Sun, H., Zhang, W.: RobustScanner: dynamically enhancing positional clues for robust text recognition. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12364, pp. 135\u2013151. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58529-7_9"},{"key":"17_CR32","doi-asserted-by":"crossref","unstructured":"Zhan, F., Lu, S.: ESIR: end-to-end scene text recognition via iterative image rectification. In: CVPR, pp. 2054\u20132063, June 2019","DOI":"10.1109\/CVPR.2019.00216"},{"key":"17_CR33","unstructured":"Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.: Deformable DETR: deformable transformers for end-to-end object detection. In: ICLR (2021)"}],"container-title":["Lecture Notes in Computer Science","Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-78119-3_17","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,12,4]],"date-time":"2024-12-04T02:06:06Z","timestamp":1733277966000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-78119-3_17"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,5]]},"ISBN":["9783031781186","9783031781193"],"references-count":33,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-78119-3_17","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2024,12,5]]},"assertion":[{"value":"5 December 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICPR","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Pattern Recognition","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Kolkata","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"India","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"1 December 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"5 December 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"27","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"icpr2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/icpr2024.org\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}