{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,24]],"date-time":"2026-01-24T16:25:39Z","timestamp":1769271939577,"version":"3.49.0"},"publisher-location":"Cham","reference-count":49,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783032046239","type":"print"},{"value":"9783032046246","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,9,17]],"date-time":"2025-09-17T00:00:00Z","timestamp":1758067200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,9,17]],"date-time":"2025-09-17T00:00:00Z","timestamp":1758067200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-04624-6_35","type":"book-chapter","created":{"date-parts":[[2025,9,16]],"date-time":"2025-09-16T05:33:21Z","timestamp":1758000801000},"page":"595-612","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Watch and Act: Multi-orientation Open-Set Scene Text Recognition via\u00a0Dynamic Expert Routing"],"prefix":"10.1007","author":[{"given":"Chang","family":"Liu","sequence":"first","affiliation":[]},{"given":"Elisa H.","family":"Barney Smith","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,9,17]]},"reference":[{"key":"35_CR1","doi-asserted-by":"crossref","unstructured":"Hu, R., Singh, A., Darrell, T., Rohrbach, M.: Iterative answer prediction with pointer-augmented multimodal transformers for TextVQA. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 9992\u201310002 (2020)","DOI":"10.1109\/CVPR42600.2020.01001"},{"key":"35_CR2","unstructured":"Al-Tahan, H., Garrido, Q., Balestriero, R., Bouchacourt, D., Hazirbas, C., Ibrahim, M.: Unibench: visual reasoning requires rethinking vision-language beyond scaling. In: The Thirty-Eight Conference on Neural Information Processing Systems Datasets and Benchmarks Track (2024)"},{"key":"35_CR3","doi-asserted-by":"crossref","unstructured":"Zhao, S., Quan, R., Zhu, L., Yang, Y.: Clip4str: a simple baseline for scene text recognition with pre-trained vision-language model. IEEE Trans. Image Process. (2024)","DOI":"10.1109\/TIP.2024.3512354"},{"key":"35_CR4","doi-asserted-by":"crossref","unstructured":"Cheng, Z., Xu, Y., Bai, F., Niu, Y., Pu, S., Zhou, S.: AON: towards arbitrarily-oriented text recognition. In: 2018 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2018, Salt Lake City, UT, USA, 18\u201322 June 2018, pp. 5571\u20135579. IEEE Computer Society (2018)","DOI":"10.1109\/CVPR.2018.00584"},{"key":"35_CR5","doi-asserted-by":"crossref","unstructured":"Yu, H., Wang, X., Li, B., Xue, X.: Orientation-independent Chinese text recognition in scene images. In: Proceedings of the Thirty-Second International Joint Conference on Artificial Intelligence, IJCAI 2023, 19th\u201325th August 2023, Macao, SAR, China, pp. 1667\u20131675. ijcai.org (2023)","DOI":"10.24963\/ijcai.2023\/185"},{"key":"35_CR6","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2022.109109","volume":"134","author":"C Liu","year":"2023","unstructured":"Liu, C., Yang, C., Qin, H., Zhu, X., Liu, C., Yin, X.: Towards open-set text recognition via label-to-prototype learning. Pattern Recognit. 134, 109109 (2023)","journal-title":"Pattern Recognit."},{"key":"35_CR7","doi-asserted-by":"crossref","unstructured":"Liu, C., Corbill\u00e9, S., Barney Smith, E.H.: MOoSE: multi-orientation sharing experts for open-set scene text recognition. In: International Conference on Document Analysis and Recognition, pp. 93\u2013110. Springer (2024)","DOI":"10.1007\/978-3-031-70549-6_6"},{"issue":"10","key":"35_CR8","doi-asserted-by":"publisher","first-page":"3614","DOI":"10.1109\/TPAMI.2020.2981604","volume":"43","author":"C Geng","year":"2021","unstructured":"Geng, C., Huang, S., Chen, S.: Recent advances in open set recognition: a survey. IEEE Trans. Pattern Anal. Mach. Intell. 43(10), 3614\u20133631 (2021)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"4","key":"35_CR9","first-page":"4051","volume":"45","author":"F Pourpanah","year":"2023","unstructured":"Pourpanah, F., et al.: A review of generalized zero-shot learning methods. IEEE Trans. Pattern Anal. Mach. Intell. 45(4), 4051\u20134070 (2023)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"35_CR10","unstructured":"Mnih, V.: Playing Atari with deep reinforcement learning, arXiv preprint arXiv:1312.5602 (2013)"},{"key":"35_CR11","unstructured":"Mnih, V., et al.: Asynchronous methods for deep reinforcement learning. In: International Conference on Machine Learning, pp. 1928\u20131937. PmLR (2016)"},{"key":"35_CR12","doi-asserted-by":"publisher","first-page":"229","DOI":"10.1023\/A:1022672621406","volume":"8","author":"RJ Williams","year":"1992","unstructured":"Williams, R.J.: Simple statistical gradient-following algorithms for connectionist reinforcement learning. Mach. Learn. 8, 229\u2013256 (1992)","journal-title":"Mach. Learn."},{"key":"35_CR13","doi-asserted-by":"crossref","unstructured":"Baek, J., et al.: What is wrong with scene text recognition model comparisons? Dataset and model analysis. In: 2019 IEEE\/CVF International Conference on Computer Vision, ICCV 2019, Seoul, Korea (South), 27 October\u20132 November 2019, pp. 4714\u20134722. IEEE (2019)","DOI":"10.1109\/ICCV.2019.00481"},{"key":"35_CR14","doi-asserted-by":"crossref","unstructured":"Orihashi, S., Yamazaki, Y., Uchida, M., Takashima, A., Masumura, R.: Fully shareable scene text recognition modeling for horizontal and vertical writing. In: 2022 IEEE International Conference on Image Processing (ICIP), pp. 2636\u20132640. IEEE (2022)","DOI":"10.1109\/ICIP46576.2022.9897836"},{"issue":"11","key":"35_CR15","doi-asserted-by":"publisher","first-page":"2905","DOI":"10.1109\/TMM.2020.2965491","volume":"22","author":"H Luo","year":"2020","unstructured":"Luo, H., Jiang, W., Fan, X., Zhang, C.: STNReID: deep convolutional networks with pairwise spatial transformer networks for partial person re-identification. IEEE Trans. Multim. 22(11), 2905\u20132913 (2020)","journal-title":"IEEE Trans. Multim."},{"key":"35_CR16","doi-asserted-by":"crossref","unstructured":"Shi, B., Wang, X., Lyu, P., Yao, C., Bai, X.: Robust scene text recognition with automatic rectification. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, Las Vegas, NV, USA, 27\u201330 June 2016, pp. 4168\u20134176. IEEE Computer Society (2016)","DOI":"10.1109\/CVPR.2016.452"},{"key":"35_CR17","doi-asserted-by":"crossref","unstructured":"Yang, M., et al.: Symmetry-constrained rectification network for scene text recognition. In: 2019 IEEE\/CVF International Conference on Computer Vision, ICCV 2019, Seoul, Korea (South), 27 October\u20132 November 2019, pp. 9146\u20139155. IEEE (2019)","DOI":"10.1109\/ICCV.2019.00924"},{"key":"35_CR18","doi-asserted-by":"publisher","first-page":"109","DOI":"10.1016\/j.patcog.2019.01.020","volume":"90","author":"C Luo","year":"2019","unstructured":"Luo, C., Jin, L., Sun, Z.: MORAN: a multi-object rectified attention network for scene text recognition. Pattern Recognit. 90, 109\u2013118 (2019)","journal-title":"Pattern Recognit."},{"key":"35_CR19","doi-asserted-by":"crossref","unstructured":"Vo, V., Le, B.S., Vo, H.P., Nguyen, H.T.C., Lam, P.H.K.: Build A module for improvement real time speech enhancement using long short-term memory approach: improvement real time speech enhancement using long short-term memory. In: Proceedings of the 2023 8th International Conference on Intelligent Information Technology, ICIIT 2023, Da Nang, Vietnam, 24\u201326 February 2023, pp. 259\u2013264. ACM (2023)","DOI":"10.1145\/3591569.3591614"},{"key":"35_CR20","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"202","DOI":"10.1007\/978-3-030-21074-8_16","volume-title":"Computer Vision \u2013 ACCV 2018 Workshops","author":"C Choi","year":"2019","unstructured":"Choi, C., Yoon, Y., Lee, J., Kim, J.: Simultaneous recognition of horizontal and vertical text in natural images. In: Carneiro, G., You, S. (eds.) ACCV 2018. LNCS, vol. 11367, pp. 202\u2013212. Springer, Cham (2019). https:\/\/doi.org\/10.1007\/978-3-030-21074-8_16"},{"key":"35_CR21","doi-asserted-by":"crossref","unstructured":"Wang, W., Zhang, J., Du, J., Wang, Z.R., Zhu, Y.: DenseRAN for offline handwritten Chinese character recognition. In: 16th International Conference on Frontiers in Handwriting Recognition, ICFHR 2018, Niagara Falls, NY, USA, 5\u20138 August 2018, pp. 104\u2013109. IEEE Computer Society (2018)","DOI":"10.1109\/ICFHR-2018.2018.00027"},{"key":"35_CR22","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"127","DOI":"10.1007\/978-3-030-86334-0_9","volume-title":"Document Analysis and Recognition - ICDAR 2021","author":"Y Huang","year":"2021","unstructured":"Huang, Y., Jin, L., Peng, D.: Zero-shot Chinese text recognition via matching class embedding. In: Llad\u00f3s, J., Lopresti, D., Uchida, S. (eds.) ICDAR 2021. LNCS, vol. 12823, pp. 127\u2013141. Springer, Cham (2021). https:\/\/doi.org\/10.1007\/978-3-030-86334-0_9"},{"key":"35_CR23","doi-asserted-by":"crossref","unstructured":"Liu, C., Yang, C., Yin, X.: Open-set text recognition via character-context decoupling. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2022, New Orleans, LA, USA, 18\u201324 June 2022, pp. 4513\u20134522. IEEE (2022)","DOI":"10.1109\/CVPR52688.2022.00448"},{"key":"35_CR24","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"51","DOI":"10.1007\/978-3-030-58517-4_4","volume-title":"Computer Vision \u2013 ECCV 2020","author":"C Zhang","year":"2020","unstructured":"Zhang, C., Gupta, A., Zisserman, A.: Adaptive text recognition through visual matching. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12361, pp. 51\u201367. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58517-4_4"},{"key":"35_CR25","unstructured":"Ren, S., He, K., Girshick, R.B., Sun, J.: Faster R-CNN: towards real-time object detection with region proposal networks. In: Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015, 7\u201312 December 2015, Montreal, Quebec, Canada, pp. 91\u201399 (2015)"},{"key":"35_CR26","doi-asserted-by":"crossref","unstructured":"Cai, W., Jiang, J., Wang, F., Tang, J., Kim, S., Huang, J.: A survey on mixture of experts, arXiv preprint arXiv:2407.06204 (2024)","DOI":"10.36227\/techrxiv.172055626.64129172\/v1"},{"key":"35_CR27","unstructured":"Jiang, A.Q., et al.: Mixtral of experts, arXiv preprint arXiv:2401.04088 (2024)"},{"key":"35_CR28","unstructured":"Ong, I., et al.: Routellm: learning to route LLMs from preference data. In: The Thirteenth International Conference on Learning Representations (2024)"},{"key":"35_CR29","doi-asserted-by":"crossref","unstructured":"Quan, S.: DMoERM: recipes of mixture-of-experts for effective reward modeling. In: Ku, L.-W., Martins, A., Srikumar, V. (eds.) Findings of the Association for Computational Linguistics: ACL 2024, Bangkok, Thailand, pp. 7006\u20137028. Association for Computational Linguistics (2024).https:\/\/aclanthology.org\/2024.findings-acl.418\/","DOI":"10.18653\/v1\/2024.findings-acl.418"},{"key":"35_CR30","doi-asserted-by":"crossref","unstructured":"Szegedy, C., et al.: Going deeper with convolutions. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1\u20139 (2015)","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"35_CR31","doi-asserted-by":"publisher","first-page":"135","DOI":"10.1016\/j.neucom.2021.04.095","volume":"454","author":"C Liu","year":"2021","unstructured":"Liu, C., et al.: GCCNet: grouped channel composition network for scene text detection. Neurocomputing 454, 135\u2013151 (2021)","journal-title":"Neurocomputing"},{"key":"35_CR32","unstructured":"Clark, A., et al.: Unified scaling laws for routed language models. In: International Conference on Machine Learning, pp. 4057\u20134086. PMLR (2022)"},{"key":"35_CR33","unstructured":"Riquelme, C., et al.: Scaling vision with sparse mixture of experts. In: Advances in Neural Information Processing Systems, vol.\u00a034, pp. 8583\u20138595 (2021)"},{"key":"35_CR34","doi-asserted-by":"crossref","unstructured":"Liu, C., Yang, C., Yin, X.: Open-set text recognition via shape-awareness visual reconstruction. In: Document Analysis and Recognition - ICDAR 2023 - 17th International Conference, San Jos\u00e9, CA, USA, 21\u201326 August 2023, Proceedings, Part VI, Lecture Notes in Computer Science, vol. 14192, pp. 89\u2013105. Springer (2023)","DOI":"10.1007\/978-3-031-41731-3_6"},{"key":"35_CR35","doi-asserted-by":"crossref","unstructured":"Wang, T., et al.: Decoupled attention network for text recognition. In: The Thirty-Fourth AAAI Conference on Artificial Intelligence, AAAI 2020, The Thirty-Second Innovative Applications of Artificial Intelligence Conference, IAAI 2020, The Tenth AAAI Symposium on Educational Advances in Artificial Intelligence, EAAI 2020, New York, NY, USA, 7\u201312 February 2020, pp. 12216\u201312224. AAAI Press (2020)","DOI":"10.1609\/aaai.v34i07.6903"},{"key":"35_CR36","doi-asserted-by":"crossref","unstructured":"Fang, S., Xie, H., Wang, Y., Mao, Z., Zhang, Y.: Read like humans: autonomous, bidirectional and iterative language modeling for scene text recognition. In: IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2021, virtual, 19\u201325 June 2021, pp. 7098\u20137107. Computer Vision Foundation\/IEEE (2021)","DOI":"10.1109\/CVPR46437.2021.00702"},{"key":"35_CR37","doi-asserted-by":"crossref","unstructured":"Liu, C., Yang, C., Fang, Z., Qin, H.B., Yin, X.C.: CFOR: character-first open-set text recognition via context-free learning. IEEE Trans. Image Process. (2024)","DOI":"10.1109\/TIP.2024.3480711"},{"key":"35_CR38","doi-asserted-by":"crossref","unstructured":"Mishra, A., Alahari, K., Jawahar, C.V.: Scene text recognition using higher order language priors. In: British Machine Vision Conference, BMVC 2012, Surrey, UK, 3\u20137 September 2012, pp. 1\u201311. BMVA Press (2012)","DOI":"10.5244\/C.26.127"},{"key":"35_CR39","doi-asserted-by":"crossref","unstructured":"Bautista, D., Atienza, R.: Scene text recognition with permuted autoregressive sequence models. In: Computer Vision - ECCV 2022 - 17th European Conference, Tel Aviv, Israel, 23\u201327 October 2022, Proceedings, Part XXVIII. Lecture Notes in Computer Science, vol. 13688, pp. 178\u2013196. Springer (2022)","DOI":"10.1007\/978-3-031-19815-1_11"},{"key":"35_CR40","unstructured":"Du, Y., Chen, Z., Jia, C., Yin, X., Li, C., Du, Y., Jiang, Y.-G.: Context perception parallel decoder for scene text recognition, arXiv preprint arXiv:2307.12270 (2023)"},{"issue":"11","key":"35_CR41","doi-asserted-by":"publisher","first-page":"2298","DOI":"10.1109\/TPAMI.2016.2646371","volume":"39","author":"B Shi","year":"2017","unstructured":"Shi, B., Bai, X., Yao, C.: An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Trans. Pattern Anal. Mach. Intell. 39(11), 2298\u20132304 (2017)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"35_CR42","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"319","DOI":"10.1007\/978-3-030-86549-8_21","volume-title":"Document Analysis and Recognition - ICDAR 2021","author":"R Atienza","year":"2021","unstructured":"Atienza, R.: Vision transformer for fast and efficient scene text recognition. In: Llad\u00f3s, J., Lopresti, D., Uchida, S. (eds.) ICDAR 2021. LNCS, vol. 12821, pp. 319\u2013334. Springer, Cham (2021). https:\/\/doi.org\/10.1007\/978-3-030-86549-8_21"},{"key":"35_CR43","unstructured":"Jaderberg, M., Simonyan, K., Vedaldi, A., Zisserman, A.: Synthetic data and artificial neural networks for natural scene text recognition. In: NIPS Deep Learning Workshop. Neural Information Processing Systems (2014)"},{"key":"35_CR44","doi-asserted-by":"crossref","unstructured":"Gupta, A., Vedaldi, A., Zisserman, A.: Synthetic data for text localisation in natural images. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2016, Las Vegas, NV, USA, 27\u201330 June 2016, pp. 2315\u20132324. IEEE Computer Society (2016)","DOI":"10.1109\/CVPR.2016.254"},{"key":"35_CR45","doi-asserted-by":"crossref","unstructured":"Cheng, T., Song, L., Ge, Y., Liu, W., Wang, X., Shan, Y.: YOLO-world: real-time open-vocabulary object detection. In: Proceedings of IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2024)","DOI":"10.1109\/CVPR52733.2024.01599"},{"key":"35_CR46","doi-asserted-by":"crossref","unstructured":"Liu, S., et al.: Grounding DINO: marrying DINO with grounded pre-training for open-set object detection. In: European Conference on Computer Vision, pp. 38\u201355. Springer (2025)","DOI":"10.1007\/978-3-031-72970-6_3"},{"key":"35_CR47","doi-asserted-by":"crossref","unstructured":"Belay, B.H., et al.: A historical handwritten dataset for Ethiopic OCR with baseline models and human-level performance. In: International Conference on Document Analysis and Recognition, pp. 23\u201338. Springer (2024)","DOI":"10.1007\/978-3-031-70543-4_2"},{"key":"35_CR48","doi-asserted-by":"crossref","unstructured":"Mondal, A., Tulsyan, K., Jawahar, C.: Indic scene text on the roadside. In: International Conference on Document Analysis and Recognition, pp. 263\u2013278. Springer (2024)","DOI":"10.1007\/978-3-031-70549-6_16"},{"key":"35_CR49","doi-asserted-by":"crossref","unstructured":"Redmon, J., Farhadi, A.: YOLO9000: better, faster, stronger. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition, CVPR 2017, Honolulu, HI, USA, 21\u201326 July 2017, pp. 6517\u20136525. IEEE Computer Society (2017)","DOI":"10.1109\/CVPR.2017.690"}],"container-title":["Lecture Notes in Computer Science","Document Analysis and Recognition \u2013 ICDAR 2025"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-04624-6_35","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,16]],"date-time":"2025-09-16T05:33:44Z","timestamp":1758000824000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-04624-6_35"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,9,17]]},"ISBN":["9783032046239","9783032046246"],"references-count":49,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-04624-6_35","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,9,17]]},"assertion":[{"value":"17 September 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICDAR","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Document Analysis and Recognition","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Wuhan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"16 September 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"21 September 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"icdar2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/iapr.org\/icdar2025","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}