{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,11]],"date-time":"2025-10-11T02:35:57Z","timestamp":1760150157653,"version":"build-2065373602"},"reference-count":55,"publisher":"MDPI AG","issue":"20","license":[{"start":{"date-parts":[[2023,10,20]],"date-time":"2023-10-20T00:00:00Z","timestamp":1697760000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"funder":[{"name":"National 973 Key R&amp;D Program\u2014Internet Chinese Information Processing Verification System for Public Safety and Social Management","award":["2014CB340506","U1603262"],"award-info":[{"award-number":["2014CB340506","U1603262"]}]},{"name":"National Natural Science Foundation of China\u2014Key Technology Research on Uyghur Chinese Speech Translation System","award":["2014CB340506","U1603262"],"award-info":[{"award-number":["2014CB340506","U1603262"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Sensors"],"abstract":"<jats:p>Aiming at the problems of Uyghur oblique deformation, character adhesion and character similarity in scene images, this paper proposes a scene Uyghur recognition model with enhanced visual prediction. First, the content-aware correction network TPS++ is used to perform feature-level correction for skewed text. Then, ABINet is used as the basic recognition network, and the U-Net structure in the vision model is improved to aggregate horizontal features, suppress multiple activation phenomena, better describe the spatial characteristics of character positions, and alleviate the problem of character adhesion. Finally, a visual masking semantic awareness (VMSA) module is added to guide the vision model to consider the language information in the visual space by masking the corresponding visual features on the attention map to obtain more accurate visual prediction. This module can not only alleviate the correction load of the language model, but also distinguish similar characters using the language information. The effectiveness of the improved method is verified by ablation experiments, and the model is compared with common scene text recognition methods and scene Uyghur recognition methods on the self-built scene Uyghur dataset.<\/jats:p>","DOI":"10.3390\/s23208610","type":"journal-article","created":{"date-parts":[[2023,10,20]],"date-time":"2023-10-20T11:53:56Z","timestamp":1697802836000},"page":"8610","update-policy":"https:\/\/doi.org\/10.3390\/mdpi_crossmark_policy","source":"Crossref","is-referenced-by-count":3,"title":["Scene Uyghur Recognition Based on Visual Prediction Enhancement"],"prefix":"10.3390","volume":"23","author":[{"ORCID":"https:\/\/orcid.org\/0009-0003-8180-3517","authenticated-orcid":false,"given":"Yaqi","family":"Liu","sequence":"first","affiliation":[{"name":"College of Information Science and Engineering, Xinjang University, No. 777 Huarui Street, Urumqi 830017, China"},{"name":"Xinjiang Laboratory of Multi-Language Information Technology, Xinjiang University, No. 777 Huarui Street, Urumqi 830017, China"},{"name":"Xinjiang Multilingual Information Technology Research Center, Xinjiang University, No. 777 Huarui Street, Urumqi 830017, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-3142-5514","authenticated-orcid":false,"given":"Fanjie","family":"Kong","sequence":"additional","affiliation":[{"name":"College of Information Science and Engineering, Xinjang University, No. 777 Huarui Street, Urumqi 830017, China"},{"name":"Xinjiang Laboratory of Multi-Language Information Technology, Xinjiang University, No. 777 Huarui Street, Urumqi 830017, China"},{"name":"Xinjiang Multilingual Information Technology Research Center, Xinjiang University, No. 777 Huarui Street, Urumqi 830017, China"}]},{"given":"Miaomiao","family":"Xu","sequence":"additional","affiliation":[{"name":"College of Information Science and Engineering, Xinjang University, No. 777 Huarui Street, Urumqi 830017, China"},{"name":"Xinjiang Laboratory of Multi-Language Information Technology, Xinjiang University, No. 777 Huarui Street, Urumqi 830017, China"},{"name":"Xinjiang Multilingual Information Technology Research Center, Xinjiang University, No. 777 Huarui Street, Urumqi 830017, China"}]},{"given":"Wushour","family":"Silamu","sequence":"additional","affiliation":[{"name":"College of Information Science and Engineering, Xinjang University, No. 777 Huarui Street, Urumqi 830017, China"},{"name":"Xinjiang Laboratory of Multi-Language Information Technology, Xinjiang University, No. 777 Huarui Street, Urumqi 830017, China"},{"name":"Xinjiang Multilingual Information Technology Research Center, Xinjiang University, No. 777 Huarui Street, Urumqi 830017, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5368-6921","authenticated-orcid":false,"given":"Yanbing","family":"Li","sequence":"additional","affiliation":[{"name":"College of Information Science and Engineering, Xinjang University, No. 777 Huarui Street, Urumqi 830017, China"},{"name":"Xinjiang Laboratory of Multi-Language Information Technology, Xinjiang University, No. 777 Huarui Street, Urumqi 830017, China"},{"name":"Xinjiang Multilingual Information Technology Research Center, Xinjiang University, No. 777 Huarui Street, Urumqi 830017, China"}]}],"member":"1968","published-online":{"date-parts":[[2023,10,20]]},"reference":[{"key":"ref_1","doi-asserted-by":"crossref","first-page":"143","DOI":"10.1007\/s10032-019-00320-5","article-title":"Scene text detection and recognition with advances in deep learning: A survey","volume":"22","author":"Liu","year":"2019","journal-title":"Int. J. Doc. Anal. Recognit. (IJDAR)"},{"key":"ref_2","doi-asserted-by":"crossref","first-page":"69","DOI":"10.1504\/IJSNET.2021.113626","article-title":"Detection and recognition of text traffic signs above the road","volume":"35","author":"Sun","year":"2021","journal-title":"Int. J. Sens. Netw."},{"key":"ref_3","doi-asserted-by":"crossref","first-page":"2298","DOI":"10.1109\/TPAMI.2016.2646371","article-title":"An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition","volume":"39","author":"Shi","year":"2016","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"ref_4","doi-asserted-by":"crossref","first-page":"2035","DOI":"10.1109\/TPAMI.2018.2848939","article-title":"Aster: An attentional scene text recognizer with flexible rectification","volume":"41","author":"Shi","year":"2018","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"ref_5","unstructured":"Fu, Z. (2021). Research on Uighur Text Recognition Technology in Scene Images. [Master\u2019s Thesis, University of Science and Technology of China]."},{"key":"ref_6","unstructured":"Xiong, L. (2021). Research and Application of Uighur Text Detection and Recognition Methods. [Master\u2019s Thesis, Xinjiang University]."},{"key":"ref_7","doi-asserted-by":"crossref","unstructured":"Wang, Y., Ao, N., Guo, R., Mamat, H., and Ubul, K. (2022, January 22\u201324). Scene Uyghur Recognition with Embedded Coordinate Attention. Proceedings of the 2022 3rd International Conference on Pattern Recognition and Machine Learning (PRML), Chengdu, China.","DOI":"10.1109\/PRML56267.2022.9882248"},{"key":"ref_8","doi-asserted-by":"crossref","unstructured":"Ibrayim, M., Mattohti, A., and Hamdulla, A. (2022). An effective method for detection and recognition of Uyghur texts in images with backgrounds. Information, 13.","DOI":"10.3390\/info13070332"},{"key":"ref_9","unstructured":"(1989). Graphic Character Set for Information Interchange in Uyghur for Information Processing (Standard No. GB 12050\u20131989)."},{"key":"ref_10","first-page":"873","article-title":"Character Model Optimization for Recognition of Unsegmented Uighur Text Lines","volume":"55","author":"Jiang","year":"2015","journal-title":"J. Tsinghua Univ. (Sci. Technol.)"},{"key":"ref_11","doi-asserted-by":"crossref","unstructured":"Yu, D., Li, X., Zhang, C., Liu, T., Han, J., Liu, J., and Ding, E. (2020, January 14\u201319). Towards accurate scene text recognition with semantic reasoning networks. Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, Seattle, WA, USA.","DOI":"10.1109\/CVPR42600.2020.01213"},{"key":"ref_12","doi-asserted-by":"crossref","unstructured":"Fang, S., Xie, H., Wang, Y., Mao, Z., and Zhang, Y. (2021, January 19\u201325). Read like humans: Autonomous, bidirectional and iterative language modeling for scene text recognition. Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, Nashville, TN, USA.","DOI":"10.1109\/CVPR46437.2021.00702"},{"key":"ref_13","doi-asserted-by":"crossref","unstructured":"Wang, Y., Xie, H., Fang, S., Wang, J., Zhu, S., and Zhang, Y. (2021, January 11\u201317). From two to one: A new scene text recognizer with visual language modeling network. Proceedings of the IEEE\/CVF International Conference on Computer Vision, Montreal, BC, Canada.","DOI":"10.1109\/ICCV48922.2021.01393"},{"key":"ref_14","doi-asserted-by":"crossref","unstructured":"Graves, A., Fern\u00e1ndez, S., Gomez, F., and Schmidhuber, J. (2006, January 25\u201329). Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks. Proceedings of the 23rd International Conference on Machine Learning, Pittsburgh, PA, USA.","DOI":"10.1145\/1143844.1143891"},{"key":"ref_15","doi-asserted-by":"crossref","first-page":"397","DOI":"10.1016\/j.patcog.2016.10.016","article-title":"Accurate recognition of words in scenes without character segmentation using recurrent neural network","volume":"63","author":"Su","year":"2017","journal-title":"Pattern Recognit."},{"key":"ref_16","doi-asserted-by":"crossref","unstructured":"Xie, Z., Huang, Y., Zhu, Y., Jin, L., Liu, Y., and Xie, L. (2019, January 15\u201320). Aggregation cross-entropy for sequence recognition. Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, Long Beach, CA, USA.","DOI":"10.1109\/CVPR.2019.00670"},{"key":"ref_17","first-page":"11005","article-title":"Gtc: Guided training of ctc towards efficient and accurate scene text recognition","volume":"34","author":"Hu","year":"2020","journal-title":"AAAI Conf. Artif. Intell."},{"key":"ref_18","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., and Gelly, S. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv."},{"key":"ref_19","doi-asserted-by":"crossref","unstructured":"Du, Y., Chen, Z., Jia, C., Yin, X., Zheng, T., Li, C., Du, Y., and Jiang, Y.G. (2022). Svtr: Scene text recognition with a single visual model. arXiv.","DOI":"10.24963\/ijcai.2022\/124"},{"key":"ref_20","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1007\/s11263-015-0823-z","article-title":"Reading text in the wild with convolutional neural networks","volume":"116","author":"Jaderberg","year":"2016","journal-title":"Int. J. Comput. Vis."},{"key":"ref_21","first-page":"12120","article-title":"Textscanner: Reading characters in order for robust scene text recognition","volume":"34","author":"Wan","year":"2020","journal-title":"AAAI Conf. Artif. Intell."},{"key":"ref_22","unstructured":"Xing, L., Tian, Z., Huang, W., and Scott, M.R. (November, January 27). Convolutional character networks. Proceedings of the IEEE\/CVF International Conference on Computer Vision, Seoul, Republic of Korea."},{"key":"ref_23","doi-asserted-by":"crossref","unstructured":"Fang, S., Xie, H., Zha, Z.J., Sun, N., Tan, J., and Zhang, Y. (2018, January 22\u201326). Attention and language ensemble for scene text recognition with convolutional sequence modeling. Proceedings of the 26th ACM International Conference on Multimedia, Seoul, Republic of Korea.","DOI":"10.1145\/3240508.3240571"},{"key":"ref_24","doi-asserted-by":"crossref","unstructured":"Cheng, Z., Xu, Y., Bai, F., Niu, Y., Pu, S., and Zhou, S. (2018, January 18\u201322). Aon: Towards arbitrarily-oriented text recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA.","DOI":"10.1109\/CVPR.2018.00584"},{"key":"ref_25","doi-asserted-by":"crossref","unstructured":"Yang, X., He, D., Zhou, Z., Kifer, D., and Giles, C.L. (2017, January 19\u201325). Learning to read irregular text with attention mechanisms. Proceedings of the 2017 International Joint Conference on Artificial Intelligence (IJCAI), Melbourne, Australia.","DOI":"10.24963\/ijcai.2017\/458"},{"key":"ref_26","unstructured":"Lee, C.Y., and Osindero, S. (July, January 26). Recursive recurrent nets with attention modeling for ocr in the wild. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA."},{"key":"ref_27","unstructured":"Yue, X., Kuang, Z., Lin, C., Sun, H., and Zhang, W. (2020). European Conference on Computer Vision, Springer International Publishing."},{"key":"ref_28","unstructured":"Lyu, P., Yang, Z., Leng, X., Wu, X., Li, R., and Shen, X. (2019). 2d attentional irregular scene text recognizer. arXiv."},{"key":"ref_29","doi-asserted-by":"crossref","unstructured":"Sheng, F., Chen, Z., and Xu, B. (2019, January 20\u201325). NRTR: A no-recurrence sequence-to-sequence model for scene text recognition. Proceedings of the 2019 International Conference on Document Analysis and Recognition (ICDAR), Sydney, NSW, Australia.","DOI":"10.1109\/ICDAR.2019.00130"},{"key":"ref_30","first-page":"12216","article-title":"Decoupled attention network for text recognition","volume":"34","author":"Wang","year":"2020","journal-title":"Proc. AAAI Conf. Artif. Intell."},{"key":"ref_31","unstructured":"Zheng, T., Chen, Z., Fang, S., Xie, H., and Jiang, Y.G. (2021). Cdistnet: Perceiving multi-domain character distance for robust text recognition. arXiv."},{"key":"ref_32","unstructured":"Na, B., Kim, Y., and Park, S. (2022). European Conference on Computer Vision, Springer Nature."},{"key":"ref_33","doi-asserted-by":"crossref","unstructured":"Chu, X., and Wang, Y. (2022, January 21\u201325). IterVM: Iterative Vision Modeling Module for Scene Text Recognition. Proceedings of the 2022 26th International Conference on Pattern Recognition (ICPR), Montreal, QC, Canada.","DOI":"10.1109\/ICPR56361.2022.9956029"},{"key":"ref_34","doi-asserted-by":"crossref","unstructured":"Zheng, T., Chen, Z., Bai, J., Xie, H., and Jiang, Y.G. (2023). TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition. arXiv.","DOI":"10.24963\/ijcai.2023\/197"},{"key":"ref_35","doi-asserted-by":"crossref","first-page":"567","DOI":"10.1109\/34.24792","article-title":"Principal warps: Thin-plate splines and the decomposition of deformations","volume":"11","author":"Bookstein","year":"1989","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"ref_36","first-page":"7","article-title":"Spatial transformer networks","volume":"28","author":"Jaderberg","year":"2015","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"ref_37","doi-asserted-by":"crossref","first-page":"109","DOI":"10.1016\/j.patcog.2019.01.020","article-title":"Moran: A multi-object rectified attention network for scene text recognition","volume":"90","author":"Luo","year":"2019","journal-title":"Pattern Recognit."},{"key":"ref_38","first-page":"190","article-title":"Recognition of Uighur Text in Video Images","volume":"47","author":"Ai","year":"2011","journal-title":"Comput. Eng. Appl."},{"key":"ref_39","unstructured":"Chen, Q. (2012). Research on Classification and Recognition Technology of Printed Uyghur Text Recognition System. [Master\u2019s Thesis, Xinjiang University]."},{"key":"ref_40","unstructured":"Bai, Y. (2014). Printed Uighur Word Recognition in Arabic Script. [Doctoral Dissertation, Xidian University]."},{"key":"ref_41","unstructured":"Lang, X. (2015). Segmentation-Based Recognition of Printed Uighur Words in Arabic Script. [Doctoral Dissertation, Xidian University]."},{"key":"ref_42","first-page":"171","article-title":"A Recognition Method for Uighur and Arabic Text Based on HMM and Statistical Language Model","volume":"32","author":"Peng","year":"2015","journal-title":"Comput. Appl. Softw."},{"key":"ref_43","doi-asserted-by":"crossref","unstructured":"Li, P., Zhu, J., Peng, L., and Guo, Y. (2016, January 11\u201314). RNN based Uyghur text line recognition and its training strategy. Proceedings of the 2016 12th IAPR Workshop on Document Analysis Systems (DAS), Santorini, Greece.","DOI":"10.1109\/DAS.2016.20"},{"key":"ref_44","unstructured":"Wang, X. (2017). Research and Application of Key Technologies in Recognition of Printed Uighur Text. [Doctoral Dissertation, Xidian University]."},{"key":"ref_45","unstructured":"Li, D. (2019). Classifier Design for Recognition of Printed Uighur Word. [Doctoral Dissertation, Xidian University]."},{"key":"ref_46","unstructured":"Chen, Y. (2020). Research and Design of Uighur Text Detection and Recognition Based on Deep Learning. [Master\u2019s Thesis, Chengdu University of Technology]."},{"key":"ref_47","unstructured":"Maitituoheti, A. (2020). Neural Network-Based Uighur Image Text Detection and Recognition Technology. [Master\u2019s Thesis, Xinjiang University]."},{"key":"ref_48","first-page":"71","article-title":"Scan-based Recognition of Uighur Text Using Deep Learning","volume":"53","author":"Tang","year":"2021","journal-title":"J. Northeast. Norm. Univ. (Nat. Sci. Ed.)"},{"key":"ref_49","unstructured":"Zhang, S. (2019). Research on Offline Uighur Handwritten Signature Authentication Technology Based on Local Features. [Master\u2019s Thesis, Xinjiang University]."},{"key":"ref_50","first-page":"51","article-title":"Unconstrained online handwritten Uyghur word recognition based on recurrent neural networks and connectionist temporal classification","volume":"13","author":"Ibrayim","year":"2021","journal-title":"Int. J. Biom."},{"key":"ref_51","unstructured":"Li, W., Mahpirat Kang, W., Aysa, A., and Ubul, K. (2021). Biometric Recognition: 15th Chinese Conference, CCBR 2021, Shanghai, China, 10\u201312 September 2021, Proceedings 15, Springer International Publishing."},{"key":"ref_52","doi-asserted-by":"crossref","unstructured":"Xamxidin, N., Yao, Z., Aysa, A., and Ubul, K. (2022). Multilingual Offline Signature Verification Based on Improved Inverse Discriminator Network. Information, 13.","DOI":"10.3390\/info13060293"},{"key":"ref_53","doi-asserted-by":"crossref","unstructured":"Woo, S., Park, J., Lee, J.Y., and Kweon, I.S. (2018, January 8\u201314). Cbam: Convolutional block attention module. Proceedings of the European Conference on Computer Vision (ECCV), Munich, Germany.","DOI":"10.1007\/978-3-030-01234-2_1"},{"key":"ref_54","unstructured":"Gupta, A., Vedaldi, A., and Zisserman, A. (July, January 26). Synthetic data for text localisation in natural images. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA."},{"key":"ref_55","doi-asserted-by":"crossref","unstructured":"Atienza, R. (2021, January 11\u201317). Data augmentation for scene text recognition. Proceedings of the IEEE\/CVF International Conference on Computer Vision, Montreal, BC, Canada.","DOI":"10.1109\/ICCVW54120.2021.00181"}],"container-title":["Sensors"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/www.mdpi.com\/1424-8220\/23\/20\/8610\/pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,10,10]],"date-time":"2025-10-10T21:09:23Z","timestamp":1760130563000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.mdpi.com\/1424-8220\/23\/20\/8610"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,10,20]]},"references-count":55,"journal-issue":{"issue":"20","published-online":{"date-parts":[[2023,10]]}},"alternative-id":["s23208610"],"URL":"https:\/\/doi.org\/10.3390\/s23208610","relation":{},"ISSN":["1424-8220"],"issn-type":[{"type":"electronic","value":"1424-8220"}],"subject":[],"published":{"date-parts":[[2023,10,20]]}}}