{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,4]],"date-time":"2026-04-04T04:10:27Z","timestamp":1775275827778,"version":"3.50.1"},"reference-count":125,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2019,3,27]],"date-time":"2019-03-27T00:00:00Z","timestamp":1553644800000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["IJDAR"],"published-print":{"date-parts":[[2019,6]]},"DOI":"10.1007\/s10032-019-00320-5","type":"journal-article","created":{"date-parts":[[2019,3,27]],"date-time":"2019-03-27T16:56:11Z","timestamp":1553705771000},"page":"143-162","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":95,"title":["Scene text detection and recognition with advances in deep learning: a survey"],"prefix":"10.1007","volume":"22","author":[{"given":"Xiyan","family":"Liu","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7103-6321","authenticated-orcid":false,"given":"Gaofeng","family":"Meng","sequence":"additional","affiliation":[]},{"given":"Chunhong","family":"Pan","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2019,3,27]]},"reference":[{"key":"320_CR1","doi-asserted-by":"crossref","unstructured":"Neumann, L., Matas, J.: A method for text localization and recognition in real-world images. In: Asian Conference on Computer Vision, pp. 770\u2013783. Springer (2010)","DOI":"10.1007\/978-3-642-19318-7_60"},{"key":"320_CR2","doi-asserted-by":"crossref","unstructured":"Epshtein, B., Ofek, E., Wexler, Y.: Detecting text in natural scenes with stroke width transform. In: 2010 IEEE Conference on CVPR, pp. 2963\u20132970. IEEE (2010)","DOI":"10.1109\/CVPR.2010.5540041"},{"issue":"5","key":"320_CR3","doi-asserted-by":"publisher","first-page":"970","DOI":"10.1109\/TPAMI.2013.182","volume":"36","author":"XC Yin","year":"2014","unstructured":"Yin, X.C., Yin, X., Huang, K., Hao, H.W.: Robust text detection in natural scene images. IEEE Trans. PAMI 36(5), 970\u2013983 (2014)","journal-title":"IEEE Trans. PAMI"},{"key":"320_CR4","doi-asserted-by":"crossref","unstructured":"Neumann, L., Matas, J.: Real-time scene text localization and recognition. In: 2012 IEEE Conference on CVPR, pp. 3538\u20133545. IEEE (2012)","DOI":"10.1109\/CVPR.2012.6248097"},{"key":"320_CR5","doi-asserted-by":"crossref","unstructured":"Cho, H., Sung, M., Jun, B.: Canny text detector: fast and robust scene text localization algorithm. In: CVPR, pp. 3566\u20133573 (2016)","DOI":"10.1109\/CVPR.2016.388"},{"key":"320_CR6","doi-asserted-by":"crossref","unstructured":"Busta, M., Neumann, L., Matas, J.: Fastext: efficient unconstrained scene text detector. In: ICCV, pp. 1206\u20131214 (2015)","DOI":"10.1109\/ICCV.2015.143"},{"issue":"4","key":"320_CR7","doi-asserted-by":"publisher","first-page":"385","DOI":"10.1109\/34.845381","volume":"22","author":"Y Zhong","year":"2000","unstructured":"Zhong, Y., Zhang, H., Jain, A.K.: Automatic caption localization in compressed video. IEEE Trans. PAMI 22(4), 385\u2013392 (2000)","journal-title":"IEEE Trans. PAMI"},{"key":"320_CR8","doi-asserted-by":"crossref","unstructured":"Hanif, S.M., Prevost, L., Negri, P.: A cascade detector for text detection in natural scene images. In: ICPR, pp. 1\u20134 (2008)","DOI":"10.1109\/ICPR.2008.4761536"},{"key":"320_CR9","doi-asserted-by":"crossref","unstructured":"Hanif, S.M., Prevost, L.: Text detection and localization in complex scene images using constrained adaboost algorithm. In: ICDAR\u201909, pp. 1\u20135. IEEE (2009)","DOI":"10.1109\/ICDAR.2009.172"},{"key":"320_CR10","doi-asserted-by":"crossref","unstructured":"Zhang, Z., Shen, W., Yao, C., Bai, X.: Symmetry-based text line detection in natural scenes. In: CVPR, pp. 2558\u20132567 (2015)","DOI":"10.1109\/CVPR.2015.7298871"},{"key":"320_CR11","doi-asserted-by":"crossref","unstructured":"Liang, G., Shivakumara, P., Lu, T., Tan, C.L.: A new wavelet-laplacian method for arbitrarily-oriented character segmentation in video text lines. In: ICDAR\u201915, pp. 926\u2013930. IEEE (2015)","DOI":"10.1109\/ICDAR.2015.7333897"},{"key":"320_CR12","doi-asserted-by":"crossref","unstructured":"Huang, W., Qiao, Y., Tang, X.: Robust scene text detection with convolution neural network induced mser trees. In: ECCV, pp. 497\u2013511. Springer (2014)","DOI":"10.1007\/978-3-319-10593-2_33"},{"key":"320_CR13","doi-asserted-by":"crossref","unstructured":"Zhong, Z., Sun, L., Huo, Q.: Improved localization accuracy by locnet for faster r-cnn based text detection. In: DICDAR\u201917, vol. 1, pp. 923\u2013928. IEEE (2017)","DOI":"10.1109\/ICDAR.2017.155"},{"key":"320_CR14","doi-asserted-by":"crossref","unstructured":"Zhang, Z., Zhang, C., Shen, W., Yao, C., Liu, W., Bai, X.: Multi-oriented text detection with fully convolutional networks. In: CVPR, pp. 4159\u20134167 (2016)","DOI":"10.1109\/CVPR.2016.451"},{"key":"320_CR15","doi-asserted-by":"crossref","unstructured":"Zhu, S., Zanibbi, R.: A text detection system for natural scenes with convolutional feature learning and cascaded classification. In: CVPR, pp. 625\u2013632 (2016)","DOI":"10.1109\/CVPR.2016.74"},{"key":"320_CR16","doi-asserted-by":"crossref","unstructured":"Qin, S., Manduchi, R.: Cascaded segmentation-detection networks for word-level text spotting. arXiv preprint arXiv:1704.00834 (2017)","DOI":"10.1109\/ICDAR.2017.210"},{"key":"320_CR17","doi-asserted-by":"crossref","unstructured":"Gupta, A., Vedaldi, A., Zisserman, A.: Synthetic data for text localisation in natural images. In: CVPR, pp. 2315\u20132324 (2016)","DOI":"10.1109\/CVPR.2016.254"},{"issue":"3","key":"320_CR18","doi-asserted-by":"publisher","first-page":"1509","DOI":"10.1109\/TIP.2017.2656474","volume":"26","author":"Y Tang","year":"2017","unstructured":"Tang, Y., Wu, X.: Scene text detection and segmentation based on cascaded convolution neural networks. IEEE Trans. Image Process. 26(3), 1509\u20131520 (2017)","journal-title":"IEEE Trans. Image Process."},{"key":"320_CR19","doi-asserted-by":"crossref","unstructured":"Wang, C., Yin, F., Liu, C.L.: Scene text detection with novel superpixel based character candidate extraction. In: ICDAR\u201917, vol. 1, pp. 929\u2013934. IEEE (2017)","DOI":"10.1109\/ICDAR.2017.156"},{"key":"320_CR20","doi-asserted-by":"crossref","unstructured":"Turki, H., Halima, M.B., Alimi, A.M.: Text detection based on mser and cnn features. In: ICDAR\u201917, vol. 1, pp. 949\u2013954. IEEE (2017)","DOI":"10.1109\/ICDAR.2017.159"},{"key":"320_CR21","doi-asserted-by":"crossref","unstructured":"Tian, S., Pan, Y., Huang, C., Lu, S., Yu, K., Lim\u00a0Tan, C.: Text flow: a unified text detection system in natural scene images. In: ICCV, pp. 4651\u20134659 (2015)","DOI":"10.1109\/ICCV.2015.528"},{"key":"320_CR22","doi-asserted-by":"crossref","unstructured":"Tian, Z., Huang, W., He, T., He, P., Qiao, Y.: Detecting text in natural image with connectionist text proposal network. In: ECCV, pp. 56\u201372. Springer (2016)","DOI":"10.1007\/978-3-319-46484-8_4"},{"issue":"6","key":"320_CR23","doi-asserted-by":"publisher","first-page":"2529","DOI":"10.1109\/TIP.2016.2547588","volume":"25","author":"T He","year":"2016","unstructured":"He, T., Huang, W., Qiao, Y., Yao, J.: Text-attentional convolutional neural network for scene text detection. IEEE Trans. Image Process. 25(6), 2529\u20132541 (2016)","journal-title":"IEEE Trans. Image Process."},{"issue":"2","key":"320_CR24","doi-asserted-by":"publisher","first-page":"99","DOI":"10.1007\/s10032-016-0264-4","volume":"19","author":"J Fabrizio","year":"2016","unstructured":"Fabrizio, J., Robert-Seidowsky, M., Dubuisson, S., Calarasanu, S., Boissel, R.: Textcatcher: a method to detect curved and challenging text in natural scenes. IJDAR 19(2), 99\u2013117 (2016)","journal-title":"IJDAR"},{"key":"320_CR25","doi-asserted-by":"crossref","unstructured":"Pei, W.Y., Yang, C., Kau, L.J., Yin, X.C.: Multi-orientation scene text detection with multi-information fusion. In: ICPR, pp. 657\u2013662. IEEE (2016)","DOI":"10.1109\/ICPR.2016.7899709"},{"issue":"9","key":"320_CR26","doi-asserted-by":"publisher","first-page":"1930","DOI":"10.1109\/TPAMI.2014.2388210","volume":"37","author":"XC Yin","year":"2015","unstructured":"Yin, X.C., Pei, W.Y., Zhang, J., Hao, H.W.: Multi-orientation scene text detection with adaptive clustering. IEEE Trans. PAMI 37(9), 1930\u20131937 (2015)","journal-title":"IEEE Trans. PAMI"},{"key":"320_CR27","doi-asserted-by":"crossref","unstructured":"Kang, L., Li, Y., Doermann, D.: Orientation robust text line detection in natural images. In: CVPR, pp. 4034\u20134041 (2014)","DOI":"10.1109\/CVPR.2014.514"},{"key":"320_CR28","doi-asserted-by":"publisher","first-page":"60","DOI":"10.1016\/j.patcog.2017.04.027","volume":"70","author":"L Gomez","year":"2017","unstructured":"Gomez, L., Karatzas, D.: Textproposals: a text-specific selective search algorithm for word spotting in the wild. Pattern Recognit. 70, 60\u201374 (2017)","journal-title":"Pattern Recognit."},{"key":"320_CR29","doi-asserted-by":"crossref","unstructured":"Zhou, X., Yao, C., Wen, H., Wang, Y., Zhou, S., He, W., Liang, J.: East: an efficient and accurate scene text detector. arXiv preprint arXiv:1704.03155 (2017)","DOI":"10.1109\/CVPR.2017.283"},{"key":"320_CR30","doi-asserted-by":"crossref","unstructured":"Shi, B., Bai, X., Belongie, S.: Detecting oriented text in natural images by linking segments. In: CVPR, vol.\u00a03 (2017)","DOI":"10.1109\/CVPR.2017.371"},{"key":"320_CR31","doi-asserted-by":"crossref","unstructured":"Liu, Y., Jin, L.: Deep matching prior network: toward tighter multi-oriented text detection. In: CVPR, vol. 2, p. 8 (2017)","DOI":"10.1109\/CVPR.2017.368"},{"key":"320_CR32","doi-asserted-by":"crossref","unstructured":"Sheshadri, K., Divvala, S.K.: Exemplar driven character recognition in the wild. In: BMVC, pp. 1\u201310 (2012)","DOI":"10.5244\/C.26.13"},{"key":"320_CR33","doi-asserted-by":"crossref","unstructured":"Shi, C., Wang, C., Xiao, B., Zhang, Y., Gao, S., Zhang, Z.: Scene text recognition using part-based tree-structured character detection. In: CVPR, pp. 2961\u20132968. IEEE (2013)","DOI":"10.1109\/CVPR.2013.381"},{"key":"320_CR34","doi-asserted-by":"crossref","unstructured":"Coates, A., Carpenter, B., Case, C., Satheesh, S., Suresh, B., Wang, T., Wu, D.J., Ng, A.Y.: Text detection and character recognition in scene images with unsupervised feature learning. In: ICDAR\u201911, pp. 440\u2013445. IEEE (2011)","DOI":"10.1109\/ICDAR.2011.95"},{"key":"320_CR35","doi-asserted-by":"crossref","unstructured":"Yao, C., Bai, X., Shi, B., Liu, W.: Strokelets: a learned multi-scale representation for scene text recognition. In: CVPR, pp. 4042\u20134049 (2014)","DOI":"10.1109\/CVPR.2014.515"},{"key":"320_CR36","doi-asserted-by":"crossref","unstructured":"Lee, C.Y., Bhardwaj, A., Di, W., Jagadeesh, V., Piramuthu, R.: Region-based discriminative feature pooling for scene text recognition. In: CVPR, pp. 4050\u20134057 (2014)","DOI":"10.1109\/CVPR.2014.516"},{"key":"320_CR37","unstructured":"Lou, X., Kansky, K., Lehrach, W., Laan, C., Marthi, B., Phoenix, D., George, D.: Generative shape models: joint text recognition and segmentation with very little training data. In: NIPS, pp. 2793\u20132801 (2016)"},{"issue":"11","key":"320_CR38","doi-asserted-by":"publisher","first-page":"4488","DOI":"10.1109\/TIP.2015.2465169","volume":"24","author":"G Liang","year":"2015","unstructured":"Liang, G., Shivakumara, P., Lu, T., Tan, C.L.: Multi-spectral fusion based approach for arbitrarily oriented scene text detection in video images. IEEE Trans. Image Process. 24(11), 4488\u20134501 (2015)","journal-title":"IEEE Trans. Image Process."},{"key":"320_CR39","doi-asserted-by":"crossref","unstructured":"Elagouni, K., Garcia, C., Mamalet, F., S\u00e9billot, P.: Combining multi-scale character recognition and linguistic knowledge for natural scene text OCR. In: 2012 10th IAPR International Workshop on Document Analysis Systems (DAS), pp. 120\u2013124. IEEE (2012)","DOI":"10.1109\/DAS.2012.26"},{"key":"320_CR40","doi-asserted-by":"crossref","unstructured":"Phan, T.Q., Shivakumara, P., Tian, S., Tan, C.L.: Recognizing text with perspective distortion in natural scenes. In: ICCV, pp. 569\u2013576. IEEE (2013)","DOI":"10.1109\/ICCV.2013.76"},{"issue":"2","key":"320_CR41","doi-asserted-by":"publisher","first-page":"375","DOI":"10.1109\/TPAMI.2013.126","volume":"36","author":"JJ Weinman","year":"2014","unstructured":"Weinman, J.J., Butler, Z., Knoll, D., Feild, J.: Toward integrated scene text reading. IEEE Trans. PAMI 36(2), 375\u2013387 (2014)","journal-title":"IEEE Trans. PAMI"},{"key":"320_CR42","doi-asserted-by":"crossref","unstructured":"Su, B., Lu, S.: Accurate scene text recognition based on recurrent neural network. In: ACCV, pp. 35\u201348. Springer (2014)","DOI":"10.1007\/978-3-319-16865-4_3"},{"key":"320_CR43","doi-asserted-by":"crossref","unstructured":"Ghosh, S.K., Valveny, E., Bagdanov, A.D.: Visual attention models for scene text recognition. arXiv preprint arXiv:1706.01487 (2017)","DOI":"10.1109\/ICDAR.2017.158"},{"key":"320_CR44","doi-asserted-by":"crossref","unstructured":"Shi, B., Wang, X., Lyu, P., Yao, C., Bai, X.: Robust scene text recognition with automatic rectification. In: CVPR, pp. 4168\u20134176 (2016)","DOI":"10.1109\/CVPR.2016.452"},{"key":"320_CR45","doi-asserted-by":"crossref","unstructured":"Lee, C.Y., Osindero, S.: Recursive recurrent nets with attention modeling for OCR in the wild. In: CVPR, pp. 2231\u20132239 (2016)","DOI":"10.1109\/CVPR.2016.245"},{"key":"320_CR46","first-page":"3501","volume":"16","author":"P He","year":"2016","unstructured":"He, P., Huang, W., Qiao, Y., Loy, C.C., Tang, X.: Reading scene text in deep convolutional sequences. AAAI 16, 3501\u20133508 (2016)","journal-title":"AAAI"},{"key":"320_CR47","doi-asserted-by":"crossref","unstructured":"Yang, X., He, D., Zhou, Z., Kifer, D., Giles, C.L.: Learning to read irregular text with attention mechanisms. In: IJCAI, pp. 3280\u20133286 (2017)","DOI":"10.24963\/ijcai.2017\/458"},{"issue":"11","key":"320_CR48","doi-asserted-by":"publisher","first-page":"2298","DOI":"10.1109\/TPAMI.2016.2646371","volume":"39","author":"B Shi","year":"2017","unstructured":"Shi, B., Bai, X., Yao, C.: An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition. IEEE Trans. PAMI 39(11), 2298\u20132304 (2017)","journal-title":"IEEE Trans. PAMI"},{"key":"320_CR49","doi-asserted-by":"crossref","unstructured":"Neumann, L., Matas, J.: Scene text localization and recognition with oriented stroke detection. In: ICCV, pp. 97\u2013104 (2013)","DOI":"10.1109\/ICCV.2013.19"},{"key":"320_CR50","doi-asserted-by":"crossref","unstructured":"Jaderberg, M., Vedaldi, A., Zisserman, A.: Deep features for text spotting. In: ECCV, pp. 512\u2013528. Springer (2014)","DOI":"10.1007\/978-3-319-10593-2_34"},{"issue":"1","key":"320_CR51","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s11263-015-0823-z","volume":"116","author":"M Jaderberg","year":"2016","unstructured":"Jaderberg, M., Simonyan, K., Vedaldi, A., Zisserman, A.: Reading text in the wild with convolutional neural networks. IJCV 116(1), 1\u201320 (2016)","journal-title":"IJCV"},{"key":"320_CR52","doi-asserted-by":"crossref","unstructured":"Neumann, L., Matas, J.: Efficient scene text localization and recognition with local character refinement. In: ICDAR\u201915, pp. 746\u2013750. IEEE (2015)","DOI":"10.1109\/ICDAR.2015.7333861"},{"issue":"9","key":"320_CR53","doi-asserted-by":"publisher","first-page":"1872","DOI":"10.1109\/TPAMI.2015.2496234","volume":"38","author":"L Neumann","year":"2016","unstructured":"Neumann, L., Matas, J.: Real-time lexicon-free scene text localization and recognition. IEEE Trans. PAMI 38(9), 1872\u20131885 (2016)","journal-title":"IEEE Trans. PAMI"},{"issue":"11","key":"320_CR54","doi-asserted-by":"publisher","first-page":"4737","DOI":"10.1109\/TIP.2014.2353813","volume":"23","author":"C Yao","year":"2014","unstructured":"Yao, C., Bai, X., Liu, W.: A unified framework for multioriented text detection and recognition. IEEE Trans. Image Process. 23(11), 4737\u20134749 (2014)","journal-title":"IEEE Trans. Image Process."},{"key":"320_CR55","doi-asserted-by":"crossref","unstructured":"Liao, M., Shi, B., Bai, X., Wang, X., Liu, W.: Textboxes: a fast text detector with a single deep neural network. In: AAAI, pp. 4161\u20134167 (2017)","DOI":"10.1609\/aaai.v31i1.11196"},{"issue":"7","key":"320_CR56","doi-asserted-by":"publisher","first-page":"1480","DOI":"10.1109\/TPAMI.2014.2366765","volume":"37","author":"Q Ye","year":"2015","unstructured":"Ye, Q., Doermann, D.: Text detection and recognition in imagery: a survey. IEEE Trans. PAMI 37(7), 1480\u20131500 (2015)","journal-title":"IEEE Trans. PAMI"},{"issue":"1","key":"320_CR57","doi-asserted-by":"publisher","first-page":"19","DOI":"10.1007\/s11704-015-4488-0","volume":"10","author":"Y Zhu","year":"2016","unstructured":"Zhu, Y., Yao, C., Bai, X.: Scene text detection and recognition: recent advances and future trends. Front. Comput. Sci. 10(1), 19\u201336 (2016)","journal-title":"Front. Comput. Sci."},{"issue":"6","key":"320_CR58","doi-asserted-by":"publisher","first-page":"2752","DOI":"10.1109\/TIP.2016.2554321","volume":"25","author":"XC Yin","year":"2016","unstructured":"Yin, X.C., Zuo, Z.Y., Tian, S., Liu, C.L.: Text detection, tracking and recognition in video: a comprehensive survey. IEEE Trans. Image Process. 25(6), 2752\u20132773 (2016)","journal-title":"IEEE Trans. Image Process."},{"key":"320_CR59","volume-title":"Unified Detection and Recognition for Reading Text in Scene Images","author":"JJ Weinman","year":"2008","unstructured":"Weinman, J.J.: Unified Detection and Recognition for Reading Text in Scene Images. University of Massachusetts Amherst, Amherst (2008)"},{"key":"320_CR60","unstructured":"Field, J.: Improving text recognition in images of natural scenes. PhD thesis, University of Massachusetts Amherst (2014)"},{"key":"320_CR61","unstructured":"Jaderberg, M.: Deep learning for text spotting. PhD thesis (2015)"},{"key":"320_CR62","unstructured":"Mishra, A.: Understanding Text in Scene Images. PhD thesis, International Institute of Information Technology Hyderabad (2016)"},{"key":"320_CR63","doi-asserted-by":"crossref","unstructured":"Bissacco, A., Cummins, M., Netzer, Y., Neven, H.: Photoocr: Reading text in uncontrolled conditions. In: ICCV, pp. 785\u2013792. IEEE (2013)","DOI":"10.1109\/ICCV.2013.102"},{"key":"320_CR64","doi-asserted-by":"crossref","unstructured":"Pan, Y.F., Hou, X., Liu, C.L.: Text localization in natural scene images based on conditional random field. In: ICDAR\u201909, pp. 6\u201310. IEEE (2009)","DOI":"10.1109\/ICDAR.2009.97"},{"issue":"3","key":"320_CR65","doi-asserted-by":"publisher","first-page":"800","DOI":"10.1109\/TIP.2010.2070803","volume":"20","author":"YF Pan","year":"2011","unstructured":"Pan, Y.F., Hou, X., Liu, C.L.: A hybrid approach to detect and localize texts in natural scene images. IEEE Trans. Image Process. 20(3), 800\u2013813 (2011)","journal-title":"IEEE Trans. Image Process."},{"key":"320_CR66","doi-asserted-by":"crossref","unstructured":"Wang, Y., Shi, C., Xiao, B., Wang, C.: Mrf based text binarization in complex images using stroke feature. In: ICDAR\u201915, pp. 821\u2013825. IEEE (2015)","DOI":"10.1109\/ICDAR.2015.7333876"},{"issue":"3","key":"320_CR67","doi-asserted-by":"publisher","first-page":"1169","DOI":"10.1109\/TIP.2011.2166972","volume":"21","author":"HI Koo","year":"2012","unstructured":"Koo, H.I., Cho, N.I.: Text-line extraction in handwritten chinese documents based on an energy minimization framework. IEEE Trans. Image Process. 21(3), 1169\u20131175 (2012)","journal-title":"IEEE Trans. Image Process."},{"key":"320_CR68","doi-asserted-by":"crossref","unstructured":"Mishra, A., Alahari, K., Jawahar, C.: Top-down and bottom-up cues for scene text recognition. In: CVPR, pp. 2687\u20132694. IEEE (2012)","DOI":"10.1109\/CVPR.2012.6247990"},{"key":"320_CR69","doi-asserted-by":"crossref","unstructured":"Sharma, N., Mandal, R., Sharma, R., Roy, P.P., Pal, U., Blumenstein, M.: Multi-lingual text recognition from video frames. In: ICDAR\u201915, pp. 951\u2013955. IEEE (2015)","DOI":"10.1109\/ICDAR.2015.7333902"},{"key":"320_CR70","doi-asserted-by":"publisher","first-page":"679","DOI":"10.1109\/TPAMI.1986.4767851","volume":"8","author":"J Canny","year":"1986","unstructured":"Canny, J.: A computational approach to edge detection. IEEE Trans. PAMI 8, 679\u2013698 (1986)","journal-title":"IEEE Trans. PAMI"},{"issue":"2","key":"320_CR71","doi-asserted-by":"publisher","first-page":"103","DOI":"10.1007\/BF00204594","volume":"61","author":"I Fogel","year":"1989","unstructured":"Fogel, I., Sagi, D.: Gabor filters as texture discriminator. Biol. Cybern. 61(2), 103\u2013113 (1989)","journal-title":"Biol. Cybern."},{"issue":"7","key":"320_CR72","doi-asserted-by":"publisher","first-page":"674","DOI":"10.1109\/34.192463","volume":"11","author":"SG Mallat","year":"1989","unstructured":"Mallat, S.G.: A theory for multiresolution signal decomposition: the wavelet representation. IEEE Trans. PAMI 11(7), 674\u2013693 (1989)","journal-title":"IEEE Trans. PAMI"},{"key":"320_CR73","doi-asserted-by":"publisher","DOI":"10.1137\/1.9781611970999","volume-title":"Computational Frameworks for the Fast Fourier Transform","author":"C Loan Van","year":"1992","unstructured":"Van Loan, C.: Computational Frameworks for the Fast Fourier Transform. SIAM, Philadelphia (1992)"},{"issue":"5","key":"320_CR74","doi-asserted-by":"publisher","first-page":"977","DOI":"10.1016\/j.patcog.2003.10.012","volume":"37","author":"K Jung","year":"2004","unstructured":"Jung, K., Kim, K.I., Jain, A.K.: Text information extraction in images and video: a survey. Pattern Recognit. 37(5), 977\u2013997 (2004)","journal-title":"Pattern Recognit."},{"key":"320_CR75","doi-asserted-by":"crossref","unstructured":"Zuo, Z.Y., Tian, S., Pei, W.Y., Yin, X.C.: Multi-strategy tracking based text detection in scene videos. In: ICDAR\u201915, pp. 66\u201370. IEEE (2015)","DOI":"10.1109\/ICDAR.2015.7333727"},{"issue":"3","key":"320_CR76","doi-asserted-by":"publisher","first-page":"542","DOI":"10.1109\/TPAMI.2017.2692763","volume":"40","author":"S Tian","year":"2018","unstructured":"Tian, S., Yin, X.C., Su, Y., Hao, H.W.: A unified framework for tracking based text detection and recognition from web videos. IEEE Trans. PAMI 40(3), 542\u2013554 (2018)","journal-title":"IEEE Trans. PAMI"},{"issue":"2","key":"320_CR77","doi-asserted-by":"publisher","first-page":"412","DOI":"10.1109\/TPAMI.2010.166","volume":"33","author":"P Shivakumara","year":"2011","unstructured":"Shivakumara, P., Phan, T.Q., Tan, C.L.: A laplacian approach to multi-oriented text detection in video. IEEE Trans. PAMI 33(2), 412\u2013419 (2011)","journal-title":"IEEE Trans. PAMI"},{"key":"320_CR78","doi-asserted-by":"crossref","unstructured":"Yousfi, S., Berrani, S.A., Garcia, C.: Deep learning and recurrent connectionist-based approaches for arabic text recognition in videos. In: ICDAR\u201915, pp. 1026\u20131030. IEEE (2015)","DOI":"10.1109\/ICDAR.2015.7333917"},{"key":"320_CR79","unstructured":"Yao, C., Bai, X., Liu, W., Ma, Y., Tu, Z.: Detecting texts of arbitrary orientations in natural images. In: CVPR, pp. 1083\u20131090. IEEE (2012)"},{"key":"320_CR80","doi-asserted-by":"crossref","unstructured":"Nicolaou, A., Bagdanov, A.D., G\u00f3mez, L., Karatzas, D.: Visual script and language identification. In: 2016 12th IAPR Workshop on Document Analysis Systems (DAS), pp. 393\u2013398. IEEE (2016)","DOI":"10.1109\/DAS.2016.63"},{"key":"320_CR81","doi-asserted-by":"publisher","first-page":"448","DOI":"10.1016\/j.patcog.2015.11.005","volume":"52","author":"B Shi","year":"2016","unstructured":"Shi, B., Bai, X., Yao, C.: Script identification in the wild via discriminative convolutional neural network. Pattern Recognit. 52, 448\u2013458 (2016)","journal-title":"Pattern Recognit."},{"key":"320_CR82","doi-asserted-by":"publisher","first-page":"85","DOI":"10.1016\/j.patcog.2017.01.032","volume":"67","author":"L Gomez","year":"2017","unstructured":"Gomez, L., Nicolaou, A., Karatzas, D.: Improving patch-based scene text script identification with ensembles of conjoined networks. Pattern Recognit. 67, 85\u201396 (2017)","journal-title":"Pattern Recognit."},{"key":"320_CR83","doi-asserted-by":"crossref","unstructured":"Sharma, N., Mandal, R., Sharma, R., Pal, U., Blumenstein, M.: ICDAR 2015 competition on video script identification (cvsi 2015). In: ICDAR\u201915, pp. 1196\u20131200. IEEE (2015)","DOI":"10.1109\/ICDAR.2015.7333950"},{"issue":"3","key":"320_CR84","doi-asserted-by":"publisher","first-page":"959","DOI":"10.1016\/j.patcog.2013.04.017","volume":"47","author":"A Delaye","year":"2014","unstructured":"Delaye, A., Liu, C.L.: Contextual text\/non-text stroke classification in online handwritten notes with conditional random fields. Pattern Recognit. 47(3), 959\u2013968 (2014)","journal-title":"Pattern Recognit."},{"key":"320_CR85","doi-asserted-by":"crossref","unstructured":"Van Phan, T., Nakagawa, M.: Text\/non-text classification in online handwritten documents with recurrent neural networks. In: ICFHR, pp. 23\u201328. IEEE (2014)","DOI":"10.1109\/ICFHR.2014.12"},{"issue":"3","key":"320_CR86","doi-asserted-by":"publisher","first-page":"862","DOI":"10.1016\/j.patcog.2014.09.012","volume":"48","author":"N Sharma","year":"2015","unstructured":"Sharma, N., Shivakumara, P., Pal, U., Blumenstein, M., Tan, C.L.: Piece-wise linearity based method for text frame classification in video. Pattern Recognit. 48(3), 862\u2013881 (2015)","journal-title":"Pattern Recognit."},{"key":"320_CR87","doi-asserted-by":"publisher","first-page":"437","DOI":"10.1016\/j.patcog.2016.12.005","volume":"66","author":"X Bai","year":"2017","unstructured":"Bai, X., Shi, B., Zhang, C., Cai, X., Qi, L.: Text\/non-text image classification in the wild with convolutional neural networks. Pattern Recognit. 66, 437\u2013446 (2017)","journal-title":"Pattern Recognit."},{"issue":"1","key":"320_CR88","doi-asserted-by":"publisher","first-page":"62","DOI":"10.1109\/TSMC.1979.4310076","volume":"9","author":"N Otsu","year":"1979","unstructured":"Otsu, N.: A threshold selection method from gray-level histograms. IEEE Trans. Syst. Man Cybern. 9(1), 62\u201366 (1979)","journal-title":"IEEE Trans. Syst. Man Cybern."},{"issue":"2","key":"320_CR89","doi-asserted-by":"publisher","first-page":"225","DOI":"10.1016\/S0031-3203(99)00055-2","volume":"33","author":"J Sauvola","year":"2000","unstructured":"Sauvola, J., Pietik\u00e4inen, M.: Adaptive document image binarization. Pattern Recognit. 33(2), 225\u2013236 (2000)","journal-title":"Pattern Recognit."},{"issue":"9","key":"320_CR90","doi-asserted-by":"publisher","first-page":"4256","DOI":"10.1109\/TIP.2012.2199327","volume":"21","author":"C Yi","year":"2012","unstructured":"Yi, C., Tian, Y.: Localizing text in scene images by boundary clustering, stroke segmentation, and string fragment classification. IEEE Trans. Image Process. 21(9), 4256\u20134268 (2012)","journal-title":"IEEE Trans. Image Process."},{"issue":"3","key":"320_CR91","doi-asserted-by":"publisher","first-page":"247","DOI":"10.1007\/s10032-012-0192-x","volume":"16","author":"NR Howe","year":"2013","unstructured":"Howe, N.R.: Document binarization with automatic parameter tuning. IJDAR 16(3), 247\u2013258 (2013)","journal-title":"IJDAR"},{"key":"320_CR92","doi-asserted-by":"crossref","unstructured":"Zhang, Z., Wang, W.: A novel approach for binarization of overlay text. In: 2013 IEEE International Conference on Systems, Man, and Cybernetics (SMC), pp. 4259\u20134264. IEEE (2013)","DOI":"10.1109\/SMC.2013.726"},{"key":"320_CR93","doi-asserted-by":"crossref","unstructured":"Tensmeyer, C., Martinez, T.: Document image binarization with fully convolutional neural networks. arXiv preprint arXiv:1708.03276 (2017)","DOI":"10.1109\/ICDAR.2017.25"},{"key":"320_CR94","doi-asserted-by":"crossref","unstructured":"Peng, X., Cao, H., Natarajan, P.: Using convolutional encoder\u2013decoder for document image binarization. In: ICDAR\u201917, vol. 1, pp. 708\u2013713. IEEE (2017)","DOI":"10.1109\/ICDAR.2017.121"},{"key":"320_CR95","doi-asserted-by":"crossref","unstructured":"Meng, G., Yuan, K., Wu, Y., Xiang, S., Pan, C.: Deep networks for degraded document image binarization through pyramid reconstruction. In: ICDAR\u201917, vol. 1, pp. 727\u2013732. IEEE (2017)","DOI":"10.1109\/ICDAR.2017.124"},{"key":"320_CR96","doi-asserted-by":"crossref","unstructured":"Ha, J.W., Lee, B.J., Zhang, B.T.: Text-to-image retrieval based on incremental association via multimodal hypernetworks. In: 2012 IEEE International Conference on Systems, Man, and Cybernetics (SMC), pp. 3245\u20133250. IEEE (2012)","DOI":"10.1109\/ICSMC.2012.6378291"},{"key":"320_CR97","doi-asserted-by":"crossref","unstructured":"Mishra, A., Alahari, K., Jawahar, C.: Image retrieval using textual cues. In: ICCV, pp. 3040\u20133047. IEEE (2013)","DOI":"10.1109\/ICCV.2013.378"},{"issue":"5","key":"320_CR98","doi-asserted-by":"publisher","first-page":"1063","DOI":"10.1109\/TMM.2016.2638622","volume":"19","author":"S Karaoglu","year":"2017","unstructured":"Karaoglu, S., Tao, R., Gevers, T., Smeulders, A.W.M.: Words matter: scene text for image classification and retrieval. IEEE Trans. Multimed. 19(5), 1063\u20131076 (2017)","journal-title":"IEEE Trans. Multimed."},{"key":"320_CR99","doi-asserted-by":"crossref","unstructured":"Rong, X., Yi, C., Tian, Y.: Unambiguous text localization and retrieval for cluttered scenes. In: CVPR, pp. 3279\u20133287. IEEE (2017)","DOI":"10.1109\/CVPR.2017.349"},{"key":"320_CR100","unstructured":"Lucas, S.M., Panaretos, A., Sosa, L., Tang, A., Wong, S., Young, R.: ICDAR 2003 robust reading competitions. In: ICDAR\u201903, pp. 682\u2013687. IEEE (2003)"},{"key":"320_CR101","doi-asserted-by":"crossref","unstructured":"Lucas, SM.: ICDAR 2005 text locating competition results. In: ICDAR\u201905, pp. 80\u201384. IEEE (2005)","DOI":"10.1109\/ICDAR.2005.231"},{"key":"320_CR102","doi-asserted-by":"crossref","unstructured":"Shahab, A., Shafait, F., Dengel, A.: ICDAR 2011 robust reading competition challenge 2: reading text in scene images. In: ICDAR\u201911, pp. 1491\u20131496. IEEE (2011)","DOI":"10.1109\/ICDAR.2011.296"},{"key":"320_CR103","doi-asserted-by":"crossref","unstructured":"Karatzas, D., Shafait, F., Uchida, S., Iwamura, M., i Bigorda, L.G., Mestre, S.R., Mas, J., Mota, D.F., Almazan, J.A., de las Heras, L.P.: ICDAR 2013 robust reading competition. In: ICDAR\u201913, pp. 1484\u20131493. IEEE (2013)","DOI":"10.1109\/ICDAR.2013.221"},{"key":"320_CR104","doi-asserted-by":"crossref","unstructured":"Karatzas, D., Gomez-Bigorda, L., Nicolaou, A., Ghosh, S., Bagdanov, A., Iwamura, M., Matas, J., Neumann, L., Chandrasekhar, V.R., Lu, S., et al.: ICDAR 2015 competition on robust reading. In: ICDAR\u201915, pp. 1156\u20131160. IEEE (2015)","DOI":"10.1109\/ICDAR.2015.7333942"},{"key":"320_CR105","unstructured":"Veit, A., Matera, T., Neumann, L., Matas, J., Belongie, S.: Coco-text: Dataset and benchmark for text detection and recognition in natural images. arXiv preprint arXiv:1601.07140 (2016)"},{"key":"320_CR106","doi-asserted-by":"crossref","unstructured":"Mishra, A., Alahari, K., Jawahar, C.: Scene text recognition using higher order language priors. In: BMVC, BMVA (2012)","DOI":"10.5244\/C.26.127"},{"key":"320_CR107","volume-title":"Character Recognition in Natural Images","author":"TED Campos","year":"2009","unstructured":"Campos, T.E.D., Babu, B.R., Varma, A.M.: Character Recognition in Natural Images. Chapman & Hall, Boca Raton (2009)"},{"key":"320_CR108","unstructured":"SeongHun, L., Min Su, C., Kyomin, J., Jin Hyung, K.: Scene text extraction with edge constraint and text collinearity. In: 2010 20th International Conference on Pattern Recognition, pp. 3983\u20133986. IEEE (2010)"},{"issue":"9","key":"320_CR109","doi-asserted-by":"publisher","first-page":"2594","DOI":"10.1109\/TIP.2011.2126586","volume":"20","author":"C Yi","year":"2011","unstructured":"Yi, C., Tian, Y.: Text string detection from natural scenes by structure-based partition and grouping. IEEE Trans. Image Process. 20(9), 2594\u20132605 (2011)","journal-title":"IEEE Trans. Image Process."},{"key":"320_CR110","doi-asserted-by":"crossref","unstructured":"Ch\u2019ng, C.K., Chan, C.S.: Total-text: a comprehensive dataset for scene text detection and recognition. In: 2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR), vol. 1, pp. 935\u2013942. IEEE (2017)","DOI":"10.1109\/ICDAR.2017.157"},{"key":"320_CR111","doi-asserted-by":"crossref","unstructured":"Shi, B., Yao, C., Liao, M., Yang, M., Xu, P., Cui, L., Belongie, S., Lu, S., Bai, X.: ICDAR 2017 competition on reading chinese text in the wild (rctw-17). arXiv preprint arXiv:1708.09585 (2017)","DOI":"10.1109\/ICDAR.2017.233"},{"issue":"18","key":"320_CR112","doi-asserted-by":"publisher","first-page":"8027","DOI":"10.1016\/j.eswa.2014.07.008","volume":"41","author":"A Risnumawan","year":"2014","unstructured":"Risnumawan, A., Shivakumara, P., Chan, C.S., Tan, C.L.: A robust arbitrary text detection system for natural scene images. Expert Syst. Appl. 41(18), 8027\u20138048 (2014)","journal-title":"Expert Syst. Appl."},{"issue":"4","key":"320_CR113","doi-asserted-by":"publisher","first-page":"280","DOI":"10.1007\/s10032-006-0014-0","volume":"8","author":"C Wolf","year":"2006","unstructured":"Wolf, C., Jolion, J.M.: Object count\/area graphs for the evaluation of object detection and segmentation algorithms. IJDAR 8(4), 280\u2013296 (2006)","journal-title":"IJDAR"},{"key":"320_CR114","doi-asserted-by":"crossref","unstructured":"Cheng, Z., Bai, F., Xu, Y., Zheng, G., Pu, S., Zhou, S.L Focusing attention: towards accurate text recognition in natural images. In: ICCV, pp. 5086\u20135094. IEEE (2017)","DOI":"10.1109\/ICCV.2017.543"},{"key":"320_CR115","unstructured":"Jaderberg, M., Simonyan, K., Vedaldi, A., Zisserman, A.: Deep structured output learning for unconstrained text recognition. In: ICLR (2015)"},{"key":"320_CR116","unstructured":"Alsharif, O., Pineau, J.: End-to-end text recognition with hybrid hmm maxout models. arXiv preprint arXiv:1310.1811 (2013)"},{"key":"320_CR117","unstructured":"Wang, K., Babenko, B., Belongie, S.: End-to-end scene text recognition. In: ICCV, pp. 1457\u20131464. IEEE (2011)"},{"key":"320_CR118","doi-asserted-by":"crossref","unstructured":"Li, H., Wang, P., Shen, C.: Towards end-to-end text spotting with convolutional recurrent neural networks. In: Proc. ICCV, pp. 5238\u20135246 (2017)","DOI":"10.1109\/ICCV.2017.560"},{"key":"320_CR119","doi-asserted-by":"crossref","unstructured":"Hu, H., Zhang, C., Luo, Y., Wang, Y., Han, J., Ding, E.: Wordsup: exploiting word annotations for character based text detection. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.529"},{"key":"320_CR120","doi-asserted-by":"crossref","unstructured":"He, W., Zhang, X.Y., Yin, F., Liu, C.L.: Deep direct regression for multi-oriented scene text detection. arXiv preprint\u00a0 arXiv:1703.08289 (2017)","DOI":"10.1109\/ICCV.2017.87"},{"key":"320_CR121","doi-asserted-by":"crossref","unstructured":"He, P., Huang, W., He, T., Zhu, Q., Qiao, Y., Li, X.: Single shot text detector with regional attention. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.331"},{"key":"320_CR122","doi-asserted-by":"crossref","unstructured":"Busta, M., Neumann, L., Matas, J.: Deep textspotter: an end-to-end trainable scene text localization and recognition framework. In: ICCV, pp. 22\u201329 (2017)","DOI":"10.1109\/ICCV.2017.242"},{"key":"320_CR123","doi-asserted-by":"crossref","unstructured":"Wu, Y., Natarajan, P.: Self-organized text detection with minimal post-processing via border learning. In: CVPR, pp. 5000\u20135009 (2017)","DOI":"10.1109\/ICCV.2017.535"},{"key":"320_CR124","doi-asserted-by":"crossref","unstructured":"Gordo, A.: Supervised mid-level features for word image representation. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2956\u20132964 (2015)","DOI":"10.1109\/CVPR.2015.7298914"},{"issue":"12","key":"320_CR125","doi-asserted-by":"publisher","first-page":"2552","DOI":"10.1109\/TPAMI.2014.2339814","volume":"36","author":"J Almazan","year":"2014","unstructured":"Almazan, J., Gordo, A., Fornes, A., Valveny, E.: Word spotting and recognition with embedded attributes. IEEE Trans. PAMI 36(12), 2552\u20132566 (2014)","journal-title":"IEEE Trans. PAMI"}],"container-title":["International Journal on Document Analysis and Recognition (IJDAR)"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10032-019-00320-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s10032-019-00320-5\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10032-019-00320-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,9,14]],"date-time":"2022-09-14T13:04:14Z","timestamp":1663160654000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s10032-019-00320-5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,3,27]]},"references-count":125,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2019,6]]}},"alternative-id":["320"],"URL":"https:\/\/doi.org\/10.1007\/s10032-019-00320-5","relation":{},"ISSN":["1433-2833","1433-2825"],"issn-type":[{"value":"1433-2833","type":"print"},{"value":"1433-2825","type":"electronic"}],"subject":[],"published":{"date-parts":[[2019,3,27]]},"assertion":[{"value":"27 September 2017","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"26 February 2019","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"6 March 2019","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"27 March 2019","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}