{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,26]],"date-time":"2026-03-26T15:56:11Z","timestamp":1774540571701,"version":"3.50.1"},"publisher-location":"Cham","reference-count":51,"publisher":"Springer International Publishing","isbn-type":[{"value":"9783319105925","type":"print"},{"value":"9783319105932","type":"electronic"}],"license":[{"start":{"date-parts":[[2014,1,1]],"date-time":"2014-01-01T00:00:00Z","timestamp":1388534400000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2014]]},"DOI":"10.1007\/978-3-319-10593-2_34","type":"book-chapter","created":{"date-parts":[[2014,8,14]],"date-time":"2014-08-14T06:52:23Z","timestamp":1407999143000},"page":"512-528","source":"Crossref","is-referenced-by-count":326,"title":["Deep Features for Text Spotting"],"prefix":"10.1007","author":[{"given":"Max","family":"Jaderberg","sequence":"first","affiliation":[]},{"given":"Andrea","family":"Vedaldi","sequence":"additional","affiliation":[]},{"given":"Andrew","family":"Zisserman","sequence":"additional","affiliation":[]}],"member":"297","reference":[{"key":"34_CR1","unstructured":"http:\/\/algoval.essex.ac.uk\/icdar\/datasets.html"},{"key":"34_CR2","unstructured":"https:\/\/code.google.com\/p\/tesseract-ocr\/"},{"key":"34_CR3","unstructured":"http:\/\/www.flickr.com\/"},{"key":"34_CR4","unstructured":"http:\/\/www.flickr.com\/groups\/type\/"},{"key":"34_CR5","unstructured":"http:\/\/www.iapr-tc11.org\/mediawiki\/index.php\/kaist_scene_text_database"},{"key":"34_CR6","unstructured":"Alsharif, O., Pineau, J.: End-to-End Text Recognition with Hybrid HMM Maxout Models. In: ICLR (2014)"},{"key":"34_CR7","doi-asserted-by":"crossref","unstructured":"Anthimopoulos, M., Gatos, B., Pratikakis, I.: Detection of artificial and scene text in images and video frames. Pattern Analysis and Applications, 1\u201316 (2011)","DOI":"10.1007\/s10044-011-0237-7"},{"key":"34_CR8","doi-asserted-by":"crossref","unstructured":"Bissacco, A., Cummins, M., Netzer, Y., Neven, H.: PhotoOCR: Reading text in uncontrolled conditions. In: ICCV (2013)","DOI":"10.1109\/ICCV.2013.102"},{"key":"34_CR9","doi-asserted-by":"crossref","unstructured":"Boykov, Y., Jolly, M.P.: Interactive graph cuts for optimal boundary and region segmentation of objects in N-D images. In: Proc. ICCV, vol.\u00a02, pp. 105\u2013112 (2001)","DOI":"10.1109\/ICCV.2001.937505"},{"key":"34_CR10","unstructured":"de Campos, T., Babu, B.R., Varma, M.: Character recognition in natural images, pp. 591\u2013604 (2009)"},{"key":"34_CR11","doi-asserted-by":"crossref","unstructured":"Chen, H., Tsai, S., Schroth, G., Chen, D., Grzeszczuk, R., Girod, B.: Robust text detection in natural images with edge-enhanced maximally stable extremal regions. In: Proc. International Conference on Image Processing (ICIP), pp. 2609\u20132612 (2011)","DOI":"10.1109\/ICIP.2011.6116200"},{"key":"34_CR12","doi-asserted-by":"crossref","unstructured":"Chen, X., Yuille, A.L.: Detecting and reading text in natural scenes. In: Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, CVPR 2004, vol.\u00a02, p. II\u2013366. IEEE (2004)","DOI":"10.1109\/CVPR.2004.1315187"},{"key":"34_CR13","doi-asserted-by":"crossref","unstructured":"Coates, A., Carpenter, B., Case, C., Satheesh, S., Suresh, B., Wang, T., Wu, D.J., Ng, A.Y.: Text detection and character recognition in scene images with unsupervised feature learning. In: 2011 International Conference on Document Analysis and Recognition (ICDAR), pp. 440\u2013445. IEEE (2011)","DOI":"10.1109\/ICDAR.2011.95"},{"key":"34_CR14","unstructured":"Donahue, J., Jia, Y., Vinyals, O., Hoffman, J., Zhang, N., Tzeng, E., Darrell, T.: Decaf: A deep convolutional activation feature for generic visual recognition. arXiv preprint arXiv:1310.1531 (2013)"},{"key":"34_CR15","doi-asserted-by":"crossref","unstructured":"Dutta, S., Sankaran, N., Sankar, K., Jawahar, C.: Robust recognition of degraded documents using character n-grams. In: International Workshop on Document Analysis Systems (DAS), pp. 130\u2013134. IEEE (2012)","DOI":"10.1109\/DAS.2012.76"},{"key":"34_CR16","doi-asserted-by":"crossref","unstructured":"Epshtein, B., Ofek, E., Wexler, Y.: Detecting text in natural scenes with stroke width transform. In: Proc. CVPR, pp. 2963\u20132970. IEEE (2010)","DOI":"10.1109\/CVPR.2010.5540041"},{"key":"34_CR17","unstructured":"Erhan, D., Bengio, Y., Courville, A., Vincent, P.: Visualizing higher-layer features of a deep network. Tech. rep. University of Montreal (2009)"},{"key":"34_CR18","doi-asserted-by":"crossref","unstructured":"Felzenszwalb, P., Huttenlocher, D.: Pictorial structures for object recognition. IJCV 61(1) (2005)","DOI":"10.1023\/B:VISI.0000042934.15159.49"},{"key":"34_CR19","doi-asserted-by":"crossref","unstructured":"Goel, V., Mishra, A., Alahari, K., Jawahar, C.: Whole is greater than sum of parts: Recognizing scene text words. In: 2013 12th International Conference on Document Analysis and Recognition (ICDAR), pp. 398\u2013402. IEEE (2013)","DOI":"10.1109\/ICDAR.2013.87"},{"key":"34_CR20","unstructured":"Goodfellow, I.J., Bulatov, Y., Ibarz, J., Arnoud, S., Shet, V.: Multi-digit number recognition from street view imagery using deep convolutional neural networks. In: ICLR (2014)"},{"key":"34_CR21","unstructured":"Goodfellow, I.J., Warde-Farley, D., Mirza, M., Courville, A., Bengio, Y.: Maxout networks. arXiv preprint arXiv:1302.4389 (2013)"},{"key":"34_CR22","unstructured":"Hinton, G.E., Srivastava, N., Krizhevsky, A., Sutskever, I., Salakhutdinov, R.R.: Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580 (2012)"},{"key":"34_CR23","doi-asserted-by":"crossref","unstructured":"Jaderberg, M., Vedaldi, A., Zisserman, A.: Speeding up convolutional neural networks with low rank expansions. arXiv preprint arXiv:1405.3866 (2014)","DOI":"10.5244\/C.28.88"},{"key":"34_CR24","doi-asserted-by":"crossref","unstructured":"Karatzas, D., Shafait, F., Uchida, S., Iwamura, M., Mestre, S.R., Mas, J., Mota, D.F., Almazan, J.A., de las Heras, L.P., et al.: Icdar 2013 robust reading competition. In: 2013 12th International Conference on Document Analysis and Recognition (ICDAR), pp. 1484\u20131493. IEEE (2013)","DOI":"10.1109\/ICDAR.2013.221"},{"key":"34_CR25","unstructured":"Krizhevsky, A., Sutskever, I., Hinton, G.E.: Imagenet classification with deep convolutional neural networks. In: NIPS, vol.\u00a01, p. 4 (2012)"},{"key":"34_CR26","doi-asserted-by":"crossref","unstructured":"Lalonde, M., Gagnon, L.: Key-text spotting in documentary videos using adaboost. In: Electronic Imaging 2006, p. 60641N. International Society for Optics and Photonics (2006)","DOI":"10.1117\/12.641924"},{"issue":"11","key":"34_CR27","doi-asserted-by":"publisher","first-page":"2278","DOI":"10.1109\/5.726791","volume":"86","author":"Y. LeCun","year":"1998","unstructured":"LeCun, Y., Bottou, L., Bengio, Y., Haffner, P.: Gradient-based learning applied to document recognition. Proceedings of the IEEE\u00a086(11), 2278\u20132324 (1998)","journal-title":"Proceedings of the IEEE"},{"key":"34_CR28","doi-asserted-by":"crossref","unstructured":"Lucas, S.M.: Icdar 2005 text locating competition results. In: Proceedings of the Eighth International Conference on Document Analysis and Recognition 2005, pp. 80\u201384. IEEE (2005)","DOI":"10.1109\/ICDAR.2005.231"},{"key":"34_CR29","doi-asserted-by":"crossref","unstructured":"Matas, J., Chum, O., Urban, M., Pajdla, T.: Robust wide baseline stereo from maximally stable extremal regions. In: Proc. BMVC, pp. 384\u2013393 (2002)","DOI":"10.5244\/C.16.36"},{"key":"34_CR30","unstructured":"Mathieu, M., Henaff, M., LeCun, Y.: Fast training of convolutional networks through FFTs. CoRR abs\/1312.5851 (2013)"},{"key":"34_CR31","doi-asserted-by":"crossref","unstructured":"Mishra, A., Alahari, K., Jawahar, C., et al.: Scene text recognition using higher order language priors. In: 23rd British Machine Vision Conference on BMVC 2012 (2012)","DOI":"10.5244\/C.26.127"},{"key":"34_CR32","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"770","DOI":"10.1007\/978-3-642-19318-7_60","volume-title":"Computer Vision \u2013 ACCV 2010","author":"L. Neumann","year":"2011","unstructured":"Neumann, L., Matas, J.: A method for text localization and recognition in real-world images. In: Kimmel, R., Klette, R., Sugimoto, A. (eds.) ACCV 2010, Part III. LNCS, vol.\u00a06494, pp. 770\u2013783. Springer, Heidelberg (2011)"},{"key":"34_CR33","doi-asserted-by":"crossref","unstructured":"Neumann, L., Matas, J.: Text localization in real-world images using efficiently pruned exhaustive search. In: Proc. ICDAR, pp. 687\u2013691. IEEE (2011)","DOI":"10.1109\/ICDAR.2011.144"},{"key":"34_CR34","doi-asserted-by":"crossref","unstructured":"Neumann, L., Matas, J.: Real-time scene text localization and recognition. In: Proc. CVPR, vol. 3, pp. 1187\u20131190. IEEE (2012)","DOI":"10.1109\/CVPR.2012.6248097"},{"key":"34_CR35","doi-asserted-by":"publisher","first-page":"97","DOI":"10.1109\/ICCV.2013.19","volume-title":"2013 IEEE International Conference on Computer Vision (ICCV 2013)","author":"L. Neumann","year":"2013","unstructured":"Neumann, L., Matas, J.: Scene text localization and recognition with oriented stroke detection. In: 2013 IEEE International Conference on Computer Vision (ICCV 2013), pp. 97\u2013104. IEEE, California (2013)"},{"key":"34_CR36","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"752","DOI":"10.1007\/978-3-642-33783-3_54","volume-title":"Computer Vision \u2013 ECCV 2012","author":"T. Novikova","year":"2012","unstructured":"Novikova, T., Barinova, O., Kohli, P., Lempitsky, V.: Large-lexicon attribute-consistent text recognition in natural images. In: Fitzgibbon, A., Lazebnik, S., Perona, P., Sato, Y., Schmid, C. (eds.) ECCV 2012, Part VI. LNCS, vol.\u00a07577, pp. 752\u2013765. Springer, Heidelberg (2012)"},{"issue":"1","key":"34_CR37","doi-asserted-by":"publisher","first-page":"62","DOI":"10.1109\/TSMC.1979.4310076","volume":"9","author":"N. Otsu","year":"1979","unstructured":"Otsu, N.: A threshold selection method from gray-level histograms. IEEE Transactions on Systems, Man, and Cybernetics\u00a09(1), 62\u201366 (1979)","journal-title":"IEEE Transactions on Systems, Man, and Cybernetics"},{"key":"34_CR38","doi-asserted-by":"crossref","unstructured":"Ozuysal, M., Fua, P., Lepetit, V.: Fast keypoint recognition in ten lines of code. In: Proc. CVPR (2007)","DOI":"10.1109\/CVPR.2007.383123"},{"key":"34_CR39","doi-asserted-by":"crossref","unstructured":"Posner, I., Corke, P., Newman, P.: Using text-spotting to query the world. In: Proc. of the IEEE\/RSJ Int. Conf. on Intelligent Robots and Systems, IROS (2010)","DOI":"10.1109\/IROS.2010.5653151"},{"key":"34_CR40","unstructured":"Quack, T.: Large scale mining and retrieval of visual data in a multimodal context. Ph.D. thesis, ETH Zurich (2009)"},{"issue":"2-4","key":"34_CR41","doi-asserted-by":"publisher","first-page":"139","DOI":"10.1007\/s10032-006-0027-8","volume":"9","author":"T. Rath","year":"2007","unstructured":"Rath, T., Manmatha, R.: Word spotting for historical documents. IJDAR\u00a09(2-4), 139\u2013152 (2007)","journal-title":"IJDAR"},{"key":"34_CR42","doi-asserted-by":"crossref","unstructured":"Shahab, A., Shafait, F., Dengel, A.: Icdar 2011 robust reading competition challenge 2: Reading text in scene images. In: Proc. ICDAR, pp. 1491\u20131496. IEEE (2011)","DOI":"10.1109\/ICDAR.2011.296"},{"key":"34_CR43","unstructured":"Simonyan, K., Vedaldi, A., Zisserman, A.: Deep inside convolutional networks: Visualising image classification models and saliency maps. In: Workshop at International Conference on Learning Representations (2014)"},{"key":"34_CR44","doi-asserted-by":"crossref","unstructured":"Torralba, A., Murphy, K.P., Freeman, W.T.: Sharing features: efficient boosting procedures for multiclass object detection. In: Proc. CVPR, pp. 762\u2013769 (2004)","DOI":"10.1109\/CVPR.2004.1315241"},{"key":"34_CR45","unstructured":"Wang, K., Babenko, B., Belongie, S.: End-to-end scene text recognition. In: Proc. ICCV, pp. 1457\u20131464. IEEE (2011)"},{"key":"34_CR46","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"591","DOI":"10.1007\/978-3-642-15549-9_43","volume-title":"Computer Vision \u2013 ECCV 2010","author":"K. Wang","year":"2010","unstructured":"Wang, K., Belongie, S.: Word spotting in the wild. In: Daniilidis, K., Maragos, P., Paragios, N. (eds.) ECCV 2010, Part I. LNCS, vol.\u00a06311, pp. 591\u2013604. Springer, Heidelberg (2010)"},{"key":"34_CR47","unstructured":"Wang, T., Wu, D.J., Coates, A., Ng, A.Y.: End-to-end text recognition with convolutional neural networks. In: 2012 21st International Conference on Pattern Recognition (ICPR), pp. 3304\u20133308. IEEE (2012)"},{"issue":"2","key":"34_CR48","doi-asserted-by":"publisher","first-page":"375","DOI":"10.1109\/TPAMI.2013.126","volume":"36","author":"J.J. Weinman","year":"2014","unstructured":"Weinman, J.J., Butler, Z., Knoll, D., Feild, J.: Toward integrated scene text reading. IEEE Trans. Pattern Anal. Mach. Intell.\u00a036(2), 375\u2013387 (2014)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"34_CR49","doi-asserted-by":"crossref","unstructured":"Yang, H., Quehl, B., Sack, H.: A framework for improved video text detection and recognition. Int. Journal of Multimedia Tools and Applications, MTAP (2012)","DOI":"10.1007\/s11042-012-1250-6"},{"issue":"9","key":"34_CR50","doi-asserted-by":"publisher","first-page":"2594","DOI":"10.1109\/TIP.2011.2126586","volume":"20","author":"C. Yi","year":"2011","unstructured":"Yi, C., Tian, Y.: Text string detection from natural scenes by structure-based partition and grouping. IEEE Transactions on Image Processing\u00a020(9), 2594\u20132605 (2011)","journal-title":"IEEE Transactions on Image Processing"},{"key":"34_CR51","doi-asserted-by":"crossref","unstructured":"Yin, X.C., Yin, X., Huang, K.: Robust text detection in natural scene images. CoRR abs\/1301.2628 (2013)","DOI":"10.1145\/2484028.2484197"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2014"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-319-10593-2_34","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,4]],"date-time":"2025-05-04T05:37:12Z","timestamp":1746337032000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-319-10593-2_34"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2014]]},"ISBN":["9783319105925","9783319105932"],"references-count":51,"URL":"https:\/\/doi.org\/10.1007\/978-3-319-10593-2_34","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2014]]}}}