{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,28]],"date-time":"2025-10-28T18:26:17Z","timestamp":1761675977565},"reference-count":42,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2012,7,20]],"date-time":"2012-07-20T00:00:00Z","timestamp":1342742400000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2014,6]]},"DOI":"10.1007\/s11042-012-1168-z","type":"journal-article","created":{"date-parts":[[2012,7,19]],"date-time":"2012-07-19T21:06:20Z","timestamp":1342731980000},"page":"1487-1502","source":"Crossref","is-referenced-by-count":7,"title":["Video text detection and localization in intra-frames of H.264\/AVC compressed video"],"prefix":"10.1007","volume":"70","author":[{"given":"Xueming","family":"Qian","sequence":"first","affiliation":[]},{"given":"Huan","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Xingsong","family":"Hou","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2012,7,20]]},"reference":[{"key":"1168_CR1","unstructured":"Chen D, Bourlard H, Thiran J (2001) Text identification in complex background using svm. In Proceedings of the International Conference on Computer Vision and Pattern Recognition, 2, 621-626"},{"key":"1168_CR2","doi-asserted-by":"crossref","unstructured":"Crandall D, Kasturi R (2001) Robust detection of stylized text events in digital video. In Proceedings of the International Conference on Document Analysis and Recognition 865-869","DOI":"10.1109\/ICDAR.2001.953910"},{"key":"1168_CR3","doi-asserted-by":"crossref","unstructured":"Cui Y, Huang Q (1997) Character extraction of license plates from video. In Proceedings of the Conference on Computer Vision and Pattern Recognition 502-507","DOI":"10.1109\/CVPR.1997.609372"},{"key":"1168_CR4","doi-asserted-by":"crossref","unstructured":"Ekin A (2006) Local information based overlaid text detection by classifier fusion. In Proc. ICASSP2006, 2, II753-II756.","DOI":"10.1109\/ICASSP.2006.1660452"},{"key":"1168_CR5","unstructured":"Gargi U, Antani S, Kasturi R (1998) Indexing text events in digital video databases. In Proc. Int. Conf. Pattern Recognit., 1, 916-918"},{"key":"1168_CR6","unstructured":"Gordon S (2003) Simplified Use of 8x8 Transform. Doc. JVT-I022, San Diego, Sept. 2003"},{"key":"1168_CR7","unstructured":"INRIA FTP site. ftp:\/\/imedia-ftp.inria.fr\/\/MUSCLE-VCD-2007\/\/DB-MPEG1\/\/Movie23.mpg"},{"key":"1168_CR8","doi-asserted-by":"crossref","unstructured":"Jain A, Yu B (1998) Automatic text location in images and video frames. In Proc. ICPR, 1497-1499","DOI":"10.1109\/ICPR.1998.711990"},{"key":"1168_CR9","doi-asserted-by":"crossref","unstructured":"Jiang H, Liu G, Qian X, et al. (2008) A fast and efficient text tracking in compressed video. in Proc ISM","DOI":"10.1109\/ISM.2008.59"},{"key":"1168_CR10","doi-asserted-by":"crossref","first-page":"977","DOI":"10.1016\/j.patcog.2003.10.012","volume":"37","author":"K Jung","year":"2004","unstructured":"Jung K, Kim K, Jain A (2004) Text information extraction in images and video: a survey. Pattern Recognition 37:977\u2013997","journal-title":"Pattern Recognition"},{"key":"1168_CR11","unstructured":"JVT Reference Software version 10.2. ftp:\/\/ftp.imtc-files.org\/jvt-experts\/reference_software\/"},{"key":"1168_CR12","unstructured":"JVT-G050, 2003. Draft ITU-T recommendation and final draft international standard of joint video specification (ITU-T Rec. H.264\/ISO\/IEC 14486-10 AVC. in Joint Video Team (JVT) of ISO\/IEC MPEG and ITU-T VECG"},{"key":"1168_CR13","doi-asserted-by":"crossref","first-page":"2607","DOI":"10.1016\/S0167-8655(03)00105-3","volume":"24","author":"C Lee","year":"2003","unstructured":"Lee C, Jung K, Kim H (2003) Automatic text detection and removal in video sequences. Pattern Recogn Lett 24:2607\u20132623","journal-title":"Pattern Recogn Lett"},{"issue":"1","key":"1168_CR14","doi-asserted-by":"crossref","first-page":"147","DOI":"10.1109\/83.817607","volume":"9","author":"H Li","year":"2000","unstructured":"Li H, Doermann D, Kia O (2000) Automatic text detection and tracking in digital video. IEEE Trans Image Process 9(1):147\u2013156","journal-title":"IEEE Trans Image Process"},{"key":"1168_CR15","unstructured":"Lim Y, Choi S, Lee S (2000) Text extraction in MPEG compressed video for content-based indexing. In Proc. Int. Conf. on Pattern Recognit., 4, 409-412"},{"key":"1168_CR16","unstructured":"Liu Z, Sarkar S (2008) Robust outdoor text detection using text intensity and shape features. in Proc ICPR"},{"key":"1168_CR17","unstructured":"Lu S, Barner K (2008) Weighted DCT coefficients based text detection. in Proc. ICASSP 1341-1344"},{"issue":"2","key":"1168_CR18","doi-asserted-by":"crossref","first-page":"243","DOI":"10.1109\/TCSVT.2004.841653","volume":"15","author":"M Lyu","year":"2005","unstructured":"Lyu M, Song J, Cai M (2005) A comprehensive method for multilingual video text detection, localization, and extraction. IEEE Trans Circuits and Systems for Video Technology 15(2):243\u2013255","journal-title":"IEEE Trans Circuits and Systems for Video Technology"},{"key":"1168_CR19","first-page":"598","volume":"13","author":"H Malvar","year":"2003","unstructured":"Malvar H et al (2003) Low-complexity transform and quantization in H.264\/AVC. IEEE Trans CSVT 13:598\u2013603","journal-title":"IEEE Trans CSVT"},{"key":"1168_CR20","unstructured":"Mariano V, Kasturi R (2000) Locating uniform-colored text in video frames. in Proc. 15th Int. Conf. Pattern Recognit., 4, 539-542"},{"issue":"3","key":"1168_CR21","doi-asserted-by":"crossref","first-page":"261","DOI":"10.1007\/s00530-004-0157-0","volume":"10","author":"C Ngo","year":"2005","unstructured":"Ngo C, Chan C (2005) Video text detection and segmentation for optical character recognition. Multimedia Systems 10(3):261\u2013272","journal-title":"Multimedia Systems"},{"key":"1168_CR22","unstructured":"Qi W, Gu L, Jiang H, Chen X, Zhang H (2000) Integrating visual, audio and text analysis for news video. in Proc. Int. Conf. Image Process., 3, 520-523"},{"key":"1168_CR23","unstructured":"Qian X, Liu G (2006) Text detection, localization and segmentation in compressed videos. in Proc. ICASSP2006., 2, II385-II388"},{"key":"1168_CR24","doi-asserted-by":"crossref","first-page":"179","DOI":"10.1007\/s11760-007-0004-9","volume":"4","author":"X Qian","year":"2007","unstructured":"Qian X, Liu G (2007) Global motion estimation from randomly selected motion vector groups and GM\/LM based applications. Signal, Image and Video Processing 4:179\u2013189","journal-title":"Signal, Image and Video Processing"},{"issue":"11","key":"1168_CR25","doi-asserted-by":"crossref","first-page":"1245","DOI":"10.1109\/TCSVT.2006.881858","volume":"16","author":"X Qian","year":"2006","unstructured":"Qian X, Liu G, Su R (2006) Effective fades and flashlight detection based on accumulating histogram difference. IEEE Trans Circuits and Systems for Video Technology 16(11):1245\u20131258","journal-title":"IEEE Trans Circuits and Systems for Video Technology"},{"issue":"9","key":"1168_CR26","first-page":"752","volume":"22","author":"X Qian","year":"2007","unstructured":"Qian X, Liu G, Wang H, Su R (2007) Text detection, localization and tracking in compressed videos. Signal Processing: Image Communication 22(9):752\u2013768","journal-title":"Signal Processing: Image Communication"},{"issue":"4","key":"1168_CR27","doi-asserted-by":"crossref","first-page":"256","DOI":"10.1109\/76.999203","volume":"12","author":"L Rainer","year":"2002","unstructured":"Rainer L, Axel W (2002) Localizing and segmenting text in images and videos. IEEE Trans Circuits and Systems for Video Technology 12(4):256\u2013267","journal-title":"IEEE Trans Circuits and Systems for Video Technology"},{"key":"1168_CR28","doi-asserted-by":"crossref","unstructured":"Sato T, Kanade T (1998) Video OCR: Indexing digital news libraries by recognition of superimposed caption. ICCV Workshop on Image and Video retrieval","DOI":"10.1007\/s005300050140"},{"key":"1168_CR29","doi-asserted-by":"crossref","unstructured":"Shen B, Sethi I (1996) Direct feature extraction from compressed images. in IS&T SPIE: Storage and Retrieval for Image and Video Databases IV, 2607, 404-417","DOI":"10.1117\/12.234779"},{"key":"1168_CR30","doi-asserted-by":"crossref","unstructured":"Shivakumara P, Phan TQ, Tan CL (2009) A robust wavelet transform based technique for video text detection. Int Conf Document Analysis and Recognition, 1285-1289","DOI":"10.1109\/ICDAR.2009.83"},{"issue":"4","key":"1168_CR31","doi-asserted-by":"crossref","first-page":"638","DOI":"10.1109\/TMM.2005.850966","volume":"7","author":"C Snoek","year":"2005","unstructured":"Snoek C, Worring M (2005) Multimedia event-based video indexing using time intervals. IEEE Trans Multimedia 7(4):638\u2013647","journal-title":"IEEE Trans Multimedia"},{"key":"1168_CR32","unstructured":"Sun L, Liu G, Qian X, Guo D (2009) A novel text detection and localization method based on corner response. in Proc ICME"},{"issue":"4","key":"1168_CR33","doi-asserted-by":"crossref","first-page":"961","DOI":"10.1109\/TNN.2002.1021896","volume":"13","author":"X Tang","year":"2002","unstructured":"Tang X, Gao B, Liu J, Zhang H (2002) A spatial-temporal approach for video caption detection and recognition. IEEE Trans Neural Networks 13(4):961\u2013971","journal-title":"IEEE Trans Neural Networks"},{"key":"1168_CR34","unstructured":"Wang P, Cai R, Yang S (2003) A hybrid approach to news video classification with multimodal features. in Proc. Int. Conf. on Information, Communication and Signal Processing, 2, 787-791"},{"key":"1168_CR35","unstructured":"Wang R, Jin W, Wu L (2004) A novel video caption detection approach using multi-frame integration. ICPR 2004. Proceedings of the 17th International Conference, 1, 449-52"},{"key":"1168_CR36","doi-asserted-by":"crossref","unstructured":"Wang F, Ma Y, Zhang H, Li J (2005) A generic framework for semantic sports video analysis using dynamic bayesian networks. in Proc. Int. Conf. on Multimedia Modeling, 115-121","DOI":"10.1109\/MMMC.2005.9"},{"key":"1168_CR37","doi-asserted-by":"crossref","first-page":"560","DOI":"10.1109\/TCSVT.2003.815165","volume":"13","author":"T Wiegand","year":"2003","unstructured":"Wiegand T, Sullivan G, Bjontegaard G, Luthra A (2003) Overview of the H.264\/AVC video coding standard. IEEE Tans Circuits Syst Video Technol 13:560\u2013576","journal-title":"IEEE Tans Circuits Syst Video Technol"},{"key":"1168_CR38","unstructured":"Wu W, Chen D, Yang J (2005) Integrating co-training and recognition for text detection. In Proceedings of the International Conference on Multimedia Expo"},{"issue":"11","key":"1168_CR39","doi-asserted-by":"crossref","first-page":"1224","DOI":"10.1109\/34.809116","volume":"21","author":"V Wu","year":"1999","unstructured":"Wu V, Manmatha R, Riseman E (1999) Textfinder: an automatic system to detect and recognize text in images. IEEE Trans Pattern Anal Mach Intell 21(11):1224\u2013229","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"1168_CR40","doi-asserted-by":"crossref","unstructured":"Zhang J, Goldgof D, Kasturi R (2008) A new edge-based text verification approach for video. in Proc. ICPR","DOI":"10.1109\/ICPR.2008.4761933"},{"key":"1168_CR41","doi-asserted-by":"crossref","first-page":"643","DOI":"10.1016\/S0031-3203(96)00109-4","volume":"30","author":"H Zhang","year":"1997","unstructured":"Zhang H, Wu J, Zhong D, Smoliar S (1997) An integrated system for content-based video retrieval and browsing. Pattern Recognit 30:643\u2013658","journal-title":"Pattern Recognit"},{"issue":"4","key":"1168_CR42","doi-asserted-by":"crossref","first-page":"385","DOI":"10.1109\/34.845381","volume":"22","author":"Y Zhong","year":"2000","unstructured":"Zhong Y, Zhang H, Jain A (2000) Automatic caption localization in compressed video. IEEE Trans Pattern Analysis and Machine Intelligence 22(4):385\u2013392","journal-title":"IEEE Trans Pattern Analysis and Machine Intelligence"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-012-1168-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11042-012-1168-z\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-012-1168-z","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,7,1]],"date-time":"2019-07-01T08:53:31Z","timestamp":1561971211000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11042-012-1168-z"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2012,7,20]]},"references-count":42,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2014,6]]}},"alternative-id":["1168"],"URL":"https:\/\/doi.org\/10.1007\/s11042-012-1168-z","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2012,7,20]]}}}