{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,30]],"date-time":"2026-03-30T17:50:40Z","timestamp":1774893040933,"version":"3.50.1"},"reference-count":76,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61876051"],"award-info":[{"award-number":["61876051"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Shenzhen Key Laboratory of Visual Object Detection and Recognition","award":["ZDSYS20190902093015527"],"award-info":[{"award-number":["ZDSYS20190902093015527"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Multimedia"],"published-print":{"date-parts":[[2023]]},"DOI":"10.1109\/tmm.2022.3146779","type":"journal-article","created":{"date-parts":[[2022,1,27]],"date-time":"2022-01-27T22:31:14Z","timestamp":1643322674000},"page":"2404-2414","source":"Crossref","is-referenced-by-count":28,"title":["A Two-Level Rectification Attention Network for Scene Text Recognition"],"prefix":"10.1109","volume":"25","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-9260-0980","authenticated-orcid":false,"given":"Lintai","family":"Wu","sequence":"first","affiliation":[{"name":"Bio-Computing Research Center, Harbin Institute of Technology, Shenzhen, Guangdong, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0530-2123","authenticated-orcid":false,"given":"Yong","family":"Xu","sequence":"additional","affiliation":[{"name":"Bio-Computing Research Center, Harbin Institute of Technology, Shenzhen, Guangdong, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3431-2021","authenticated-orcid":false,"given":"Junhui","family":"Hou","sequence":"additional","affiliation":[{"name":"Department of Computer Science, City University of Hong Kong, Hong Kong"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5451-7230","authenticated-orcid":false,"given":"C. L. Philip","family":"Chen","sequence":"additional","affiliation":[{"name":"School of Computer Science and Engineering, South China University of Technology, Guangzhou, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6743-4175","authenticated-orcid":false,"given":"Cheng-Lin","family":"Liu","sequence":"additional","affiliation":[{"name":"NLPR, Institute of Automation, Chinese Academy of Sciences, Beijing, China"}]}],"member":"263","reference":[{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00086"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00060"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/34.24792"},{"key":"ref56","first-page":"1","article-title":"Scene text detection and recognition: The deep learning era","volume":"129","author":"long","year":"2020","journal-title":"Int J Comput Vis"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.515"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.254"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00745"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1179"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.12242"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.452"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2019.01.020"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-20893-6_6"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2016.2646371"},{"key":"ref54","article-title":"STN-OCR: A. single neural network for text detection and text recognition","author":"bartz","year":"2017"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2010.5540041"},{"key":"ref16","first-page":"1","article-title":"End-to-end text recognition with hybrid HMM maxout models","author":"alsharif","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref19","first-page":"1083","article-title":"Detecting texts of arbitrary orientations in natural images","author":"yao","year":"0","journal-title":"Proc IEEE Conf Comput Vis Pattern Recognit"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2014.2353813"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01144"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58529-7_9"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.245"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1007\/s11432-019-2710-7"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-020-01411-1"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/ICFHR-2018.2018.00020"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2019.10.010"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.543"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6903"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01354"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01213"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.12246"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2018.2848939"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00216"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00584"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.5244\/C.30.43"},{"key":"ref6","first-page":"2017","article-title":"Spatial transformer networks","author":"jaderberg","year":"0","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33018610"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6735"},{"key":"ref35","first-page":"42:1?42:35","article-title":"Text recognition in the wild: A survey","volume":"54","author":"chen","year":"2021","journal-title":"ACM Comput Surv"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-020-01369-0"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v30i1.10465"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1145\/1143844.1143891"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2020.3025696"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1145\/3446971"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2019.2952978"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP39728.2021.9413534"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10593-2_34"},{"key":"ref32","first-page":"1","article-title":"Synthetic data and artificial neural networks for natural scene text recognition","author":"jaderberg","year":"0","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref76","first-page":"319","article-title":"Vision transformer for fast and efficient scene text recognition","author":"rowel","year":"0","journal-title":"Proc Int Conf Document Anal Recognit"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00595"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.76"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2019.01.094"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-16865-4_3"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01228-1_27"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.12252"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00670"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33018714"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2021.3122801"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-015-0823-z"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref67","first-page":"1","article-title":"Deep structured output learning for unconstrained text recognition","author":"jaderberg","year":"0","journal-title":"Proc Int Conf Learn Representations"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2020.2987164"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2020.2999182"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00163"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1016\/j.imavis.2004.02.006"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/ICDAR.2015.7333942"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/ICDAR.2013.221"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1145\/3065386"},{"key":"ref66","article-title":"ADADELTA: an adaptive learning rate method","author":"zeiler","year":"2012"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-19318-7_60"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2014.07.008"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2019.04.015"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2021.3087000"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2019.106979"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.5244\/C.26.127"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/ICDAR.2003.1227749"},{"key":"ref61","first-page":"1457","article-title":"End-to-end scene text recognition","author":"wang","year":"0","journal-title":"Proc IEEE Int Conf Comput Vis"}],"container-title":["IEEE Transactions on Multimedia"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6046\/10016790\/09695247.pdf?arnumber=9695247","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,6,26]],"date-time":"2023-06-26T18:45:31Z","timestamp":1687805131000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9695247\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023]]},"references-count":76,"URL":"https:\/\/doi.org\/10.1109\/tmm.2022.3146779","relation":{},"ISSN":["1520-9210","1941-0077"],"issn-type":[{"value":"1520-9210","type":"print"},{"value":"1941-0077","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023]]}}}