{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,17]],"date-time":"2026-06-17T06:02:00Z","timestamp":1781676120889,"version":"3.54.5"},"reference-count":35,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2017,11]]},"DOI":"10.1109\/dicta.2017.8227484","type":"proceedings-article","created":{"date-parts":[[2017,12,22]],"date-time":"2017-12-22T01:19:08Z","timestamp":1513905548000},"page":"1-8","source":"Crossref","is-referenced-by-count":4,"title":["Recurrent Highway Networks with Attention Mechanism for Scene Text Recognition"],"prefix":"10.1109","author":[{"given":"Haodong","family":"Yang","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Shuohao","family":"Li","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xiaoqing","family":"Yin","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Anqi","family":"Han","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Jun","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-014-0793-6"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2014.2339814"},{"key":"ref31","first-page":"398","article-title":"Whole is greater than sum of parts: Recognizing scene text words","author":"goel","year":"2014","journal-title":"International Conference on Document Analysis and Recognition"},{"key":"ref30","article-title":"Torch7: A matlab-like environment for machine learning","author":"collobert","year":"2011","journal-title":"BigLearn NIPS Workshop"},{"key":"ref35","first-page":"603611","article-title":"Deep structured output learning for unconstrained text recognition","volume":"24","author":"jaderberg","year":"2014","journal-title":"ArXiv eprint"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298914"},{"key":"ref10","first-page":"35","article-title":"Accurate scene text recognition based on recurrent neural network","volume":"13","year":"2014","journal-title":"Asian Conference on Computer Vision Singapore"},{"key":"ref11","first-page":"1","article-title":"Scene text recognition in multiple frames based on text tracking","volume":"6","year":"2014","journal-title":"IEEE International Conference on Multimedia and Expo"},{"key":"ref12","first-page":"4042","article-title":"Strokelets: A learned mutli-scale representation for scene text","year":"2014","journal-title":"Computer Vision and Pattern Recognition(CVPR)"},{"key":"ref13","first-page":"1457","article-title":"End-to-end scene text recognition","year":"2011","journal-title":"IEEE International Conference on Computer Vision"},{"key":"ref14","year":"2013","journal-title":"End-to-end Text Recognition with Hybrid Hmm Maxout Models"},{"key":"ref15","first-page":"785","article-title":"Photoocr: Reading text in uncontrolled conditions","year":"2013","journal-title":"IEEE Int Conf on Comp Vision"},{"key":"ref16","first-page":"512","year":"2014","journal-title":"Deep features for text spotting"},{"key":"ref17","first-page":"3304","article-title":"End-to-end text recognition with convolution neural networks","year":"2012","journal-title":"21st International Conference on Pattern Recognition"},{"key":"ref18","year":"2013","journal-title":"Multi-digit number recognition from street view imagery using deep convolution neural networks"},{"key":"ref19","year":"2014","journal-title":"Synthrtic data and artificial neural networks for natrual scene text recognition"},{"key":"ref28","doi-asserted-by":"crossref","first-page":"105","DOI":"10.1007\/s10032-004-0134-3","article-title":"Icdar 2003 robust reading competitions: entries, results, and future directions","volume":"7","year":"2005","journal-title":"International Journal of Document Analysis and Recognition (IJDAR)"},{"key":"ref4","first-page":"369","year":"2006","journal-title":"Connectionist temporal classification labelling unsegmented sequence data with recurrent neural networks"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-015-0823-z"},{"key":"ref3","year":"2015","journal-title":"An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref29","article-title":"Icdar 2013 robust reading competition","volume":"1484?1493","year":"2013","journal-title":"Proc of International Conference on Document Analysis and Recognition"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2015.2477044"},{"key":"ref8","author":"julian georg zilly","year":"2017","journal-title":"Recurrent highway networks"},{"key":"ref7","volume":"6","author":"rupesh kumar srivastava","year":"2015","journal-title":"Highway networks"},{"key":"ref2","first-page":"1","article-title":"Going deeper with convolutions","year":"2015","journal-title":"IEEE Conference on Computer Vision and Pattern Recognition"},{"key":"ref9","article-title":"Scene text recognition using higher order language priors","year":"2012","journal-title":"The 23rd British Machine Vision Conference"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/34.273729"},{"key":"ref20","year":"2016","journal-title":"Survey on the attention based rnn model and its applications in computer vision"},{"key":"ref22","first-page":"2231","article-title":"Recursive recurrent nets with attention modeling for ocr in the wild","year":"2016","journal-title":"IEEE Conference on Computer Vision and Pattern Recognition"},{"key":"ref21","year":"2016","journal-title":"Scan attend and read End-to-end handwritten paragraph recognition with mdlstm attention"},{"key":"ref24","first-page":"6645","article-title":"Speech recognition with deep recurrent neural networks","year":"2013","journal-title":"IEEE International Conference on Acoustics Speech and Signal Processing"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2015.2477044"},{"key":"ref26","article-title":"Contribution of recurrent connectionist language models in improving lstm-based arabic text recognition in videos","author":"yousfi","year":"2016","journal-title":"Pattern Recognition"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICAPR.2015.7050699"}],"event":{"name":"2017 International Conference on Digital Image Computing: Techniques and Applications (DICTA)","location":"Sydney, NSW","start":{"date-parts":[[2017,11,29]]},"end":{"date-parts":[[2017,12,1]]}},"container-title":["2017 International Conference on Digital Image Computing: Techniques and Applications (DICTA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/8226656\/8227375\/08227484.pdf?arnumber=8227484","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,10,8]],"date-time":"2019-10-08T12:47:29Z","timestamp":1570538849000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/8227484\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,11]]},"references-count":35,"URL":"https:\/\/doi.org\/10.1109\/dicta.2017.8227484","relation":{},"subject":[],"published":{"date-parts":[[2017,11]]}}}