{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T18:32:20Z","timestamp":1775068340991,"version":"3.50.1"},"reference-count":209,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2020,1,1]],"date-time":"2020-01-01T00:00:00Z","timestamp":1577836800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61862061"],"award-info":[{"award-number":["61862061"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61563052"],"award-info":[{"award-number":["61563052"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62061045"],"award-info":[{"award-number":["62061045"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61363064"],"award-info":[{"award-number":["61363064"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100008845","name":"Scientific Research Initiate Program of Doctors of Xinjiang University","doi-asserted-by":"publisher","award":["BS180268"],"award-info":[{"award-number":["BS180268"]}],"id":[{"id":"10.13039\/501100008845","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100008845","name":"Funds for Creative Groups of Higher Educational Research Plan in Xinjiang Uyghur Autonomous, China","doi-asserted-by":"publisher","award":["XJEDU2017T002"],"award-info":[{"award-number":["XJEDU2017T002"]}],"id":[{"id":"10.13039\/501100008845","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2020]]},"DOI":"10.1109\/access.2020.3036865","type":"journal-article","created":{"date-parts":[[2020,11,9]],"date-time":"2020-11-09T21:20:39Z","timestamp":1604956839000},"page":"204518-204544","source":"Crossref","is-referenced-by-count":44,"title":["A Survey of Research on Lipreading Technology"],"prefix":"10.1109","volume":"8","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-6120-6518","authenticated-orcid":false,"given":"Mingfeng","family":"Hao","sequence":"first","affiliation":[]},{"given":"Mutallip","family":"Mamut","sequence":"additional","affiliation":[]},{"given":"Nurbiya","family":"Yadikar","sequence":"additional","affiliation":[]},{"given":"Alimjan","family":"Aysa","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7566-6494","authenticated-orcid":false,"given":"Kurban","family":"Ubul","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref170","first-page":"1065","article-title":"Multipose audio-visual speech recognition","author":"estellers","year":"2011","journal-title":"Proc 19th Eur Signal Process Conf"},{"key":"ref172","first-page":"3105","article-title":"Austalk: An audio-visual corpus of Australian English","author":"estival","year":"2014","journal-title":"Proc Lang Resour Eval Conf (LREC)"},{"key":"ref171","first-page":"163","article-title":"Audiovisual database of Polish speech recordings","volume":"33","author":"igras","year":"2012","journal-title":"Inf Stud"},{"key":"ref174","first-page":"42","article-title":"Chinese audiovisual bimodal speeeh database CAVSR1.0","volume":"25","author":"yanjun","year":"2000","journal-title":"Acta Acustica"},{"key":"ref173","doi-asserted-by":"publisher","DOI":"10.1109\/FG.2015.7163155"},{"key":"ref176","article-title":"The VidTIMIT database","author":"sanderson","year":"2002"},{"key":"ref175","article-title":"Audio-visual speech recognition","author":"neti","year":"2000"},{"key":"ref178","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2009.2030637"},{"key":"ref177","doi-asserted-by":"publisher","DOI":"10.1145\/1027933.1027972"},{"key":"ref168","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-15760-8_33"},{"key":"ref169","doi-asserted-by":"publisher","DOI":"10.5772\/36466"},{"key":"ref39","first-page":"150","article-title":"LDA based feature extraction method in DCT domain in lipreading","volume":"45","author":"he","year":"2009","journal-title":"Comput Eng Appl"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/IAdCC.2014.6779463"},{"key":"ref33","article-title":"Audio-visual automatic speech recognition: An overview","author":"potamianos","year":"2004","journal-title":"Issues in Visual and Audio-Visual Speech Processing"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/SCSP.2017.7973348"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICWAPR.2008.4635771"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1007\/BF00133570"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2001.1237849"},{"key":"ref36","first-page":"70","article-title":"Towards lipreading sentences using active appearance models","author":"sterpu","year":"2017","journal-title":"Proc Int Conf Auditory-Vis Speech Process"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/BigDataSecurity-HPSC-IDS.2016.49"},{"key":"ref34","first-page":"1597","article-title":"Design and implementation of a real-time lipreading system using PCA and HMM","volume":"7","author":"lee","year":"2004","journal-title":"Korea Multimedia Society Journal"},{"key":"ref181","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178347"},{"key":"ref180","doi-asserted-by":"publisher","DOI":"10.1109\/ICMEW.2012.116"},{"key":"ref185","doi-asserted-by":"publisher","DOI":"10.1007\/BF02916721"},{"key":"ref184","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2015.2407694"},{"key":"ref183","doi-asserted-by":"publisher","DOI":"10.1007\/s10844-016-0438-z"},{"key":"ref182","article-title":"Confusion modelling for lip-reading","author":"howell","year":"2014"},{"key":"ref189","doi-asserted-by":"publisher","DOI":"10.1121\/1.2229005"},{"key":"ref188","first-page":"1","article-title":"Development and testing of new combined visual speech parameterization","author":"c\u00edsa?","year":"2007","journal-title":"Proc Int Conf Auditory-Vis Speech Process (AVSP)"},{"key":"ref187","first-page":"1","article-title":"Design and recording of Czech speech corpus for audio-visual continuous speech recognition","author":"c\u00edsa?","year":"2005","journal-title":"Proc Auditory-Visual Speech Process Int Conf"},{"key":"ref186","first-page":"174","article-title":"Bimodal database and its material segmentation for lip-reading recognition on sentence","volume":"41","author":"minghui","year":"2005","journal-title":"Comput Eng Appl"},{"key":"ref28","first-page":"648","article-title":"The system of face detection based on OpenCV","author":"fan","year":"2012","journal-title":"Proc 24th Chin Control Decis Conf (CCDC)"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CHICC.2006.4346952"},{"key":"ref179","first-page":"142","article-title":"Improving visual features for lip-reading","author":"lan","year":"2010","journal-title":"Proc Int Conf Auditory-Vis Speech Process (AVSP)"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2010.09.119"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/FG.2019.8756582"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR.1998.711095"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1016\/j.imavis.2018.07.002"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2011.5946578"},{"key":"ref23","first-page":"61","article-title":"Lip feature extraction using red exclusion","volume":"2","author":"lewis","year":"2000","journal-title":"Proc Sel Papers Pan-Sydney Workshop Visual"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/s11760-014-0615-x"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/UKRICIS.2010.5898135"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/34.927467"},{"key":"ref51","first-page":"303","article-title":"Lip reading from multi view facial images using 3D-AAM","author":"watanabe","year":"2016","journal-title":"Proc Asian Conf Comput Vis"},{"key":"ref154","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP.1999.822914"},{"key":"ref153","first-page":"851","article-title":"Visual speech recognition with stochastic networks","author":"movellan","year":"1994","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref156","doi-asserted-by":"publisher","DOI":"10.1007\/3-540-44887-X_74"},{"key":"ref155","first-page":"965","article-title":"XM2VTSDB: The extended M2VTS database","volume":"964","author":"messer","year":"1999","journal-title":"Proc of the first international conference on Audio-and Video-based Biometric Person Authentication"},{"key":"ref150","doi-asserted-by":"publisher","DOI":"10.1016\/0167-6393(90)90010-7"},{"key":"ref152","first-page":"1","article-title":"AV@ CAR: A Spanish multichannel multimodal corpus for in-vehicle automatic audio-visual speech recognition","author":"ortega","year":"2004","journal-title":"Proc LREC"},{"key":"ref151","first-page":"179","article-title":"The challenge of multispeaker lip-reading","author":"cox","year":"2008","journal-title":"Proc AVSP"},{"key":"ref146","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8683733"},{"key":"ref147","article-title":"Learning spatio-temporal features with two-stream deep 3D CNNs for lipreading","author":"weng","year":"0"},{"key":"ref148","doi-asserted-by":"publisher","DOI":"10.1109\/34.982900"},{"key":"ref149","first-page":"2489","article-title":"AVICAR: Audio-visual speech corpus in a car environment","author":"lee","year":"2004","journal-title":"Proc Int Conf Spoken Lang"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1991.150357"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1145\/57167.57170"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2017.07.001"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1016\/j.imavis.2016.03.003"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472029"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1016\/j.compeleceng.2015.08.009"},{"key":"ref53","article-title":"Finding phonemes: Improving machine lip-reading","author":"bear","year":"2017","journal-title":"arXiv 1710 01142"},{"key":"ref52","article-title":"Speaker-independent machine lip-reading with speaker-dependent viseme classifiers","author":"bear","year":"2017","journal-title":"arXiv 1710 01122"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ICMULT.2010.5629852"},{"key":"ref167","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP.2010.5650963"},{"key":"ref166","first-page":"85","article-title":"CENSREC-1-AV: An audio-visual corpus for noisy bimodal speech recognition","author":"tamura","year":"2010","journal-title":"Proc AVSP"},{"key":"ref165","first-page":"650","article-title":"A unified approach to multi-pose audio-visual ASR","author":"lucey","year":"2007","journal-title":"Proc Annu Conf Int Speech Commun Assoc (Interspeech)"},{"key":"ref164","first-page":"69","article-title":"Patch-based analysis of visual speech from multiple views","author":"lucey","year":"2008","journal-title":"Proc Int Conf Auditory-Vis Speech Process (AVSP)"},{"key":"ref163","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2004.10.007"},{"key":"ref162","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP.2007.4379312"},{"key":"ref161","doi-asserted-by":"publisher","DOI":"10.5220\/0006102100520063"},{"key":"ref160","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2008.2011515"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/j.imavis.2014.06.004"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1121\/1.2936018"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/3072959.3073640"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2015.116"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.7001"},{"key":"ref159","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.23"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2019.2911077"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1006\/cviu.1996.0570"},{"key":"ref157","doi-asserted-by":"publisher","DOI":"10.1007\/11527923_81"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1121\/1.1907309"},{"key":"ref158","first-page":"ii-2017","article-title":"CUAVE: A new audio-visual database for multimodal human-computer interface research","author":"patterson","year":"2002","journal-title":"Proc IEEE Int Conf Acoust Speech Signal Process (CASSP)"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2007.1110"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2011.5995345"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/ChiCC.2016.7554449"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-11755-3_3"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2001.940793"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472172"},{"key":"ref44","first-page":"2109","article-title":"Viseme definitions comparison for visual-only speech recognition","author":"cappelletta","year":"2011","journal-title":"Proc 19th Eur Signal Process Conf"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CISP.2010.5646264"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.26"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7952625"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8461900"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2017-421"},{"key":"ref76","first-page":"1929","article-title":"Dropout: A simple way to prevent neural networks from overfitting","volume":"15","author":"srivastava","year":"2014","journal-title":"J Mach Learn Res"},{"key":"ref77","first-page":"1097","article-title":"ImageNet classification with deep convolutional neural networks","author":"krizhevsky","year":"2012","journal-title":"Proc Adv Neural Inf Process Syst (NIPS)"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/5.726791"},{"key":"ref75","first-page":"315","article-title":"Deep sparse rectifier neural networks","author":"glorot","year":"2011","journal-title":"Proc 14th Int Conf Artif Intell Statist"},{"key":"ref78","article-title":"Very deep convolutional networks for large-scale image recognition","author":"simonyan","year":"2014","journal-title":"arXiv 1409 1556"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1994.389567"},{"key":"ref62","article-title":"Comparing phonemes and visemes with DNN-based lipreading","author":"thangthai","year":"2018","journal-title":"arXiv 1805 02924"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/ICCCA.2012.6179154"},{"key":"ref63","first-page":"3716","article-title":"Recognition of spoken English phrases using visual features extraction and classification","volume":"6","author":"pathan","year":"2015","journal-title":"Int J Comput Sci Inf Technol"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/CISP.2010.5646264"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2017.01.005"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2016.2520091"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR.2014.146"},{"key":"ref68","first-page":"393","article-title":"Automatic lip reading for daily Indonesian words based on frame difference and horizontal-vertical image projection","volume":"95","author":"nasuha","year":"2017","journal-title":"J Theor Appl Inf Technol"},{"key":"ref69","first-page":"1755","article-title":"Dlib-ml: A machine learning toolkit","volume":"10","author":"king","year":"2009","journal-title":"J Mach Learn Res"},{"key":"ref197","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2011.06.011"},{"key":"ref198","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2017-106"},{"key":"ref199","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-43958-7_40"},{"key":"ref193","first-page":"1239","article-title":"Design and recording of Czech audio-visual database with impaired conditions for continuous speech recognition","author":"trojanov\u00e1","year":"2008","journal-title":"Proc Int Conf Lang Resour Eval"},{"key":"ref194","doi-asserted-by":"publisher","DOI":"10.1109\/ICPR.2010.133"},{"key":"ref195","first-page":"3016","article-title":"WAPUSK20&#x2014;A database for robust audiovisual speech recognition","author":"vorwerk","year":"2010","journal-title":"Proc LREC"},{"key":"ref196","article-title":"BL-database: A French audiovisual database for speech driven lip animation systems","author":"benezeth","year":"2011"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-54184-6_6"},{"key":"ref94","article-title":"Network in network","author":"lin","year":"2013","journal-title":"arXiv 1312 4400"},{"key":"ref190","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2007.366941"},{"key":"ref93","first-page":"277","article-title":"Concatenated frame image based cnn for visual speech recognition","author":"saitoh","year":"2016","journal-title":"Proc Asian Conf Comput Vis"},{"key":"ref191","doi-asserted-by":"publisher","DOI":"10.2991\/jcis.2008.61"},{"key":"ref92","first-page":"290","article-title":"Multi-view automatic lip-reading using neural network","author":"lee","year":"2016","journal-title":"Proc Asian Conf Comput Vis"},{"key":"ref192","first-page":"1","article-title":"The IV2 multimodal biometric database (including iris, 2D, 3D, stereoscopic, and talking face data), and the IV2-2007 evaluation campaign","author":"petrovska-delacr\u00e9taz","year":"2008","journal-title":"Proc IEEE 2nd Int Conf Biometr Theory Appl Syst"},{"key":"ref91","first-page":"1097","article-title":"ImageNet classification with deep convolutional neural networks","volume":"25","author":"krizhevsky","year":"2012","journal-title":"Proc Neural Inf Process Syst"},{"key":"ref90","first-page":"251","article-title":"Out of time: Automated lip sync in the wild","author":"chung","year":"2016","journal-title":"Proc Asian Conf Comput Vis"},{"key":"ref98","article-title":"ConvNet architecture search for spatiotemporal feature learning","author":"tran","year":"2017","journal-title":"arXiv 1708 05038"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.590"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1016\/j.imavis.2019.04.010"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33019211"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2012.59"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.243"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.510"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/ICIS.2016.7550888"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1179"},{"key":"ref86","first-page":"1149","article-title":"Lipreading using convolutional neural network","author":"noda","year":"2014","journal-title":"Proc Annu Conf Int Speech Commun Assoc (Interspeech)"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1007\/s10489-014-0629-7"},{"key":"ref88","article-title":"Lip reading using CNN and LSTM","author":"garg","year":"2016"},{"key":"ref200","article-title":"Combining residual networks with LSTMs for lipreading","author":"stafylakis","year":"2017","journal-title":"arXiv 1703 04105 [cs]"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1145\/1143844.1143891"},{"key":"ref100","article-title":"Empirical evaluation of gated recurrent neural networks on sequence modeling","author":"chung","year":"2014","journal-title":"arXiv 1412 3555"},{"key":"ref209","article-title":"Visual speech enhancement","author":"gabbay","year":"2017","journal-title":"arXiv 1711 08789"},{"key":"ref203","article-title":"LRS3-TED: A large-scale dataset for visual speech recognition","author":"afouras","year":"2018","journal-title":"arXiv 1809 00496"},{"key":"ref204","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2012.192"},{"key":"ref201","article-title":"Deep audio-visual speech recognition","author":"afouras","year":"2018","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"ref202","doi-asserted-by":"publisher","DOI":"10.1109\/FG.2017.34"},{"key":"ref207","doi-asserted-by":"publisher","DOI":"10.21437\/AVSP.2017-13"},{"key":"ref208","first-page":"234","article-title":"Research advances and perspectives on the cocktail party problem and related auditory models","volume":"45","author":"huang","year":"2019","journal-title":"ACTA Automatica Sinica"},{"key":"ref205","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2013.23"},{"key":"ref206","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-14364-4_22"},{"key":"ref127","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2017.2684186"},{"key":"ref126","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2017.10.011"},{"key":"ref125","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2018.2817253"},{"key":"ref124","first-page":"802","article-title":"Convolutional LSTM network: A machine learning approach for precipitation nowcasting","author":"xingjian","year":"2015","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref129","article-title":"Learning from videos with deep convolutional LSTM networks","author":"courtney","year":"2019","journal-title":"arXiv 1904 04817"},{"key":"ref128","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2017.369"},{"key":"ref130","article-title":"Multi-grained spatio-temporal modeling for lip-reading","author":"wang","year":"2019","journal-title":"arXiv 1908 11618"},{"key":"ref133","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472088"},{"key":"ref134","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.389"},{"key":"ref131","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178224"},{"key":"ref132","first-page":"1","article-title":"Integration of deep bottleneck features for audio-visual speech recognition","author":"ninomiya","year":"2015","journal-title":"Proc 16th Annu Conf Int Speech Commun Assoc"},{"key":"ref136","first-page":"264","article-title":"Visual speech recognition using PCA networks and LSTMs in a tandem GMM-HMM system","author":"zimmermann","year":"2016","journal-title":"Proc Asian Conf Comput Vis"},{"key":"ref135","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2016-721"},{"key":"ref138","article-title":"Lip reading word classifcation","author":"gutierrez","year":"2017"},{"key":"ref137","doi-asserted-by":"publisher","DOI":"10.1109\/PRIA.2017.7983045"},{"key":"ref139","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2018.02.001"},{"key":"ref140","doi-asserted-by":"publisher","DOI":"10.1109\/IC3.2018.8530509"},{"key":"ref141","article-title":"Large-scale visual speech recognition","author":"shillingford","year":"2018","journal-title":"arXiv 1807 05162"},{"key":"ref142","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2018.10.003"},{"key":"ref143","doi-asserted-by":"publisher","DOI":"10.1109\/SLT.2018.8639643"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1155\/2008\/810362"},{"key":"ref144","doi-asserted-by":"publisher","DOI":"10.1145\/3328833.3328845"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/FG.2015.7163162"},{"key":"ref145","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2927166"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2017-85"},{"key":"ref108","first-page":"2377","article-title":"Training very deep networks","author":"srivastava","year":"2015","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1109\/FG.2018.00088"},{"key":"ref106","first-page":"1","article-title":"Lip reading in profile","author":"chung","year":"2017","journal-title":"Proc Brit Mach Vis Conf"},{"key":"ref105","article-title":"Neural machine translation by jointly learning to align and translate","author":"bahdanau","year":"2014","journal-title":"arXiv 1409 0473"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.367"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2017.2761539"},{"key":"ref102","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8462280"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8461326"},{"key":"ref112","article-title":"LipReading with 3D-2D-CNN BLSTM-HMM and word-CTC models","author":"kumar margam","year":"2019","journal-title":"arXiv 1906 12170"},{"key":"ref110","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8461347"},{"key":"ref10","first-page":"265","article-title":"Automatic lipreading to enhance speech recognition","author":"petajan","year":"1984","journal-title":"Proc Global Telecommun Conf"},{"key":"ref11","first-page":"572","article-title":"Continuous optical automatic speech recognition by lipreading","author":"goldschen","year":"2002","journal-title":"Proc 28th Asilomar Conf Signals Syst Comput"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1007\/978-94-015-8935-2_14"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1145\/1290128.1290138"},{"key":"ref14","first-page":"689","article-title":"Multimodal deep learning","author":"ngiam","year":"2011","journal-title":"Proc 28th Int Conf Mach Learn (ICML)"},{"key":"ref15","first-page":"873","article-title":"Sparse deep belief net model for visual area V2","author":"lee","year":"2008","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref16","first-page":"1149","article-title":"Lipreading using convolutional neural network","author":"noda","year":"2014","journal-title":"Proc Conf Int Speech Commun Assoc"},{"key":"ref118","doi-asserted-by":"publisher","DOI":"10.5244\/C.31.161"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472852"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.21437\/AVSP.2017-8"},{"key":"ref18","first-page":"87","article-title":"Lip reading in the wild","author":"chung","year":"2016","journal-title":"Proc Asian Conf Comput Vis"},{"key":"ref19","article-title":"LipNet: End-to-end sentence-level lipreading","author":"assael","year":"2016","journal-title":"arXiv 1611 01599"},{"key":"ref119","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2018.8461596"},{"key":"ref114","first-page":"843","article-title":"Mutual information maximization for effective lip reading","author":"zhao","year":"2020","journal-title":"Proc 15th IEEE Int Conf Automat Face Gesture Recognit (FG)"},{"key":"ref113","first-page":"836","article-title":"Deformation flow based two-stream network for lip reading","author":"xiao","year":"2020","journal-title":"Proc 15th IEEE Int Conf Automat Face Gesture Recognit (FG)"},{"key":"ref116","first-page":"851","article-title":"Can we read speech beyond the lips? Rethinking RoI selection for deep visual speech recognition","author":"zhang","year":"2020","journal-title":"Proc 15th IEEE Int Conf Automat Face Gesture Recognit (FG)"},{"key":"ref115","first-page":"69","article-title":"Pseudo-convolutional policy gradient for sequence-to-sequence lip-reading","author":"luo","year":"2020","journal-title":"Proc 15th IEEE Int Conf Automat Face Gesture Recognit (FG)"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2018-1943"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.195"},{"key":"ref122","first-page":"5998","article-title":"Attention is all you need","author":"vaswani","year":"2017","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref123","article-title":"Deep audio-visual speech recognition","author":"afouras","year":"2018","journal-title":"IEEE Trans Pattern Anal Mach Intell"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6287639\/8948470\/09252931.pdf?arnumber=9252931","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2021,12,17]],"date-time":"2021-12-17T19:54:53Z","timestamp":1639770893000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9252931\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020]]},"references-count":209,"URL":"https:\/\/doi.org\/10.1109\/access.2020.3036865","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2020]]}}}