{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,18]],"date-time":"2025-12-18T09:08:29Z","timestamp":1766048909849,"version":"3.41.0"},"reference-count":58,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"3","license":[{"start":{"date-parts":[[2018,3,1]],"date-time":"2018-03-01T00:00:00Z","timestamp":1519862400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"funder":[{"name":"Federal Ministry of Education and Research BMBF administered by the German Academic Exchange Service DAAD"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE\/ACM Trans. Audio Speech Lang. Process."],"published-print":{"date-parts":[[2018,3]]},"DOI":"10.1109\/taslp.2017.2783545","type":"journal-article","created":{"date-parts":[[2017,12,14]],"date-time":"2017-12-14T19:25:23Z","timestamp":1513279523000},"page":"475-484","source":"Crossref","is-referenced-by-count":39,"title":["Comparing Fusion Models for DNN-Based Audiovisual Continuous Speech Recognition"],"prefix":"10.1109","volume":"26","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-8027-4666","authenticated-orcid":false,"given":"Ahmed Hussen","family":"Abdelaziz","sequence":"first","affiliation":[]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2001.940794"},{"key":"ref38","first-page":"1144","article-title":"Dynamic stream weight estimation in coupled-HMM-based audio-visual speech recognition using multilayer perceptrons","author":"abdelaziz","year":"2014","journal-title":"Proc INTERSPEECH"},{"key":"ref33","first-page":"666","article-title":"Fused HMM-adaptation of multi-stream HMMs for audio-visual speech recognition","author":"dean","year":"2007","journal-title":"Proc INTERSPEECH"},{"key":"ref32","first-page":"426","article-title":"A new ASR approach based on independent processing and recombination of partial frequency bands","author":"bourlard","year":"1996","journal-title":"Proc Int Conf Spoken Lang"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.1997.659110"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2009.5373263"},{"key":"ref37","first-page":"1546","article-title":"A new EM estimation of dynamic stream weights for coupled-HMM-based audio-visual ASR","author":"abdelaziz","year":"2014","journal-title":"Proc IEEE Int Conf Acoust Speech Signal Process"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/6046.865479"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1511\/1998.25.861"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/MMSP.2001.962801"},{"key":"ref28","doi-asserted-by":"crossref","first-page":"3752","DOI":"10.21437\/Interspeech.2017-860","article-title":"NTCD-TIMIT: A new database and baseline for noise-robust audio-visual speech recognition","author":"abdelaziz","year":"2017","journal-title":"Proc INTERSPEECH"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6639140"},{"key":"ref29","article-title":"The Kaldi speech recognition toolkit","author":"povey","year":"2011","journal-title":"Proc IEEE Workshop Autom Speech Recog and Understanding"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1121\/1.1906346"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.1996.481454"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2001.1237849"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178347"},{"key":"ref21","first-page":"689","article-title":"Multimodal deep learning","author":"ngiam","year":"2011","journal-title":"Proc IEEE Int Conf Multimedia Expo"},{"key":"ref24","article-title":"Lip reading sentences in the wild","volume":"abs 1611 5358","author":"chung","year":"2017","journal-title":"CoRR"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.389"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/s10489-014-0629-7"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.2197\/ipsjtcva.7.64"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2001.990517"},{"key":"ref51","first-page":"593","article-title":"Good features to track","author":"shi","year":"1994","journal-title":"Proc IEEE Comput Soc Conf Comput Vision Pattern Recog"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7952625"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/APSIPA.2015.7415335"},{"key":"ref56","doi-asserted-by":"crossref","first-page":"2345","DOI":"10.21437\/Interspeech.2013-548","article-title":"Sequence-discriminative training of deep neural networks","author":"vesel\u00fd","year":"2013","journal-title":"Proc INTERSPEECH"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2009.4960445"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.3115\/1075812.1075885"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1147\/sj.41.0025"},{"key":"ref52","first-page":"674","article-title":"An iterative image registration technique with an application to stereo vision","volume":"81","author":"lucas","year":"1981","journal-title":"Proc Int Joint Conf Artif Intell"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2015.2459017"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1155\/S1110865702206150"},{"key":"ref40","first-page":"2241","article-title":"Multimodal information fusion using the iterative decoding algorithm and its application to audio-visual speech recognition","author":"shivappa","year":"2008","journal-title":"Proc IEEE Int Conf Acoust Speech Signal Process"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2017.8019294"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2015.2409785"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2016.2520364"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2016-166"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2015.2407694"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/89.799688"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1121\/1.423069"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1121\/1.2229005"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2017.7953159"},{"key":"ref3","doi-asserted-by":"crossref","first-page":"7","DOI":"10.21437\/Interspeech.2016-1460","article-title":"The IBM 2016 English conversational telephone speech recognition system","author":"saon","year":"2016","journal-title":"Proc INTERSPEECH"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1121\/1.1907309"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1155\/2007\/47891"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1155\/S1110865702206083"},{"key":"ref7","article-title":"Lipnet: Sentence-level lipreading","volume":"abs 1611 1599","author":"assael","year":"2016","journal-title":"CoRR"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1006\/csla.1998.0043"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2003.817150"},{"key":"ref46","article-title":"FaNT&#x2014;Filtering and noise adding tool","author":"hirsch","year":"2005","journal-title":"Tech Rep"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2015.7404837"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2013.2278556"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.6028\/NIST.IR.4930"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2017-799"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICC.1993.397441"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6637622"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1016\/0167-6393(93)90095-3"}],"container-title":["IEEE\/ACM Transactions on Audio, Speech, and Language Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6570655\/8253682\/08207622.pdf?arnumber=8207622","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,28]],"date-time":"2025-06-28T20:20:33Z","timestamp":1751142033000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/8207622\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,3]]},"references-count":58,"journal-issue":{"issue":"3"},"URL":"https:\/\/doi.org\/10.1109\/taslp.2017.2783545","relation":{},"ISSN":["2329-9290","2329-9304"],"issn-type":[{"type":"print","value":"2329-9290"},{"type":"electronic","value":"2329-9304"}],"subject":[],"published":{"date-parts":[[2018,3]]}}}