{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,5,6]],"date-time":"2024-05-06T07:16:31Z","timestamp":1714979791472},"reference-count":134,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"9","license":[{"start":{"date-parts":[[2003,9,1]],"date-time":"2003-09-01T00:00:00Z","timestamp":1062374400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Proc. IEEE"],"published-print":{"date-parts":[[2003,9]]},"DOI":"10.1109\/jproc.2003.817150","type":"journal-article","created":{"date-parts":[[2003,9,11]],"date-time":"2003-09-11T19:12:07Z","timestamp":1063307527000},"page":"1306-1326","source":"Crossref","is-referenced-by-count":421,"title":["Recent advances in the automatic recognition of audiovisual speech"],"prefix":"10.1109","volume":"91","author":[{"given":"G.","family":"Pomianos","sequence":"first","affiliation":[]},{"given":"C.","family":"Neti","sequence":"additional","affiliation":[]},{"given":"G.","family":"Gravier","sequence":"additional","affiliation":[]},{"given":"A.","family":"Garg","sequence":"additional","affiliation":[]},{"given":"A.W.","family":"Senior","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","first-page":"547","article-title":"see me, hear me: integrating automatic speech recognition and lip-reading","author":"duchnowski","year":"1994","journal-title":"Proc Int l Conf Spoken Language Processing"},{"key":"ref38","first-page":"177","article-title":"automatic speechreading of impaired speech","author":"potamianos","year":"2001","journal-title":"Proc Conf Audio-Visual Speech Processing"},{"key":"ref33","first-page":"61","article-title":"adaptive determination of audio and visual weights for automatic speech recognition","author":"rogozan","year":"1997","journal-title":"Proc Eur Workshop Audio-Visual Speech Processing"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-662-13015-5_39"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2000.871546"},{"key":"ref30","first-page":"3733","article-title":"discriminative training of hmm stream exponents for audio-visual speech recognition","author":"potamianos","year":"1998","journal-title":"Proc Int l Conf Acoustics Speech and Signal Processing"},{"key":"ref37","author":"neti","year":"2000","journal-title":"Audio-visual speech recognition"},{"key":"ref36","first-page":"20","article-title":"stream weight optimization of speech and lip image sequence for audio-visual speech recognition","volume":"3","author":"nakamura","year":"2000","journal-title":"Proc Int l Conf Spoken Language Processing"},{"key":"ref35","first-page":"57","article-title":"neural architectures for sensorfusion in speech recognition","author":"krone","year":"1997","journal-title":"Proc Eur Workshop Audio-Visual Speech Processing"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1994.389567"},{"key":"ref28","first-page":"613","article-title":"consideration of lombard effect for speechreading","author":"huang","year":"2001","journal-title":"Proc Workshop Multimedia Signal Processing"},{"key":"ref27","first-page":"177","article-title":"application of affine-invariant fourier descriptors to lipreading for audio-visual speech recognition","author":"gurbuz","year":"2001","journal-title":"Proc Int l Conf Acoustics Speech and Signal Processing"},{"key":"ref29","doi-asserted-by":"crossref","first-page":"1274","DOI":"10.1155\/S1110865702206083","article-title":"dynamic bayesian networks for audio-visual speech recognition","volume":"2002","author":"nefian","year":"2002","journal-title":"EURASIP J Appl Signal Process"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/6046.985551"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/ICSLP.1996.607020"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-662-13015-5_35"},{"key":"ref24","first-page":"53","article-title":"combining noise compensation with visual information in speech recognition","author":"cox","year":"1997","journal-title":"Proc Eur Workshop Audio-Visual Speech Processing"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-662-13015-5_36"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.1997.609450"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/6046.865479"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1990.115970"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/MMSP.1998.738914"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICSLP.1996.607022"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-662-13015-5_27"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/ICSMC.1997.635160"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1006\/cviu.1995.1004"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1007\/BF00127169"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1007\/BF00133570"},{"key":"ref55","doi-asserted-by":"crossref","first-page":"1671","DOI":"10.21437\/Eurospeech.1997-476","article-title":"a multimedia platform for audio-visual speech processing","author":"adjoudani","year":"1997","journal-title":"Proc Eur Conf Speech Communication Technology"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1007\/BFb0054760"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/MMSP.2001.962703"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1155\/S1110865702206162"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP.1998.999008"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-662-13015-5"},{"key":"ref3","first-page":"357","article-title":"signal processing for robust speech recognition","author":"stern","year":"1997","journal-title":"Automatic Speech and Speaker Recognition Advanced Topics"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1121\/1.1907309"},{"key":"ref5","author":"campbell","year":"1998","journal-title":"Hearing by Eye II"},{"key":"ref8","first-page":"245","article-title":"mouth movement and signed communication","author":"marschark","year":"1998","journal-title":"Hearing by Eye II"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1038\/264746a0"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1006\/cviu.1996.0570"},{"key":"ref9","first-page":"211","article-title":"what makes a good speechreader? first you have to find one","author":"bernstein","year":"1998","journal-title":"Hearing by Eye II"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/89.799688"},{"key":"ref45","first-page":"69","article-title":"word dependent acoustic-labial weights in hmm-based speech recognition","author":"jourlin","year":"1997","journal-title":"Proc Eur Workshop Audio-Visual Speech Processing"},{"key":"ref48","first-page":"93","article-title":"lip representation by image ellipse","volume":"4","author":"czap","year":"2000","journal-title":"Proc Int l Conf Spoken Language Processing"},{"key":"ref47","doi-asserted-by":"crossref","first-page":"1260","DOI":"10.1155\/S1110865702206150","article-title":"noise adaptive stream weighting in audio-visual speech recognition","volume":"2002","author":"heckmann","year":"2002","journal-title":"EURASIP J Appl Signal Processing"},{"key":"ref42","first-page":"30","article-title":"lipreading using eigensequences","author":"li","year":"1995","journal-title":"Proc Int Workshop Automatic Face Gesture Recognition"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/83.605417"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1023\/A:1011352422845"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/MMSP.2001.962802"},{"key":"ref127","doi-asserted-by":"publisher","DOI":"10.1109\/6046.865480"},{"key":"ref126","first-page":"1097","article-title":"audio-visual unit selection for the synthesis of photo-realistic talking-heads","author":"cosatto","year":"2000","journal-title":"Proc Int Conf Multimedia Expo"},{"key":"ref125","doi-asserted-by":"publisher","DOI":"10.1109\/97.376913"},{"key":"ref124","doi-asserted-by":"publisher","DOI":"10.1109\/ACSSC.1994.471516"},{"key":"ref73","first-page":"61","article-title":"time-varying information for visual speech perception","author":"rosenblum","year":"1998","journal-title":"Hearing by Eye II"},{"key":"ref72","author":"young","year":"1999","journal-title":"The HTK Book"},{"key":"ref129","first-page":"1325","article-title":"audio-visual intent to speak detection for human computer interaction","author":"de cuetos","year":"2000","journal-title":"Proc Int l Conf Acoustics Speech and Signal Processing"},{"key":"ref71","first-page":"751","article-title":"dynamic features for visual speech-reading: a systematic comparison","volume":"9","author":"gray","year":"1997","journal-title":"Advances in neural information processing systems"},{"key":"ref128","doi-asserted-by":"publisher","DOI":"10.1109\/TNN.2002.1021891"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1996.543247"},{"key":"ref76","first-page":"833","article-title":"adaptive bimodal sensor fusion for automatic speechreading","author":"meier","year":"1996","journal-title":"Proc Int l Conf Acoustics Speech and Signal Processing"},{"key":"ref77","first-page":"289","article-title":"hmm-based visual speech recognition using intensity and location normalization","author":"vanegas","year":"1998","journal-title":"Proc Int l Conf Spoken Language Processing"},{"key":"ref130","doi-asserted-by":"publisher","DOI":"10.1109\/MMSP.1999.793797"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1998.675351"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1998.675411"},{"key":"ref133","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1995.479827"},{"key":"ref134","doi-asserted-by":"crossref","first-page":"1154","DOI":"10.1155\/S1110865702206058","article-title":"joint audio-visual tracking using particle filters","volume":"2002","author":"zotkin","year":"2002","journal-title":"EURASIP J Appl Signal Processing"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/97.376913"},{"key":"ref131","first-page":"67","article-title":"audiovisual speech coder: using vector quantization to exploit the audio\/video correlation","author":"foucher","year":"1998","journal-title":"Proc Conf Audio-Visual Speech Processing"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1155\/S1110865702207039"},{"key":"ref132","doi-asserted-by":"publisher","DOI":"10.1155\/S1110865702207015"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1155\/S1110865702206137"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/34.655647"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1155\/S1110865702206186"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/34.655648"},{"key":"ref64","first-page":"154","article-title":"face and feature finding for a face recognition system","author":"senior","year":"1999","journal-title":"Proc First Int l Conf Audio and Video-Based Biometric Person Authentication"},{"key":"ref65","author":"rao","year":"1965","journal-title":"Linear Statistical Inference and its Applications"},{"key":"ref66","author":"chatfield","year":"1991","journal-title":"Introduction to Multivariate Analysis"},{"key":"ref67","first-page":"250","article-title":"improved roi and within frame discriminant features for lipreading","volume":"3","author":"potamianos","year":"2001","journal-title":"Proc IEEE Int Conf Image Processing"},{"key":"ref68","author":"gonzalez","year":"1977","journal-title":"Digital Image Processing"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1016\/0885-2308(91)90011-E"},{"key":"ref69","author":"daubechies","year":"1992","journal-title":"Wavelets"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1016\/S0167-6393(97)00021-6"},{"key":"ref95","doi-asserted-by":"crossref","first-page":"426","DOI":"10.1109\/ICSLP.1996.607145","article-title":"a new asr approach based on independent processing and recombination of partial frequency bands","author":"bourlard","year":"1996","journal-title":"Proc Int l Conf Spoken Language Processing"},{"key":"ref109","first-page":"746","article-title":"stream confidence estimation for audio-visual speech recognition","volume":"3","author":"potamianos","year":"2000","journal-title":"Proc Int l Conf Spoken Language Processing"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.1007\/0-306-47044-6_1"},{"key":"ref108","first-page":"711","article-title":"a new snr-feature mapping for robust multistream speech recognition","author":"berthommier","year":"1999","journal-title":"Proc Int Congress Phonetic Sciences"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1109\/34.824819"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1093\/comjnl\/7.4.308"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1109\/34.667881"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2002.1005874"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1109\/21.155943"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.1007\/3-540-45344-X_20"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1109\/SAM.2002.1191001"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.3115\/1289189.1289244"},{"key":"ref103","first-page":"213","article-title":"audio-visual continuous speech recognition using a coupled hidden markov model","author":"liu","year":"2002","journal-title":"Proc Int l Conf Spoken Language Processing"},{"key":"ref102","first-page":"132","article-title":"speech intelligibility derived from asynchronous processing of auditory-visual information","author":"grant","year":"2001","journal-title":"Proc Conf Audio-Visual Speech Processing"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.1006\/csla.1995.0010"},{"key":"ref112","first-page":"1127","article-title":"a comparative study of speaker adaptation techniques","author":"neumeyer","year":"1995","journal-title":"Proc Eur Conf Speech Communication Technology"},{"key":"ref110","doi-asserted-by":"publisher","DOI":"10.1109\/89.279278"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1998.674472"},{"key":"ref99","first-page":"173","article-title":"weighting schemes for audio-visual fusion in speech recognition","author":"glotin","year":"2001","journal-title":"Proc Int l Conf Acoustics Speech and Signal Processing"},{"key":"ref96","first-page":"333","article-title":"test of several external posterior weighting functions for multiband full combination asr","volume":"1","author":"glotin","year":"2000","journal-title":"Proc Int l Conf Spoken Language Processing"},{"key":"ref97","first-page":"1023","article-title":"audio-visual speech recognition using mce-based hmm's and model-dependent stream weights","volume":"2","author":"miyajima","year":"2000","journal-title":"Proc Int l Conf Spoken Language Processing"},{"key":"ref10","first-page":"3","article-title":"some preliminaries to a comprehensive account of audio-visual speech perception","author":"summerfield","year":"1987","journal-title":"Hearing by Eye The Psychology of Lip-reading"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1511\/1998.25.861"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1016\/S0167-6393(98)00048-X"},{"key":"ref13","first-page":"112","article-title":"estimation of speech acoustics from visual speech features: a comparison of linear and nonlinear models","author":"barker","year":"1999","journal-title":"Proc Conf Audio-Visual Speech Processing"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1155\/S1110865702206046"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1016\/B978-0-444-87143-5.50019-6"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1142\/S021821309900004X"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-662-13015-5_1"},{"key":"ref118","doi-asserted-by":"publisher","DOI":"10.1109\/MMSP.2001.962704"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1155\/S1110865702206101"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-662-13015-5_25"},{"key":"ref117","first-page":"72","article-title":"xm2vts: the extended m2vts database","author":"messer","year":"1999","journal-title":"Proc First Int l Conf Audio and Video-Based Biometric Person Authentication"},{"key":"ref84","first-page":"1","article-title":"maximum likelihood from incomplete data via the em algorithm","volume":"39","author":"dempster","year":"1977","journal-title":"J Royal Statist Soc"},{"key":"ref18","first-page":"265","article-title":"automatic lipreading to enhance speech recognition","author":"petajan","year":"1984","journal-title":"Proc IEEE Global Telecommunications Conf"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/89.536928"},{"key":"ref19","author":"rabiner","year":"1993","journal-title":"Fundamentals of speech recognition"},{"key":"ref119","doi-asserted-by":"publisher","DOI":"10.1109\/89.221368"},{"key":"ref114","author":"gales","year":"1999","journal-title":"Maximum likelihood multiple projection schemes for hidden Markov models"},{"key":"ref113","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1997.596119"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2002.5745026"},{"key":"ref116","doi-asserted-by":"publisher","DOI":"10.1007\/BFb0016021"},{"key":"ref115","first-page":"1291","article-title":"speaker adaptation for audio-visual speech recognition","author":"potamianos","year":"1999","journal-title":"Proc Eur Conf Speech Communication Technology"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2002.5745030"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.1109\/5.664274"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1998.679685"},{"key":"ref122","first-page":"55","article-title":"multi-sensor biometric person recognition in an access control system","author":"fr\u00f6ba","year":"1999","journal-title":"Proc First Int l Conf Audio and Video-Based Biometric Person Authentication"},{"key":"ref123","doi-asserted-by":"publisher","DOI":"10.1109\/MMSP.1999.793814"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.1986.1169179"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1142\/S0218001494000024"},{"key":"ref87","first-page":"1559","article-title":"noisy speech enhancement with filters estimated from the speaker's lips","author":"girin","year":"1995","journal-title":"Proc Eur Conf Speech Communication Technology"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1121\/1.1358887"}],"container-title":["Proceedings of the IEEE"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx5\/5\/27570\/01230212.pdf?arnumber=1230212","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,1,10]],"date-time":"2024-01-10T17:40:44Z","timestamp":1704908444000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/1230212\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2003,9]]},"references-count":134,"journal-issue":{"issue":"9","published-print":{"date-parts":[[2003,9]]}},"URL":"http:\/\/dx.doi.org\/10.1109\/jproc.2003.817150","relation":{},"ISSN":["0018-9219"],"issn-type":[{"value":"0018-9219","type":"print"}],"subject":[],"published":{"date-parts":[[2003,9]]}}}