{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,2]],"date-time":"2026-01-02T07:48:22Z","timestamp":1767340102935},"reference-count":51,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"9","license":[{"start":{"date-parts":[[2017,9,1]],"date-time":"2017-09-01T00:00:00Z","timestamp":1504224000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE\/ACM Trans. Audio Speech Lang. Process."],"published-print":{"date-parts":[[2017,9]]},"DOI":"10.1109\/taslp.2017.2716178","type":"journal-article","created":{"date-parts":[[2017,6,15]],"date-time":"2017-06-15T21:35:10Z","timestamp":1497562510000},"page":"1751-1761","source":"Crossref","is-referenced-by-count":31,"title":["Generating Intelligible Audio Speech From Visual Speech"],"prefix":"10.1109","volume":"25","author":[{"given":"Thomas","family":"Le Cornu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ben","family":"Milner","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref39","author":"holmes","year":"2001","journal-title":"Speech Synthesis and Recognition"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1145\/1772690.1772862"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/34.927467"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1006\/cviu.1995.1004"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/34.982900"},{"key":"ref30","first-page":"1","article-title":"Using audio-visual features for robust voice activity detection in clean and noisy speech","author":"almajai","year":"0","journal-title":"Proc Eur Signal Process Conf"},{"key":"ref37","first-page":"281","article-title":"Random search for hyper-parameter optimization","volume":"13","author":"bergstra","year":"2012","journal-title":"J Mach Lear Res"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2012.2205597"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2009.5459283"},{"key":"ref34","first-page":"102","article-title":"Comparing visual features for lipreading","author":"lan","year":"0","journal-title":"Proc Auditory-Visual Speech Process"},{"key":"ref28","article-title":"Maximising audio-visual speech correlation","author":"almajai","year":"0","journal-title":"Proc Auditory-Visual Speech Process"},{"key":"ref27","article-title":"Speech processing, transmission and quality aspects (STQ); distributed speech recognition; extended advanced front-end feature extraction algorithm; compression algorithms; back-end speech reconstruction algorithm","year":"2003"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2006.876880"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2009.11.003"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2009.08.002"},{"key":"ref20","doi-asserted-by":"crossref","first-page":"163","DOI":"10.1109\/TSA.2005.854113","article-title":"Codebook driven short-term predictor parameter estimation for speech enhancement","volume":"14","author":"samuelsson","year":"2006","journal-title":"IEEE Trans Audio Speech Lang Process"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511843891.004"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2009.04.004"},{"key":"ref24","first-page":"451","article-title":"High-quality speech modification based on a harmonic + noise model","author":"stylianou","year":"0","journal-title":"Proc"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/TASSP.1986.1164910"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1121\/1.399423"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2008.4518514"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2016.2585878"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2001.941023"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2001.940795"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/6046.865479"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4471-4072-6_12"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2012.6288999"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2016.7472852"},{"key":"ref14","article-title":"Lip reading sentences in the wild","author":"chung","year":"2016","journal-title":"arXiv 1611 05358"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2010.2096212"},{"key":"ref16","first-page":"3264","article-title":"Speaker separation using visual speech features and single-channel audio","author":"khan","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref17","first-page":"3355","article-title":"Reconstructing intelligible audio speech from visual speech features","author":"le cornu","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref18","first-page":"1","article-title":"Realtime speech-driven facial animation using Gaussian mixture models","author":"luo","year":"0","journal-title":"Proc Int Workshop Multimedia & Expo"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2009.2031793"},{"key":"ref4","article-title":"A non-parametric articulatory-to-acoustic conversion system for silent speech using shared gaussian process dynamical models","author":"gonzalez","year":"0","journal-title":"Proc 5th Speech Conf U K Ireland"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1016\/j.medengphy.2007.05.003"},{"key":"ref6","first-page":"199","article-title":"Evidence of correlation between acoustic and visual features of speech","author":"barker","year":"0","journal-title":"Int Congr Phonetic Sci"},{"key":"ref5","year":"2003"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1016\/j.csl.2013.02.005"},{"key":"ref7","first-page":"2470","article-title":"Analysis of correlation between audio and visual speech features for clean audio feature prediction in noise","author":"almajai","year":"0","journal-title":"Proc"},{"key":"ref49","first-page":"612","article-title":"Learning long-term temporal features in LVCSR using neural networks","author":"chen","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref9","first-page":"23","article-title":"Audio-visual automatic speech recognition: an overview","volume":"22","author":"potamianos","year":"2004","journal-title":"Issues in Visual and Audio&#x2013;Visual Speech Process"},{"key":"ref46","first-page":"638","article-title":"Objective measures for predicting the intelligibility of spectrally smoothed speech with artificial excitation","author":"websdale","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref45","first-page":"105","article-title":"Prediction of voice aperiodicity based on spectral representations in HMM speech synthesis","author":"silen","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2000.859160"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1121\/1.2229005"},{"key":"ref42","first-page":"338","article-title":"Long short-term memory recurrent neural network architectures for large scale acoustic modeling","author":"sak","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6638947"},{"key":"ref44","first-page":"59","article-title":"Aperiodicity extraction and control using mixed mode excitation and group delay manipulation for a high quality speech analysis, modification and synthesis system straight","author":"kawahara","year":"0","journal-title":"Proc"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2013.6707742"}],"container-title":["IEEE\/ACM Transactions on Audio, Speech, and Language Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6570655\/7976409\/07949073.pdf?arnumber=7949073","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,12]],"date-time":"2022-01-12T16:03:51Z","timestamp":1642003431000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7949073\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,9]]},"references-count":51,"journal-issue":{"issue":"9"},"URL":"https:\/\/doi.org\/10.1109\/taslp.2017.2716178","relation":{},"ISSN":["2329-9290","2329-9304"],"issn-type":[{"value":"2329-9290","type":"print"},{"value":"2329-9304","type":"electronic"}],"subject":[],"published":{"date-parts":[[2017,9]]}}}