{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,6,28]],"date-time":"2025-06-28T07:23:18Z","timestamp":1751095398573,"version":"3.37.3"},"reference-count":57,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"10","license":[{"start":{"date-parts":[[2018,10,1]],"date-time":"2018-10-01T00:00:00Z","timestamp":1538352000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE\/ACM Trans. Audio Speech Lang. Process."],"published-print":{"date-parts":[[2018,10]]},"DOI":"10.1109\/taslp.2018.2835719","type":"journal-article","created":{"date-parts":[[2018,5,18]],"date-time":"2018-05-18T19:27:56Z","timestamp":1526671676000},"page":"1742-1754","source":"Crossref","is-referenced-by-count":9,"title":["Using Visual Speech Information in Masking Methods for Audio Speaker Separation"],"prefix":"10.1109","volume":"26","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-2098-4134","authenticated-orcid":false,"given":"Faheem Ullah","family":"Khan","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8208-4882","authenticated-orcid":false,"given":"Ben P.","family":"Milner","sequence":"additional","affiliation":[]},{"given":"Thomas","family":"Le Cornu","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"article-title":"Multi-modal hybrid deep neural network for speech enhancement","year":"2016","author":"wu","key":"ref39"},{"key":"ref38","article-title":"Voicing classification of visual speech using convolutional neural networks","author":"cornu","year":"0","journal-title":"Proc 1st Joint Conf Facial Anal Animation Auditory-Vis Speech Process"},{"key":"ref33","first-page":"3355","article-title":"Reconstructing intelligible audio speech from visual speech features","author":"cornu","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2017.2716178"},{"key":"ref31","article-title":"Using audio and visual features for robust voice activity detection in clean and noisy speech","author":"almajai","year":"0","journal-title":"Proc 16th Eur Signal Process Conf"},{"key":"ref30","first-page":"609","article-title":"Voice activity detection using visual information","author":"liu","year":"2004","journal-title":"Proc Proc IEEE Int Conf Acoust Speech Signal Process"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2013.2277834"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2010.2057890"},{"key":"ref35","first-page":"102","article-title":"Comparing visual features for lipreading","author":"lan","year":"0","journal-title":"Proc Int Conf Auditory-Visual Speech Process"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/34.927467"},{"key":"ref28","article-title":"Audio-visual automatic speech\n recognition: An overview","author":"potamianos","year":"2004","journal-title":"Issues in Audio-visual Speech Processing"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1016\/j.cortex.2015.03.006"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2172427"},{"journal-title":"Computational Auditory Scene Analysis Principles Algorithms and Applications","year":"2006","author":"wang","key":"ref2"},{"journal-title":"Adaptive Signal Processing","year":"1985","author":"widrow","key":"ref1"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2015.2468583"},{"key":"ref22","article-title":"From\n missing data to maybe useful data: Soft data modelling for robust ASR","author":"morris","year":"2001","journal-title":"Proc Workshop Upon Innovation Speech Process"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2014.2352935"},{"key":"ref24","first-page":"199","article-title":"Evidence of correlation between acoustic and visual features of speech","author":"barker","year":"0","journal-title":"Proc Int Congr Phonetic Sci"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1016\/S0167-6393(98)00048-X"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pcbi.1000436"},{"key":"ref25","first-page":"2470","article-title":"Analysis of\n correlation between audio and visual speech features for clean audio feature prediction in noise","author":"almajai","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2006.876880"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2013.2250961"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2010.5495701"},{"journal-title":"Perceptual Evaluation of Speech Quality (PESQ) An Objective Method for End-to-End Speech Guality Assessment of Narrowband Telephone Networks and Speech Codecs","year":"2000","key":"ref56"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2005.858005"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1121\/1.2229005"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/TCOM.1980.1094577"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/TSA.2002.803420"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2010.2096212"},{"key":"ref11","first-page":"3263","article-title":"Speaker separation using visual speech features and single-channel audio","author":"khan","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/APSIPA.2016.7820732"},{"key":"ref12","first-page":"1173","article-title":"Audio-visual sound separation via hidden Markov models","author":"hershey","year":"0","journal-title":"Proc Neural Inf Process Syst"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2013.2296173"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TNN.2004.832812"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1121\/1.2832617"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1121\/1.3184603"},{"key":"ref17","doi-asserted-by":"crossref","first-page":"625","DOI":"10.1109\/TASL.2008.2010633","article-title":"A supervised learning approach to monaural segregation of reverberant speech","volume":"17","author":"jin","year":"2009","journal-title":"IEEE Trans Audio Speech Lang Process"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1121\/1.4754541"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2014.2359159"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2007.901310"},{"key":"ref3","first-page":"1009","article-title":"Factorial models and refiltering for speech separation and\n denoising","author":"roweis","year":"0","journal-title":"Proc EUROSPEECH"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1121\/1.4884759"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2007.904233"},{"article-title":"Supervised speech separation based on deep learning: An overview","year":"2017","author":"wang","key":"ref8"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2016.2536478"},{"key":"ref49","first-page":"281","article-title":"Random search for hyper-parameter optimization","volume":"13","author":"bergstra","year":"2012","journal-title":"J Mach Learn Res"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1121\/1.1358887"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1007\/BF02291478"},{"key":"ref45","first-page":"102","article-title":"Comparing visual features for lipreading","author":"lan","year":"0","journal-title":"Proc Int Conf Auditory-Visual Speech Process"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2013.2291240"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6639347"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2009.5459283"},{"key":"ref41","first-page":"1517","article-title":"Using audio and visual information for single channel speaker separation","author":"khan","year":"0","journal-title":"Proc INTERSPEECH"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1155\/S1110865702206046"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ICME.2000.871067"}],"container-title":["IEEE\/ACM Transactions on Audio, Speech, and Language Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6570655\/8392901\/08361019.pdf?arnumber=8361019","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,12]],"date-time":"2022-01-12T16:12:04Z","timestamp":1642003924000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8361019\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,10]]},"references-count":57,"journal-issue":{"issue":"10"},"URL":"https:\/\/doi.org\/10.1109\/taslp.2018.2835719","relation":{},"ISSN":["2329-9290","2329-9304"],"issn-type":[{"type":"print","value":"2329-9290"},{"type":"electronic","value":"2329-9304"}],"subject":[],"published":{"date-parts":[[2018,10]]}}}