{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,18]],"date-time":"2025-12-18T08:39:00Z","timestamp":1766047140836,"version":"3.37.3"},"reference-count":78,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"12","license":[{"start":{"date-parts":[[2015,12,1]],"date-time":"2015-12-01T00:00:00Z","timestamp":1448928000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"funder":[{"DOI":"10.13039\/501100002428","name":"Austrian Science Fund","doi-asserted-by":"publisher","award":["P25244-N15","P27803-N15"],"award-info":[{"award-number":["P25244-N15","P27803-N15"]}],"id":[{"id":"10.13039\/501100002428","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE\/ACM Trans. Audio Speech Lang. Process."],"published-print":{"date-parts":[[2015,12]]},"DOI":"10.1109\/taslp.2015.2470560","type":"journal-article","created":{"date-parts":[[2015,8,19]],"date-time":"2015-08-19T18:54:35Z","timestamp":1440010475000},"page":"2398-2409","source":"Crossref","is-referenced-by-count":16,"title":["Representation Learning for Single-Channel Source Separation and Bandwidth Extension"],"prefix":"10.1109","volume":"23","author":[{"given":"Matthias","family":"Zohrer","sequence":"first","affiliation":[]},{"given":"Robert","family":"Peharz","sequence":"additional","affiliation":[]},{"given":"Franz","family":"Pernkopf","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref73","first-page":"209","article-title":"Integer Bayesian networks","author":"tschiatschek","year":"2014","journal-title":"Proc Eur Conf Mach Learn (ECML)"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2014.2353620"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6853860"},{"key":"ref70","first-page":"249","article-title":"Understanding the difficulty of training deep feedforward neural networks","author":"glorot","year":"2010","journal-title":"Proc Int Conf Artif Intell Statist (AISTATS)"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/TASSP.1984.1164317"},{"key":"ref77","doi-asserted-by":"crossref","DOI":"10.1201\/b14529","author":"loizou","year":"2013","journal-title":"Speech Enhancement Theory and Practice"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-23528-8_6"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2006.876726"},{"journal-title":"ETSI Digital Cellular Telecommunications System (Phase 2+) Enhanced Full Rate (EFR) Speech Transcoding","year":"2000","key":"ref75"},{"key":"ref38","doi-asserted-by":"crossref","first-page":"788","DOI":"10.1038\/44565","article-title":"Learning the parts of objects by nonnegative matrix factorization","volume":"401","author":"lee","year":"1999","journal-title":"Nature"},{"key":"ref78","first-page":"3439","article-title":"Speech quality prediction for artificial bandwidth extension algorithms","author":"m\u00f6ller","year":"2013","journal-title":"Proc INTERSPEECH"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2014.2352935"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1145\/1553374.1553505"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-40991-2_39"},{"key":"ref30","volume":"1","author":"pernkopf","year":"2014","journal-title":"An Introduction to Probabilistic Graphical Models"},{"key":"ref37","doi-asserted-by":"crossref","first-page":"1009","DOI":"10.21437\/Eurospeech.2003-345","article-title":"Factorial models and refiltering for speech separation and denoising","author":"roweis","year":"2003","journal-title":"Proc EUROSPEECH"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178801"},{"key":"ref35","doi-asserted-by":"crossref","first-page":"7","DOI":"10.1109\/TASLP.2014.2364452","article-title":"A regression approach to speech enhancement based on deep neural networks","volume":"23","author":"xu","year":"2015","journal-title":"IEEE\/ACM Trans Audio Speech Lang Process"},{"key":"ref34","article-title":"Single channel source separation with general stochastic networks","author":"z\u00f6hrer","year":"2014","journal-title":"Proc Int Conf Spoken Lang Process"},{"key":"ref60","first-page":"194","volume":"1","author":"smolensky","year":"1986","journal-title":"Information Processing in Dynamical Systems Foundations of Harmony Theory"},{"journal-title":"A practical guide to training restricted Boltzmann Machines","year":"0","author":"hinton","key":"ref62"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1145\/1390156.1390290"},{"key":"ref63","article-title":"Greedy layer-wise training of deep networks","author":"bengio","year":"2007","journal-title":"Neural Inf Process Syst (NIPS)"},{"key":"ref28","article-title":"Multimodal transitions for generative stochastic networks","volume":"abs 1312 5578","author":"ozair","year":"2013","journal-title":"Proc CoRR"},{"key":"ref64","first-page":"833","article-title":"Contractive auto-encoders: Explicit invariance during feature extraction","author":"rifai","year":"2011","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref27","first-page":"899","article-title":"Generalized denoising auto-encoders as generative models","volume":"26","author":"bengio","year":"2013","journal-title":"Neural Inf Process Syst (NIPS)"},{"key":"ref65","first-page":"1","article-title":"Regularized auto-encoders estimate local statistics","author":"alain","year":"2012","journal-title":"Proc CoRR"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1145\/765568.765570"},{"journal-title":"Probabilistic Graphical Models Principles and Techniques","year":"2009","author":"koller","key":"ref29"},{"key":"ref67","article-title":"On theoretical properties of sum-product networks","author":"peharz","year":"2015","journal-title":"Proc Int Conf Artif Intell Statist (AISTATS)"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2109381"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1121\/1.2229005"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2010.939038"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1561\/2200000006"},{"key":"ref20","article-title":"General stochastic networks for classification","author":"z\u00f6hrer","year":"2014","journal-title":"Neural Inf Process Syst (NIPS)"},{"key":"ref22","first-page":"2042","article-title":"Learning the architecture of sum-product networks using clustering on variables","author":"dennis","year":"2012","journal-title":"Neural Inf Process Syst (NIPS)"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2011.6130310"},{"key":"ref24","first-page":"873","article-title":"Learning the structure of sum-product networks","author":"gens","year":"2013","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref23","first-page":"3248","article-title":"Discriminative learning of sum-product networks","author":"gens","year":"2012","journal-title":"Neural Inf Process Syst (NIPS)"},{"key":"ref26","first-page":"710","article-title":"Learning sum-product networks with direct and indirect variable interactions","author":"rooshenas","year":"2014","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2014.6854292"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2010.2047419"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2010.5495993"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1207\/s15516709cog0901_7"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/5.18626"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/TCOM.1980.1094577"},{"key":"ref56","doi-asserted-by":"crossref","first-page":"2036","DOI":"10.1016\/j.sigpro.2009.03.037","article-title":"A study of HMM-based bandwidth extension of speech signals","volume":"89","author":"song","year":"2009","journal-title":"Signal Process"},{"key":"ref55","doi-asserted-by":"crossref","first-page":"1707","DOI":"10.1016\/S0165-1684(03)00082-3","article-title":"On artificial bandwidth extension of telephone speech","volume":"83","author":"jax","year":"2003","journal-title":"Signal Process"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/TASL.2011.2109381"},{"journal-title":"Perceptual Evaluation of Speech Quality (PESQ) An Objective Method for End-to-End Speech Quality Assessment of Narrow-Band Telephone Networks and Speech Codecs","year":"2000","key":"ref53"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/ASRU.2013.6707723"},{"key":"ref10","first-page":"713","article-title":"Representation models in single channel source separation","author":"z\u00f6hrer","year":"2015","journal-title":"Proc Int Conf Acoust Speech Signal Process (ICASSP)"},{"key":"ref11","article-title":"Improving neural networks by preventing co-adaptation of feature detectors","author":"hinton","year":"2012","journal-title":"Proc CoRR"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2011.09.024"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1162\/neco.2006.18.7.1527"},{"key":"ref13","first-page":"10","article-title":"Improved learning of Gaussian-Bernoulli restricted Boltzmann machines","author":"cho","year":"2011","journal-title":"Proc Int Conf Artif Neural Netw (ICANN)"},{"key":"ref14","first-page":"153","article-title":"Greedy layer-wise training of deep networks","author":"bengio","year":"2007","journal-title":"Neural Inf Process Syst (NIPS)"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1145\/1390156.1390294"},{"key":"ref16","article-title":"Higher order contractive auto-encoder","author":"rifai","year":"2011","journal-title":"Proc Eur Conf Mach Learn and Principles and Practice of Knowl Discov in Databases (ECML PKDD)"},{"key":"ref17","first-page":"801","article-title":"Efficient sparse coding algorithms","author":"lee","year":"2007","journal-title":"Neural Inf Process Syst (NIPS)"},{"key":"ref18","first-page":"1137","article-title":"Efficient learning of sparse representations with an energy-based model","volume":"19","author":"ranzato","year":"2007","journal-title":"Neural Inf Process Syst (NIPS)"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1126\/science.1127647"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2013.50"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2012.2205597"},{"key":"ref6","doi-asserted-by":"crossref","first-page":"1692","DOI":"10.21437\/Interspeech.2010-487","article-title":"Binary coding of speech spectrograms using a deep auto-encoder","author":"deng","year":"2010","journal-title":"Proc INTERSPEECH"},{"key":"ref5","first-page":"469","article-title":"Phone recognition with the mean-covariance restricted Boltzmann machine","author":"dahl","year":"2010","journal-title":"Neural Inf Process Syst (NIPS)"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2014.2303296"},{"key":"ref7","doi-asserted-by":"crossref","first-page":"437","DOI":"10.21437\/Interspeech.2011-169","article-title":"Conversational speech transcription using context-dependent deep neural networks","author":"seide","year":"2011","journal-title":"Proc INTERSPEECH"},{"key":"ref49","first-page":"224","article-title":"Cocktail party processing via structured prediction","author":"wang","year":"2012","journal-title":"Neural Inf Process Syst (NIPS)"},{"key":"ref9","article-title":"Deep generative stochastic networks trainable by backprop","author":"bengio","year":"2014","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/29.35387"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/89.876308"},{"key":"ref48","article-title":"Self-adaption in single-channel source separation","author":"wohlmayr","year":"2014","journal-title":"Proc Int Conf Spoken Lang Process"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/89.279273"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1006\/csla.1995.0010"},{"key":"ref41","doi-asserted-by":"crossref","first-page":"386","DOI":"10.21437\/Interspeech.2010-166","article-title":"A factorial sparse coder model for single channel source separation","author":"peharz","year":"2010","journal-title":"Proc INTERSPEECH"},{"key":"ref44","doi-asserted-by":"crossref","first-page":"291","DOI":"10.1109\/89.279278","article-title":"Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains","volume":"2","author":"gauvain","year":"1994","journal-title":"IEEE Trans Speech Audio Process"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1006\/csla.1996.0013"}],"container-title":["IEEE\/ACM Transactions on Audio, Speech, and Language Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6570655\/7243388\/07210172.pdf?arnumber=7210172","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,8,13]],"date-time":"2023-08-13T08:09:44Z","timestamp":1691914184000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7210172\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015,12]]},"references-count":78,"journal-issue":{"issue":"12"},"URL":"https:\/\/doi.org\/10.1109\/taslp.2015.2470560","relation":{},"ISSN":["2329-9290","2329-9304"],"issn-type":[{"type":"print","value":"2329-9290"},{"type":"electronic","value":"2329-9304"}],"subject":[],"published":{"date-parts":[[2015,12]]}}}