{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,13]],"date-time":"2026-05-13T06:32:52Z","timestamp":1778653972692,"version":"3.51.4"},"reference-count":48,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2016,3,4]],"date-time":"2016-03-04T00:00:00Z","timestamp":1457049600000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by\/4.0"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J AUDIO SPEECH MUSIC PROC."],"published-print":{"date-parts":[[2016,12]]},"DOI":"10.1186\/s13636-016-0085-x","type":"journal-article","created":{"date-parts":[[2016,3,4]],"date-time":"2016-03-04T16:39:36Z","timestamp":1457109576000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":41,"title":["Localization based stereo speech source separation using probabilistic time-frequency masking and deep neural networks"],"prefix":"10.1186","volume":"2016","author":[{"given":"Yang","family":"Yu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wenwu","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Peng","family":"Han","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2016,3,4]]},"reference":[{"key":"85_CR1","volume-title":"Handbook of blind source separation: independent component analysis and applications","author":"P Comon","year":"2010","unstructured":"P Comon, C Jutten, Handbook of blind source separation: independent component analysis and applications (Academic Press, New York, 2010)."},{"key":"85_CR2","volume-title":"Independent component analysis","author":"A Hyv\u00e4rinen","year":"2004","unstructured":"A Hyv\u00e4rinen, J Karhunen, E Oja, Independent component analysis, vol. 46 (Wiley, New York, 2004)."},{"issue":"4","key":"85_CR3","doi-asserted-by":"publisher","first-page":"411","DOI":"10.1016\/S0893-6080(00)00026-5","volume":"13","author":"A Hyv\u00e4rinen","year":"2000","unstructured":"A Hyv\u00e4rinen, E Oja, Independent component analysis: algorithms and applications. Neural Netw.13(4), 411\u2013430 (2000).","journal-title":"Neural Netw."},{"issue":"2","key":"85_CR4","doi-asserted-by":"publisher","first-page":"4","DOI":"10.1109\/53.665","volume":"5","author":"BD Van Veen","year":"1988","unstructured":"BD Van Veen, KM Buckley, Beamforming: a versatile approach to spatial filtering. IEEE ASSP Mag. 5(2), 4\u201324 (1988).","journal-title":"IEEE ASSP Mag"},{"key":"85_CR5","doi-asserted-by":"publisher","DOI":"10.1109\/9780470043387","volume-title":"Computational auditory scene analysis: principles, algorithms, and applications","author":"D Wang","year":"2006","unstructured":"D Wang, GJ Brown, Computational auditory scene analysis: principles, algorithms, and applications (Wiley-IEEE Press, New York, 2006)."},{"key":"85_CR6","doi-asserted-by":"publisher","first-page":"371","DOI":"10.1007\/3-540-27489-8_16","volume-title":"Speech Enhancement","author":"GJ Brown","year":"2005","unstructured":"GJ Brown, D Wang, in Speech Enhancement. Separation of speech by computational auditory scene analysis (SpringerBerlin Heidelberg, 2005), pp. 371\u2013402."},{"issue":"9","key":"85_CR7","doi-asserted-by":"publisher","first-page":"1434","DOI":"10.1109\/TASLP.2014.2320637","volume":"22","author":"A Alinaghi","year":"2014","unstructured":"A Alinaghi, PJ Jackson, Q Liu, W Wang, Joint mixing vector and binaural model based stereo source separation. IEEE\/ACM Trans. Audio Speech Lang. Process. 22(9), 1434\u20131448 (2014). doi: 10.1109\/TASLP.2014.2320637 .","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process"},{"issue":"3","key":"85_CR8","doi-asserted-by":"publisher","first-page":"516","DOI":"10.1109\/TASL.2010.2051355","volume":"19","author":"H Sawada","year":"2011","unstructured":"H Sawada, S Araki, S Makino, Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment. IEEE Trans. Audio Speech Lang. Process. 19(3), 516\u2013527 (2011).","journal-title":"IEEE Trans. Audio Speech Lang. Process"},{"issue":"2","key":"85_CR9","doi-asserted-by":"publisher","first-page":"382","DOI":"10.1109\/TASL.2009.2029711","volume":"18","author":"MI Mandel","year":"2010","unstructured":"MI Mandel, RJ Weiss, DP Ellis, Model-based expectation-maximization source separation and localization. IEEE Trans. Audio Speech Lang. Process. 18(2), 382\u2013394 (2010).","journal-title":"IEEE Trans. Audio Speech Lang. Process"},{"issue":"3","key":"85_CR10","doi-asserted-by":"publisher","first-page":"1486","DOI":"10.1121\/1.3184603","volume":"126","author":"G Kim","year":"2009","unstructured":"G Kim, Y Lu, Y Hu, PC Loizou, An algorithm that improves speech intelligibility in noise for normal-hearing listeners. J. Acoust. Soc. Am.126(3), 1486\u20131494 (2009).","journal-title":"J. Acoust. Soc. Am."},{"issue":"8","key":"85_CR11","doi-asserted-by":"publisher","first-page":"1798","DOI":"10.1109\/TPAMI.2013.50","volume":"35","author":"Y Bengio","year":"2013","unstructured":"Y Bengio, A Courville, P Vincent, Representation learning: a review and new perspectives. IEEE Trans. Pattern Anal. Mach. Intel. 35(8), 1798\u20131828 (2013). doi: 10.1109\/TPAMI.2013.50 .","journal-title":"IEEE Trans. Pattern Anal. Mach. Intel"},{"key":"85_CR12","unstructured":"J Schmidhuber, Deep learning in neural networks: an overview. ArXiv e-prints (2014). arxiv: url1404.7828."},{"issue":"1","key":"85_CR13","doi-asserted-by":"publisher","first-page":"145","DOI":"10.1109\/MSP.2010.939038","volume":"28","author":"D Yu","year":"2011","unstructured":"D Yu, L Deng, Deep learning and its applications to signal and information processing [exploratory dsp]. IEEE Signal Process. Mag. 28(1), 145\u2013154 (2011). doi: 10.1109\/MSP.2010.939038 .","journal-title":"IEEE Signal Process. Mag"},{"issue":"1","key":"85_CR14","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1561\/2200000006","volume":"2","author":"Y Bengio","year":"2009","unstructured":"Y Bengio, Learning deep architectures for ai. Found. Trends\u00ae; Mach. Learn. 2(1), 1\u2013127 (2009).","journal-title":"Found. Trends\u00ae; Mach. Learn"},{"issue":"3","key":"85_CR15","doi-asserted-by":"publisher","first-page":"75","DOI":"10.1109\/MSP.2009.932166","volume":"26","author":"J Baker","year":"2009","unstructured":"J Baker, L Deng, J Glass, S Khudanpur, C-H Lee, N Morgan, D O\u2019Shaughnessy, Developments and directions in speech recognition and understanding, part 1 [dsp education]. IEEE Signal Process. Mag. 26(3), 75\u201380 (2009).","journal-title":"IEEE Signal Process. Mag"},{"issue":"4","key":"85_CR16","doi-asserted-by":"publisher","first-page":"78","DOI":"10.1109\/MSP.2009.932707","volume":"26","author":"J Baker","year":"2009","unstructured":"J Baker, L Deng, S Khudanpur, C-H Lee, JR Glass, N Morgan, D O\u2019Shaughnessy, Updated minds report on speech recognition and understanding, part 2 [dsp education]. IEEE Signal Process. Mag. 26(4), 78\u201385 (2009). doi: 10.1109\/MSP.2009.932707 .","journal-title":"IEEE Signal Process. Mag"},{"key":"85_CR17","doi-asserted-by":"publisher","first-page":"199","DOI":"10.1007\/978-3-642-60087-6_20","volume-title":"Computational Models of Speech Pattern Processing","author":"L Deng","year":"1999","unstructured":"L Deng, in Computational Models of Speech Pattern Processing. Computational models for speech production (SpringerBerlin Heidelberg, 1999), pp. 199\u2013213."},{"key":"85_CR18","doi-asserted-by":"publisher","first-page":"115","DOI":"10.1007\/978-1-4419-9017-4_6","volume-title":"Mathematical Foundations of Speech and Language Processing","author":"L Deng","year":"2004","unstructured":"L Deng, in Mathematical Foundations of Speech and Language Processing. Switching dynamic system models for speech articulation and acoustics (SpringerNew York, 2004), pp. 115\u2013133."},{"key":"85_CR19","doi-asserted-by":"crossref","unstructured":"L Deng, J Li, J-T Huang, K Yao, D Yu, F Seide, M Seltzer, G Zweig, X He, J Williams, Y Gong, A Acero, in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. Recent advances in deep learning for speech research at microsoft, (2013), pp. 8604\u20138608. doi: 10.1109\/ICASSP.2013.6639345 .","DOI":"10.1109\/ICASSP.2013.6639345"},{"key":"85_CR20","doi-asserted-by":"crossref","unstructured":"J-T Huang, J Li, D Yu, L Deng, Y Gong, in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers, (2013), pp. 7304\u20137308. doi: 10.1109\/ICASSP.2013.6639081 .","DOI":"10.1109\/ICASSP.2013.6639081"},{"issue":"10","key":"85_CR21","doi-asserted-by":"publisher","first-page":"2152","DOI":"10.1109\/TASL.2013.2270370","volume":"21","author":"SM Siniscalchi","year":"2013","unstructured":"SM Siniscalchi, J Li, C-H Lee, Hermitian polynomial for speaker adaptation of connectionist speech recognition systems. IEEE Trans. Audio Speech Lang. Process. 21(10), 2152\u20132161 (2013). doi: 10.1109\/TASL.2013.2270370 .","journal-title":"IEEE Trans. Audio Speech Lang. Process"},{"key":"85_CR22","doi-asserted-by":"publisher","first-page":"148","DOI":"10.1016\/j.neucom.2012.11.008","volume":"106","author":"SM Siniscalchi","year":"2013","unstructured":"SM Siniscalchi, D Yu, L Deng, C-H Lee, Exploiting deep neural networks for detection-based speech recognition. Neurocomputing. 106:, 148\u2013157 (2013).","journal-title":"Neurocomputing"},{"issue":"6","key":"85_CR23","doi-asserted-by":"publisher","first-page":"82","DOI":"10.1109\/MSP.2012.2205597","volume":"29","author":"G Hinton","year":"2012","unstructured":"G Hinton, L Deng, D Yu, GE Dahl, A Mohamed, N Jaitly, A Senior, V Vanhoucke, P Nguyen, TN Sainath, B Kingsbury, Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups. IEEE Signal Process. Mag. 29(6), 82\u201397 (2012). doi: 10.1109\/MSP.2012.2205597 .","journal-title":"IEEE Signal Process. Mag"},{"issue":"2","key":"85_CR24","doi-asserted-by":"publisher","first-page":"270","DOI":"10.1109\/TASL.2012.2221459","volume":"21","author":"Y Wang","year":"2013","unstructured":"Y Wang, K Han, D Wang, Exploring monaural features for classification-based speech segregation. IEEE Trans. Audio Speech Lang. Process. 21(2), 270\u2013279 (2013).","journal-title":"IEEE Trans. Audio Speech Lang. Process"},{"issue":"1","key":"85_CR25","doi-asserted-by":"publisher","first-page":"65","DOI":"10.1109\/LSP.2013.2291240","volume":"21","author":"Y Xu","year":"2014","unstructured":"Y Xu, J Du, L-R Dai, C-H Lee, An experimental study on speech enhancement based on deep neural networks. Signal Process. Letters, IEEE. 21(1), 65\u201368 (2014).","journal-title":"Signal Process. Letters, IEEE"},{"key":"85_CR26","doi-asserted-by":"crossref","unstructured":"A Narayanan, D Wang, in 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Ideal ratio mask estimation using deep neural networks for robust speech recognition (IEEE, 2013), pp. 7092\u20137096.","DOI":"10.1109\/ICASSP.2013.6639038"},{"key":"85_CR27","doi-asserted-by":"crossref","unstructured":"P-S Huang, M Kim, M Hasegawa-Johnson, P Smaragdis, in 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Deep learning for monaural speech separation (IEEE, 2014), pp. 1562\u20131566.","DOI":"10.1109\/ICASSP.2014.6853860"},{"issue":"99","key":"85_CR28","first-page":"1","volume":"PP","author":"P Huang","year":"2015","unstructured":"P Huang, M Kim, M Hasegawa-Johnson, P Smaragdis, Joint optimization of masks and deep recurrent neural networks for monaural source separation. IEEE\/ACM Trans. Audio Speech Lang. Process. PP(99), 1\u20131 (2015). doi: 10.1109\/TASLP.2015.2468583 .","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process"},{"issue":"4","key":"85_CR29","doi-asserted-by":"publisher","first-page":"625","DOI":"10.1109\/TASL.2008.2010633","volume":"17","author":"Z Jin","year":"2009","unstructured":"Z Jin, D Wang, A supervised learning approach to monaural segregation of reverberant speech. IEEE Trans. Audio Speech Lang. Process. 17(4), 625\u2013638 (2009). doi: 10.1109\/TASL.2008.2010633 .","journal-title":"IEEE Trans. Audio Speech Lang. Process"},{"key":"85_CR30","doi-asserted-by":"crossref","unstructured":"J Chen, Y Wang, D Wang, in Proceedings of the IEEE International Conference on Acoustics, Speech and Signal Processing. A feature study for classification-based speech separation at very low signal-to-noise ratio, (2014), pp. 7039\u20137043. doi: 10.1109\/ICASSP.2014.6854965 .","DOI":"10.1109\/ICASSP.2014.6854965"},{"issue":"12","key":"85_CR31","doi-asserted-by":"publisher","first-page":"2112","DOI":"10.1109\/TASLP.2014.2361023","volume":"22","author":"Y Jiang","year":"2014","unstructured":"Y Jiang, D Wang, R Liu, Z Feng, Binaural classification for reverberant speech segregation using deep neural networks. IEEE\/ACM Trans. Audio Speech Lang. Process. 22(12), 2112\u20132121 (2014). doi: 10.1109\/TASLP.2014.2361023 .","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process"},{"key":"85_CR32","first-page":"153","volume":"19","author":"Y Bengio","year":"2007","unstructured":"Y Bengio, P Lamblin, D Popovici, H Larochelle, Greedy layer-wise training of deep networks. Adv. Neural Inf. Process. Syst.19:, 153 (2007).","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"85_CR33","doi-asserted-by":"crossref","unstructured":"J Blauert, Spatial hearing: the psychophysics of human sound localization, (1997).","DOI":"10.7551\/mitpress\/6391.001.0001"},{"issue":"3","key":"85_CR34","doi-asserted-by":"publisher","first-page":"1648","DOI":"10.1121\/1.402445","volume":"91","author":"FL Wightman","year":"1992","unstructured":"FL Wightman, DJ Kistler, The dominant role of low-frequency interaural time differences in sound localization. J. Acoust. Soc. Am.91(3), 1648\u20131661 (1992).","journal-title":"J. Acoust. Soc. Am."},{"key":"85_CR35","doi-asserted-by":"crossref","unstructured":"M Ranzato, FJ Huang, Y-L Boureau, Y LeCun, in Proceedings of the IEEE International Conference on Computer Vision and Pattern Recognition. Unsupervised learning of invariant feature hierarchies with applications to object recognition, (2007), pp. 1\u20138. doi: 10.1109\/CVPR.2007.383157 .","DOI":"10.1109\/CVPR.2007.383157"},{"key":"85_CR36","unstructured":"M Ranzato, Unsupervised learning of feature hierarchies. PhD thesis, NEW YORK UNIVERSITY (2009)."},{"key":"85_CR37","volume-title":"Pattern recognition and machine learning","author":"CM Bishop","year":"2006","unstructured":"CM Bishop, et al., Pattern recognition and machine learning, vol. 1 (Springer, New York, 2006)."},{"key":"85_CR38","unstructured":"A Ng, Lecture notes on sparse autoencoders. http:\/\/web.stanford.edu\/class\/cs294a\/sparseAutoencoder.pdf ."},{"key":"85_CR39","unstructured":"A Ng, Sparse autoencoder. CS294A Lecture notes. 72:, 1\u201319 (2011)."},{"key":"85_CR40","unstructured":"J Dean, G Corrado, R Monga, K Chen, M Devin, M Mao, A Senior, P Tucker, K Yang, QV Le, et al., in Advances in Neural Information Processing Systems 25 (NIPS 2012). Large scale distributed deep networks, (NIPS, 2012), pp. 1223\u20131231."},{"key":"85_CR41","volume-title":"Backpropagation: theory, architectures, and applications","author":"Y Chauvin","year":"1995","unstructured":"Y Chauvin, DE Rumelhart, Backpropagation: theory, architectures, and applications (Psychology Press, London, 1995)."},{"issue":"2","key":"85_CR42","doi-asserted-by":"publisher","first-page":"382","DOI":"10.1109\/TASL.2009.2029711","volume":"18","author":"MI Mandel","year":"2010","unstructured":"MI Mandel, RJ Weiss, DPW Ellis, Model-based expectation-maximization source separation and localization. Audio Speech Lang. Process. IEEE Trans.18(2), 382\u2013394 (2010). doi: 10.1109\/TASL.2009.2029711 .","journal-title":"Audio Speech Lang. Process. IEEE Trans."},{"key":"85_CR43","first-page":"27403","volume":"93","author":"JS Garofolo","year":"1993","unstructured":"JS Garofolo, LF Lamel, WM Fisher, JG Fiscus, DS Pallett, DARPA TIMIT acoustic-phonetic continous speech corpus CD-ROM. NIST speech disc n.1. NASA STI\/Recon Technical Report N. 93:, 27403 (1993).","journal-title":"NASA STI\/Recon Technical Report N"},{"key":"85_CR44","unstructured":"C Hummersone, A psychoacoustic engineering approach to machine sound source separation in reverberant environments. PhD thesis, University of Surrey (2011)."},{"key":"85_CR45","unstructured":"Binaural room impulse responses captured in real rooms. http:\/\/iosr.surrey.ac.uk\/software\/index.php ."},{"issue":"5","key":"85_CR46","doi-asserted-by":"publisher","first-page":"3100","DOI":"10.1121\/1.1872572","volume":"117","author":"BG Shinn-Cunningham","year":"2005","unstructured":"BG Shinn-Cunningham, N Kopco, TJ Martin, Localizing nearby sound sources in a classroom: binaural room impulse responses. J. Acoust. Soc. Am.117(5), 3100\u20133115 (2005).","journal-title":"J. Acoust. Soc. Am."},{"issue":"4","key":"85_CR47","doi-asserted-by":"publisher","first-page":"1462","DOI":"10.1109\/TSA.2005.858005","volume":"14","author":"E Vincent","year":"2006","unstructured":"E Vincent, R Gribonval, C Fevotte, Performance measurement in blind audio source separation. IEEE Trans. Audio Speech Lang. Process.14(4), 1462\u20131469 (2006). doi: 10.1109\/TSA.2005.858005 .","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"issue":"10","key":"85_CR48","doi-asserted-by":"publisher","first-page":"2578","DOI":"10.1016\/j.sigpro.2008.04.006","volume":"88","author":"L Di Persia","year":"2008","unstructured":"L Di Persia, D Milone, HL Rufiner, M Yanagida, Perceptual evaluation of blind source separation for robust speech recognition. Signal Process.88(10), 2578\u20132583 (2008).","journal-title":"Signal Process."}],"container-title":["EURASIP Journal on Audio, Speech, and Music Processing"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-016-0085-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1186\/s13636-016-0085-x\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-016-0085-x","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1186\/s13636-016-0085-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,9,16]],"date-time":"2020-09-16T16:57:24Z","timestamp":1600275444000},"score":1,"resource":{"primary":{"URL":"https:\/\/asmp-eurasipjournals.springeropen.com\/articles\/10.1186\/s13636-016-0085-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2016,3,4]]},"references-count":48,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2016,12]]}},"alternative-id":["85"],"URL":"https:\/\/doi.org\/10.1186\/s13636-016-0085-x","relation":{},"ISSN":["1687-4722"],"issn-type":[{"value":"1687-4722","type":"electronic"}],"subject":[],"published":{"date-parts":[[2016,3,4]]},"article-number":"7"}}