{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T07:26:50Z","timestamp":1740122810791,"version":"3.37.3"},"reference-count":27,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2019,12,20]],"date-time":"2019-12-20T00:00:00Z","timestamp":1576800000000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2019,12,20]],"date-time":"2019-12-20T00:00:00Z","timestamp":1576800000000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"crossref","award":["61701306"],"award-info":[{"award-number":["61701306"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Speech Technol"],"published-print":{"date-parts":[[2020,3]]},"DOI":"10.1007\/s10772-019-09666-x","type":"journal-article","created":{"date-parts":[[2019,12,20]],"date-time":"2019-12-20T13:02:53Z","timestamp":1576846973000},"page":"133-140","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["Mask-based blind source separation and MVDR beamforming in ASR"],"prefix":"10.1007","volume":"23","author":[{"given":"Renke","family":"He","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0924-408X","authenticated-orcid":false,"given":"Yanhua","family":"Long","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yijie","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiaen","family":"Liang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2019,12,20]]},"reference":[{"issue":"8","key":"9666_CR1","doi-asserted-by":"publisher","first-page":"1833","DOI":"10.1016\/j.sigpro.2007.02.003","volume":"87","author":"S Araki","year":"2007","unstructured":"Araki, S., Sawada, H., Mukai, R., & Makino, S. (2007). Underdetermined blind sparse source separation for arbitrarily arranged multiple sensors. Signal Processing, 87(8), 1833\u20131847.","journal-title":"Signal Processing"},{"key":"9666_CR2","doi-asserted-by":"crossref","unstructured":"Barker, J., Watanabe, S., Vincent, E., & Trmal, J. (2018). The CHiME speech separation and recognition challenge: Dataset, task and baselines. In Proc. interspeech (pp. 1561\u20131565).","DOI":"10.21437\/Interspeech.2018-1768"},{"key":"9666_CR3","doi-asserted-by":"crossref","unstructured":"Boeddeker, C., Heitkaemper, J., & Schmalenstroeer, J. (2018). Front-end processing for the CHiME-5 dinner party scenario. In CHiME5 Workshop.","DOI":"10.21437\/CHiME.2018-8"},{"key":"9666_CR4","unstructured":"CHiME Challenge. (2018). The 5th CHiME speech separation and recognition challenge. http:\/\/spandh.dcs.shef.ac.uk\/chime_challenge\/results.html"},{"key":"9666_CR5","doi-asserted-by":"crossref","unstructured":"Chen, Z., Luo, Y., & Mesgarani, N. (2017). Deep attractor network for single-microphone speaker separation. In Proc. ICASSP (pp. 246\u2013250).","DOI":"10.1109\/ICASSP.2017.7952155"},{"key":"9666_CR6","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1017\/ATSIP.2015.22","volume":"5","author":"L Deng","year":"2016","unstructured":"Deng, L. (2016). Deep learning: From speech recognition to language and multimodal processing. APSIPA Transactions on Signal and Information Processing, 5, 1\u201315.","journal-title":"APSIPA Transactions on Signal and Information Processing"},{"key":"9666_CR7","unstructured":"Drude, L., Boeddeker, C., Heymann, J., Haeb-Umbach, R., Ki-noshita, K., Delcroix, M., & Nakatani, T. (2018). Integrating neural net- work based beamforming and weighted prediction error dereverberation. In Proc. Interspeech (pp. 3043\u20133947)."},{"issue":"22","key":"9666_CR8","doi-asserted-by":"publisher","first-page":"R1024","DOI":"10.1016\/j.cub.2009.09.005","volume":"19","author":"S Haykin","year":"2009","unstructured":"Haykin, S., & Chen, Z. (2009). The cocktail party problem. Current Biology, 19(22), R1024\u2013R1027.","journal-title":"Current Biology"},{"key":"9666_CR9","doi-asserted-by":"crossref","unstructured":"Hershey, J. R., Chen, Z., & Le Roux, J. (2016). Deep clustering: Discriminative embeddings for segmentation and separation. In Proc. ICASSP (pp. 31\u201335).","DOI":"10.1109\/ICASSP.2016.7471631"},{"key":"9666_CR10","doi-asserted-by":"crossref","unstructured":"Heymann, J., Drude, L., & Haeb-Umbach, R. (2016). Neural network based spectral mask estimation for acoustic beamforming. In Proc. ICASSP (pp. 196\u2013200).","DOI":"10.1109\/ICASSP.2016.7471664"},{"key":"9666_CR11","unstructured":"Higuchi, T., Ito, N., Yoshioka, T., & Nakatani, T. (2016). Robust MVDR beamforming using time-frequency masks for online\/ofine ASR in noise. In Proc. ICASSP (pp. 5210\u20135214)."},{"key":"9666_CR12","doi-asserted-by":"crossref","unstructured":"Isik, Y., Le Roux, J., Chen, Z., Watanabe, S., & Hershey, J. R. (2016). Single-channel multi-speaker separation using deep clustering. In Proc. Interspeech (pp. 545\u2013549).","DOI":"10.21437\/Interspeech.2016-1176"},{"key":"9666_CR13","doi-asserted-by":"crossref","unstructured":"Ito, N., Araki, S., & Nakatani, T. (2016). Complex angular central Gaussian mixture model for directional statistics in mask-based microphone array signal processing. In Proc. EUSIPCO (pp. 1153\u20131157).","DOI":"10.1109\/EUSIPCO.2016.7760429"},{"key":"9666_CR14","unstructured":"Jun, D., Tian, G., Lei, S., et al. (2018). The USTC-iFlytek system for CHiME-5 challenge. In CHiME-5 workshop."},{"issue":"10","key":"9666_CR15","doi-asserted-by":"publisher","first-page":"1901","DOI":"10.1109\/TASLP.2017.2726762","volume":"25","author":"M Kolbk","year":"2017","unstructured":"Kolbk, M., Yu, D., Tan, Z. H., & Jensen, J. (2017). Multitalker speech separation with utterance-level permutation invariant training of deep recurrent neural networks. IEEE\/ACM Transactions on Audio, Speech and Language Processing, 25(10), 1901\u20131913.","journal-title":"IEEE\/ACM Transactions on Audio, Speech and Language Processing"},{"key":"9666_CR16","first-page":"556","volume":"13","author":"DD Lee","year":"2001","unstructured":"Lee, D. D., & Seung, H. S. (2001). Algorithms for non-negative matrix factorization. Advances in Neural Information Processing Systems, 13, 556\u2013562.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"9666_CR17","unstructured":"Nakatani, T., Ito, N., Higuchi, T., Araki, S., & Kinoshita, K. (2017). Inergrating DNN-based and spatial clustering-based mask estimation for robust MVDR beamforming. In Proc. ICASSP (pp. 286\u2013290)."},{"key":"9666_CR18","doi-asserted-by":"crossref","unstructured":"Povey, D., Peddinti, V., Galvez, D., Ghahremani, P., Manohar, V., Na, X., Wang, S., & Khudanpur, Y. (2016). Purely sequence-trained neural networks for ASR based on lattice-free MMI. In Proc. Interspeech (pp. 2751\u20132755).","DOI":"10.21437\/Interspeech.2016-595"},{"key":"9666_CR19","unstructured":"Povey, D., Ghoshal, A., Boulianne, G., & Burget, L., et al. (2011). The Kaldi speech recognition toolkit. In Proc. ASRU. Number EPFL-CONF-192584."},{"issue":"3","key":"9666_CR20","doi-asserted-by":"publisher","first-page":"516","DOI":"10.1109\/TASL.2010.2051355","volume":"19","author":"H Sawada","year":"2011","unstructured":"Sawada, H., Araki, S., & Makino, S. (2011). Underdetermined convolutive blind source separation via frequency bin-wise clustering and permutation alignment. IEEE Transactions on Audio, Speech, and Language Processing, 19(3), 516\u2013527.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"issue":"1","key":"9666_CR21","first-page":"21","volume":"22","author":"P Smaragdis","year":"1998","unstructured":"Smaragdis, P. (1998). Blind separation of convolved mixtures in the frequency domain. Neuro Computing, 22(1), 21\u201334.","journal-title":"Neuro Computing"},{"key":"9666_CR22","unstructured":"Tran Vu, D. H., & Haeb-Umbach, R. (2010). Blind speech separation employing directional statistics in an expectation maximization framework. In Proc. ICASSP (pp. 241\u2013244)."},{"key":"9666_CR23","doi-asserted-by":"publisher","DOI":"10.1109\/9780470043387","volume-title":"Computational auditory scene analysis: Principles, algorithms, and applications","author":"D Wang","year":"2006","unstructured":"Wang, D., & Brown, G. J. (2006). Computational auditory scene analysis: Principles, algorithms, and applications. Hoboken: Wiley-IEEE Press."},{"issue":"7","key":"9666_CR24","doi-asserted-by":"publisher","first-page":"1830","DOI":"10.1109\/TSP.2004.828896","volume":"52","author":"O Yilmaz","year":"2004","unstructured":"Yilmaz, O., & Rickard, S. (2004). Blind separation of speech mixtures via time frequency masking. IEEE Transactions on Signal Processing, 52(7), 1830\u20131847.","journal-title":"IEEE Transactions on Signal Processing"},{"key":"9666_CR25","doi-asserted-by":"crossref","unstructured":"Yoshioka, T., Ito, N., Delcroix, M., Ogawa, A., et al. (2015). The NTT CHiME-3 system: advances in speech enhancement and recognition for mobile multi-microphone devices. In Proc. ASRU (pp. 436\u2013443).","DOI":"10.1109\/ASRU.2015.7404828"},{"key":"9666_CR26","doi-asserted-by":"crossref","unstructured":"Yu, D., Kolbak, M., Tan, Z. H., & Jensen, J. (2017). Permutation invariant training of deep models for speaker-independent multi-talker speech separation. In Proc. ICASSP (pp. 241\u2013245).","DOI":"10.1109\/ICASSP.2017.7952154"},{"issue":"7","key":"9666_CR27","doi-asserted-by":"publisher","first-page":"1830","DOI":"10.1109\/TSP.2004.828896","volume":"52","author":"O Y\u0131lmaz","year":"2004","unstructured":"Y\u0131lmaz, O., & Rickard, S. (2004). Blind separation of speech mixtures via time-frequency masking. IEEE Transactions on Signal Processing, 52(7), 1830\u20131847.","journal-title":"IEEE Transactions on Signal Processing"}],"container-title":["International Journal of Speech Technology"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10772-019-09666-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s10772-019-09666-x\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10772-019-09666-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,12,19]],"date-time":"2020-12-19T00:50:54Z","timestamp":1608339054000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s10772-019-09666-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,12,20]]},"references-count":27,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2020,3]]}},"alternative-id":["9666"],"URL":"https:\/\/doi.org\/10.1007\/s10772-019-09666-x","relation":{},"ISSN":["1381-2416","1572-8110"],"issn-type":[{"type":"print","value":"1381-2416"},{"type":"electronic","value":"1572-8110"}],"subject":[],"published":{"date-parts":[[2019,12,20]]},"assertion":[{"value":"28 April 2019","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"16 December 2019","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"20 December 2019","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}