{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2023,11,18]],"date-time":"2023-11-18T07:37:29Z","timestamp":1700293049260},"reference-count":37,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2015,5,15]],"date-time":"2015-05-15T00:00:00Z","timestamp":1431648000000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J Sign Process Syst"],"published-print":{"date-parts":[[2016,2]]},"DOI":"10.1007\/s11265-015-1007-3","type":"journal-article","created":{"date-parts":[[2015,5,14]],"date-time":"2015-05-14T01:06:05Z","timestamp":1431565565000},"page":"151-161","update-policy":"http:\/\/dx.doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":5,"title":["Single-channel Dereverberation for Distant-Talking Speech Recognition by Combining Denoising Autoencoder and Temporal Structure Normalization"],"prefix":"10.1007","volume":"82","author":[{"given":"Yuma","family":"Ueda","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Longbiao","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Atsuhiko","family":"Kai","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiong","family":"Xiao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Eng Siong","family":"Chng","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Haizhou","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2015,5,15]]},"reference":[{"issue":"6","key":"1007_CR1","doi-asserted-by":"crossref","first-page":"114","DOI":"10.1109\/MSP.2012.2205029","volume":"29","author":"T Yoshioka","year":"2012","unstructured":"Yoshioka, T., Sehr, A., Delcroix, M., Kinoshita, K., Maas, R., Nakatani, T., & Kellermann, W. (2012). Making machines understand us in reverberant rooms: robustness against reverberation for automatic speech recognition. IEEE Signal Processing Magazine, 29(6), 114\u2013126.","journal-title":"IEEE Signal Processing Magazine"},{"issue":"3","key":"1007_CR2","first-page":"774","volume":"14","author":"M Wu","year":"2006","unstructured":"Wu, M., & Wang, D. (2006). A two-stage algorithm for one-microphone reverberant speech enhancement. IEEE Transactions on ASLP, 14(3), 774\u2013784.","journal-title":"IEEE Transactions on ASLP"},{"issue":"7","key":"1007_CR3","first-page":"2023","volume":"15","author":"Q Jin","year":"2007","unstructured":"Jin, Q., Schultz, T., & Waibel, A. (2007). Far-field speaker recognition. IEEE Transactions on ASLP, 15 (7), 2023\u20132032.","journal-title":"IEEE Transactions on ASLP"},{"issue":"2","key":"1007_CR4","first-page":"430","volume":"15","author":"M Delcroix","year":"2007","unstructured":"Delcroix, M., & Hikichi, T. (2007). M.Miyoshi, Precise dereverberation using multi-channel linear prediction. IEEE Transactions on ASLP, 15(2), 430\u2013440.","journal-title":"IEEE Transactions on ASLP"},{"key":"1007_CR5","first-page":"7224","volume":"2013","author":"L Wang","year":"2013","unstructured":"Wang, L., Zhang, Z., & Kai, A. (2013). Hands-free speaker identification based on spectral subtraction using a multi-channel least mean square approach. Proceedings of ICASSP, 2013, 7224\u20137228.","journal-title":"Proceedings of ICASSP"},{"key":"1007_CR6","doi-asserted-by":"crossref","unstructured":"Habets, E. A. (2005). Multi-channel speech dereverberation based on a statistical model of late reverberation. Proceedings of IEEE ICASSP, 173\u2013176.","DOI":"10.1109\/ICASSP.2005.1415973"},{"issue":"95491","key":"1007_CR7","first-page":"1","volume":"2006","author":"L Wang","year":"2006","unstructured":"Wang, L., Kitaoka, N., & Nakagawa, S. (2006). Robust Distant Speech Recognition by Combining Multiple Microphone-array Processing with Position-dependent CMN. Eurasip Journal on Applied Signal Processing, 2006 (95491), 1\u201311.","journal-title":"Eurasip Journal on Applied Signal Processing"},{"issue":"3","key":"1007_CR8","doi-asserted-by":"crossref","first-page":"659","DOI":"10.1587\/transinf.E94.D.659","volume":"E94-D","author":"L Wang","year":"2011","unstructured":"Wang, L., Kitaoka, N., & Nakagawa, S. (2011). Distant-talking speech recognition based on spectral subtraction by multi-channel LMS algorithm. IEICE Transactions on Information Systems, E94-D(3), 659\u2013667.","journal-title":"IEICE Transactions on Information Systems"},{"issue":"12","key":"1007_CR9","first-page":"1","volume":"2012","author":"L Wang","year":"2012","unstructured":"Wang, L., Odani, K., & Kai, A. (2012). Dereverberation and denoising based on generalized spectral subtraction by nutil-channel LMS algorithm using a small-scale microphone array. Eurasip Journal on Advances in Signal Processing, 2012(12), 1\u201311.","journal-title":"Eurasip Journal on Advances in Signal Processing"},{"key":"1007_CR10","doi-asserted-by":"crossref","unstructured":"Li, W., Wang, L., Zhou, F., & Liao, Q. (2013). Joint sparse representation based cepstral-domain dereverberation for distant-talking speech recognition. Proceedings of IEEE ICASSP, 7117\u20137120.","DOI":"10.1109\/ICASSP.2013.6639043"},{"issue":"3","key":"1007_CR11","doi-asserted-by":"crossref","first-page":"244","DOI":"10.1016\/j.specom.2007.09.004","volume":"50","author":"H Hirsch","year":"2008","unstructured":"Hirsch, H., & Finster, H. (2008). A new approach for the adaptation of HMMs to reverberation and background noise. Speech Communication, 50(3), 244\u2013263.","journal-title":"Speech Communication"},{"issue":"7","key":"1007_CR12","first-page":"1676","volume":"18","author":"A Sehr","year":"2010","unstructured":"Sehr, A., Maas, R., & Kellermann, W. (2010). Reverberation model-based decoding in the logmelspec domain for robust distant-talking speech recognition. IEEE Transactions on ASLP, 18(7), 1676\u20131691.","journal-title":"IEEE Transactions on ASLP"},{"key":"1007_CR13","doi-asserted-by":"crossref","unstructured":"Sadjadi, S.O., & Hasnen, J.H.L. (2011). Hilbert envelope based features for robust speaker identification under reverberant mismatched conditions. In Proceedings of IEEE ICASSP (pp. 5448\u20135451).","DOI":"10.1109\/ICASSP.2011.5947591"},{"key":"1007_CR14","unstructured":"Kinoshita, K., Delcroix, M., Nakatani, T., & Miyoshi, M. (2006). Spectral subtraction steered by multistep forward linear prediction for single channel speech dereverberation. In Proceedings of IEEE ICASSP (Vol. 2006, pp. 817\u2013820)."},{"key":"1007_CR15","doi-asserted-by":"crossref","unstructured":"Wang, L., Odani, K., & Kai, A. (2012). Dereverberation and denoising based on generalized spectral subtraction by multi-channel LMS algorithm using a small-scale microphone array. EURASIP Journal on Advances in Signal Processing, 2012, 12.","DOI":"10.1186\/1687-6180-2012-12"},{"key":"1007_CR16","doi-asserted-by":"crossref","unstructured":"Wang, L., Kitaoka, N., & Nakagawa, S. (2011). Distant-talking speech recognition based on spectral subtraction by multi-channel LMS algorithm. IEICE Transactions on Information and Systems, E94-D(3), 659\u2013667.","DOI":"10.1587\/transinf.E94.D.659"},{"key":"1007_CR17","doi-asserted-by":"crossref","unstructured":"Wang, L., Zhang, Z., & Kai, A. (2013). Hands-free speaker identification based on spectral subtraction using a multi-channel least mean square approach. Proceedings of IEEE ICASSP, 2013, 7224\u20137228.","DOI":"10.1109\/ICASSP.2013.6639065"},{"issue":"2","key":"1007_CR18","doi-asserted-by":"crossref","first-page":"254","DOI":"10.1109\/TASSP.1981.1163530","volume":"29","author":"S Furui","year":"1981","unstructured":"Furui, S. (1981). Cepstral Analysis Technique for automatic speaker verification. IEEE Transactions on Acoustics, Speech, and Signal Processing, 29(2), 254\u2013272.","journal-title":"IEEE Transactions on Acoustics, Speech, and Signal Processing"},{"key":"1007_CR19","doi-asserted-by":"crossref","unstructured":"Liu, F., Stern, R., Huang, X., & Acero, A. (1993). Efficient cepstral normalization for robust speech recognition. In Proceedings of ARPA Speech Natural Language Workshop (pp. 69\u201374).","DOI":"10.3115\/1075671.1075688"},{"key":"1007_CR20","doi-asserted-by":"crossref","unstructured":"Wang, L., Kitaoka, N., & Nakagawa, S. (2007). Robust distant speech recognition by combining position-dependent CMN with conventional CMN. Proceedings of ICASSP, 817\u2013820.","DOI":"10.1109\/ICASSP.2007.367038"},{"issue":"2","key":"1007_CR21","doi-asserted-by":"crossref","first-page":"113","DOI":"10.1109\/TASSP.1979.1163209","volume":"27","author":"S Boll","year":"1979","unstructured":"Boll, S. (1979). Suppression of acoustic noise in speech using spectral subtraction. IEEE Transactions on Acoustics, Speech, and Signal Processing, 27(2), 113\u2013120.","journal-title":"IEEE Transactions on Acoustics, Speech, and Signal Processing"},{"issue":"2","key":"1007_CR22","doi-asserted-by":"crossref","first-page":"312","DOI":"10.1109\/TASL.2008.2009161","volume":"17","author":"M Wolfel","year":"2009","unstructured":"Wolfel, M (2009). Enhanced speech features by single-channel joint compensation of noise and reverberation. IEEE Transactions on Audio Speech Language Processing, 17(2), 312\u2013323.","journal-title":"IEEE Transactions on Audio Speech Language Processing"},{"key":"1007_CR23","unstructured":"Konig, Y., Heck, L., Weintraub, M., & Sonmez, K. (1998). Nonlinear discriminant feature extraction for robust text-independent speaker recognition. In Proceedings of RLA2C: ESCA workshop on speaker recognition and its commercial and forensic applications (pp. 72\u201375)."},{"key":"1007_CR24","doi-asserted-by":"crossref","first-page":"2141","DOI":"10.21437\/Interspeech.2005-695","volume":"2005","author":"Q Zhu","year":"2005","unstructured":"Zhu, Q., Stolcke, A., Chen, B.Y., & Morgan, N. (2005). Using MLP features in SRI\u2019s conversational speech recognition system. INTERSPEECH, 2005, 2141\u20132144.","journal-title":"INTERSPEECH"},{"key":"1007_CR25","first-page":"3371","volume":"11","author":"P Vincent","year":"2010","unstructured":"Vincent, P., Larochelle, H., Lajoie, I., Bengio, Y., & Manzagol, P. A. (2010). Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion. Journal of Machine Learning Research, 11, 3371\u20133408.","journal-title":"Journal of Machine Learning Research"},{"key":"1007_CR26","unstructured":"Lu, X., Tsao, Y., Matsuda, S., & Hori, C. (2013). Speech enhancement based on deep denoising autoencoder, In Proceedings of Interspeech (pp. 436\u2013440)."},{"key":"1007_CR27","doi-asserted-by":"crossref","unstructured":"Ishii, T., Komiyama, H., Shinozaki, T., Horiuchi, Y., & Kuroiwa, S. (2013). Reverberant speech recognition based on denoising autoencoder. In Proceedings of Interspeech (pp. 3512\u2013 3516).","DOI":"10.21437\/Interspeech.2013-267"},{"issue":"3","key":"1007_CR28","doi-asserted-by":"crossref","first-page":"199","DOI":"10.1250\/ast.20.199","volume":"20","author":"K Itou","year":"1999","unstructured":"Itou, K., Yamamoto, M., Takeda, K., Kakezawa, T., Matsuoka, T., Kobayashi, T., Shikano, K., & Itahashi, S. (1999). JNAS: Janpanese speech corpus for large vocabulary continuous speech recognition research. J. Acoust. Soc. Jpn. (E), 20(3), 199\u2013 206.","journal-title":"J. Acoust. Soc. Jpn. (E)"},{"issue":"5786","key":"1007_CR29","doi-asserted-by":"crossref","first-page":"504","DOI":"10.1126\/science.1127647","volume":"313","author":"G Hinton","year":"2006","unstructured":"Hinton, G., & Salakhutdinov, R. (2006). Reducing the dimensionality of data with neural networks. Science, 313(5786), 504\u2013507.","journal-title":"Science"},{"key":"1007_CR30","doi-asserted-by":"crossref","unstructured":"Yamada, T., Wang, L., & Kai, A. (2013). Improvement of distant-talking speaker identification using bottleneck features of DNN. In Proceedings of Interspeech (pp. 3661\u2013 3664).","DOI":"10.21437\/Interspeech.2013-686"},{"issue":"8","key":"1007_CR31","doi-asserted-by":"crossref","first-page":"1662","DOI":"10.1109\/TASL.2008.2002082","volume":"16","author":"X Xiao","year":"2008","unstructured":"Xiao, X., Chng, E.S., & Li, H. (2008). Normalization of the speech modulation spectra for robust speech recognition. IEEE Transactions on Audio Speech, and Language Processing, 16(8), 1662\u20131674.","journal-title":"IEEE Transactions on Audio Speech, and Language Processing"},{"issue":"7","key":"1007_CR32","doi-asserted-by":"crossref","first-page":"500","DOI":"10.1109\/LSP.2006.891341","volume":"14","author":"X Xiao","year":"2007","unstructured":"Xiao, X., Chng, E.S., & Li, H. (2007). Temporal structure normalization of speech feature for robust speech recognition. IEEE Signal Processing Letters, 14(7), 500\u2013503.","journal-title":"IEEE Signal Processing Letters"},{"key":"1007_CR33","doi-asserted-by":"crossref","unstructured":"Kinoshita, K., Delcroix, M., Yoshioka, T., Nakatani, T., Habets, E., Haeb-Umbach, R., Leutnant, V., Sehr, A., Kellermann, W., Maas, R., Gannot, S., & Raj, B (2013). The REVERB challenge: A common evaluation framework for dereverberation and recognition of reverberant speech. In Proceedings of the IEEE workshop on applications of signal processing to audio and acoustics (WASPAA-13).","DOI":"10.1109\/WASPAA.2013.6701894"},{"key":"1007_CR34","unstructured":"Robinson, T., Fransen, J., Pye, D., Foote, J., & Renals, S. (1995). Wsjcam0: A british english speech corpus for large vocabulary continuous speech recognition. In Proceedings of ICASSP (Vol. 95, pp. 81\u201384)."},{"key":"1007_CR35","doi-asserted-by":"crossref","unstructured":"Lincoln, M., McCowan, I., Vepa, I., & Maganti, H. K. (2005). The multi-channel wall street journal audio visual corpus (MC-WSJ-AV): Specification and initial experiments. In Proceedings of ASRU (pp. 357\u2013362).","DOI":"10.1109\/ASRU.2005.1566470"},{"key":"1007_CR36","unstructured":"Young, S., Kershow, D., Odell, J., Ollason, D., Valtchev, V., & Woodland, P. (2000). The HTK book (for HTK version 3.0): Cambridge University."},{"key":"1007_CR37","doi-asserted-by":"crossref","first-page":"249","DOI":"10.1006\/csla.1996.0013","volume":"10","author":"MJF Gales","year":"1996","unstructured":"Gales, M.J.F., & Woodland, P.C. (1996). Mean and variance adaptation within the MLLR framework. Computer Speech & Language, 10, 249\u2013264.","journal-title":"Computer Speech & Language"}],"container-title":["Journal of Signal Processing Systems"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11265-015-1007-3.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11265-015-1007-3\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11265-015-1007-3","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,5,8]],"date-time":"2022-05-08T02:32:41Z","timestamp":1651977161000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11265-015-1007-3"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2015,5,15]]},"references-count":37,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2016,2]]}},"alternative-id":["1007"],"URL":"https:\/\/doi.org\/10.1007\/s11265-015-1007-3","relation":{},"ISSN":["1939-8018","1939-8115"],"issn-type":[{"value":"1939-8018","type":"print"},{"value":"1939-8115","type":"electronic"}],"subject":[],"published":{"date-parts":[[2015,5,15]]}}}