{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,22]],"date-time":"2026-04-22T18:59:29Z","timestamp":1776884369306,"version":"3.51.2"},"reference-count":37,"publisher":"Springer Science and Business Media LLC","issue":"4","license":[{"start":{"date-parts":[[2017,10,26]],"date-time":"2017-10-26T00:00:00Z","timestamp":1508976000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2017,10,26]],"date-time":"2017-10-26T00:00:00Z","timestamp":1508976000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"funder":[{"DOI":"10.13039\/100006602","name":"Air Force Research Laboratory","doi-asserted-by":"publisher","award":["FA8750-15-1-0205"],"award-info":[{"award-number":["FA8750-15-1-0205"]}],"id":[{"id":"10.13039\/100006602","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Distinguished University Chair in Telecommunications Engineering; UTDallas"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Speech Technol"],"published-print":{"date-parts":[[2017,12]]},"DOI":"10.1007\/s10772-017-9461-x","type":"journal-article","created":{"date-parts":[[2017,10,26]],"date-time":"2017-10-26T12:43:01Z","timestamp":1509021781000},"page":"1063-1075","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":14,"title":["Deep neural network training for whispered speech recognition using small databases and generative model sampling"],"prefix":"10.1007","volume":"20","author":[{"given":"Shabnam","family":"Ghaffarzadegan","sequence":"first","affiliation":[]},{"given":"Hynek","family":"Bo\u0159il","sequence":"additional","affiliation":[]},{"given":"John H. L.","family":"Hansen","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2017,10,26]]},"reference":[{"issue":"6","key":"9461_CR1","doi-asserted-by":"publisher","first-page":"1304","DOI":"10.1121\/1.1914702","volume":"55","author":"BS Atal","year":"1974","unstructured":"Atal, B. S. (1974). Effectiveness of linear prediction characteristics of the speech wave for automatic speaker identification and verification. The Journal of the Acoustical Society of America, 55(6), 1304\u20131312.","journal-title":"The Journal of the Acoustical Society of America"},{"key":"9461_CR2","doi-asserted-by":"crossref","unstructured":"Bo\u0159il, H., Gr\u00e9zl, F., & Hansen, J. H. L. (2011). Front-end compensation methods for LVCSR under Lombard effect. INTERSPEECH 2011 Florence, pp. 1257\u20131260","DOI":"10.21437\/Interspeech.2011-100"},{"key":"9461_CR3","unstructured":"Bo\u0159il, H., & Hansen, J. H. L. (2011). UT-Scope: Towards LVCSR under Lombard effect induced by varying types and levels of noisy background. In IEEE ICASSP 2011, May 22\u201327, 2011, Prague, pp. 4472\u20134475."},{"key":"9461_CR4","doi-asserted-by":"crossref","unstructured":"Bou-Ghazale, S., & Hansen, J. H. L. (1994). Duration and spectral based stress token generation for HMM speech recognition under stress. In Proceedings of ICASSP \u201994, Adelaide, April 19\u201322, pp. 413\u2013416.","DOI":"10.1109\/ICASSP.1994.389268"},{"issue":"1\u20132","key":"9461_CR5","doi-asserted-by":"publisher","first-page":"93","DOI":"10.1016\/S0167-6393(96)00047-7","volume":"20","author":"S Bou-Ghazale","year":"1996","unstructured":"Bou-Ghazale, S., & Hansen, J. H. L. (1996). Generating stressed speech from neutral speech using a modified celp vocoder. Speech Communication, 20(1\u20132), 93\u2013110.","journal-title":"Speech Communication"},{"issue":"1","key":"9461_CR6","doi-asserted-by":"crossref","first-page":"69","DOI":"10.1111\/1467-9884.00117","volume":"47","author":"S Brooks","year":"1998","unstructured":"Brooks, S. (1998). Markov chain monte carlo method and its application. Journal of the Royal Statistical Society, 47(1), 69\u2013100.","journal-title":"Journal of the Royal Statistical Society"},{"issue":"3","key":"9461_CR7","doi-asserted-by":"crossref","first-page":"167","DOI":"10.1080\/00031305.1992.10475878","volume":"46","author":"G Casella","year":"1992","unstructured":"Casella, G., & George, E. I. (1992). Explaining the gibbs sampler. The American Statistician, 46(3), 167\u2013174.","journal-title":"The American Statistician"},{"issue":"1","key":"9461_CR8","doi-asserted-by":"publisher","first-page":"30","DOI":"10.1109\/TASL.2011.2134090","volume":"20","author":"G Dahl","year":"2012","unstructured":"Dahl, G., Yu, D., Deng, L., & Acero, A. (2012). Context-dependent pre-trained deep neural networks for large vocabulary speech recognition. IEEE Transactions on Audio, Speech, and Language Processing, 20(1), 30\u201342.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"issue":"4","key":"9461_CR9","doi-asserted-by":"publisher","first-page":"357","DOI":"10.1109\/TASSP.1980.1163420","volume":"28","author":"SB Davis","year":"1980","unstructured":"Davis, S. B., & Mermelstein, P. (1980). Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IEEE Transactions on Acoustics, Speech, and Signal Processing, 28(4), 357\u2013366.","journal-title":"IEEE Transactions on Acoustics, Speech, and Signal Processing"},{"key":"9461_CR10","doi-asserted-by":"crossref","unstructured":"Deng, L., Hinton, G., & Kingsbury, B. New types of deep neural network learning for speech recognition and related applications: An overview. In ICASSP 2013, Vancouver, pp. 8599\u20138603.","DOI":"10.1109\/ICASSP.2013.6639344"},{"key":"9461_CR11","doi-asserted-by":"publisher","first-page":"75","DOI":"10.1006\/csla.1998.0043","volume":"12","author":"M Gales","year":"1998","unstructured":"Gales, M. (1998). Maximum likelihood linear transformations for hmm-based speech recognition. Computer Speech and Language, 12, 75\u201398.","journal-title":"Computer Speech and Language"},{"issue":"10","key":"9461_CR12","doi-asserted-by":"publisher","first-page":"1705","DOI":"10.1109\/TASLP.2016.2580944","volume":"24","author":"S Ghaffarzadegan","year":"2016","unstructured":"Ghaffarzadegan, S., Bo\u0159il, H., & Hansen, J. H. L. (2016). Generative modeling of pseudo-whisper for robust whispered speech recognition. IEEE\/ACM Transactions on Audio, Speech, and Language Processing, 24(10), 1705\u20131720.","journal-title":"IEEE\/ACM Transactions on Audio, Speech, and Language Processing"},{"key":"9461_CR13","doi-asserted-by":"crossref","unstructured":"Ghaffarzadegan, S., Bo\u0159il, H., & Hansen, J. H. L. (2014a). Model and feature based compensation for whispered speech recognition. In Interspeech 2014, Singapore, pp. 2420\u20132424.","DOI":"10.21437\/Interspeech.2014-232"},{"key":"9461_CR14","doi-asserted-by":"crossref","unstructured":"Ghaffarzadegan, S., Bo\u0159il, H., & Hansen, J. H. L. (2014b). UT-VOCAL EFFORT II: Analysis and constrained-lexicon recognition of whispered speech. In IEEE ICASSP 2014, Florence, pp. 2563\u20132567.","DOI":"10.1109\/ICASSP.2014.6854059"},{"key":"9461_CR15","doi-asserted-by":"crossref","unstructured":"Ghaffarzadegan, S., Bo\u0159il, H., & Hansen, J. H. L. (2015). Generative modeling of pseudo-target domain adaptation samples for whispered speech recognition. In IEEE ICASSP 2015, Brisbane.","DOI":"10.1109\/ICASSP.2015.7178927"},{"key":"9461_CR16","doi-asserted-by":"crossref","unstructured":"Haeb-Umbach, R., & Ney, H. (1992). Linear discriminant analysis for improved large vocabulary continuous speech recognition. ICASSP 1992, Washington, DC, pp. 13\u201316.","DOI":"10.1109\/ICASSP.1992.225984"},{"key":"9461_CR17","first-page":"587","volume":"2","author":"H Hermansky","year":"1994","unstructured":"Hermansky, H., & Morgan, N. (1994). RASTA processing of speech. In IEEE Transactions on Speech and Acoustics, 2, 587\u2013589.","journal-title":"In IEEE Transactions on Speech and Acoustics"},{"issue":"6","key":"9461_CR18","doi-asserted-by":"publisher","first-page":"82","DOI":"10.1109\/MSP.2012.2205597","volume":"29","author":"G Hinton","year":"2012","unstructured":"Hinton, G., Deng, L., Yu, D., rahman Mohamed, A., Jaitly, N., Senior, A., et al. (2012). Deep neural networks for acoustic modeling in speech recognition. IEEE Signal Processing Magazine, 29(6), 82\u201397.","journal-title":"IEEE Signal Processing Magazine"},{"issue":"2","key":"9461_CR19","doi-asserted-by":"publisher","first-page":"137","DOI":"10.1016\/j.ijar.2003.06.001","volume":"35","author":"C Huang","year":"2004","unstructured":"Huang, C., & Moraga, C. (2004). A diffusion-neural-network for learning from small samples. International Journal of Approximate Reasoning, 35(2), 137\u2013161.","journal-title":"International Journal of Approximate Reasoning"},{"issue":"6","key":"9461_CR20","doi-asserted-by":"publisher","first-page":"1094","DOI":"10.1109\/TASL.2009.2023162","volume":"18","author":"H Ketabdar","year":"2010","unstructured":"Ketabdar, H., & Bourlard, H. (2010). Enhanced phone posteriors for improving speech recognition systems. IEEE Transactions on Audio, Speech, and Language Processing, 18(6), 1094\u20131106.","journal-title":"IEEE Transactions on Audio, Speech, and Language Processing"},{"key":"9461_CR21","doi-asserted-by":"crossref","unstructured":"Lasserre, J. A., Bishop, C. M., & Minka, T. P. (2006). Principled hybrids of generative and discriminative models. In Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition - Volume 1, CVPR \u201906, Washington, DC, USA. IEEE Computer Society, pp. 87\u201394.","DOI":"10.1109\/CVPR.2006.227"},{"issue":"4","key":"9461_CR22","doi-asserted-by":"publisher","first-page":"966","DOI":"10.1016\/j.cor.2005.05.019","volume":"34","author":"D Li","year":"2007","unstructured":"Li, D., Wu, C., Tsai, T., & Lin, Y. (2007a). Using mega-trend-diffusion and artificial samples in small data set learning for early flexible manufacturing system scheduling knowledge. Computers & Operations Research, 34(4), 966\u2013982.","journal-title":"Computers & Operations Research"},{"issue":"2","key":"9461_CR23","doi-asserted-by":"publisher","first-page":"420","DOI":"10.1016\/j.eswa.2006.05.028","volume":"33","author":"D-C Li","year":"2007","unstructured":"Li, D.-C., Hsu, H.-C., Tsai, T.-I., Lu, T.-J., & Hu, S. C. (2007b). A new method to help diagnose cancers for small sample size. Expert Systems with Applications, 33(2), 420\u2013424.","journal-title":"Expert Systems with Applications"},{"issue":"5","key":"9461_CR24","doi-asserted-by":"publisher","first-page":"729","DOI":"10.1109\/TIT.1982.1056544","volume":"28","author":"L Liporace","year":"2006","unstructured":"Liporace, L. (2006). Maximum likelihood estimation for multivariate observations of markov sources. IEEE Transactions on Information Theory, 28(5), 729\u2013734.","journal-title":"IEEE Transactions on Information Theory"},{"key":"9461_CR25","unstructured":"Mao, R., Chen, A., Zhang, L., & Zhu, H. (2006). A new method to assist small data set neural network learning. 2006 6th International Conference on Intelligent Systems Design and Applications, 01:17\u201322."},{"key":"9461_CR26","unstructured":"Matsoukas, S., Schwartz, R., Jin, H., & Nguyen, L. (1997). Practical implementations of speaker-adaptive training. In DARPA Speech Recognition Workshop."},{"key":"9461_CR27","first-page":"113","volume":"54","author":"RM Neal","year":"2010","unstructured":"Neal, R. M. (2010). MCMC using Hamiltonian dynamics. Handbook of Markov Chain Monte Carlo, 54, 113\u2013162.","journal-title":"Handbook of Markov Chain Monte Carlo"},{"key":"9461_CR28","unstructured":"Ng, A. Y., & Jordan, M. I. (2002). On discriminative vs. generative classifiers: A comparison of logistic regression and naive Bayes. In Advances in Neural Information Processing Systems 14, MIT Press, pp. 841\u2013848."},{"key":"9461_CR29","unstructured":"Povey, D., Ghoshal, A., Boulianne, G., Burget, L., Glembek, O., Goel, N., Hannemann, M., Motlicek, P., Qian, Y., Schwarz, P., Silovsky, J., Stemmer, G., & Vesely, K. (2011). The Kaldi speech recognition toolkit. In IEEE 2011 Workshop on Automatic Speech Recognition and Understanding."},{"key":"9461_CR30","unstructured":"Rabiner, L. R. (1990). Readings in speech recognition. chapter A tutorial on hidden Markov models and selected applications in speech Recognition, San Francisco: Morgan Kaufmann Publishers Inc., pp. 267\u2013296."},{"key":"9461_CR31","unstructured":"Rubinstein, Y. D. & Hastie, T. (1997). Discriminative vs informative learning. In proc. third int. conf. on knowledge discovery and data mining. AAAI Press, pp. 49\u201353"},{"key":"9461_CR32","doi-asserted-by":"crossref","unstructured":"Seide, F., Li, G., & Yu, D. (2011). Conversational speech transcription using context-dependent deep neural networks. International Speech Communication Association.","DOI":"10.21437\/Interspeech.2011-169"},{"key":"9461_CR33","doi-asserted-by":"crossref","unstructured":"Seltzer, M., Yu, D., & Wang, Y. (2013). An investigation of deep neural networks for noise robust speech recognition. In IEEE ICASSP 2013, Vancouver.","DOI":"10.1109\/ICASSP.2013.6639100"},{"key":"9461_CR34","unstructured":"Young, S. (1996). A review of large-vocabulary continuous-speech recognition. IEEE Signal Processing Magazine, 1996, 13(5)."},{"key":"9461_CR35","doi-asserted-by":"crossref","unstructured":"Zhang, C., & Hansen, J. H. L. (2009). Advancement in whisper-island detection with normally phonated audio streams. In ISCA INTERSPEECH, Brighton, pp. 860\u2013863.","DOI":"10.21437\/Interspeech.2009-261"},{"key":"9461_CR36","doi-asserted-by":"crossref","unstructured":"Zhang, X., Trmal, J., Povey, D., & Khudanpur, S. (2014). Improving deep neural network acoustic models using generalized maxout networks. In ICASSP 2014, Florence, May 4\u20139, 2014, pp. 215\u2013219.","DOI":"10.1109\/ICASSP.2014.6853589"},{"issue":"4","key":"9461_CR37","doi-asserted-by":"publisher","first-page":"351","DOI":"10.1016\/0167-6393(90)90010-7","volume":"9","author":"V Zue","year":"1990","unstructured":"Zue, V., Seneff, S., & Glass, J. (1990). Speech database development at MIT: TIMIT and beyond. Speech Communication, 9(4), 351\u2013356.","journal-title":"Speech Communication"}],"container-title":["International Journal of Speech Technology"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s10772-017-9461-x\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10772-017-9461-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10772-017-9461-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,6,28]],"date-time":"2024-06-28T01:48:48Z","timestamp":1719539328000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s10772-017-9461-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,10,26]]},"references-count":37,"journal-issue":{"issue":"4","published-print":{"date-parts":[[2017,12]]}},"alternative-id":["9461"],"URL":"https:\/\/doi.org\/10.1007\/s10772-017-9461-x","relation":{},"ISSN":["1381-2416","1572-8110"],"issn-type":[{"value":"1381-2416","type":"print"},{"value":"1572-8110","type":"electronic"}],"subject":[],"published":{"date-parts":[[2017,10,26]]},"assertion":[{"value":"5 May 2017","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"11 September 2017","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"26 October 2017","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}