{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,4]],"date-time":"2026-04-04T03:50:18Z","timestamp":1775274618812,"version":"3.50.1"},"reference-count":26,"publisher":"Springer Science and Business Media LLC","issue":"6","license":[{"start":{"date-parts":[[2018,11,17]],"date-time":"2018-11-17T00:00:00Z","timestamp":1542412800000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Circuits Syst Signal Process"],"published-print":{"date-parts":[[2019,6]]},"DOI":"10.1007\/s00034-018-0990-6","type":"journal-article","created":{"date-parts":[[2018,11,17]],"date-time":"2018-11-17T10:15:41Z","timestamp":1542449741000},"page":"2767-2791","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":5,"title":["Keyword Spotting in Continuous Speech Using Spectral and Prosodic Information Fusion"],"prefix":"10.1007","volume":"38","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-8523-7741","authenticated-orcid":false,"given":"Laxmi","family":"Pandey","sequence":"first","affiliation":[]},{"given":"Rajesh M.","family":"Hegde","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2018,11,17]]},"reference":[{"key":"990_CR1","doi-asserted-by":"crossref","unstructured":"Y.\u00a0Benayed, D.\u00a0Fohr, J.P. Haton, G.\u00a0Chollet. Confidence measures for keyword spotting using support vector machines, in Proceedings of 2003 IEEE International Conference on Acoustics, Speech, and Signal Processing, 2003 (ICASSP\u201903), vol.\u00a01, pp. I-588\u2013I-591 (April 2003)","DOI":"10.1109\/ICASSP.2003.1198849"},{"key":"990_CR2","doi-asserted-by":"crossref","unstructured":"L. Bottou, Large-scale machine learning with stochastic gradient descent, in ProceedingsCOMPSTAT\u20192010. Springer, pp. 177\u2013186 (2010)","DOI":"10.1007\/978-3-7908-2604-3_16"},{"key":"990_CR3","doi-asserted-by":"crossref","unstructured":"G. Chen, C. Parada, G. Heigold, Small-footprint keyword spotting using deep neural networks, in 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) May 2014, pp. 4087\u20134091 (2014)","DOI":"10.1109\/ICASSP.2014.6854370"},{"issue":"2","key":"990_CR4","doi-asserted-by":"publisher","first-page":"141","DOI":"10.1177\/002383099704000203","volume":"40","author":"A Cutler","year":"1997","unstructured":"A. Cutler, D. Dahan, W. Van Donselaar, Prosody in the comprehension of spoken language: a literature review. Lang. Speech 40(2), 141\u2013201 (1997)","journal-title":"Lang. Speech"},{"issue":"1","key":"990_CR5","doi-asserted-by":"publisher","first-page":"30","DOI":"10.1109\/TASL.2011.2134090","volume":"20","author":"GE Dahl","year":"2012","unstructured":"G.E. Dahl, D. Yu, L. Deng, A. Acero, Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. IEEE Trans. Audio, Speech Lang. Process. 20(1), 30\u201342 (2012)","journal-title":"IEEE Trans. Audio, Speech Lang. Process."},{"key":"990_CR6","unstructured":"R. Darg\u0300is, A. Znoti\u0146\u0161, Baseline for keyword spotting in latvian broadcast speech, in Human Language Technologies-The Baltic Perspective: Proceedings of the Sixth International Conference Baltic HLT 2014, vol. 268. IOS Press, pp. 75\u201382 (2014)"},{"issue":"3","key":"990_CR7","doi-asserted-by":"publisher","first-page":"361","DOI":"10.1016\/S0959-440X(96)80056-X","volume":"6","author":"SR Eddy","year":"1996","unstructured":"S.R. Eddy, Hidden Markov models. Curr. Opin. Struct. Biol. 6(3), 361\u2013365 (1996)","journal-title":"Curr. Opin. Struct. Biol."},{"key":"990_CR8","doi-asserted-by":"crossref","unstructured":"X. Feng, Y. Zhang, J. Glass, Speech feature denoising and dereverberation via deep autoencoders for noisy reverberant speech recognition, in 2014 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, pp. 1759\u20131763 (2014)","DOI":"10.1109\/ICASSP.2014.6853900"},{"issue":"2","key":"990_CR9","doi-asserted-by":"publisher","first-page":"75","DOI":"10.1006\/csla.1998.0043","volume":"12","author":"MJF Gales","year":"1998","unstructured":"M.J.F. Gales, Maximum likelihood linear transformations for hmm-based speech recognition. Comput. Speech Lang. 12(2), 75\u201398 (1998)","journal-title":"Comput. Speech Lang."},{"key":"990_CR10","doi-asserted-by":"crossref","unstructured":"A. Graves, A. Mohamed, G. Hinton, Speech recognition with deep recurrent neural networks, in 2013 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6645\u20136649 (2013)","DOI":"10.1109\/ICASSP.2013.6638947"},{"key":"990_CR11","unstructured":"W. Han, C.-F. Chan, C.-S. Choy, K.-P. Pun, An efficient mfcc extraction method in speech recognition, in 2006 IEEE International Symposium on Circuits and Systems"},{"issue":"2","key":"990_CR12","doi-asserted-by":"publisher","first-page":"354","DOI":"10.1109\/TASL.2008.2010286","volume":"17","author":"Y Hifny","year":"2009","unstructured":"Y. Hifny, S. Renals, Speech recognition using augmented conditional random fields. IEEE Trans. Audio Speech Lang. Process. 17(2), 354\u2013365 (2009)","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"issue":"6","key":"990_CR13","doi-asserted-by":"publisher","first-page":"82","DOI":"10.1109\/MSP.2012.2205597","volume":"29","author":"G Hinton","year":"2012","unstructured":"G. Hinton, L. Deng, Y. Dong, G.E. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T.N. Sainath et al., Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups. IEEE Signal Process. Mag. 29(6), 82\u201397 (2012)","journal-title":"IEEE Signal Process. Mag."},{"key":"990_CR14","doi-asserted-by":"crossref","unstructured":"J. Junkawitsch, L. Neubauer, H.\u00a0Hoge, G. Ruske, A new keyword spotting algorithm with pre-calculated optimal thresholds, in Proceedings of the Fourth International Conference on Spoken Language, 1996. ICSLP 96, vol. 4. IEEE, pp. 2067\u20132070 (1996)","DOI":"10.21437\/ICSLP.1996-524"},{"key":"990_CR15","doi-asserted-by":"crossref","first-page":"259","DOI":"10.21437\/Eurospeech.1997-92","volume":"97","author":"J Junkawitsch","year":"1997","unstructured":"J. Junkawitsch, G. Ruske, H. H\u00f6ge, Efficient methods for detecting keywords in continuous speech. EUROSPEECH 97, 259\u2013262 (1997)","journal-title":"EUROSPEECH"},{"key":"990_CR16","unstructured":"D. Kingma, J. Ba, Adam: a method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014)"},{"issue":"7553","key":"990_CR17","doi-asserted-by":"publisher","first-page":"436","DOI":"10.1038\/nature14539","volume":"521","author":"Y LeCun","year":"2015","unstructured":"Y. LeCun, Y. Bengio, G. Hinton, Deep learning. Nature 521(7553), 436\u2013444 (2015)","journal-title":"Nature"},{"key":"990_CR18","doi-asserted-by":"crossref","unstructured":"X. Lu, Y.\u00a0Tsao, S. Matsuda, C. Hori, Speech enhancement based on deep denoising autoencoder, in Interspeech, pp. 436\u2013440 (2013)","DOI":"10.21437\/Interspeech.2013-130"},{"key":"990_CR19","doi-asserted-by":"crossref","unstructured":"J. Ming, F.J. Smith, Improved phone recognition using Bayesian triphone models, in Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing, 1998, vol. 1, pp. 409\u2013412 (1998)","DOI":"10.1109\/ICASSP.1998.674454"},{"issue":"1","key":"990_CR20","doi-asserted-by":"publisher","first-page":"4","DOI":"10.1109\/MASSP.1986.1165342","volume":"3","author":"L Rabiner","year":"1986","unstructured":"L. Rabiner, B. Juang, An introduction to hidden Markov models. IEEE ASSP Mag. 3(1), 4\u201316 (1986)","journal-title":"IEEE ASSP Mag."},{"issue":"2","key":"990_CR21","doi-asserted-by":"publisher","first-page":"257","DOI":"10.1109\/5.18626","volume":"77","author":"LR Rabiner","year":"1989","unstructured":"L.R. Rabiner, A tutorial on hidden Markov models and selected applications in speech recognition. Proc. IEEE 77(2), 257\u2013286 (1989)","journal-title":"Proc. IEEE"},{"key":"990_CR22","doi-asserted-by":"crossref","unstructured":"V. Rangarajan, B. Srinivas, S. Narayanan, Exploiting prosodic features for dialog act tagging in a discriminative modeling framework, in Proceedings of Interspeech. Antwerp, Belgium (2007)","DOI":"10.21437\/Interspeech.2007-61"},{"issue":"4","key":"990_CR23","doi-asserted-by":"publisher","first-page":"407","DOI":"10.1016\/j.csl.2008.12.001","volume":"23","author":"S Rangarajan","year":"2009","unstructured":"S. Rangarajan, V. Kumar, B. Srinivas, S. Narayanan, Combining lexical, syntactic and prosodic cues for improved online dialog act tagging. Comput. Speech Lang. 23(4), 407\u2013422 (2009)","journal-title":"Comput. Speech Lang."},{"key":"990_CR24","doi-asserted-by":"crossref","unstructured":"V.\u00a0Tyagi, Hybrid context dependent cd-dnn-hmm keyword spotting (kws) in speech conversations, in 2016 IEEE 26th International Workshop on Machine Learning for Signal Processing (MLSP), pp. 1\u20136, (Sept 2016)","DOI":"10.1109\/MLSP.2016.7738862"},{"key":"990_CR25","doi-asserted-by":"crossref","unstructured":"K. Vesel\u1ef3, A. Ghoshal, L. Burget, D. Povey, Sequence-discriminative training of deep neural networks, in Interspeech, pp. 2345\u20132349 (2013)","DOI":"10.21437\/Interspeech.2013-548"},{"key":"990_CR26","first-page":"979","volume-title":"Measuring Multi-modality Similarities via Subspace Learning for Cross-Media Retrieval","author":"H Zhang","year":"2006","unstructured":"H. Zhang, J. Weng, Measuring Multi-modality Similarities via Subspace Learning for Cross-Media Retrieval (Springer Berlin Heidelberg, Berlin, Heidelberg, 2006), pp. 979\u2013988"}],"container-title":["Circuits, Systems, and Signal Processing"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-018-0990-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s00034-018-0990-6\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-018-0990-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,4]],"date-time":"2026-04-04T02:58:30Z","timestamp":1775271510000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s00034-018-0990-6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,11,17]]},"references-count":26,"journal-issue":{"issue":"6","published-print":{"date-parts":[[2019,6]]}},"alternative-id":["990"],"URL":"https:\/\/doi.org\/10.1007\/s00034-018-0990-6","relation":{},"ISSN":["0278-081X","1531-5878"],"issn-type":[{"value":"0278-081X","type":"print"},{"value":"1531-5878","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018,11,17]]},"assertion":[{"value":"5 July 2017","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"9 November 2018","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"10 November 2018","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"17 November 2018","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}