{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T11:02:48Z","timestamp":1740135768603,"version":"3.37.3"},"reference-count":47,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2017,7,4]],"date-time":"2017-07-04T00:00:00Z","timestamp":1499126400000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Circuits Syst Signal Process"],"published-print":{"date-parts":[[2018,3]]},"DOI":"10.1007\/s00034-017-0598-2","type":"journal-article","created":{"date-parts":[[2017,7,4]],"date-time":"2017-07-04T10:28:53Z","timestamp":1499164133000},"page":"1177-1202","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["Transcription Correction Using Group Delay Processing for Continuous Speech Recognition"],"prefix":"10.1007","volume":"37","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-1332-6547","authenticated-orcid":false,"given":"Rajan","family":"Golda Brunet","sequence":"first","affiliation":[]},{"given":"A.","family":"Hema Murthy","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2017,7,4]]},"reference":[{"key":"598_CR1","doi-asserted-by":"crossref","unstructured":"O. Abdel-Hamid, A.R. Mohamed, H. Jiang, G. Penn, Applying convolutional neural networks concepts to hybrid nn-hmm model for speech recognition. ICASSP (2012). pp. 4277\u20134280","DOI":"10.1109\/ICASSP.2012.6288864"},{"key":"598_CR2","doi-asserted-by":"crossref","first-page":"83","DOI":"10.1016\/S0167-6393(99)00032-1","volume":"29","author":"M Adda-Decker","year":"1999","unstructured":"M. Adda-Decker, L. Lamel, Pronunciation variation across system configuration, language and speaking style. Speech Commun. 29, 83\u201398 (1999)","journal-title":"Speech Commun."},{"key":"598_CR3","doi-asserted-by":"crossref","unstructured":"R.G. Brunet, H.A. Murthy, Impact of pronunciation variation in speech recognition. In IEEE International Conference on Signal Processing and Communication (SPCOM), (Bangalore, 2012), pp. 1\u20135","DOI":"10.1109\/SPCOM.2012.6290037"},{"key":"598_CR4","doi-asserted-by":"crossref","first-page":"47","DOI":"10.1016\/j.jml.2003.08.003","volume":"50","author":"J Cholin","year":"2004","unstructured":"J. Cholin, N.O. Schiller, W.J. Levelta, The preparation of syllables in speech production. J. Mem. Lang. 50, 47\u201361 (2004)","journal-title":"J. Mem. Lang."},{"key":"598_CR5","unstructured":"K. Demuynck, T. Laureys, S. Gillis, Automatic generation of phonetic transcriptions for large speech corpora eds by J.H.L. Hansen, B.L. Pellom INTERSPEECH. ISCA (2002). http:\/\/dblp.uni-trier.de\/db\/conf\/interspeech\/interspeech2002.html#DemuynckLG02"},{"key":"598_CR6","unstructured":"M.W. Fisher, R.G. Doddington, M.K. Goudie-Marshall, The darpa speech recognition research database: specifications and status. Proceedings of DARPA workshop on speech recognition (1986). pp. 93\u201399"},{"key":"598_CR7","unstructured":"W. Fisher, Nist syllabification software. ftp:\/\/jaguar.ncsl.nist.gov\/pub\/"},{"key":"598_CR8","doi-asserted-by":"crossref","first-page":"63","DOI":"10.1016\/S0167-6393(98)00066-1","volume":"27","author":"T Fukada","year":"1999","unstructured":"T. Fukada, T. Yoshimura, Y. Sagisaka, Automatic generation of multiple pronunciations based on neural networks and language statistics. Speech Commun. 27, 63\u201373 (1999)","journal-title":"Speech Commun."},{"key":"598_CR9","doi-asserted-by":"crossref","first-page":"358","DOI":"10.1109\/89.917681","volume":"9","author":"A Ganapathiraju","year":"2001","unstructured":"A. Ganapathiraju, J. Hamaker, J. Picone, M. Ordowski, G.R. Doddington, Syllable-based large vocabulary continuous speech recognition. IEEE Trans. Speech Audio Process. 9, 358\u2013366 (2001)","journal-title":"IEEE Trans. Speech Audio Process."},{"key":"598_CR10","unstructured":"J.S. Garofolo, L.F. Lamel, W.M. Fisher, J.G. Fiscus, D.S. Pallett, N.L. Dahlgren, Timit acoustic-phonetic continuous speech corpus. https:\/\/catalog.ldc.upenn.edu\/LDC93S1 (1993)"},{"key":"598_CR11","unstructured":"J. Godfrey, E. Holliman, J. McDaniel, Switchboard: telephone speech corpus for research and development in ICASSP 92, IEEE International Conference on Speech Signal Processing"},{"key":"598_CR12","doi-asserted-by":"crossref","unstructured":"R. Golda Brunet, H.A. Murthy, Pronunciation variation across different dialects for english: A syllable-centric approach in National Conference on Communication 2012 (NCC 2012),","DOI":"10.1109\/NCC.2012.6176740"},{"key":"598_CR13","unstructured":"R. Golda Brunet, H.A. Murthy, Analysis of vowel deletion in continuous speech in Proceedings of the 21st European Signal Processing Conference (EUSIPCO)"},{"key":"598_CR14","doi-asserted-by":"crossref","first-page":"159","DOI":"10.1016\/S0167-6393(99)00050-3","volume":"29","author":"S Greenberg","year":"1999","unstructured":"S. Greenberg, Speaking in shorthand\u2013a syllable-centric perspective for understanding pronunciation variation. Elsevier Speech Commun. 29, 159\u2013176 (1999)","journal-title":"Elsevier Speech Commun."},{"key":"598_CR15","doi-asserted-by":"crossref","first-page":"190","DOI":"10.1109\/TASL.2006.876858","volume":"15","author":"RM Hegde","year":"2007","unstructured":"R.M. Hegde, H.A. Murthy, V.R. Gadde, Significance of the modified group delay feature in speech recognition. IEEE Trans. Audio, Speech, Lang. Process. 15, 190\u2013202 (2007)","journal-title":"IEEE Trans. Audio, Speech, Lang. Process."},{"key":"598_CR16","unstructured":"R.M. Hegde, H.A. Murthy, V.R.R. Gadde, Continuous speech recognition using joint features derived from the modified group delay function and mfcc. Proc. INTERSPEECH-ICSLP 2, (2004). pp. 905\u2013908"},{"key":"598_CR17","doi-asserted-by":"crossref","first-page":"257","DOI":"10.1109\/5.18626","volume":"77","author":"LRM Hill","year":"1989","unstructured":"L.R.M. Hill, A tutorial on hidden Markov models and selected applications in speech recognition. Proc. IEEE 77, 257\u2013286 (1989)","journal-title":"Proc. IEEE"},{"key":"598_CR18","unstructured":"G. Hirsch, Experimental framework for the performance evaluation of speech recognition front-ends on a large vocabulary task, version 2.0. ETSI STQ-Aurora DSR Working Group (2002). https:\/\/www.isip.piconepress.com\/projects\/aurora\/doc\/AU41702_Large_Vocabulary_Evaluation_Database_v2.0.pdf"},{"key":"598_CR19","doi-asserted-by":"crossref","first-page":"117","DOI":"10.1016\/S0167-6393(99)00036-9","volume":"29","author":"T Holter","year":"1999","unstructured":"T. Holter, T. Svendsen, Maximum likelihood modelling of pronunciation variation. Speech Commun. 29, 117\u2013191 (1999)","journal-title":"Speech Commun."},{"key":"598_CR20","volume-title":"Spoken Language Processing","author":"X Huang","year":"2001","unstructured":"X. Huang, A. Acero, H.W. Hon, Spoken Language Processing (Prentice Hall Inc., Upper Saddle River, 2001)"},{"key":"598_CR21","unstructured":"M.K. Jayesh, C.S. Ramalingam, An improved chirp group delay based algorithm for estimating the vocal tract response. In EUSIPCO 2014, Proceedings of the 22nd European Signal Processing Conference (Lisbon, September 1-5, 2014,) pp. 2295\u20132299"},{"key":"598_CR22","unstructured":"M. Karthick Baskar, P. Kolhar, S. Umesh, Speaker adaptation of convolutional neural network using speaker specific subspace vectors of SGMM in INTERSPEECH 2015, 16th Annual Conference of the international speech communication association, Dresden, Germany, September 6-10, 2015, (2015). http:\/\/www.isca-speech.org\/archive\/interspeech_2015\/i15_1096.html pp. 1096\u20131100"},{"key":"598_CR23","doi-asserted-by":"crossref","first-page":"193","DOI":"10.1016\/S0167-6393(99)00048-5","volume":"29","author":"JM Kessens","year":"1999","unstructured":"J.M. Kessens, M. Wester, H. Strik, Improving the performance of a dutch csr by modeling within-word and cross-word pronunciation variation. Speech Commun. 29, 193\u2013207 (1999)","journal-title":"Speech Commun."},{"key":"598_CR24","doi-asserted-by":"crossref","unstructured":"A. Lakshmi, H.A. Murthy, A syllable based continuous speech recognizer for tamil, in: ICSLP (Pittsburgh, USA, 2006) pp. 1878\u20131881","DOI":"10.21437\/Interspeech.2006-517"},{"key":"598_CR25","doi-asserted-by":"crossref","first-page":"1641","DOI":"10.1109\/29.46546","volume":"37","author":"KF Lee","year":"1989","unstructured":"K.F. Lee, H.W. Hon, Speaker-independent phone recognition using hidden Markov models. IEEE trans. Acoust. Speech Signal Process. 37, 1641\u20131648 (1989)","journal-title":"IEEE trans. Acoust. Speech Signal Process."},{"key":"598_CR26","doi-asserted-by":"crossref","first-page":"223","DOI":"10.1109\/TASSP.1979.1163234","volume":"27","author":"J Lim","year":"1979","unstructured":"J. Lim, Spectral root homomorphic deconvolution system. IEEE Trans. Acoust. Speech Signal Process. 27, 223\u2013233 (1979)","journal-title":"IEEE Trans. Acoust. Speech Signal Process."},{"key":"598_CR27","doi-asserted-by":"crossref","first-page":"14","DOI":"10.1109\/TASL.2011.2109382","volume":"20","author":"AR Mohamed","year":"2012","unstructured":"A.R. Mohamed, G.E. Dahl, G. Hinton, Acoustic modeling using deep belief networks. IEEE Trans. Audio, Speech, Language Process. 20, 14\u201322 (2012)","journal-title":"IEEE Trans. Audio, Speech, Language Process."},{"key":"598_CR28","first-page":"68","volume":"1","author":"HA Murthy","year":"2003","unstructured":"H.A. Murthy, V.R.R. Gadde, The modified group delay function and its application to phoneme recognition. Proc. Int. Conf. Acoust. SpeechSignal Process. 1, 68\u201371 (2003)","journal-title":"Proc. Int. Conf. Acoust. SpeechSignal Process."},{"key":"598_CR29","unstructured":"T. Nagarajan, H. A.Murthy, Group delay based segmentation of spontaneous speech into syllable-like units. ISCA and IEEE workshop on Spontaneous Speech Processing and Recognition (2003) pp. 115\u2013118"},{"key":"598_CR30","unstructured":"T. Nagarajan, V. Prasad, H. A.Murthy, The minimum phase signal derived from the magnitude spectrum and its applications to speech segmentation. Sixth Biennial Conference of Signal Processing and Communications (2001) pp. 95\u2013101"},{"key":"598_CR31","doi-asserted-by":"crossref","first-page":"941","DOI":"10.1049\/el:20030616","volume":"39","author":"T Nagarajan","year":"2003","unstructured":"T. Nagarajan, V. Prasad, H. A.Murthy, Minimum phase signalderived from root epstrum. Eletron. Lett. 39, 941\u2013942 (2003)","journal-title":"Eletron. Lett."},{"key":"598_CR32","unstructured":"R.W.M. Ng, K. Hirose, Syllable: A self-contained unit to model pronunciation variation. ICASSP (2012) pp. 4457\u20134460"},{"key":"598_CR33","unstructured":"R. Padmanabhan, Studies on voice activity detection and feature diversity for speaker recognition. PhD Thesis, Indian Institute of Technology, Madras (2012)"},{"key":"598_CR34","doi-asserted-by":"crossref","unstructured":"D.B. Paul, J.M. Baker, The design for the wall street journal-based csr corpus in proceedings of the workshop on speech and natural Language, HLT \u201991 (Association for Computational Linguistics, Stroudsburg, 1992) pp. 357\u2013362","DOI":"10.3115\/1075527.1075614"},{"key":"598_CR35","doi-asserted-by":"crossref","first-page":"225","DOI":"10.1109\/TASL.2010.2045943","volume":"19","author":"J Pinto","year":"2011","unstructured":"J. Pinto, G. Sivaram, M.M. Doss, H. Hermansky, H. Bourlard, Analysis of mlp based hierarchical phoneme posterior probability estimator. IEEE Trans. Audio, Speech Lan. Process. 19, 225\u2013241 (2011)","journal-title":"IEEE Trans. Audio, Speech Lan. Process."},{"key":"598_CR36","unstructured":"D. Povey, A. Ghoshal, G. Boulianne, L. Burget, O. Glembek, N. Goel, M. Hannemann, P. Motlicek, Y. Qian, P. Schwarz, J. Silovsky, G. Stemmer, K. Vesely, The kaldi speech recognition toolkit in IEEE 2011 workshop on automatic speech recognition and understanding, Idiap-RR-04-2012. IEEE Signal processing society, Rue Marconi 19, Martigny (2011). IEEE Catalog No.: CFP11SRW-USB"},{"key":"598_CR37","doi-asserted-by":"crossref","unstructured":"V. Prasad, T. Nagarajan, H. A.Murthy, Continuous speech recognition using automatically segmented data at syllabic units. Sixth International Conference on Signal Processing (2002) pp. 235\u2013238","DOI":"10.1109\/ICOSP.2002.1181035"},{"key":"598_CR38","doi-asserted-by":"crossref","first-page":"429","DOI":"10.1016\/j.specom.2003.12.002","volume":"42","author":"V Prasad","year":"2004","unstructured":"V. Prasad, T. Nagarajan, H. A.Murthy, Automatic segmentation of continuous speech using minimum phase group delay functions. Elsevier Speech Commun. 42, 429\u2013446 (2004)","journal-title":"Elsevier Speech Commun."},{"key":"598_CR39","unstructured":"R. Rasipuram, P. Bell, M. Magimai-Doss, Grapheme and multilingual posterior features for under-resourced speech recognition: A study on scottish gaelic in ICASSP, (2013) pp. 7334\u20137338"},{"key":"598_CR40","unstructured":"A. Rudnicky, Cmu lexicon. www.speech.cs.cmu.edu\/cgi-bin\/cmudict"},{"key":"598_CR41","doi-asserted-by":"crossref","unstructured":"T.N. Sainath, B. Ramabhadran, M. Picheny, An exploration of large vocabulary tools for small vocabulary phonetic recognition. Proceedings of ASRU, (Merano, 2009) pp. 359\u2013364","DOI":"10.1109\/ASRU.2009.5373263"},{"key":"598_CR42","doi-asserted-by":"crossref","first-page":"2598","DOI":"10.1109\/TASL.2011.2155060","volume":"19","author":"TN Sainath","year":"2011","unstructured":"T.N. Sainath, B. Ramabhadran, M. Picheny, D. Nahamoo, D. Kanevsky, Exemplar-based sparse representation features: From timit to lvcsr. IEEE Trans. Audio, Speech, Lan. Process. 19, 2598\u20132613 (2011)","journal-title":"IEEE Trans. Audio, Speech, Lan. Process."},{"key":"598_CR43","unstructured":"S.A. Shanmugam, H. Murthy, A hybrid approach to segmentation of speech using group delay processing and hmm based embedded reestimation in INTERSPEECH, (2014) pp. 7334\u20137338"},{"key":"598_CR44","doi-asserted-by":"crossref","first-page":"225","DOI":"10.1016\/S0167-6393(99)00038-2","volume":"29","author":"H Strik","year":"1999","unstructured":"H. Strik, C. Cucchiarini, Modeling pronunciation variation for asr: A survey of the literature. Elsevier Speech Commun. 29, 225\u2013246 (1999)","journal-title":"Elsevier Speech Commun."},{"key":"598_CR45","unstructured":"S.J. Young, P. Woodland, Htk: Speech recognition toolkit. http:\/\/htk.eng.cam.ac.uk"},{"key":"598_CR46","doi-asserted-by":"crossref","first-page":"35","DOI":"10.20396\/joss.v1i2.15025","volume":"1","author":"J Yuan","year":"2011","unstructured":"J. Yuan, M. Liberman, \/i\/ variation in american english: A corpus approach. Speech Sci. 1, 35\u201346 (2011)","journal-title":"Speech Sci."},{"key":"598_CR47","unstructured":"J. Yuan, N. Ryant, M. Liberman, A. Stolcke, V. Mitra, W. Wang, Automatic phonetic segmentation using boundary models in INTERSPEECH, ISCA (2013) pp. 2306\u20132310"}],"container-title":["Circuits, Systems, and Signal Processing"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s00034-017-0598-2\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-017-0598-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-017-0598-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,6,25]],"date-time":"2024-06-25T06:44:33Z","timestamp":1719297873000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s00034-017-0598-2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2017,7,4]]},"references-count":47,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2018,3]]}},"alternative-id":["598"],"URL":"https:\/\/doi.org\/10.1007\/s00034-017-0598-2","relation":{},"ISSN":["0278-081X","1531-5878"],"issn-type":[{"type":"print","value":"0278-081X"},{"type":"electronic","value":"1531-5878"}],"subject":[],"published":{"date-parts":[[2017,7,4]]}}}