{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,17]],"date-time":"2026-03-17T01:05:18Z","timestamp":1773709518152,"version":"3.50.1"},"reference-count":366,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2022,2,17]],"date-time":"2022-02-17T00:00:00Z","timestamp":1645056000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2022,2,17]],"date-time":"2022-02-17T00:00:00Z","timestamp":1645056000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Complex Intell. Syst."],"published-print":{"date-parts":[[2022,6]]},"abstract":"<jats:title>Abstract<\/jats:title><jats:p>Speech recognition of a language is a key area in the field of pattern recognition. This paper presents a comprehensive survey on the speech recognition techniques for non-Indian and Indian languages, and compiled some of the computational models used for processing speech acoustics. An immense number of frameworks are available for speech processing and recognition for languages persisting around the globe. However, a limited number of automatic speech recognition systems are available for commercial use. The gap between the languages being spoken around the globe and the technical support available to these languages are very few. This paper examined major challenges for speech recognition for different languages. Analysis of the literature shows that lack of standard databases availability of minority languages hinder the research recognition research across the globe. When compared with non-Indian languages, the research on speech recognition of Indian languages (except Hindi) has not achieved the expected milestone yet. Combination of MFCC and DNN\u2013HMM classifier is most commonly used system for developing ASR minority languages, whereas in some of the majority languages, researchers are using much advance algorithms of DNN. It has also been observed that the research in this field is quite thin and still more research needs to be carried out, particularly in the case of minority languages.<\/jats:p>","DOI":"10.1007\/s40747-022-00665-1","type":"journal-article","created":{"date-parts":[[2022,2,17]],"date-time":"2022-02-17T03:02:33Z","timestamp":1645066953000},"page":"2623-2661","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":15,"title":["Computational intelligence in processing of speech acoustics: a survey"],"prefix":"10.1007","volume":"8","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-5884-3145","authenticated-orcid":false,"given":"Amitoj","family":"Singh","sequence":"first","affiliation":[]},{"given":"Navkiran","family":"Kaur","sequence":"additional","affiliation":[]},{"given":"Vinay","family":"Kukreja","sequence":"additional","affiliation":[]},{"given":"Virender","family":"Kadyan","sequence":"additional","affiliation":[]},{"given":"Munish","family":"Kumar","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2022,2,17]]},"reference":[{"issue":"10","key":"665_CR1","doi-asserted-by":"crossref","first-page":"1533","DOI":"10.1109\/TASLP.2014.2339736","volume":"22","author":"O Abdel-Hamid","year":"2014","unstructured":"Abdel-Hamid O, Mohamed AR, Jiang H, Deng L, Penn G, Yu D (2014) Convolutional neural networks for speech recognition. IEEE\/ACM Trans Audio Speech Lang Process 22(10):1533\u20131545","journal-title":"IEEE\/ACM Trans Audio Speech Lang Process"},{"issue":"2","key":"665_CR2","doi-asserted-by":"crossref","first-page":"293","DOI":"10.1086\/690952","volume":"125","author":"J Adda","year":"2017","unstructured":"Adda J, Dustmann C, Stevens K (2017) The career costs of children. J Polit Econ 125(2):293\u2013337","journal-title":"J Polit Econ"},{"key":"665_CR3","first-page":"479","volume":"2011","author":"M Adda-Decker","year":"2011","unstructured":"Adda-Decker M, Lamel L, Adda G, Lavergne T (2011) A first LVCSR system for Luxembourgish, a low-resourced European language. Lang Technol Conf 2011:479\u2013490","journal-title":"Lang Technol Conf"},{"key":"665_CR4","doi-asserted-by":"crossref","first-page":"119","DOI":"10.1016\/j.specom.2005.03.006","volume":"46","author":"M Adda-Decker","year":"2005","unstructured":"Adda-Decker M, Boula de Mareuil P, Adda G, Lamel L (2005) Investigating syllabic structures and their variation in spontaneous french. Speech Commun 46:119\u2013139","journal-title":"Speech Commun"},{"key":"665_CR5","doi-asserted-by":"crossref","unstructured":"Afify M, Sarikaya R, Kuo HKJ, Besacier L, Gao Y (2006) On the use of morphological analysis for dialectal Arabic speech recognition. In: Ninth international conference on spoken language processing, pp 270\u2013280","DOI":"10.21437\/Interspeech.2006-87"},{"issue":"3","key":"665_CR6","first-page":"129","volume":"2","author":"RK Aggarwal","year":"2011","unstructured":"Aggarwal RK, Dave M (2011) Projected features for hindi speech recognition system. Int J Adv Res Comput Sci 2(3):129\u2013134","journal-title":"Int J Adv Res Comput Sci"},{"issue":"2","key":"665_CR7","doi-asserted-by":"crossref","first-page":"165","DOI":"10.1007\/s10772-012-9131-y","volume":"15","author":"RK Aggarwal","year":"2012","unstructured":"Aggarwal RK, Dave M (2012) Integration of multiple acoustic and language models for improved Hindi speech recognition system. Int J Speech Technol 15(2):165\u2013180","journal-title":"Int J Speech Technol"},{"issue":"3","key":"665_CR8","doi-asserted-by":"crossref","first-page":"1457","DOI":"10.1007\/s11235-011-9623-0","volume":"52","author":"RK Aggarwal","year":"2013","unstructured":"Aggarwal RK, Dave M (2013) Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system. Telecommun Syst 52(3):1457\u20131466","journal-title":"Telecommun Syst"},{"key":"665_CR9","unstructured":"Agrawal SS, Sinha S, Singh P, Olsen J\u00d8 (2012) Development of text and speech database for hindi and indian english specific to mobile communication environment. In: LREC, pp 3415\u20133421"},{"key":"665_CR10","doi-asserted-by":"crossref","unstructured":"Al Amin MA, Islam MT, Kibria S, Rahman MS (2019) Continuous Bengali speech recognition based on deep neural network. In: International conference on electrical, computer and communication engineering, IEEE, pp 1\u20136","DOI":"10.1109\/ECACE.2019.8679341"},{"key":"665_CR11","doi-asserted-by":"crossref","unstructured":"Ali A, Zhang Y, Cardinal P, Dahak N, Vogel S, Glass J (2014) A complete kaldi recipe for building arabic speech recognition systems. In: Spoken language technology workshop (SLT), 2014, IEEE, pp 525\u2013529","DOI":"10.1109\/SLT.2014.7078629"},{"key":"665_CR12","first-page":"59","volume":"2008","author":"M Ali","year":"2008","unstructured":"Ali M, Elshafei M, Al-Ghamdi M, Al-Muhtaseb H, Al-Najjar A (2008) Generation of Arabic phonetic dictionaries for speech recognition. Innov Inf Technol 2008:59\u201363","journal-title":"Innov Inf Technol"},{"key":"665_CR13","unstructured":"Ali M (2018) Character level convolutional neural network for German dialect identification. In: Proceedings of the fifth workshop on NLP for similar languages, varieties and dialects, pp 172\u2013177"},{"issue":"2","key":"665_CR14","doi-asserted-by":"crossref","first-page":"343","DOI":"10.1016\/j.ipm.2017.07.002","volume":"56","author":"E Alsharhan","year":"2019","unstructured":"Alsharhan E, Ramsay A (2019) Improved Arabic speech recognition system through the automatic generation of fine-grained phonetic transcriptions. Inf Process Manage 56(2):343\u2013353","journal-title":"Inf Process Manage"},{"key":"665_CR15","doi-asserted-by":"crossref","unstructured":"Anand AV, Devi PS, Stephen J, Bhadran VK (2012) Malayalam Speech Recognition system and its application for visually impaired people. In: India Conference (INDICON), 2012, Annual IEEE, pp 619\u2013624","DOI":"10.1109\/INDCON.2012.6420692"},{"key":"665_CR16","doi-asserted-by":"crossref","unstructured":"Antony PJ, Mohan SP, Soman KP (2010) SVM based part of speech tagger for Malayalam. In: Recent trends in information, telecommunication and computing (ITC), 2010, IEEE, pp 339\u2013341","DOI":"10.1109\/ITC.2010.86"},{"issue":"4","key":"665_CR17","first-page":"19","volume":"26","author":"MA Anusuya","year":"2011","unstructured":"Anusuya MA, Katti SK (2011a) Comparison of different speech feature extraction techniques with and without wavelet transform to Kannada speech recognition. Int J Comput Appl 26(4):19\u201324","journal-title":"Int J Comput Appl"},{"issue":"2","key":"665_CR18","doi-asserted-by":"crossref","first-page":"99","DOI":"10.1007\/s10772-010-9088-7","volume":"14","author":"MA Anusuya","year":"2011","unstructured":"Anusuya MA, Katti SK (2011b) Front end analysis of speech recognition: a review. Int J Speech Technol 14(2):99\u2013145","journal-title":"Int J Speech Technol"},{"key":"665_CR19","unstructured":"Anusuya MA, Katti SK (2012) Speaker independent kannada speech recognition using vector quantization. In: IJCA proceedings on national conference on advancement in electronics and telecommunication engineering NCAETE, pp 32\u201335"},{"key":"665_CR20","doi-asserted-by":"crossref","unstructured":"Apandi N, Jamil N (2016) An analysis of Malay language emotional speech corpus for emotion recognition system. In: Industrial electronics and applications conference (IEACon), 2016, IEEE, pp 225\u2013231","DOI":"10.1109\/IEACON.2016.8067383"},{"issue":"3","key":"665_CR21","doi-asserted-by":"crossref","first-page":"207","DOI":"10.1007\/s40012-013-0014-4","volume":"1","author":"K Arora","year":"2013","unstructured":"Arora K, Arora S, Roy MK (2013) Speech to speech translation: a communication boon. CSI Trans ICT 1(3):207\u2013213","journal-title":"CSI Trans ICT"},{"key":"665_CR22","doi-asserted-by":"crossref","first-page":"173","DOI":"10.1016\/j.csl.2015.05.005","volume":"36","author":"L Badino","year":"2016","unstructured":"Badino L, Canevari C, Fadiga L, Metta G (2016) Integrating articulatory data in deep neural network-based acoustic modeling. Comput Speech Lang 36:173\u2013195","journal-title":"Comput Speech Lang"},{"key":"665_CR23","doi-asserted-by":"crossref","unstructured":"Bahdanau D, Chorowski J, Serdyuk D, Brakel P, Bengio Y (2016) End-to-end attention-based large vocabulary speech recognition. In: IEEE international conference on acoustics, speech and signal processing (ICASSP), Shanghai, pp 4945\u20134949","DOI":"10.1109\/ICASSP.2016.7472618"},{"issue":"9","key":"665_CR24","doi-asserted-by":"crossref","first-page":"2629","DOI":"10.1007\/s13369-015-1693-y","volume":"40","author":"MMA Baig","year":"2015","unstructured":"Baig MMA, Qazi SA, Kadri MB (2015) Discriminative training for phonetic recognition of the Holy Quran. Arab J Sci Eng 40(9):2629\u20132640","journal-title":"Arab J Sci Eng"},{"key":"665_CR25","doi-asserted-by":"crossref","unstructured":"Banerjee P, Garg G, Mitra P, Basu A (2008)Application of triphone clustering in acoustic modeling for continuous speech recognition in Bengali. In: Pattern recognition, 2008, ICPR, pp 1\u20134","DOI":"10.1109\/ICPR.2008.4761657"},{"key":"665_CR26","doi-asserted-by":"crossref","unstructured":"Bansal S, Sharan S, Agrawal SS (2015) Corpus design and development of an annotated speech database for Punjabi. In: IOriental COCOSDA held jointly with 2015 Conference on Asian Spoken Language Research and Evaluation, IEEE, pp 32\u201337","DOI":"10.1109\/ICSDA.2015.7357860"},{"key":"665_CR27","doi-asserted-by":"crossref","unstructured":"Beck E, Hannemann M, D\u00f6tsch P, Schl\u00fcter R, Ney H (2018) Segmental encoder-decoder models for large vocabulary automatic speech recognition. In: Proc. Interspeech, pp 766\u2013770","DOI":"10.21437\/Interspeech.2018-1212"},{"key":"665_CR28","doi-asserted-by":"crossref","unstructured":"Behravan H, Hautamaki V, Siniscalchi SM, Khoury E, Kurki T, Kinnunen T, Lee CH (2014) Dialect levelling in Finnish: a universal speech attribute approach. In: iInterspeech, 2014, pp 2165\u20132169","DOI":"10.21437\/Interspeech.2014-485"},{"issue":"10\u201311","key":"665_CR29","doi-asserted-by":"crossref","first-page":"763","DOI":"10.1016\/j.specom.2007.02.006","volume":"49","author":"M Benzeghiba","year":"2007","unstructured":"Benzeghiba M, De Mori R, Deroo O, Dupont S, Erbes T, Jouvet D, Fissore L, Laface P, Mertins A, Ris C, Rose R (2007) Automatic speech recognition and speech variability: a review. Speech Commun 49(10\u201311):763\u2013786","journal-title":"Speech Commun"},{"key":"665_CR30","unstructured":"B\u00e9rard A, Pietquin O, Servan C, Besacier L (2016) Listen and translate: a proof of concept for end-to-end speech-to-text translation. arXiv:1612.01744"},{"issue":"3","key":"665_CR31","doi-asserted-by":"crossref","first-page":"2207","DOI":"10.3233\/JIFS-169932","volume":"36","author":"CC Bhanja","year":"2019","unstructured":"Bhanja CC, Bisharad D, Laskar RH (2019) Deep residual networks for pre-classification based Indian language identification. J Intell Fuzzy Syst 36(3):2207\u20132218","journal-title":"J Intell Fuzzy Syst"},{"key":"665_CR32","first-page":"1","volume":"2018","author":"SS Bharali","year":"2018","unstructured":"Bharali SS, Kalita SK (2018) Speech recognition with reference to Assamese language using novel fusion technique. Int J Speech Technol 2018:1\u201313","journal-title":"Int J Speech Technol"},{"key":"665_CR33","doi-asserted-by":"crossref","unstructured":"Bhowmik T, Mandal SKD (2016) Deep neural network based phonological feature extraction for Bengali continuous speech. In: Signal and information processing (IConSIP), pp 1\u20135","DOI":"10.1109\/ICONSIP.2016.7857491"},{"key":"665_CR34","doi-asserted-by":"crossref","unstructured":"Bhowmik T, Mukherjee S, Mandal SKD (2015) Detection of attributes for bengali phoneme in continuous speech using deep neural network. In: Signal processing and integrated networks (SPIN), pp 103\u2013108","DOI":"10.1109\/SPIN.2015.7095329"},{"issue":"6","key":"665_CR35","doi-asserted-by":"crossref","first-page":"1379","DOI":"10.1109\/TASL.2009.2034770","volume":"18","author":"H Boril","year":"2010","unstructured":"Boril H, Hansen JHL (2010) Unsupervised equalization of lombard effect for speech recognition in noisy adverse environments. IEEE Trans Audio Speech Lang Process 18(6):1379\u20131393","journal-title":"IEEE Trans Audio Speech Lang Process"},{"key":"665_CR36","doi-asserted-by":"crossref","unstructured":"Botros R, Irie K, Sundermeyer M, Ney H (2015) On efficient training of word classes and their application to recurrent neural network language models. In: INTERSPEECH-2015, pp 1443\u20131447","DOI":"10.21437\/Interspeech.2015-345"},{"key":"665_CR37","volume-title":"Connectionist speech recognition: a hybrid approach, 247","author":"HA Bourlard","year":"2012","unstructured":"Bourlard HA, Morgan N (2012) Connectionist speech recognition: a hybrid approach, 247. Springer Science & Business Media, Berlin"},{"key":"665_CR38","doi-asserted-by":"crossref","unstructured":"Burget L, Schwarz P, Agarwal M, Akyazi P, Feng K, Ghoshal A, Rastrow A (2010) Multilingual acoustic modeling for speech recognition based on subspace Gaussian mixture models. In: 2010 IEEE international conference on acoustics, speech and signal processing, pp 4334\u20134337","DOI":"10.1109\/ICASSP.2010.5495646"},{"issue":"1","key":"665_CR39","first-page":"8391","volume":"11","author":"C Burileanu","year":"2010","unstructured":"Burileanu C, Popescu V, Buzo A, Petrea CS, Ghelmez-Hane\u015f D (2010) Spontaneous speech recognition for Romanian in spoken dialogue systems. Proc Roman Acad 11(1):8391","journal-title":"Proc Roman Acad"},{"key":"665_CR40","doi-asserted-by":"crossref","first-page":"420","DOI":"10.1109\/TSA.2004.828702","volume":"12","author":"W Byrne","year":"2004","unstructured":"Byrne W, David D, Martin F, Samuel G, Jan H, Douglas O, Michael P, Josef R, Bhuvana R, Dagobert S, Todd W, Jing R (2004) Automatic recognition of spontaneous speech for access to multilingual oral history archives. IEEE Trans Speech Audio Process 12:420\u2013435","journal-title":"IEEE Trans Speech Audio Process"},{"key":"665_CR41","doi-asserted-by":"crossref","unstructured":"Cai M, Shi Y, Liu J (2013) Deep maxout neural networks for speech recognition. In: automatic speech recognition and understanding (ASRU), pp 291\u2013296","DOI":"10.1109\/ASRU.2013.6707745"},{"key":"665_CR42","first-page":"65","volume":"18","author":"A Caranica","year":"2016","unstructured":"Caranica A, Cucu H, Andi B, Corneliu B (2016) On the Design of an automatic speech recognition system for Romanian language. Control Eng Appl Inf 18:65\u201376","journal-title":"Control Eng Appl Inf"},{"key":"665_CR43","doi-asserted-by":"crossref","unstructured":"Chaloupka J, Nouza J, Malek J, Silovsky J (2015) Phone speech detection and recognition in the task of historical radio broadcast transcription. In: 38th international conference on telecommunications and signal processing (TSP), Prague, pp 1\u20134","DOI":"10.1109\/TSP.2015.7296399"},{"key":"665_CR44","first-page":"20","volume":"2008","author":"M Chandrasekar","year":"2008","unstructured":"Chandrasekar M, Ponnavaikko M (2008) Tamil speech recognition: a complete model. Electron J Tech Acoust 2008:20","journal-title":"Electron J Tech Acoust"},{"key":"665_CR45","first-page":"5","volume":"2004","author":"AH Charles","year":"2004","unstructured":"Charles AH, Devaraj G (2004) Alaigal-A Tamil speech recognition. Tamil Internet 2004:5","journal-title":"Tamil Internet"},{"key":"665_CR46","doi-asserted-by":"crossref","unstructured":"Charoenpornsawat P, Hewavitharana S, Schultz T (2006) Thai grapheme-based speech recognition. In: Human language technology conference of the NAACL, Companion Volume: Short Papers, pp 17\u201320","DOI":"10.3115\/1614049.1614054"},{"key":"665_CR47","doi-asserted-by":"crossref","unstructured":"Chen NF, Ni C, Chen IF, Sivadas S, Xu H, Xiao X, Wang L (2015) Low-resource keyword search strategies for Tamil. In: IEEE international conference on acoustics, speech and signal processing, pp 5366\u20135370, IEEE","DOI":"10.1109\/ICASSP.2015.7178996"},{"key":"665_CR48","doi-asserted-by":"crossref","first-page":"46","DOI":"10.1016\/j.specom.2016.07.005","volume":"84","author":"NF Chen","year":"2016","unstructured":"Chen NF, Wee D, Tong R, Ma B, Li H (2016) Large-scale characterization of non-native Mandarin Chinese spoken by speakers of European origin: analysis on iCALL. Speech Commun 84:46\u201356","journal-title":"Speech Commun"},{"key":"665_CR49","doi-asserted-by":"crossref","unstructured":"Chen Z, Qi L, Hao L, Kai Y (2018) On modular training of neural acoustics-to-word model for lvcsr. In: ICASSP, pp 1\u20135","DOI":"10.1109\/ICASSP.2018.8461361"},{"issue":"3","key":"665_CR50","doi-asserted-by":"crossref","first-page":"797","DOI":"10.1109\/TSA.2005.860847","volume":"14","author":"J Chien","year":"2006","unstructured":"Chien J, Huang C (2006) Aggregate a posteriori linear regression adaptation. IEEE Trans Audio Speech Lang Process 14(3):797\u2013807","journal-title":"IEEE Trans Audio Speech Lang Process"},{"key":"665_CR51","first-page":"165","volume":"2014","author":"D Chiopu","year":"2014","unstructured":"Chiopu D, Oprea M (2014) Using neural networks for a discriminant speech recognition system. Int Conf Dev Appl Syst 2014:165\u2013169","journal-title":"Int Conf Dev Appl Syst"},{"key":"665_CR52","unstructured":"Chourasia V, Samudravijaya K, Chandwani M (2005) Phonetically rich hindi sentence corpus for creation of speech database. In: Proc. O-Cocosda, pp 132\u2013137"},{"key":"665_CR53","unstructured":"Christodoulides, G, Avanzi, M, Goldman JP (2018) DisMo: a morphosyntactic, disfluency and multi-word unit annotator. In: An evaluation on a corpus of French spontaneous and read speech. arXiv:180202926"},{"issue":"1","key":"665_CR54","doi-asserted-by":"crossref","first-page":"15","DOI":"10.1186\/s13636-016-0093-x","volume":"2016","author":"V Chunwijitra","year":"2016","unstructured":"Chunwijitra V, Chotimongkol A, Wutiwiwatchai C (2016) A hybrid input-type recurrent neural network for LVCSR language modeling EURASIP. J Audio Speech Music Process 2016(1):15","journal-title":"J Audio Speech Music Process"},{"key":"665_CR55","unstructured":"Ciobanu AM, Malmasi S, Dinu LP (2018) German dialect identification using classifier ensembles. arXiv:1807.08230"},{"key":"665_CR56","doi-asserted-by":"crossref","unstructured":"Clark E, Doyle P, Garaialde D, Gilmartin E, Edlund J, Aylett M, Cabral J, Munteanu C, Cowan B (2018) The State of Speech in HCI: trends, themes and challenges. arXiv:1810.06828","DOI":"10.1093\/iwc\/iwz016"},{"key":"665_CR57","doi-asserted-by":"crossref","unstructured":"Cucchiarini C, Van hamme H (2013) The JASMIN speech corpus: recordings of children, non-natives and elderly people In: Spyns P, Odijk J (eds) Essential speech and language technology for dutch theory and applications of natural language processing. Springer, Berlin, Heidelberg","DOI":"10.1007\/978-3-642-30910-6_3"},{"key":"665_CR58","doi-asserted-by":"crossref","unstructured":"Cucu H, Buzo A, Petric\u0103 L, Burileanu D, Burileanu C (2014) Recent improvements of the SpeeD Romanian LVCSR system. In: 10th international conference on communications (COMM), Bucharest, pp 1\u20134","DOI":"10.1109\/ICComm.2014.6866659"},{"issue":"1","key":"665_CR59","doi-asserted-by":"crossref","first-page":"25","DOI":"10.1049\/iet-spr.2012.0151","volume":"7","author":"M Cutajar","year":"2013","unstructured":"Cutajar M, Gatt E, Grech I, Casha O, Micallef J (2013) Comparative study of automatic speech recognition techniques. IET Signal Proc 7(1):25\u201346","journal-title":"IET Signal Proc"},{"key":"665_CR60","first-page":"35","volume":"23","author":"RV Darekar","year":"2018","unstructured":"Darekar RV, Dhande AP (2018) Emotion recognition from Marathi speech database using adaptive artificial neural network. Biol Inspired Cogn Archit 23:35\u201342","journal-title":"Biol Inspired Cogn Archit"},{"key":"665_CR61","doi-asserted-by":"crossref","unstructured":"Das B, Mandal S, Mitra P (2011) Bengali speech corpus for continuous auutomatic speech recognition system. In: 2011 international conference on speech database and assessments (Oriental COCOSDA), pp 51\u201355, IEEE","DOI":"10.1109\/ICSDA.2011.6085979"},{"issue":"3","key":"665_CR62","doi-asserted-by":"crossref","first-page":"335","DOI":"10.1016\/j.patrec.2012.10.029","volume":"34","author":"B Das","year":"2013","unstructured":"Das B, Mandal S, Mitra P, Basu A (2013) Aging speech recognition with speaker adaptation techniques: study on medium vocabulary continuous Bengali speech. Pattern Recogn Lett 34(3):335\u2013343","journal-title":"Pattern Recogn Lett"},{"key":"665_CR63","doi-asserted-by":"crossref","unstructured":"Dash D, Kim M, Teplansky K, Wang J (2018) Automatic speech recognition with articulatory information and a unified dictionary for Hindi, Marathi, Bengali and Oriya. Interspeech, pp 1046\u20131050","DOI":"10.21437\/Interspeech.2018-2122"},{"key":"665_CR64","first-page":"551","volume":"2","author":"L Debatin","year":"2018","unstructured":"Debatin L, Haendchen Filho A, Dazzi L (2018) Offline speech recognition development\u2014a systematic review of the literature. Int Conf Enterprise Inf Syst 2:551\u2013558","journal-title":"Int Conf Enterprise Inf Syst"},{"key":"665_CR65","unstructured":"Deemagarn A, Kawtrakul A (2004a) Thai connected digit speech recognition using hidden markov models. In: International conference on speech and computer, pp 731\u2013735"},{"key":"665_CR66","unstructured":"Deemagarn A, Kawtrakul A (2004b) Thai connected digit speech recognition using hidden Markov models, SPECOM-2004, pp 731\u2013735"},{"key":"665_CR67","doi-asserted-by":"crossref","unstructured":"Despres J, Fousek P, Gauvain JL, Gay S, Josse Y, Lamel L, Messaoudi A (2009) Modeling northern and southern varieties of Dutch for STT, tenth annual conference of the international speech communication association, pp 96\u201399","DOI":"10.21437\/Interspeech.2009-22"},{"key":"665_CR68","doi-asserted-by":"crossref","unstructured":"Dey A, Shahnawazuddin S, Deepak KT, Imani S, Prasanna SRM, Sinha R (2016) Enhancements in Assamese spoken query system: enabling background noise suppression and flexible queries. In: Twenty second national conference on communication (NCC), pp 1\u20136, IEEE","DOI":"10.1109\/NCC.2016.7561193"},{"key":"665_CR69","unstructured":"Dimulescu VB, Mare\u00fcil PB (2006) Perceptual identification and phonetic analysis of 6 foreign accents in french. In: INTERSPEECH\u20192006, pp 441\u2013446"},{"key":"665_CR70","doi-asserted-by":"crossref","unstructured":"Draman M, Tee DC, Lambak Z, Yahya MR, Yusoff MM, Ibrahim SH, Saidon S, Haris NA, Tan TP (2017) Malay speech corpus of telecommunication call center preparation for ASR. In: 5th international conference on information and communication technology (ICoIC7), pp 1\u20136 IEEE","DOI":"10.1109\/ICoICT.2017.8074675"},{"issue":"3","key":"665_CR71","first-page":"389","volume":"21","author":"M Dua","year":"2018","unstructured":"Dua M, Aggarwal RK, Biswas M (2018) Performance evaluation of Hindi speech recognition system using optimized filterbanks. Eng Sci Technol Int J 21(3):389\u2013398","journal-title":"Eng Sci Technol Int J"},{"key":"665_CR72","doi-asserted-by":"crossref","unstructured":"Dua M, Aggarwal RK, Biswas M (2017) Discriminative training using heterogeneous feature vector for hindi automatic speech recognition system. In: 2017 international conference on\u00a0computer and applications, pp 158\u2013162, IEEE.","DOI":"10.1109\/COMAPP.2017.8079777"},{"key":"665_CR73","volume-title":"Pattern classification and scene analysis","author":"RO Duada","year":"1973","unstructured":"Duada RO, Hart PE (1973) Pattern classification and scene analysis. Wiley, New York"},{"key":"665_CR74","doi-asserted-by":"crossref","unstructured":"Dumitru CO, Gavat I (2006) A comparative study of feature extraction methods applied to continuous speech recognition in romanian language. In: 48th international symposiumon multimedia signal processing and communications, pp 115\u2013118, IEEE","DOI":"10.1109\/ELMAR.2006.329528"},{"key":"665_CR75","doi-asserted-by":"crossref","unstructured":"Dutta K, Sarma KK (2012) Multiple feature extraction for RNN-based assamese speech recognition for speech to text conversion application. In: 2012 International conference on\u00a0communications, devices and intelligent systems (CODIS),\u00a0(pp 600\u2013603), IEEE","DOI":"10.1109\/CODIS.2012.6422274"},{"issue":"3","key":"665_CR76","first-page":"305","volume":"17","author":"MY El-Amrani","year":"2016","unstructured":"El-Amrani MY, Rahman MH, Wahiddin MR, Shah A (2016) Building CMU Sphinx language model for the Holy Quran using simplified Arabic phonemes. Egypt Inf J 17(3):305\u2013314","journal-title":"Egypt Inf J"},{"key":"665_CR77","doi-asserted-by":"crossref","unstructured":"Enarvi S, Kurimo M (2013) A novel discriminative method for pruning pronunciation dictionary entries. In: 7th conference on speech technology and human\u2014computer dialogue (SpeD), Cluj-Napoca, pp 1\u20134","DOI":"10.1109\/SpeD.2013.6682659"},{"issue":"11","key":"665_CR78","doi-asserted-by":"crossref","first-page":"2085","DOI":"10.1109\/TASLP.2017.2743344","volume":"25","author":"S Enarvi","year":"2017","unstructured":"Enarvi S, Smit P, Virpioja S, Kurimo M (2017) Automatic speech recognition with very large conversational finnish and estonian vocabularies. IEEE\/ACM Trans Audio Speech Lang Process 25(11):2085\u20132097","journal-title":"IEEE\/ACM Trans Audio Speech Lang Process"},{"key":"665_CR79","unstructured":"Eng GK, Ahmad AM (2005) Malay speech recognition using self-organizing map and multilayer perceptron. In: Postgraduate annual research seminar, pp 233\u2013237"},{"key":"665_CR80","doi-asserted-by":"crossref","unstructured":"Fook CY, Hariharan M, Yaacob S, Adom AH (2012) A review: Malay speech recognition and audio visual speech recognition. In: International conference on biomedical engineering, pp 479\u2013484, IEEE","DOI":"10.1109\/ICoBE.2012.6179063"},{"key":"665_CR81","doi-asserted-by":"crossref","unstructured":"Franzini M, Lee KF, Waibel A (1990) Connectionist Viterbi training: a new hybrid method for continuous speech recognition. In: Acoustics, speech, and signal processing, 1990. ICASSP-90, 1990 International Conference on\u00a0(pp. 425\u2013428), IEEE","DOI":"10.1109\/ICASSP.1990.115733"},{"key":"665_CR82","doi-asserted-by":"crossref","first-page":"95","DOI":"10.1016\/j.specom.2018.01.008","volume":"98","author":"T Fukuda","year":"2018","unstructured":"Fukuda T, Ichikawa O, Nishimura M (2018) Detecting breathing sounds in realistic Japanese telephone conversations and its application to automatic speech recognition. Speech Commun 98:95\u2013103","journal-title":"Speech Commun"},{"key":"665_CR83","doi-asserted-by":"crossref","unstructured":"Fukunaga K (1999) Statistical pattern recognition. In: Handbook of pattern recognition and computer vision, pp 33\u201360","DOI":"10.1142\/9789812384737_0002"},{"key":"665_CR84","doi-asserted-by":"crossref","unstructured":"Gaikwad S, Gawali B, Mehrotra SC (2012) Novel approach-based feature extraction for Marathi continuous speech recognition. In: Proceedings of the international conference on advances in computing, communications and informatics, pp 795\u2013804 ACM","DOI":"10.1145\/2345396.2345526"},{"key":"665_CR85","doi-asserted-by":"crossref","unstructured":"Gaikwad S, Gawali B, Yannawar P, Mehrotra S (2011) Feature extraction using fusion MFCC for continuous marathi speech recognition. In: India Conference (INDICON), pp 1\u20135, IEEE","DOI":"10.1109\/INDCON.2011.6139372"},{"issue":"3","key":"665_CR86","first-page":"16","volume":"10","author":"SK Gaikwad","year":"2010","unstructured":"Gaikwad SK, Gawali BW, Yannawar P (2010) A review on speech recognition technique. Int J Comput Appl 10(3):16\u201324","journal-title":"Int J Comput Appl"},{"key":"665_CR87","doi-asserted-by":"crossref","unstructured":"Gales MJ, Diehl F, Raut CK, Tomalin M, Woodland PC, Yu K (2007) Development of a phonetic system for large vocabulary Arabic speech recognition. In: IEEE workshop on\u00a0automatic speech recognition & understanding, pp 24\u201329, IEEE","DOI":"10.1109\/ASRU.2007.4430078"},{"issue":"1","key":"665_CR88","doi-asserted-by":"crossref","first-page":"EL8","DOI":"10.1121\/1.3040022","volume":"125","author":"S Ganapathy","year":"2009","unstructured":"Ganapathy S, Thomas S, Hermansky H (2009) Modulation frequency features for phoneme recognition in noisy speech. J Acoust Soc Am 125(1):EL8\u2013EL12","journal-title":"J Acoust Soc Am"},{"issue":"01","key":"665_CR89","first-page":"21","volume":"1","author":"BW Gawali","year":"2011","unstructured":"Gawali BW, Gaikwad S, Yannawar P, Mehrotra SC (2011) Marathi isolated word recognition system using MFCC and DTW features. ACEEE Int J Inf Technol 1(01):21\u201324","journal-title":"ACEEE Int J Inf Technol"},{"key":"665_CR90","doi-asserted-by":"crossref","unstructured":"Geethashree A, Ravi DJ (2018) Kannada emotional speech database: design, development and evaluation international conference on cognition and recognition. Springer, Singapore, pp 135\u2013143","DOI":"10.1007\/978-981-10-5146-3_14"},{"key":"665_CR91","doi-asserted-by":"crossref","unstructured":"Georgescu A, Cucu H, Burileanu C (2017) SpeeD's DNN approach to Romanian speech recognition. In: International conference on speech technology and human-computer dialogue (SpeD), Bucharest, pp 1\u20138","DOI":"10.1109\/SPED.2017.7990443"},{"key":"665_CR92","doi-asserted-by":"crossref","unstructured":"Georgescu AL, Cucu H (2018) GMM-UBM Modeling for speaker recognition on a Romanian large speech corpora. In: International conference on communications (COMM), pp 547\u201355, IEEE","DOI":"10.1109\/ICComm.2018.8453633"},{"key":"665_CR93","unstructured":"Ginter F, Nyblom J, Laippala V, Kohonen S, Haverinen K, Vihjanen S, Salakoski T (2013) Building a large automatically parsed corpus of Finnish, 19th Nordic Conference of Computational Linguistics (NODALIDA 2013), vol 85, pp 291\u2013300"},{"key":"665_CR94","unstructured":"Godambe T, Samudravijaya K (2011) Speech data acquisition for voice based agricultural information retrieval. In: 39th All India DLA Conference, Punjabi University, Patiala, June"},{"issue":"4","key":"665_CR95","doi-asserted-by":"crossref","first-page":"749","DOI":"10.1109\/JSTSP.2014.2364559","volume":"9","author":"J Gonzalez-Dominguez","year":"2015","unstructured":"Gonzalez-Dominguez J, Eustis D, Lopez-Moreno I, Senior A, Beaufays F, Moreno PJ (2015) A real-time end-to-end multilingual speech recognition architecture. IEEE J Sel Top Signal Process 9(4):749\u2013759","journal-title":"IEEE J Sel Top Signal Process"},{"key":"665_CR96","doi-asserted-by":"crossref","unstructured":"Graves A, Mohamed AR, Hinton G (2013) Speech recognition with deep recurrent neural networks. In: International conference on acoustics, speech and signal processing, pp 6645\u20136649, IEEE","DOI":"10.1109\/ICASSP.2013.6638947"},{"issue":"2","key":"665_CR97","doi-asserted-by":"crossref","first-page":"211","DOI":"10.1007\/s10772-018-9497-6","volume":"21","author":"J Guglani","year":"2018","unstructured":"Guglani J, Mishra AN (2018) Continuous Punjabi speech recognition model based on Kaldi ASR toolkit. Int J Speech Technol 21(2):211\u2013216","journal-title":"Int J Speech Technol"},{"key":"665_CR98","unstructured":"Gulic M, Lucanin D, Simic A (2011) A digit and spelling speech recognition system for croatian language. In: Proceedings of the 34th international convention, MIPRO, Opatija, Croatia, pp 1673\u20131678"},{"key":"665_CR99","doi-asserted-by":"crossref","unstructured":"Haffner P, Franzini M, Waibel A (1991), April. Integrating time alignment and neural networks for high performance continuous speech recognition In: Acoustics, speech, and signal processing, 1991. ICASSP-91, 1991 International Conference on (pp 105\u2013108), IEEE","DOI":"10.1109\/ICASSP.1991.150289"},{"key":"665_CR100","doi-asserted-by":"crossref","first-page":"283","DOI":"10.1016\/j.procs.2015.09.272","volume":"67","author":"A H\u00e4m\u00e4l\u00e4inen","year":"2015","unstructured":"H\u00e4m\u00e4l\u00e4inen A, Teixeira A, Almeida N, Meinedo H, Fegy\u00f3 T, Dias MS (2015) Multilingual speech recognition for the elderly: the AALFred personal life assistant. Procedia Comput Sci 67:283\u2013292","journal-title":"Procedia Comput Sci"},{"issue":"2013","key":"665_CR101","doi-asserted-by":"crossref","first-page":"59","DOI":"10.1016\/j.csl.2012.01.003","volume":"27","author":"A Hanani","year":"2013","unstructured":"Hanani A, Russell MJ, Carey MJ (2013) Human and computer recognition of regional accents and ethnic groups from British English speech. Comput Speech Lang 27(2013):59\u201374","journal-title":"Comput Speech Lang"},{"issue":"1","key":"665_CR102","first-page":"91","volume":"4","author":"SB Harisha","year":"2015","unstructured":"Harisha SB, Amarappa S, Sathyanarayana DS (2015) Automatic speech recognition-a literature survey on indian languages and ground work for isolated kannada digit recognition using MFCC and ANN. Int J Electron Comput Sci Eng 4(1):91\u2013105","journal-title":"Int J Electron Comput Sci Eng"},{"key":"665_CR103","doi-asserted-by":"crossref","unstructured":"Hartmann W, Le VB, Messaoudi A, Lamel L, Gauvain JL (2014) Comparing decoding strategies for subword-based keyword spotting in low-resourced languages. In: Fifteenth annual conference of the international speech communication association, pp 2764\u20132768","DOI":"10.21437\/Interspeech.2014-528"},{"key":"665_CR104","unstructured":"Hasnat M, Mowla J, Khan M (2007) Isolated and continuous bangla speech recognition: implementation, performance and application perspective. In: International Symposium On Natural Language Processing (SNLP), Hanoi, Vietnam"},{"key":"665_CR105","doi-asserted-by":"crossref","unstructured":"Hegde Renjith S, Manju KG (2017) Speech based emotion recognition in Tamil and Telugu using LPCC and hurst parameters-A comparative study using KNN and ANN classifiers. In: 2017 international conference on circuit, power and computing technologies (ICCPCT), Kollam, pp 1\u20136","DOI":"10.1109\/ICCPCT.2017.8074220"},{"key":"665_CR106","doi-asserted-by":"crossref","unstructured":"Hegde RM, Murthy HA, Gadde VRR (2004a) Continuous speech recognition using joint features derived from the modified group delay function and MFCC. In: Eighth international conference on spoken language processing","DOI":"10.21437\/Interspeech.2004-333"},{"issue":"1","key":"665_CR107","doi-asserted-by":"crossref","first-page":"190","DOI":"10.1109\/TASL.2006.876858","volume":"15","author":"RM Hegde","year":"2007","unstructured":"Hegde RM, Murthy HA, Gadde VRR (2007) Significance of the modified group delay feature in speech recognition. IEEE Trans Audio Speech Lang Process 15(1):190\u2013202","journal-title":"IEEE Trans Audio Speech Lang Process"},{"key":"665_CR108","doi-asserted-by":"crossref","unstructured":"Hegde RM, Murthy HA, Rao GR (2004b) Application of the modified group delay function to speaker identification and discrimination. In: 2004 IEEE international conference on acoustics, speech, and signal processing, pp I-517 IEEE","DOI":"10.1109\/ICASSP.2004.1326036"},{"key":"665_CR109","doi-asserted-by":"crossref","unstructured":"Heigold G, Vanhoucke V, Senior A, Nguyen P, Ranzato M, Devin M, Dean J (2013) Multilingual acoustic models using distributed deep neural networks. In: IEEE international conference on acoustics, speech and signal processing, Vancouver, BC, pp 8619\u20138623","DOI":"10.1109\/ICASSP.2013.6639348"},{"issue":"4","key":"665_CR110","first-page":"1","volume":"2","author":"G Hemakumar","year":"2013","unstructured":"Hemakumar G, Punitha P (2013) Speech recognition technology: a survey on Indian languages. Int J Inf Sci Intell Syst 2(4):1\u201338","journal-title":"Int J Inf Sci Intell Syst"},{"issue":"6","key":"665_CR111","doi-asserted-by":"crossref","first-page":"82","DOI":"10.1109\/MSP.2012.2205597","volume":"29","author":"G Hinton","year":"2012","unstructured":"Hinton G, Deng L, Yu D, Dahl GE, Mohamed AR, Jaitly N, Senior A, Vanhoucke V, Nguyen P, Sainath TN, Kingsbury B (2012) Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups. IEEE Signal Process Mag 29(6):82\u201397","journal-title":"IEEE Signal Process Mag"},{"key":"665_CR112","unstructured":"Hirsim\u00e4ki T, Kurimo M (2004) Decoder issues in unlimited Finnish speech recognition. In: Proc. of the 6th nordic signal processing symposium, pp 320\u2013323"},{"key":"665_CR113","doi-asserted-by":"crossref","first-page":"515","DOI":"10.1016\/j.csl.2005.07.002","volume":"20","author":"T Hirsim\u00e4ki","year":"2006","unstructured":"Hirsim\u00e4ki T, Creutz M, Siivola V, Kurimo M, Virpioja S, Pylkk\u00f6nen J (2006) Unlimited vocabulary speech recognition with morph language models applied to Finnish. Comput Speech Lang 20:515\u2013541","journal-title":"Comput Speech Lang"},{"key":"665_CR114","doi-asserted-by":"crossref","unstructured":"Hoffmeister B,\u00a0Plahl C, Fritz\u00a0P, Heigold\u00a0G, Loof J, Schluter R, Ney H (2007) Development of the RWTH Mandarin LVCSR system. In: IEEE workshop on automatic speech recognition and understanding (ASRU), Kyoto, pp 455\u2013460","DOI":"10.1109\/ASRU.2007.4430155"},{"key":"665_CR115","doi-asserted-by":"crossref","first-page":"401","DOI":"10.1016\/j.csl.2017.01.013","volume":"46","author":"T Hori","year":"2017","unstructured":"Hori T, Chen Z, Erdogan H, Hershey JR, Le Roux J, Mitra V, Watanabe S (2017) Multi-microphone speech recognition integrating beamforming, robust feature extraction, and advanced DNN\/RNN backend. Comput Speech Lang 46:401\u2013418","journal-title":"Comput Speech Lang"},{"key":"665_CR116","unstructured":"Hossain M, Rahman M, Prodhan UK, Khan M (2013) Implementation of back-propagation neural network for isolated bangla speech recognition. arXiv:1308.3785"},{"key":"665_CR117","doi-asserted-by":"crossref","first-page":"306","DOI":"10.1016\/j.sbspro.2011.10.612","volume":"27","author":"H Hotta","year":"2011","unstructured":"Hotta H (2011) Japanese speaker-independent homonyms speech recognition. Procedia-Soc Behav Sci 27:306\u2013313","journal-title":"Procedia-Soc Behav Sci"},{"key":"665_CR118","doi-asserted-by":"crossref","unstructured":"Hsiao R, Metze F, Schultz T (2010) Improvements to generalized discriminative feature transformation for speech recognition. In: Eleventh annual conference of the international speech communication association, pp 1361\u20131364","DOI":"10.21437\/Interspeech.2010-21"},{"key":"665_CR119","doi-asserted-by":"crossref","unstructured":"Hu X, Saiko M, Hori C (2014) December Incorporating tone features to convolutional neural network to improve Mandarin\/Thai speech recognition, signal and information processing association annual summit, pp 1\u20135, IEEE","DOI":"10.1109\/APSIPA.2014.7041576"},{"key":"665_CR120","doi-asserted-by":"crossref","unstructured":"Hu X, Zhan L, Xue Y, Zhou W, Zhang L (2011) Spoken Arabic digits recognition based on wavelet neural networks. In: international conference on systems, man, and cybernetics (SMC), pp 1481\u20131485, IEEE","DOI":"10.1109\/ICSMC.2011.6083880"},{"key":"665_CR121","unstructured":"Huang H, Hu Y, Xu H (2017) Mandarin tone modeling using recurrent neural networks. arXiv:171101946"},{"issue":"4","key":"665_CR122","doi-asserted-by":"crossref","first-page":"663","DOI":"10.1016\/j.csl.2009.10.001","volume":"24","author":"S Huet","year":"2010","unstructured":"Huet S, Gravier G, S\u00e9billot P (2010) Morpho-syntactic post-processing of N-best lists for improved French automatic speech recognition. Comput Speech Lang 24(4):663\u2013684","journal-title":"Comput Speech Lang"},{"key":"665_CR123","doi-asserted-by":"crossref","unstructured":"Huijbregts M, Wooters C, Ordelman R (2007) Filtering the unknown: speech activity detection in heterogeneous video collections. In: Eighth annual conference of the international speech communication association, pp 2925\u20132928","DOI":"10.21437\/Interspeech.2007-729"},{"issue":"7","key":"665_CR124","doi-asserted-by":"crossref","first-page":"1253","DOI":"10.1109\/TASL.2009.2014263","volume":"17","author":"M Hwang","year":"2009","unstructured":"Hwang M, Peng G, Ostendorf M, Wang W, Faria A, Heidel A (2009) Building a highly accurate mandarin speech recognizer with language-independent technologies and language-dependent modules. IEEE Trans Audio Speech Lang Process 17(7):1253\u20131262","journal-title":"IEEE Trans Audio Speech Lang Process"},{"key":"665_CR125","unstructured":"Iakushkin O, Fedoseev G, Shaleva SA, Degtyarev A, Sedova SO (2018) Russian-language speech recognition system based on Deepspeech"},{"issue":"5","key":"665_CR126","doi-asserted-by":"crossref","first-page":"816","DOI":"10.1109\/JSTSP.2010.2057191","volume":"4","author":"O Ichikawa","year":"2010","unstructured":"Ichikawa O, Fukuda T, Nishimura M (2010) Dynamic features in the linear-logarithmic hybrid domain for automatic speech recognition in a reverberant environment. IEEE J Sel Top Signal Process 4(5):816\u2013823","journal-title":"IEEE J Sel Top Signal Process"},{"key":"665_CR127","doi-asserted-by":"crossref","unstructured":"Imseng, D, Bourlard, H, Caesar, H, Garner PN, Lecorv\u00e9 G, Nanchen A (2012) MediaParl: Bilingual mixed language accented speech database In: 2012 IEEE spoken language technology workshop (SLT)\u00a0(pp 263\u2013268) IEEE","DOI":"10.1109\/SLT.2012.6424233"},{"issue":"4","key":"665_CR128","doi-asserted-by":"crossref","first-page":"840","DOI":"10.1109\/TASL.2009.2014217","volume":"17","author":"P Ircing","year":"2009","unstructured":"Ircing P, Psutka JV, Psutka J (2009) Using morphological information for robust language modeling in Czech ASP system. IEEE Trans Audio Speech Lang Process 17(4):840\u2013847","journal-title":"IEEE Trans Audio Speech Lang Process"},{"key":"665_CR129","first-page":"20","volume":"10","author":"T Ismail","year":"2017","unstructured":"Ismail T, Singh LJ (2017) Dialect identification of assamese language using spectral features. Indian J Sci Technol 10:20","journal-title":"Indian J Sci Technol"},{"key":"665_CR130","doi-asserted-by":"crossref","first-page":"020028","DOI":"10.1063\/1.5002046","volume":"1883","author":"N Jamal","year":"2017","unstructured":"Jamal N, Shanta S, Mahmud F, Shaabani MNAH (2017) Automatic speech recognition (ASR) based approach for speech therapy of aphasic patients: a review. AIP Conf Proc 1883:020028","journal-title":"AIP Conf Proc"},{"issue":"4","key":"665_CR131","doi-asserted-by":"crossref","first-page":"589","DOI":"10.1016\/j.csl.2009.08.002","volume":"24","author":"H Jiang","year":"2010","unstructured":"Jiang H (2010) Discriminative training of HMMs for automatic speech recognition: a survey. Comput Speech Lang 24(4):589\u2013608","journal-title":"Comput Speech Lang"},{"key":"665_CR132","doi-asserted-by":"crossref","first-page":"66","DOI":"10.1016\/j.specom.2018.09.006","volume":"104","author":"S Jing","year":"2018","unstructured":"Jing S, Mao X, Chen L, Comes MC, Mencattini A, Raguso G, Ringeval F, Schuller B, Di Natale C, Martinelli E (2018) A closed-form solution to the graph total variation problem for continuous emotion profiling in noisy environment. Speech Commun 104:66\u201372","journal-title":"Speech Commun"},{"issue":"3","key":"665_CR133","doi-asserted-by":"crossref","first-page":"1683","DOI":"10.1007\/s11235-011-9660-8","volume":"52","author":"J Ka\u010dur","year":"2011","unstructured":"Ka\u010dur J, Rozinaj G (2011) Building accurate and robust HMM models for practical ASR systems. Telecommun Syst 52(3):1683\u20131696","journal-title":"Telecommun Syst"},{"issue":"4","key":"665_CR134","doi-asserted-by":"crossref","first-page":"761","DOI":"10.1007\/s10772-017-9446-9","volume":"20","author":"V Kadyan","year":"2017","unstructured":"Kadyan V, Mantri A, Aggarwal RK (2017) A heterogeneous speech feature vectors generation approach with hybrid hmm classifiers. Int J Speech Technol 20(4):761\u2013769","journal-title":"Int J Speech Technol"},{"issue":"1","key":"665_CR135","doi-asserted-by":"crossref","first-page":"111","DOI":"10.1007\/s10772-018-09577-3","volume":"22","author":"V Kadyan","year":"2019","unstructured":"Kadyan V, Mantri A, Aggarwal RK, Singh A (2019) A comparative study of deep neural network based Punjabi-ASR system. Int J Speech Technol 22(1):111\u2013119","journal-title":"Int J Speech Technol"},{"key":"665_CR136","doi-asserted-by":"crossref","unstructured":"Kaewprateep J, Prom-on S (2018) Evaluation of small-scale deep learning architectures in Thai speech recognition. In: 2018 International ECTI Northern Section Conference on electrical, electronics, computer and telecommunications engineering","DOI":"10.1109\/ECTI-NCON.2018.8378282"},{"issue":"5","key":"665_CR137","first-page":"151","volume":"3","author":"SK Kalita","year":"2010","unstructured":"Kalita SK (2010) Nonlinearity and cepstral\/mel cepstral measure of the spectral characteristics of assamese and bodo phonemes. Int J Open Problems Compt Math 3(5):151\u2013165","journal-title":"Int J Open Problems Compt Math"},{"key":"665_CR138","doi-asserted-by":"crossref","unstructured":"Kandali AB, Routray A, Basu TK (2008) Emotion recognition from Assamese speeches using MFCC features and GMM classifier. In: TENCON 2008\u20132008 IEEE Region 10, pp 1\u20135, IEEE","DOI":"10.1109\/TENCON.2008.4766487"},{"issue":"1","key":"665_CR139","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1007\/s10772-009-9046-4","volume":"12","author":"AB Kandali","year":"2009","unstructured":"Kandali AB, Routray A, Basu TK (2009) Vocal emotion recognition in five native languages of Assam using new wavelet features. Int J Speech Technol 12(1):1\u201313","journal-title":"Int J Speech Technol"},{"key":"665_CR140","doi-asserted-by":"crossref","unstructured":"Kannadaguli P, Bhat V (2018) A comparison of Bayesian and HMM based approaches in machine learning for emotion detection in native Kannada speaker. In: IEEMA Engineer Infinite Conference, pp 1\u20136, IEEE","DOI":"10.1109\/ETECHNXT.2018.8385377"},{"key":"665_CR141","doi-asserted-by":"crossref","unstructured":"Kapralova O, Alex J, Weinstein E, Moreno P, Siohan O (2014) A big data approach to acoustic model training corpus selection. In: Annual conference of the international speech communication association, INTERSPEECH, pp 2083\u20132087","DOI":"10.21437\/Interspeech.2014-473"},{"key":"665_CR142","doi-asserted-by":"crossref","unstructured":"Karpov A, Kipyatkova I, Ronzhin A (2011) Very large vocabulary ASR for spoken Russian with syntactic and morphemic analysis. In: Twelfth annual conference of the international speech communication association, pp 3161\u20133164","DOI":"10.21437\/Interspeech.2011-791"},{"key":"665_CR143","doi-asserted-by":"crossref","first-page":"213","DOI":"10.1016\/j.specom.2013.07.004","volume":"56","author":"A Karpov","year":"2014","unstructured":"Karpov A, Markov K, Kipyatkova I, Vazhenina D, Ronzhin A (2014) Large vocabulary Russian speech recognition using syntactico-statistical language modeling. Speech Commun 56:213\u2013228","journal-title":"Speech Commun"},{"key":"665_CR144","unstructured":"Kat P, Hemakumar G (2014) Speaker dependent continuous Kannada speech recognition using HMM. In: International conference on intelligent computing applications, pp 402\u2013405"},{"key":"665_CR145","doi-asserted-by":"crossref","unstructured":"Kaur A, Singh A (2016a) Power-normalized cepstral coefficients (PNCC) for Punjabi automatic speech recognition using phone based modelling in HTK. In: 2nd international conference on applied and theoretical computing and communication technology, pp 372\u2013375, IEEE","DOI":"10.1109\/ICATCCT.2016.7912026"},{"key":"665_CR146","doi-asserted-by":"crossref","unstructured":"Kaur A, Singh A (2016b) Optimizing feature extraction techniques constituting phone based modelling on connected words for Punjabi automatic speech recognition. In: International conference on advances in computing, communications and informatics (ICACCI), Jaipur, pp 2104\u20132108","DOI":"10.1109\/ICACCI.2016.7732362"},{"key":"665_CR147","doi-asserted-by":"publisher","DOI":"10.1007\/s11831-020-09414-4","author":"J Kaur","year":"2020","unstructured":"Kaur J, Singh A, Kadyan V (2020) Automatic speech recognition system for tonal languages: state-of-the-art survey. Arch Comput Method Eng. https:\/\/doi.org\/10.1007\/s11831-020-09414-4","journal-title":"Arch Comput Method Eng"},{"key":"665_CR148","doi-asserted-by":"crossref","unstructured":"Kawahara T (2012) Transcription system using automatic speech recognition for the japanese parliament (Diet), Twenty-fourth innovative appications of artificial intelligence conference,pp 2224\u20132228","DOI":"10.1609\/aaai.v26i2.18962"},{"key":"665_CR149","doi-asserted-by":"crossref","first-page":"1028","DOI":"10.1016\/j.neucom.2017.09.049","volume":"275","author":"H Kaya","year":"2018","unstructured":"Kaya H, Karpov AA (2018) Efficient and effective strategies for cross-corpus acoustic emotion recognition. Neurocomputing 275:1028\u20131034","journal-title":"Neurocomputing"},{"key":"665_CR150","unstructured":"Kayte S, Gawali DB (2015) Marathi speech synthesis: a review. In: international journal on recent and innovation trends in computing and communication, pp 2321\u20138169"},{"key":"665_CR151","unstructured":"Kertkeidkachorn N, Punyabukkana P, Suchato A (2014) Using tone information in Thai spelling speech recognition. In: 28th Pacific Asia conference on language, information and computing, pp 178\u2013184"},{"key":"665_CR152","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1016\/j.specom.2018.01.007","volume":"98","author":"M Khademian","year":"2018","unstructured":"Khademian M, Homayounpour MM (2018) Monaural multi-talker speech recognition using factorial speech processing models. Speech Commun 98:1\u201316","journal-title":"Speech Commun"},{"issue":"3","key":"665_CR153","first-page":"69","volume":"1","author":"GP Khetri","year":"2012","unstructured":"Khetri GP, Padme SL, Jain DC, Fadewar DH, Sontakke DB, Pawar DVP (2012) Automatic speech recognition for marathi isolated words. Int J Appl Innov Eng Manag 1(3):69\u201374","journal-title":"Int J Appl Innov Eng Manag"},{"key":"665_CR154","doi-asserted-by":"crossref","unstructured":"Khokhlov Y, Medennikov I, Romanenko A, Mendelev V, Korenevsk M, Prudnikov A, Tomashenko N, Zatvornitskiy A (2017) The STC keyword search system for OpenKWS 2016 evaluation 3602\u20133606 1021437\/Interspeech, pp 2017\u20131212","DOI":"10.21437\/Interspeech.2017-1212"},{"issue":"4","key":"665_CR155","doi-asserted-by":"crossref","first-page":"534","DOI":"10.1109\/TASL.2008.2009015","volume":"17","author":"K Kinoshita","year":"2009","unstructured":"Kinoshita K, Delcroix M, Nakatani T, Miyoshi M (2009) Suppression of late reverberation effect on speech signal using long-term multiple-step linear prediction. IEEE Trans Audio Speech Lang Process 17(4):534\u2013545","journal-title":"IEEE Trans Audio Speech Lang Process"},{"key":"665_CR156","unstructured":"Kipyatkova I, Karpov A, Verkhodanova V, \u017delezn\u00fd M (2012) Analysis of long-distance word dependencies and pronunciation variability at conversational Russian speech recognition. In: Federated conference on computer science and information systems, pp 719\u2013725, IEEE"},{"key":"665_CR157","doi-asserted-by":"crossref","first-page":"858","DOI":"10.1134\/S0005117917050083","volume":"78","author":"IS Kipyatkova","year":"2017","unstructured":"Kipyatkova IS, Karpov AA (2017) A study of neural network Russian language models for automatic continuous speech recognition systems. Autom Remote Control 78:858","journal-title":"Autom Remote Control"},{"issue":"1","key":"665_CR158","doi-asserted-by":"crossref","first-page":"37","DOI":"10.1016\/j.specom.2005.01.004","volume":"46","author":"K Kirchhoff","year":"2005","unstructured":"Kirchhoff K, Vergyri D (2005) Cross-dialectal data sharing for acoustic modeling in Arabic speech recognition. Speech Commun 46(1):37\u201351","journal-title":"Speech Commun"},{"issue":"4","key":"665_CR159","doi-asserted-by":"crossref","first-page":"589","DOI":"10.1016\/j.csl.2005.10.001","volume":"20","author":"K Kirchhoff","year":"2006","unstructured":"Kirchhoff K, Vergyri D, Bilmes J, Duh K, Stolcke A (2006) Morphology-based language modeling for conversational Arabic speech recognition. Comput Speech Lang 20(4):589\u2013608","journal-title":"Comput Speech Lang"},{"key":"665_CR160","doi-asserted-by":"crossref","unstructured":"Kiruthiga S, Krishnamoorthy K (2012) Design issues in developing speech corpus for Indian languages\u2014a survey. In: International conference on computer communication and informatics, pp 1\u20134, IEEE","DOI":"10.1109\/ICCCI.2012.6158831"},{"issue":"5","key":"665_CR161","doi-asserted-by":"crossref","first-page":"363","DOI":"10.1250\/ast.30.363","volume":"30","author":"N Kitaoka","year":"2009","unstructured":"Kitaoka N, Yamada T, Tsuge T, Miyajima C, Yamamoto K, Nishiura T, Nakayama M, Denda Y, Fujimoto M, Takiguchi T, Tamura S, Matsuda S, Ogawa T, Kuroiwa S, Takeda K, Nakamura S (2009) CENSREC-1-C: an evaluation framework for voice activity detection under noisy environments. Acoust Sci Technol 30(5):363\u2013371","journal-title":"Acoust Sci Technol"},{"key":"665_CR162","unstructured":"Kitchenham BA (2007) Guidelines for performing systematic literature reviews in software engineering technical report EBSE-2007\u201301 Keele University"},{"key":"665_CR163","unstructured":"Kocabiyikoglu AC, Besacier L, Kraif O (2018) Augmenting Librispeech with French translations: a multimodal corpus for direct speech translation evaluation. arXiv:180203142"},{"key":"665_CR164","doi-asserted-by":"crossref","unstructured":"Kolar J, Liu Y (2010) Automatic sentence boundary detection in conversational speech: a cross-lingual evaluation on English and Czech. In: 2010 IEEE international conference on acoustics, speech and signal processing, pp 5258\u20135261","DOI":"10.1109\/ICASSP.2010.5494976"},{"key":"665_CR165","doi-asserted-by":"crossref","unstructured":"Kombrink S, Mikolov T, Karafi\u00e1t M, Burget L (2012) Improving language models for ASR using translated in-domain data. In: IEEE international conference on acoustics, speech and signal processing, pp 4405\u20134408","DOI":"10.1109\/ICASSP.2012.6288896"},{"key":"665_CR166","first-page":"3","volume":"32","author":"MCA Korba","year":"2008","unstructured":"Korba MCA, Messadeg D, Djemili R, Bourouba H (2008) Robust speech recognition using perceptual wavelet denoising and mel-frequency product spectrum cepstral coefficient features. Informatica 32:3","journal-title":"Informatica"},{"issue":"1","key":"665_CR167","first-page":"52","volume":"1","author":"VV Krishnan","year":"2009","unstructured":"Krishnan VV, Anto PB (2009) Feature parameter extraction from wavelet subband analysis for the recognition of isolated malayalam spoken words. Int J Comput Netw Secur 1(1):52\u201355","journal-title":"Int J Comput Netw Secur"},{"key":"665_CR168","doi-asserted-by":"crossref","unstructured":"Krishnan VV, Jayakumar A, Babu AP (2008) Speech recognition of isolated malayalam words using wavelet features and artificial neural network. In: 4th IEEE international symposium on electronic design, test and applications, pp 240\u2013243, IEEE","DOI":"10.1109\/DELTA.2008.88"},{"issue":"1","key":"665_CR169","doi-asserted-by":"crossref","first-page":"25","DOI":"10.1504\/IJCSYSE.2012.044740","volume":"1","author":"K Kumar","year":"2012","unstructured":"Kumar K, Aggarwal RK, Jain A (2012) A Hindi speech recognition system for connected words using HTK. Int J Comput Syst Eng 1(1):25\u201332","journal-title":"Int J Comput Syst Eng"},{"issue":"56","key":"665_CR170","doi-asserted-by":"crossref","first-page":"703","DOI":"10.1147\/rd.485.0703","volume":"48","author":"M Kumar","year":"2004","unstructured":"Kumar M, Rajput N, Verma A (2004) A large-vocabulary continuous speech recognition system for Hindi. IBM J Res Dev 48(56):703\u2013715","journal-title":"IBM J Res Dev"},{"key":"665_CR171","doi-asserted-by":"publisher","DOI":"10.1007\/s00034-019-01189-9","author":"PG KumarAdava","year":"2019","unstructured":"KumarAdava PG, Jayanna HS (2019) Continuous Kannada speech recognition system under degraded condition. Circ Syst Signal Process. https:\/\/doi.org\/10.1007\/s00034-019-01189-9","journal-title":"Circ Syst Signal Process"},{"key":"665_CR172","unstructured":"Kumar R, Kishore S, Gopalakrishna A, Chitturi R, Joshi S, Singh S, Sitaram R (2005a) Development of Indian language speech databases for large vocabulary speech recognition systems, SPECOM, pp 1\u20134"},{"key":"665_CR173","unstructured":"Kumar R., Kishore S, Gopalakrishna A, Chitturi R, Joshi S, Singh S, Sitaram R (2005b) Development of Indian language speech databases for large vocabulary speech recognition systems, SPECOM"},{"key":"665_CR174","unstructured":"Kumar S, Rao SB, Pati D (2013) Phonetic and Prosodically Rich Transcribed speech corpus in Indian languages: Bengali and Odia. In: International conference oriental COCOSDA Held Jointly with 2013 conference on asian spoken language research and evaluation, pp 1\u20135"},{"issue":"2","key":"665_CR175","doi-asserted-by":"crossref","first-page":"297","DOI":"10.1007\/s10772-017-9408-2","volume":"20","author":"Y Kumar","year":"2017","unstructured":"Kumar Y, Singh N (2017) An automatic speech recognition system for spontaneous Punjabi speech corpus. Int J Speech Technol 20(2):297\u2013303","journal-title":"Int J Speech Technol"},{"key":"665_CR176","doi-asserted-by":"crossref","unstructured":"Kuo HKJ, Arisoy E, Mangu L, Saon G (2011) Minimum Bayes risk discriminative language models for Arabic speech recognition. In: IEEE workshop on automatic speech recognition and understanding, pp 208\u2013213, IEEE","DOI":"10.1109\/ASRU.2011.6163932"},{"issue":"1","key":"665_CR177","first-page":"1","volume":"3","author":"C Kurian","year":"2012","unstructured":"Kurian C, Balakriahnan K (2012) Continuous speech recognition system for Malayalam language using PLP cepstral coefficient. J Comput Business Res 3(1):1\u201323","journal-title":"J Comput Business Res"},{"key":"665_CR178","doi-asserted-by":"crossref","unstructured":"Kurian C, Balakrishnan K (2009) Speech recognition of Malayalam numbers world congress on\u00a0nature and biologically inspired computing, pp 1475\u20131479, IEEE","DOI":"10.1109\/NABIC.2009.5393692"},{"key":"665_CR179","doi-asserted-by":"crossref","unstructured":"Kurimo M, Turunen V (2005) To recover from speech recognition errors in spoken document retrieval. In: 9th European conference on speech communication and technology, pp 605\u2013608","DOI":"10.21437\/Interspeech.2005-62"},{"key":"665_CR180","first-page":"1217","volume":"2003","author":"M Larson","year":"2003","unstructured":"Larson M, Eickeler S (2003) Using syllable-based indexing features and language models to improve German spoken document retrieval. Interspeech 2003:1217\u20131220","journal-title":"Interspeech"},{"key":"665_CR181","doi-asserted-by":"crossref","unstructured":"Lee JY, Hung JW (2011) Exploiting principal component analysis in modulation spectrum enhancement for robust speech recognition. In: Eighth international conference on\u00a0fuzzy systems and knowledge discovery, vol 3, pp 1947\u20131951, IEEE","DOI":"10.1109\/FSKD.2011.6019893"},{"key":"665_CR182","doi-asserted-by":"crossref","unstructured":"Levin E (1990) April Word recognition using hidden control neural architecture. In: Acoustics, speech, and signal processing, 1990 ICASSP-90, 1990 International Conference on\u00a0(pp 433\u2013436) IEEE","DOI":"10.1109\/ICASSP.1990.115740"},{"key":"665_CR183","doi-asserted-by":"crossref","unstructured":"Li J, Yu D, Huang JT, Gong Y (2012) Improving wideband speech recognition using mixed-bandwidth training data in CD-DNN\u2013HMM. In:Spoken Language Technology Workshop, pp 131\u2013136, IEEE","DOI":"10.1109\/SLT.2012.6424210"},{"key":"665_CR184","doi-asserted-by":"crossref","first-page":"28","DOI":"10.1016\/j.specom.2017.11.003","volume":"96","author":"K Li","year":"2018","unstructured":"Li K, Mao S, Li X, Wu Z, Meng H (2018) Automatic lexical stress and pitch accent detection for L2 English speech using multi-distribution deep neural networks. Speech Commun 96:28\u201336","journal-title":"Speech Commun"},{"key":"665_CR185","doi-asserted-by":"crossref","first-page":"251","DOI":"10.1016\/j.neucom.2014.07.087","volume":"170","author":"X Li","year":"2015","unstructured":"Li X, Yang Y, Pang Z, Wu X (2015) A comparative study on selecting acoustic modeling units in deep neural networks based large vocabulary Chinese speech recognition. Neurocomputing 170:251\u2013256","journal-title":"Neurocomputing"},{"key":"665_CR186","unstructured":"Liu G, Lei Y, Hansen JH (2010) Dialect identification: impact of differences between read versus spontaneous speech. In: 18th European signal processing conference, pp 2003\u20132006, IEEE"},{"key":"665_CR187","doi-asserted-by":"crossref","unstructured":"Liu S, Sim KC (2013) Multi-stream temporally varying weight regression for cross-lingual speech recognition. In: IEEE workshop on automatic speech recognition and understanding, Olomouc, pp 434\u2013439","DOI":"10.1109\/ASRU.2013.6707769"},{"key":"665_CR188","unstructured":"Ljubesic N, Agic Z, Klubicka F, Batanovic V, Erjavec T (2018) hr500 K\u2014a reference training Corpus of Croatian. In: Language Technologies & Digital Humanities, Ljubljana, Solvenia, pp 154\u2013160"},{"key":"665_CR189","doi-asserted-by":"crossref","unstructured":"Ljube\u0161i\u0107 N, Klubi\u010dka F (2014) {bs,hr,sr}WaC - Web Corpora of Bosnian, Croatian and Serbian. In: 9th Web as Corpus Workshop (WaC-9), pp 29\u201335","DOI":"10.3115\/v1\/W14-0405"},{"key":"665_CR190","doi-asserted-by":"crossref","unstructured":"Ljube\u0161i\u0107 N, Erjavec T (2011) hrWaC and slWaC: compiling web corpora for Croatian and Slovene. In: International conference on text, speech and dialogue. Springer, pp 395\u2013402","DOI":"10.1007\/978-3-642-23538-2_50"},{"key":"665_CR191","unstructured":"Ljubesic, N, Dobrovoljc K, Fiser D (2015) MWELex - mwe lexica of croatian, slovene and serbian extracted from parsed corpora, vol 39, pp 293\u2013300"},{"key":"665_CR192","first-page":"1","volume":"2018","author":"S Lokesh","year":"2018","unstructured":"Lokesh S, Kumar PM, Devi MR, Parthasarathy P, Gokulnath C (2018) An automatic Tamil speech recognition system by using bidirectional recurrent neural network with self-organizing map. Neural Comput Appl 2018:1\u201311","journal-title":"Neural Comput Appl"},{"issue":"2","key":"665_CR193","doi-asserted-by":"crossref","first-page":"193","DOI":"10.1007\/s10772-018-9496-7","volume":"21","author":"ND Londhe","year":"2018","unstructured":"Londhe ND, Kshirsagar GB (2018) Chhattisgarhi speech corpus for research and development in automatic speech recognition. Int J Speech Technol 21(2):193\u2013210","journal-title":"Int J Speech Technol"},{"key":"665_CR194","doi-asserted-by":"crossref","first-page":"46","DOI":"10.1016\/j.csl.2016.03.001","volume":"40","author":"I Lopez-Moreno","year":"2016","unstructured":"Lopez-Moreno I, Gonzalez-Dominguez J, Martinez D, Plchot O, Gonzalez-Rodriguez J, Moreno PJ (2016) On the use of deep feedforward neural networks for automatic language identification. Comput Speech Lang 40:46\u201359","journal-title":"Comput Speech Lang"},{"key":"665_CR195","doi-asserted-by":"crossref","first-page":"195","DOI":"10.1016\/j.csl.2016.06.007","volume":"41","author":"AL Maas","year":"2017","unstructured":"Maas AL, Qi P, Xie Z, Hannun AY, Lengerich CT, Jurafsky D, Ng AY (2017) Building DNN acoustic models for large vocabulary speech recognition. Comput Speech Lang 41:195\u2013213","journal-title":"Comput Speech Lang"},{"key":"665_CR196","doi-asserted-by":"crossref","unstructured":"Mandal S, Das B, Mitra P, Basu A (2011) Developing Bengali speech corpus for phone recognizer using optimum text selection technique. In: International conference on asian language processing, pp 268\u2013271, IEEE","DOI":"10.1109\/IALP.2011.16"},{"issue":"1","key":"665_CR197","doi-asserted-by":"crossref","first-page":"87","DOI":"10.1007\/s10772-015-9328-y","volume":"19","author":"K Mannepalli","year":"2016","unstructured":"Mannepalli K, Sastry PN, Suman M (2016) MFCC-GMM based accent recognition system for Telugu speech signals. Int J Speech Technol 19(1):87\u201393","journal-title":"Int J Speech Technol"},{"key":"665_CR198","doi-asserted-by":"crossref","unstructured":"Manohar V, Povey D, Khudanpur S (2015) Semi-supervised maximum mutual information training of deep neural network acoustic models. In: Sixteenth annual conference of the international speech communication association, pp 1\u20135","DOI":"10.21437\/Interspeech.2015-561"},{"key":"665_CR199","doi-asserted-by":"crossref","unstructured":"Mansikkaniemi A, Smit P, Kurimo M (2017) Automatic construction of the Finnish parliament speech corpus. In: Proceedings of the annual conference of the international speech communication association, interspeec, pp 3762\u20133766","DOI":"10.21437\/Interspeech.2017-1115"},{"key":"665_CR200","doi-asserted-by":"crossref","unstructured":"Markovnikov N, Kipyatkova I, Lyakso E (2018) End-to-end speech recognition in Russian. In: International conference on speech and computer. Springer, Cham, pp 377\u2013386","DOI":"10.1007\/978-3-319-99579-3_40"},{"issue":"1","key":"665_CR201","doi-asserted-by":"crossref","first-page":"94","DOI":"10.1186\/1472-6947-14-94","volume":"14","author":"M Johnson","year":"2014","unstructured":"Johnson M, Lapkin S, Long V (2014) A systematic review of speech recognition technology in health care. BMC Med Inform Decis Mak 14(1):94","journal-title":"BMC Med Inform Decis Mak"},{"key":"665_CR202","doi-asserted-by":"crossref","first-page":"227","DOI":"10.15388\/Informatica.2008.211","volume":"19","author":"S Martin\u010di\u0107-Ip\u0161i\u0107","year":"2008","unstructured":"Martin\u010di\u0107-Ip\u0161i\u0107 S, Ribari\u0107 S, Ip\u0161i\u0107 I (2008) Acoustic modelling for Croatian speech recognition and synthesis. Informatica 19:227\u2013254","journal-title":"Informatica"},{"key":"665_CR203","doi-asserted-by":"crossref","unstructured":"Martincic-Ipsic S et al (2009) Automatic evaluation of synthesized speech. In: 2009 international conference on information technology interfaces, pp 305\u2013310","DOI":"10.1109\/ITI.2009.5196099"},{"key":"665_CR204","doi-asserted-by":"crossref","unstructured":"Maseri M, Mamat M (2018) Malay language speech recognition for preschool children using hidden markov model (HMM) system training, computational science and technology. Springer, Singapore, pp 205\u2013214","DOI":"10.1007\/978-981-13-2622-6_21"},{"key":"665_CR205","doi-asserted-by":"crossref","unstructured":"Mateju L, Cerva P, Zdansky J (2015) Investigation into the use of deep neural networks for LVCSR of Czech. In: 2015 IEEE international workshop of electronics, control, measurement, signals and their application to mechatronics, pp 1\u20134","DOI":"10.1109\/ECMSM.2015.7208708"},{"issue":"1","key":"665_CR206","doi-asserted-by":"crossref","first-page":"203","DOI":"10.1109\/TASL.2006.876778","volume":"15","author":"E McDermott","year":"2007","unstructured":"McDermott E, Hazen TJ, Le Roux J, Nakamura A, Katagiri S (2007) Discriminative training for large-vocabulary speech recognition using minimum classification error. IEEE Trans Audio Speech Lang Process 15(1):203\u2013223","journal-title":"IEEE Trans Audio Speech Lang Process"},{"key":"665_CR207","doi-asserted-by":"crossref","unstructured":"Medennikov I, Prudnikov A (2016) Advances in STC Russian spontaneous speech recognition system lecture notes in computer science, pp 116\u2013123. 101007\/978-3-319-43958-7_13","DOI":"10.1007\/978-3-319-43958-7_13"},{"issue":"6","key":"665_CR208","first-page":"2133","volume":"2","author":"LR Mehta","year":"2013","unstructured":"Mehta LR, Mahajan SP, Dabhade AS (2013) Comparative study of MFCC and LPC for Marathi isolated word recognition system. Int J Adv Res Electr Electron Instrum Eng 2(6):2133\u20132139","journal-title":"Int J Adv Res Electr Electron Instrum Eng"},{"key":"665_CR209","doi-asserted-by":"crossref","first-page":"81","DOI":"10.1016\/j.procs.2017.10.096","volume":"117","author":"MA Menacer","year":"2017","unstructured":"Menacer MA, Mella O, Fohr D, Jouvet D, Langlois D, Sma\u00efli K (2017) Development of the Arabic Loria automatic speech recognition system (ALASR) and its evaluation for Algerian dialect. Procedia Comput Sci 117:81\u201388","journal-title":"Procedia Comput Sci"},{"issue":"4","key":"665_CR210","doi-asserted-by":"crossref","first-page":"393","DOI":"10.1007\/s10772-011-9119-z","volume":"14","author":"ZB Messaoud","year":"2011","unstructured":"Messaoud ZB, Hamida AB (2011) Combining formant frequency based on variable order LPC coding with acoustic features for TIMIT phone recognition. Int J Speech Technol 14(4):393","journal-title":"Int J Speech Technol"},{"key":"665_CR211","unstructured":"Milde B, K\u00f6hn A (2018) Open source automatic speech recognition for German In: Speech communication; 13th ITG-Symposium, pp 1\u20135"},{"key":"665_CR212","doi-asserted-by":"crossref","unstructured":"Militaru D, Gavat I, Dumitru O, Zaharia T, Segarceanu S (2009) ProtoLOGOS, system for Romanian language automatic speech recognition and understanding (ASRU). In: 5-th conference on speech technology and human-computer dialogue, Constant, pp 1\u20139","DOI":"10.1109\/SPED.2009.5156171"},{"key":"665_CR213","doi-asserted-by":"crossref","unstructured":"Misra DD, Dutta K, Bhattacharjee U, Sarma KK, Goswami PK (2015) Assamese vowel speech recognition using GMM and ANN approaches. In: Recent trends in intelligent and emerging systems. Springer, pp 163\u2013170","DOI":"10.1007\/978-81-322-2407-5_13"},{"key":"665_CR214","unstructured":"Mitankin P, Mihov S, Tinchev T (2009) Large vocabulary continuous speech recognition for bulgarian. In: Proceedings of the RANLP, pp 246\u2013250"},{"key":"665_CR215","doi-asserted-by":"crossref","first-page":"616","DOI":"10.1016\/j.proeng.2012.01.906","volume":"30","author":"A Mohamed","year":"2012","unstructured":"Mohamed A, Nair KR (2012) HMM\/ANN hybrid model for continuous Malayalam speech recognition. Procedia Eng 30:616\u2013622","journal-title":"Procedia Eng"},{"key":"665_CR216","first-page":"339","volume-title":"Information systems design and intelligent applications advances in intelligent systems and computing","author":"A Mohamed","year":"2015","unstructured":"Mohamed A, Ramachandran Nair KN (2015) Connectionist approach for emission probability estimation in malayalam continuous speech recognition. In: Mandal J, Satapathy S, Kumar Sanyal M, Sarkar P, Mukhopadhyay A (eds) Information systems design and intelligent applications advances in intelligent systems and computing. Springer, New Delhi, p 339"},{"key":"665_CR217","doi-asserted-by":"crossref","unstructured":"Mohamed AR, Hinton G, Penn G (2012) Understanding how deep belief networks perform acoustic modelling. In: IEEE international conference on acoustics, speech and signal processing (ICASSP), pp 4273\u20134276","DOI":"10.1109\/ICASSP.2012.6288863"},{"key":"665_CR218","doi-asserted-by":"crossref","first-page":"676","DOI":"10.1016\/j.procs.2016.07.261","volume":"93","author":"FK Mohamed","year":"2016","unstructured":"Mohamed FK, Lajish VL (2016) Nonlinear speech analysis and modeling for Malayalam vowel recognition. Procedia Comput Sci 93:676\u2013682","journal-title":"Procedia Comput Sci"},{"key":"665_CR219","unstructured":"Mohanty R, Swain BK (2010a) Emotion recognition using fuzzy K-means from Oriya speech. In: 2010 for International Conference [ACCTA-2010], pp 3\u20135"},{"issue":"3","key":"665_CR220","first-page":"2130","volume":"34","author":"S Mohanty","year":"2008","unstructured":"Mohanty S, Bhattacharya S (2008) Recognition of voice signals for Oriya language using wavelet neural network. ACM Int J Expert Syst Appl 34(3):2130\u20132147","journal-title":"ACM Int J Expert Syst Appl"},{"issue":"2","key":"665_CR221","first-page":"3","volume":"2","author":"S Mohanty","year":"2010","unstructured":"Mohanty S, Swain BK (2010b) Markov model based Oriya isolated speech recognizer-an emerging solution for visually impaired students in school and public examination. Spec Issue IJCCT 2(2):3","journal-title":"Spec Issue IJCCT"},{"key":"665_CR222","doi-asserted-by":"crossref","unstructured":"Mohanty S, Swain BK (2013) Double ended speech enabled system in Indian travel & tourism industry. In: IEEE international conference on computational intelligence and computing research, pp 1\u20137","DOI":"10.1109\/ICCIC.2013.6724164"},{"key":"665_CR223","doi-asserted-by":"crossref","first-page":"574","DOI":"10.1016\/j.csl.2016.11.003","volume":"46","author":"AH Moore","year":"2017","unstructured":"Moore AH, Parada PP, Naylor PA (2017) Speech enhancement for robust automatic speech recognition: evaluation using a baseline system and instrumental measures. Comput Speech Lang 46:574\u2013584","journal-title":"Comput Speech Lang"},{"key":"665_CR224","doi-asserted-by":"crossref","unstructured":"Moriya T, Tanaka T, Shinozaki T, Watanabe S, Duh K (2015) Automation of system building for state-of-the-art large vocabulary speech recognition using evolution strategy. In: IEEE workshop on automatic speech recognition and understanding (ASRU), Scottsdale, pp 610\u2013616","DOI":"10.1109\/ASRU.2015.7404852"},{"key":"665_CR225","doi-asserted-by":"crossref","unstructured":"Mufungulwa G, Tsutsui H, Miyanaga Y, Abe S, Ochi M (2017) Robust speech recognition for similar Japanese pronunciation phrases under noisy conditions. In: International symposium on signals, circuits and systems (ISSCS), pp 1\u20134","DOI":"10.1109\/ISSCS.2017.8034928"},{"key":"665_CR226","doi-asserted-by":"crossref","unstructured":"Muhammad G, Alotaibi YA, Huda MN (2009) Automatic speech recognition for Bangla digits. In: 12th international conference on\u00a0computers and information technology, pp 379\u2013383","DOI":"10.1109\/ICCIT.2009.5407267"},{"key":"665_CR227","first-page":"3","volume":"10","author":"MB Mustafa","year":"2016","unstructured":"Mustafa MB, Salim SS, Rahman FD (2016) A two-stage adaptation towards automatic speech recognition system for Malay-speaking children. Int J Comput Electr Autom Control Inf Eng 10:3","journal-title":"Int J Comput Electr Autom Control Inf Eng"},{"key":"665_CR228","doi-asserted-by":"crossref","unstructured":"Nahid MMH, Purkaystha B, Islam MS (2017) Bengali speech recognition: a double layered LSTM-RNN approach, 20th International Conference of Computer and Information Technology, pp 1\u20136, IEEE.","DOI":"10.1109\/ICCITECHN.2017.8281848"},{"key":"665_CR229","unstructured":"Nakamura S (2014) Towards real-time multilingual multimodal speech-to-speech translation, spoken language technologies for under-resourced languages, pp 13\u201315"},{"key":"665_CR230","doi-asserted-by":"crossref","first-page":"19143","DOI":"10.1109\/ACCESS.2019.2896880","volume":"7","author":"AB Nassif","year":"2019","unstructured":"Nassif AB, Shahin I, Attili I, Azzeh M, Shaalan K (2019) Speech recognition using deep neural networks: a systematic review. IEEE Access 7:19143\u201319165","journal-title":"IEEE Access"},{"key":"665_CR231","unstructured":"Neti C, Rajput N, Verma A (2002) A large vocabulary continuous speech recognition system for Hindi. In: Proceedings of the national conference on communications, Mumbai, pp 366\u2013370"},{"key":"665_CR232","first-page":"8046","volume":"1988","author":"J Nouza","year":"2013","unstructured":"Nouza J, \u010cerva P, Jan S (2013) Adding controlled amount of noise to improve recognition of compressed and spectrally distorted speech. Int Conf Acoust Speech Signal Process 1988:8046\u20138050","journal-title":"Int Conf Acoust Speech Signal Process"},{"key":"665_CR233","doi-asserted-by":"crossref","unstructured":"Nouza J, Cerva P, Zdansky J, Blavka K, Bohac M, Silovsky J, Rott M et al (2014) Speech-to-text technology to transcribe and disclose 100,000+ hours of bilingual documents from historical Czech and Czechoslovak radio archive. In: Fifteenth annual conference of the international speech communication association","DOI":"10.21437\/Interspeech.2014-255"},{"key":"665_CR234","unstructured":"Nouza J, Cerva P, Zdansky J, Kucharova M (2012) A Study on adapting czech automatic speech recognition system to croatian language. In: Proceedings of the 54th international symposium, Zadar, Croatia, pp 227\u2013230"},{"key":"665_CR235","doi-asserted-by":"crossref","unstructured":"Nouza J, Safarik R, Cerva P (2016) ASR for South Slavic languages developed in almost automated way. In: Interspeech, pp 3868\u20133872","DOI":"10.21437\/Interspeech.2016-747"},{"key":"665_CR236","doi-asserted-by":"crossref","unstructured":"Nouza J, Zdansky J, Cerva P (2010) System for automatic collection, annotation and indexing of Czech broadcast speech with full-text search. In: 15th IEEE MELECON Conference, Malta, pp 202\u2013205","DOI":"10.1109\/MELCON.2010.5476306"},{"key":"665_CR237","doi-asserted-by":"crossref","unstructured":"Ordelman R, Hessen AV, Jong FD (2003) Compound decomposition in Dutch large vocabulary speech recognition. In: Eighth European conference on speech communication and technology, pp 225\u2013228","DOI":"10.21437\/Eurospeech.2003-105"},{"key":"665_CR238","unstructured":"Pal M, Roy R, Khan S, Bepari MS, Basu J (2018) PannoMulloKathan: voice enabled mobile app for agricultural commodity price dissemination in Bengali language. In: Proc interspeech 2018, pp 1491\u20131492"},{"key":"665_CR239","doi-asserted-by":"crossref","unstructured":"Pan J, Liu C, Wang Z, Hu Y, Jiang H (2012) Investigation of deep neural networks (DNN) for large vocabulary continuous speech recognition: why DNN surpasses GMMs in acoustic modeling. In: International symposium on Chinese spoken language processing (ISCSLP), pp 301\u2013305, IEEE","DOI":"10.1109\/ISCSLP.2012.6423452"},{"key":"665_CR240","doi-asserted-by":"publisher","unstructured":"Pardeep R, Rao KS (2016) Deep neural networks for kannada phoneme recognition. In: 2016 Ninth international conference on contemporary computing (IC3). https:\/\/doi.org\/10.1109\/ic320167880202","DOI":"10.1109\/ic320167880202"},{"issue":"1","key":"665_CR241","doi-asserted-by":"crossref","first-page":"17","DOI":"10.1007\/s10772-009-9029-5","volume":"11","author":"HA Patil","year":"2008","unstructured":"Patil HA, Basu TK (2008) Development of speech corpora for speaker recognition research and evaluation in Indian languages. Int J Speech Technol 11(1):17\u201332","journal-title":"Int J Speech Technol"},{"issue":"1","key":"665_CR242","doi-asserted-by":"crossref","first-page":"93","DOI":"10.1007\/s10772-018-09578-2","volume":"22","author":"SP Patil","year":"2019","unstructured":"Patil SP, Lahudkar SL (2019) Hidden-Markov-model based statistical parametric speech synthesis for Marathi with optimal number of hidden states. Int J Speech Technol 22(1):93\u201398","journal-title":"Int J Speech Technol"},{"key":"665_CR243","doi-asserted-by":"crossref","unstructured":"Paul AK, Das D, Kamal MM (2009) Bangla speech recognition system using LPC and ANN. In: Seventh international conference on advances in pattern recognition, pp 171\u2013174, IEEE","DOI":"10.1109\/ICAPR.2009.80"},{"key":"665_CR244","doi-asserted-by":"crossref","unstructured":"Pelemans J, Demuynck K, Wambacq P (2012) A layered approach for dutch large vocabulary continuous speech recognition. In: 2012 IEEE international conference on acoustics, speech and signal processing (ICASSP), pp 4421\u20134424","DOI":"10.1109\/ICASSP.2012.6288900"},{"key":"665_CR245","unstructured":"Pelemans J, Demuynck K, Wambacq P (2014) Speech recognition web services for Dutch, Proceedings LREC, pp 3041\u20133044"},{"key":"665_CR246","doi-asserted-by":"crossref","unstructured":"Plahl C, Hoffmeister B, Hwang MY, Lu D, Heigold G, Lo J, Ney H (2008) Recent improvements of the RWTH GALE Mandarin LVCSR system. In: Int conf on speech communication and technology, Brisbane, Australia, pp 2426\u20132429","DOI":"10.21437\/Interspeech.2008-135"},{"key":"665_CR247","doi-asserted-by":"crossref","unstructured":"Plauch\u00e9 M, Prabaker M (2006) Tamil market: a spoken dialog system for rural India. In: Working papers in computer-human interfaces","DOI":"10.1145\/1125451.1125746"},{"key":"665_CR248","doi-asserted-by":"crossref","unstructured":"Plauche, M, Nallasamy, U, Pal, J, Wooters, C, Ramachandran D (2006) Speech recognition for illiterate access to information and technology. In: Information and communication technologies and development, 2006 ICTD'06 International Conference on\u00a0(pp 83\u201392) IEEE","DOI":"10.1109\/ICTD.2006.301842"},{"key":"665_CR249","doi-asserted-by":"crossref","unstructured":"Popli A, Kumar A (2015) Query-by-example spoken term detection using low dimensional posteriorgrams motivated by articulatory classes. In: 17th international workshop on multimedia signal processing, pp 1\u20136","DOI":"10.1109\/MMSP.2015.7340826"},{"key":"665_CR250","first-page":"5","volume":"2017","author":"R Potapova","year":"2017","unstructured":"Potapova R, Grigorieva M (2017) Crosslinguistic intelligibility of Russian and German speech in noisy environment. J Electr Comput Eng 2017:5","journal-title":"J Electr Comput Eng"},{"issue":"33","key":"665_CR251","first-page":"1012","volume":"30","author":"MJJ Premkumar","year":"2013","unstructured":"Premkumar MJJ, Vu NT, Schultz T (2013) Experiments towards a better LVCSR System for Tamil. Training 30(33):1012","journal-title":"Training"},{"key":"665_CR252","doi-asserted-by":"crossref","first-page":"8","DOI":"10.1186\/1687-4722-2013-8","volume":"1","author":"J P\u0159ibil","year":"2013","unstructured":"P\u0159ibil J, P\u0159ibilov\u00e1 A (2013) 2013 Evaluation of influence of spectral and prosodic features on GMM classification of Czech and Slovak emotional speech. EURASIP J Audio Speech Music Process 1:8","journal-title":"EURASIP J Audio Speech Music Process"},{"issue":"4","key":"665_CR253","first-page":"1002","volume":"20","author":"V Proch\u00e1zka","year":"2011","unstructured":"Proch\u00e1zka V, Pollak P, \u017d\u010f\u00e1nsk\u00fd J, Nouza J (2011) Performance of Czech speech recognition with language models created from public resources. Radioengineering 20(4):1002\u20131008","journal-title":"Radioengineering"},{"key":"665_CR254","doi-asserted-by":"crossref","unstructured":"Prudnikov A, Medennikov I, Mendelev V, Korenevsky M, Khokhlov Y (2015) Improving acoustic models for Russian spontaneous speech recognition. In: International conference on speech and computer. Springer, pp 234\u2013242","DOI":"10.1007\/978-3-319-23132-7_29"},{"key":"665_CR255","doi-asserted-by":"crossref","unstructured":"Pui-Fung W, Man-Hung S (2004) Decision tree based tone modeling for Chinese speech recognition. In: IEEE international conference on acoustics, speech, and signal processing, pp I-905. IEEE","DOI":"10.1109\/ICASSP.2004.1326133"},{"key":"665_CR256","doi-asserted-by":"crossref","unstructured":"Qian Y, Liu J (2010) Phone modeling and combining discriminative training for mandarin english bilingual speech recognition. In: IEEE international conference on acoustics speech and signal processing (ICASSP), pp 4918\u20134921","DOI":"10.1109\/ICASSP.2010.5495112"},{"issue":"2","key":"665_CR257","doi-asserted-by":"crossref","first-page":"257","DOI":"10.1109\/5.18626","volume":"77","author":"LR Rabiner","year":"1989","unstructured":"Rabiner LR (1989) A tutorial on hidden Markov models and selected applications in speech recognition. Proc IEEE 77(2):257\u2013286","journal-title":"Proc IEEE"},{"key":"665_CR258","doi-asserted-by":"crossref","unstructured":"Radeck-Arneth S, Milde B, Lange A, Gouv\u00eaa E, Radomski S, M\u00fchlh\u00e4user M, Biemann C (2015) Open source german distant speech recognition: Corpus and acoustic model. In: International conference on text, speech, and dialogue, pp 480-488. Springer, Cham","DOI":"10.1007\/978-3-319-24033-6_54"},{"key":"665_CR259","doi-asserted-by":"crossref","unstructured":"Radeck-Arneth S, Milde B, Lange A, Gouv\u00eaa E, Radomski S, M\u00fchlh\u00e4use, M, Biemann C (2015b) Open source german distant speech recognition: Corpus and acoustic model. In: International conference on text, speech, and dialogue, Springer, pp 480\u2013488","DOI":"10.1007\/978-3-319-24033-6_54"},{"key":"665_CR260","doi-asserted-by":"crossref","unstructured":"Rahman FD, Mohamed N, Mustafa MB, Salim SS (2014) Automatic speech recognition system for Malay speaking children. In: Third ICT international student project conference (ICT-ISPC), pp 79\u201382, IEEE","DOI":"10.1109\/ICT-ISPC.2014.6923222"},{"issue":"1","key":"665_CR261","first-page":"67","volume":"5","author":"MM Rahman","year":"2010","unstructured":"Rahman MM, Khan MF, Moni MA (2010) Speech recognition front-end for segmenting and clustering continuous Bangla speech Daffodil International University. J Sci Technol 5(1):67\u201372","journal-title":"J Sci Technol"},{"key":"665_CR262","doi-asserted-by":"crossref","unstructured":"Rajnoha J, Pollak P (2007) Modified feature extraction methods in robust speech recognition. In: 17th international conference Radioelektronika, Brno, pp 1\u20134","DOI":"10.1109\/RADIOELEK.2007.371488"},{"issue":"3","key":"665_CR263","doi-asserted-by":"crossref","first-page":"737","DOI":"10.1109\/TSA.2005.858071","volume":"14","author":"S Ramamohan","year":"2006","unstructured":"Ramamohan S, Dandapat S (2006) Sinusoidal model-based analysis and classification of stressed speech. IEEE Trans Audio Speech Lang Process 14(3):737\u2013746","journal-title":"IEEE Trans Audio Speech Lang Process"},{"key":"665_CR264","doi-asserted-by":"crossref","unstructured":"Ranjan S (2010) A discrete wavelet transform based approach to Hindi speech recognition. In: International conference on signal acquisition and processing, pp 345\u2013348","DOI":"10.1109\/ICSAP.2010.21"},{"issue":"1","key":"665_CR265","doi-asserted-by":"crossref","first-page":"19","DOI":"10.1007\/s10772-010-9086-9","volume":"14","author":"KS Rao","year":"2011","unstructured":"Rao KS (2011) Application of prosody models for developing speech systems in Indian languages. Int J Speech Technol 14(1):19\u201333","journal-title":"Int J Speech Technol"},{"key":"665_CR266","doi-asserted-by":"crossref","unstructured":"Ravanelli M, Serdyuk D, Bengio Y (2018) Twin Regularization for online speech recognition. arXiv:180405374","DOI":"10.21437\/Interspeech.2018-1407"},{"key":"665_CR267","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1016\/j.specom.2016.03.003","volume":"80","author":"M Razavi","year":"2016","unstructured":"Razavi M, Rasipuram R, Magimai-Doss M (2016) Acoustic data-driven grapheme-to-phoneme conversion in the probabilistic lexical modeling framework. Speech Commun 80:1\u201321","journal-title":"Speech Commun"},{"key":"665_CR268","doi-asserted-by":"crossref","unstructured":"Reza M, Rashid W, Mostakim M (2017) Prodorshok I: a bengali isolated speech dataset for voice-based assistive technologies: a comparative analysis of the effects of data augmentation on HMM-GMM and DNN classifiers, humanitarian technology conference, pp 396\u2013399, IEEE","DOI":"10.1109\/R10-HTC.2017.8288983"},{"key":"665_CR269","doi-asserted-by":"crossref","unstructured":"Richardson FS, Campbell WM (2008) Language recognition with discriminative keyword selection. In: IEEE international conference on acoustics, speech and signal processing, pp 4145\u20134148 IEEE","DOI":"10.1109\/ICASSP.2008.4518567"},{"key":"665_CR270","unstructured":"Ronzhin AL, Yusupov RM, Li IV, Leontieva AB (2006) Survey of russian speech recognition systems. In: 11th international conference SPECOM, pp 54\u201360"},{"issue":"1","key":"665_CR271","first-page":"5","volume":"8","author":"M Russo","year":"2019","unstructured":"Russo M, Stella M, Sikora M, Peki\u0107 V (2019) Robust Cochlear-model-based speech. Recogn Comput 8(1):5","journal-title":"Recogn Comput"},{"issue":"12","key":"665_CR272","doi-asserted-by":"crossref","first-page":"2341","DOI":"10.1109\/TASLP.2016.2607341","volume":"24","author":"HB Sailor","year":"2016","unstructured":"Sailor HB, Patil HA (2016) Novel unsupervised auditory Filterbank learning using convolutional RBM for speech recognition. IEEE\/ACM Trans Audio Speech Lang Process 24(12):2341\u20132353","journal-title":"IEEE\/ACM Trans Audio Speech Lang Process"},{"key":"665_CR273","doi-asserted-by":"crossref","first-page":"39","DOI":"10.1016\/j.neunet.2014.08.005","volume":"64","author":"TN Sainath","year":"2015","unstructured":"Sainath TN, Kingsbury B, Saon G, Soltau H, Mohamed AR, Dahl G, Ramabhadran B (2015) Deep convolutional neural networks for large-scale speech tasks. Neural Netw 64:39\u201348","journal-title":"Neural Netw"},{"key":"665_CR274","doi-asserted-by":"publisher","DOI":"10.1109\/wispnet20167566174","author":"SC Sajjan","year":"2016","unstructured":"Sajjan SC, Vijaya C (2016) Continuous Speech recognition of Kannada language using triphone modeling. Int Conf Wirel Commun Signal Process Netw. https:\/\/doi.org\/10.1109\/wispnet20167566174","journal-title":"Int Conf Wirel Commun Signal Process Netw"},{"key":"665_CR275","doi-asserted-by":"crossref","unstructured":"Sajjan SC, Vijaya C (2018) Kannada speech recognition using decision tree based clustering. In: Shetty N, Patnaik L, Prasad N, Nalini N (eds) Emerging research in computing, information, communication and applications ERCICA 2016. Springer, Singapore","DOI":"10.1007\/978-981-10-4741-1_15"},{"issue":"8","key":"665_CR276","doi-asserted-by":"crossref","first-page":"2341","DOI":"10.1109\/TASL.2012.2201477","volume":"20","author":"H Sak","year":"2012","unstructured":"Sak H, Sara\u00e7lar M, Gungor T (2012) Morpholexical and discriminative language models for Turkish automatic speech recognition. IEEE Trans Audio Speech Lang Process 20(8):2341\u20132351","journal-title":"IEEE Trans Audio Speech Lang Process"},{"issue":"2","key":"665_CR277","doi-asserted-by":"crossref","first-page":"509","DOI":"10.1016\/j.csl.2011.07.001","volume":"27","author":"S Sakti","year":"2013","unstructured":"Sakti S, Paul M, Finch A, Sakai S, Vu TT, Kimura N, Hori C, Sumita E, Nakamura S, Park J, Wutiwiwatchai C (2013) A-STAR: toward translating Asian spoken languages. Comput Speech Lang 27(2):509\u2013527","journal-title":"Comput Speech Lang"},{"key":"665_CR278","unstructured":"Samsudin NH, Kong TE (2004) A Simple Malay speech synthesizer using syllable concatenation approach, MMU international symposium on information and communications technologies, pp 1\u20134"},{"issue":"1","key":"665_CR279","doi-asserted-by":"crossref","first-page":"43","DOI":"10.1109\/TASL.2011.2129911","volume":"20","author":"G Saon","year":"2012","unstructured":"Saon G, Chien J (2012) Bayesian sensing Hidden Markov models. IEEE Trans Audio Speech Lang Process 20(1):43\u201354","journal-title":"IEEE Trans Audio Speech Lang Process"},{"issue":"3","key":"665_CR280","doi-asserted-by":"crossref","first-page":"9","DOI":"10.1145\/1290002.1290003","volume":"6","author":"S Saraswathi","year":"2007","unstructured":"Saraswathi S, Geetha TV (2007) Comparison of performance of enhanced morpheme-based language model with different word-based language models for improving the performance of tamil speech recognition system. ACM Trans Asian Lang Inf Process 6(3):9","journal-title":"ACM Trans Asian Lang Inf Process"},{"issue":"5","key":"665_CR281","doi-asserted-by":"crossref","first-page":"244","DOI":"10.4314\/ijest.v2i5.60157","volume":"2","author":"S Saraswathi","year":"2010","unstructured":"Saraswathi S, Geetha TV (2010) Design of language models at various phases of Tamil speech recognition system. Int J Eng Sci Technol 2(5):244\u2013257","journal-title":"Int J Eng Sci Technol"},{"issue":"1","key":"665_CR282","first-page":"7","volume":"17","author":"H Sarma","year":"2017","unstructured":"Sarma H, Saharia N, Sharma U (2017) Development and analysis of speech recognition systems for Assamese language Using HTK. ACM Trans Asian Low-Resourc Lang Inf Process 17(1):7","journal-title":"ACM Trans Asian Low-Resourc Lang Inf Process"},{"issue":"8","key":"665_CR283","first-page":"456","volume":"3","author":"M Sarma","year":"2009","unstructured":"Sarma M, Dutta K, Sarma KK (2009) Assamese numeral corpus for speech recognition using cooperative ANN architecture. Int J Electr Electron Eng 3(8):456\u2013465","journal-title":"Int J Electr Electron Eng"},{"key":"665_CR284","unstructured":"Sarma M, Sarma KK, Goel NK (2018) Language recognition using time delay deep neural network. arXiv:180405000"},{"key":"665_CR285","first-page":"1","volume":"5","author":"MP Sarma","year":"2011","unstructured":"Sarma MP, Sarma KK (2011) Assamese numeral speech recognition using multiple features and cooperative LVQ-architectures. Int J Electr Electron 5:1","journal-title":"Int J Electr Electron"},{"key":"665_CR286","doi-asserted-by":"crossref","unstructured":"Satori H, Harti M, Chenfour N (2007) Introduction to Arabic speech recognition using CMUSphinx system. arXiv:07042083","DOI":"10.1109\/ISCIII.2007.367358"},{"issue":"7","key":"665_CR287","doi-asserted-by":"crossref","first-page":"1225","DOI":"10.1134\/S000511791307014X","volume":"74","author":"AV Savchenko","year":"2013","unstructured":"Savchenko AV (2013) Phonetic words decoding software in the problem of Russian speech recognition. Autom Rem Control 74(7):1225\u20131232","journal-title":"Autom Rem Control"},{"key":"665_CR288","doi-asserted-by":"crossref","unstructured":"Scharenborg O, Besacier C, Black A, Hasegawa-Johnson M, Metze F, Neubig G, Stuker S, Godard MM, Lucas O et al (2018) Linguistic unit discovery from multi-modal inputs in unwritten languages: summary of the Speaking Rosetta JSALT 2017 workshop. arXiv:1802.05092","DOI":"10.1109\/ICASSP.2018.8461761"},{"key":"665_CR289","doi-asserted-by":"crossref","unstructured":"Schultz T, Alexander D, Black AW, Peterson K, Suebvisai S, Waibel A (2004) A Thai speech translation system for medical dialogs. In: Demonstration papers at HLT-NAACL association for computational linguistics, pp 34\u201335","DOI":"10.3115\/1614025.1614035"},{"key":"665_CR290","doi-asserted-by":"crossref","unstructured":"Seide F, Li G, and Yu D, 2011 Conversational speech transcription using context-dependent deep neural networks, Twelfth annual conference of the international speech communication association, 430\u2013440","DOI":"10.21437\/Interspeech.2011-169"},{"key":"665_CR291","doi-asserted-by":"crossref","unstructured":"Seki H, Watanabe S, Hori T, Roux JL, Hershey JR (2018) An end-to-end language-tracking speech recognizer for mixed-language speech. In: IEEE international conference on acoustics, speech and signal processing (ICASSP), Calgary, AB, pp 4919\u20134923","DOI":"10.1109\/ICASSP.2018.8462180"},{"issue":"11","key":"665_CR292","first-page":"1980","volume":"8","author":"S Seljan","year":"2014","unstructured":"Seljan S, Dunder I (2014) Combined automatic speech recognition and machine translation in business correspondence domain for English\u2013Croatian. Int J Ind Syst Eng 8(11):1980\u20131986","journal-title":"Int J Ind Syst Eng"},{"key":"665_CR293","doi-asserted-by":"crossref","unstructured":"Seltzer ML, Yu D, Wang Y (2013) An investigation of deep neural networks for noise robust speech recognition. In: IEEE international conference on acoustics, speech and signal processing, pp 7398\u20137402","DOI":"10.1109\/ICASSP.2013.6639100"},{"key":"665_CR294","doi-asserted-by":"crossref","unstructured":"Seman N, Jusoff K (2008a) Automatic segmentation and labeling for spontaneous standard Malay speech recognition. In: International conference on advanced computer theory and engineering, 59\u201363, IEEE","DOI":"10.1109\/ICACTE.2008.150"},{"issue":"4","key":"665_CR295","first-page":"112","volume":"1","author":"N Seman","year":"2008","unstructured":"Seman N, Jusoff K (2008b) Acoustic pronunciation variations modeling for standard Malay speech recognition. Comput Inf Sci 1(4):112","journal-title":"Comput Inf Sci"},{"key":"665_CR296","doi-asserted-by":"crossref","unstructured":"Seman N, Bakar ZA, Bakar NA (2010) An evaluation of endpoint detection measures for malay speech recognition of an isolated words. In: International symposium in information technology (ITSim), vol 3, pp 1628\u20131635, IEEE","DOI":"10.1109\/ITSIM.2010.5561618"},{"key":"665_CR297","doi-asserted-by":"crossref","unstructured":"Sertsi P, Chunwijitra V, Chunwijitra S, Wutiwiwatchai C (2016) Offline Thai speech recognition framework on mobile device. In: International joint conference on computer science and software engineering (JCSSE), pp 1\u20135","DOI":"10.1109\/JCSSE.2016.7748894"},{"issue":"1","key":"665_CR298","doi-asserted-by":"crossref","first-page":"83","DOI":"10.1007\/s11265-014-0906-z","volume":"81","author":"S Shahnawazuddin","year":"2015","unstructured":"Shahnawazuddin S, Deepak KT, Sarma BD, Deka A, Prasanna SM, Sinha R (2015) Mannepalli. J Signal Process Syst 81(1):83\u201397","journal-title":"J Signal Process Syst"},{"issue":"6","key":"665_CR299","first-page":"479","volume":"2","author":"S Shanthi Therese","year":"2013","unstructured":"Shanthi Therese S, Lingam C (2013) Review of feature extraction techniques in automatic speech recognition. Int J Sci Eng Technol 2(6):479\u2013484","journal-title":"Int J Sci Eng Technol"},{"issue":"3\u20134","key":"665_CR300","first-page":"373","volume":"1","author":"A Sharma","year":"2008","unstructured":"Sharma A, Shrotriya MC, Farooq O, Abbasi ZA (2008) Hybrid wavelet based LPC features for Hindi speech recognition. Int J Inf Commun Technol 1(3\u20134):373\u2013381","journal-title":"Int J Inf Commun Technol"},{"key":"665_CR301","doi-asserted-by":"crossref","unstructured":"Shi Y, Wiggers P, Jonker CM (2012) Towards recurrent neural networks language models with linguistic and contextual features. In: Thirteenth annual conference of the international speech communication association, pp 1664\u20131667","DOI":"10.21437\/Interspeech.2012-456"},{"key":"665_CR302","doi-asserted-by":"crossref","first-page":"64","DOI":"10.1016\/j.specom.2015.06.006","volume":"73","author":"Y Shi","year":"2015","unstructured":"Shi Y, Larson M, Pelemans J, Jonker CM, Wambacq P, Wiggers P, Demuynck K (2015) Integrating meta-information into recurrent neural network language models. Speech Commun 73:64\u201380","journal-title":"Speech Commun"},{"issue":"4","key":"665_CR303","doi-asserted-by":"crossref","first-page":"540","DOI":"10.1016\/S1007-0214(08)70086-5","volume":"13","author":"T Shimizu","year":"2008","unstructured":"Shimizu T, Ashikari Y, Sumita E, Zhang J, Nakamura S (2008) NICT\/ATR Chinese-Japanese-English speech-to-speech translation system. Tsinghua Sci Technol 13(4):540\u2013544","journal-title":"Tsinghua Sci Technol"},{"issue":"5","key":"665_CR304","first-page":"17","volume":"47","author":"PP Shrishrimal","year":"2012","unstructured":"Shrishrimal PP, Deshmukh RR, Waghmare VB (2012) Indian language speech database: a review. Int J Comput Appl 47(5):17\u201321","journal-title":"Int J Comput Appl"},{"issue":"5","key":"665_CR305","doi-asserted-by":"crossref","first-page":"1617","DOI":"10.1109\/TASL.2007.896666","volume":"15","author":"V Siivola","year":"2007","unstructured":"Siivola V, Hirsim\u00e4ki T, Virpioja S (2007) On growing and pruning Kneser-Ney smoothed n-gram models. IEEE Trans Audio Speech Lang Process 15(5):1617\u20131624","journal-title":"IEEE Trans Audio Speech Lang Process"},{"key":"665_CR306","volume-title":"ASRoIL: a comprehensive survey for automatic speech recognition of Indian languages","author":"A Singh","year":"2019","unstructured":"Singh A, Kadyan V, Kumar M, Bassan N (2019) ASRoIL: a comprehensive survey for automatic speech recognition of Indian languages. Springer, Berlin"},{"issue":"3","key":"665_CR307","doi-asserted-by":"crossref","first-page":"875","DOI":"10.1109\/TASL.2011.2167610","volume":"20","author":"SM Siniscalchi","year":"2012","unstructured":"Siniscalchi SM, Lyu D, Svendsen T, Lee C (2012) Experiments on cross-language attribute detection and phone recognition with minimal target-specific training data. IEEE Trans Audio Speech Lang Process 20(3):875\u2013887","journal-title":"IEEE Trans Audio Speech Lang Process"},{"issue":"1","key":"665_CR308","first-page":"4","volume":"7","author":"C Sivaranjani","year":"2016","unstructured":"Sivaranjani C, Bharathi B (2016) Syllable based continuous speech recognition for tamil language. Int J Adv Eng Tech 7(1):4","journal-title":"Int J Adv Eng Tech"},{"key":"665_CR309","doi-asserted-by":"publisher","DOI":"10.1155\/2016\/4062786","author":"V Smirnov","year":"2016","unstructured":"Smirnov V, Ignatov D, Gusev M, Farkhadov M, Rumyantseva N, Farkhadova M (2016) A Russian keyword spotting system based on large vocabulary continuous speech recognition and linguistic knowledge. J Electr Comput Eng. https:\/\/doi.org\/10.1155\/2016\/4062786","journal-title":"J Electr Comput Eng"},{"key":"665_CR310","doi-asserted-by":"crossref","unstructured":"Smit P, Virpioja S, Kurimo M (2017) Improved subword modeling for WFST-based speech recognition. In: INTERSPEECH 2017\u201418th annual conference of the international speech communication Association. Stockholm, Sweden.","DOI":"10.21437\/Interspeech.2017-103"},{"key":"665_CR311","doi-asserted-by":"crossref","first-page":"51","DOI":"10.1016\/j.csl.2017.10.004","volume":"48","author":"C Spille","year":"2018","unstructured":"Spille C, Ewert SD, Kollmeier B, Meyer BT (2018) Predicting speech intelligibility with deep neural networks. Comput Speech Lang 48:51\u201366","journal-title":"Comput Speech Lang"},{"key":"665_CR312","doi-asserted-by":"crossref","unstructured":"Srijiranon K, Eiamkanitchat N (2015) Thai speech recognition using Neuro-fuzzy system. In: 12th international conference on electrical engineering\/electronics, computer, telecommunications and information technology, pp 1\u20136, IEEE","DOI":"10.1109\/ECTICon.2015.7207075"},{"key":"665_CR313","doi-asserted-by":"crossref","first-page":"253","DOI":"10.1016\/j.proeng.2012.01.1265","volume":"32","author":"N Srisuwan","year":"2012","unstructured":"Srisuwan N, Phukpattaranont P, Limsakul C (2012) Feature selection for Thai tone classification based on surface EMG. Procedia Eng 32:253\u2013259","journal-title":"Procedia Eng"},{"key":"665_CR314","unstructured":"St\u00fcker S, Schultz T (2004) A grapheme based speech recognition system for Russian. In: 9th Conference Speech and Computer, pp 1\u20137"},{"key":"665_CR315","doi-asserted-by":"crossref","first-page":"38","DOI":"10.1016\/j.wocn.2015.11.003","volume":"55","author":"P \u0160turm","year":"2016","unstructured":"\u0160turm P, Vol\u00edn J (2016) P-centres in natural disyllabic Czech words in a large-scale speech-metronome synchronization experiment. J Phon 55:38\u201352","journal-title":"J Phon"},{"key":"665_CR316","doi-asserted-by":"crossref","first-page":"126","DOI":"10.1016\/j.wocn.2018.08.002","volume":"71","author":"P \u0160turm","year":"2018","unstructured":"\u0160turm P (2018) Experimental evidence on the syllabification of two-consonant clusters in Czech. J Phon 71:126\u2013146","journal-title":"J Phon"},{"key":"665_CR317","doi-asserted-by":"crossref","unstructured":"Suebvisai S, Charoenpornsawat P, Black A, Woszczyna M, Schultz T (2005) Thai automatic speech recognition. In: IEEE international conference on acoustics, speech, and signal processing, pp I-857, IEEE","DOI":"10.1109\/ICASSP.2005.1415249"},{"issue":"9","key":"665_CR318","doi-asserted-by":"crossref","first-page":"1120","DOI":"10.1109\/LSP.2014.2325781","volume":"21","author":"P Swietojanski","year":"2014","unstructured":"Swietojanski P, Ghoshal A, Renals S (2014) Convolutional neural networks for distant speech recognition. IEEE Signal Process Lett 21(9):1120\u20131124","journal-title":"IEEE Signal Process Lett"},{"key":"665_CR319","doi-asserted-by":"crossref","unstructured":"Tadi\u0107 M, Fulgosi S (2003) Building the Croatian morphological lexicon. In: Workshop on morphological processing of Slavic Languages, association for computational linguistics, pp 41\u201346","DOI":"10.3115\/1613200.1613206"},{"issue":"5","key":"665_CR320","doi-asserted-by":"crossref","first-page":"13","DOI":"10.4304\/jmm.2.5.13-18","volume":"2","author":"T Takiguchi","year":"2007","unstructured":"Takiguchi T, Ariki Y (2007) PCA-based speech enhancement for distorted speech recognition. J Multimed 2(5):13\u201318","journal-title":"J Multimed"},{"key":"665_CR321","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1016\/j.specom.2018.07.004","volume":"103","author":"C Tantibundhit","year":"2018","unstructured":"Tantibundhit C, Onsuwan C, Munthuli A, Sirimujalin P, Anansiripinyo T, Phuechpanpaisal S, Wright N, Kosawat K (2018) Development of a Thai phonetically balanced monosyllabic word recognition test: derivation of phoneme distribution, word list construction, and response evaluations. Speech Commun 103:1\u201310","journal-title":"Speech Commun"},{"key":"665_CR322","doi-asserted-by":"crossref","unstructured":"Tantisatirapong S, Prasoproek C, Phothisonothai M (2018) Comparison of feature extraction for accent dependent Thai speech recognition system IEEE seventh international conference on communications and electronic, pp 322\u2013325","DOI":"10.1109\/CCE.2018.8465705"},{"key":"665_CR323","doi-asserted-by":"crossref","first-page":"92","DOI":"10.1016\/j.procs.2018.01.102","volume":"127","author":"M Telmem","year":"2018","unstructured":"Telmem M, Ghanou Y (2018) Estimation of the optimal HMM parameters for amazigh speech recognition system using CMU-Sphinx. Procedia Comput Sci 127:92\u2013101","journal-title":"Procedia Comput Sci"},{"key":"665_CR324","doi-asserted-by":"crossref","unstructured":"Thangthai K, Chotimongkol A, Wutiwiwatchai C (2013) A hybrid language model for open-vocabulary Thai LVCSR. Interspeech, pp 2207\u20132211","DOI":"10.21437\/Interspeech.2013-520"},{"issue":"10","key":"665_CR325","doi-asserted-by":"crossref","first-page":"13254","DOI":"10.1016\/j.eswa.2011.04.142","volume":"38","author":"N Theera-Umpon","year":"2011","unstructured":"Theera-Umpon N, Chansareewittaya S, Auephanwiriyakul S (2011) Phoneme and tonal accent recognition for Thai speech. Expert Syst Appl 38(10):13254\u201313259","journal-title":"Expert Syst Appl"},{"issue":"5","key":"665_CR326","doi-asserted-by":"crossref","first-page":"679","DOI":"10.1080\/03772063.2016.1162673","volume":"62","author":"JJ Thennattil","year":"2016","unstructured":"Thennattil JJ, Mary L (2016) Phonetic engine for continuous speech in malayalam. IETE J Res 62(5):679\u2013685","journal-title":"IETE J Res"},{"issue":"1","key":"665_CR327","doi-asserted-by":"crossref","first-page":"8","DOI":"10.1121\/1.3035830","volume":"125","author":"S Thomas","year":"2009","unstructured":"Thomas S, Hermansky H (2009) Modulation frequency features for phoneme recognition in noisy speech. J Acoust Soc Am 125(1):8\u201312","journal-title":"J Acoust Soc Am"},{"key":"665_CR328","unstructured":"Ting HN, Yunus J (2004) Speaker-independent Malay vowel recognition of children using multi-layer perceptron. In: IEEE Region 10 Conference, pp 68\u201371"},{"issue":"5","key":"665_CR329","first-page":"664","volume":"26","author":"HN Ting","year":"2012","unstructured":"Ting HN, Zourmand A, Chia SY, Yong BF, Hamid BA (2012) Formant frequencies of Malay vowels produced by Malay children aged between 7 and 12 years. J Voice 26(5):664-e1","journal-title":"J Voice"},{"key":"665_CR330","doi-asserted-by":"crossref","first-page":"39","DOI":"10.1016\/j.specom.2018.09.001","volume":"104","author":"S Tong","year":"2018","unstructured":"Tong S, Garner PN, Bourlard H (2018a) Cross-lingual adaptation of a CTC-based multilingual acoustic model. Speech Commun 104:39\u201346","journal-title":"Speech Commun"},{"key":"665_CR331","doi-asserted-by":"publisher","DOI":"10.1016\/jspecom201809001","author":"S Tong","year":"2018","unstructured":"Tong S, Garner PN, Bourlard H (2018b) Cross-lingual adaptation of a CTC-based multilingual acoustic model. Speech Commun. https:\/\/doi.org\/10.1016\/jspecom201809001","journal-title":"Speech Commun"},{"key":"665_CR332","doi-asserted-by":"crossref","unstructured":"Torres-Carrasquillo PA, Richardson F, Nercessian S, Sturim D, Campbell W, Gwon Y, Vattam S, Dehak N, Mallidi H, Nidadavolu PS, Li R (2017) The MIT-LL, JHU and LRDE NIST 2016 speaker recognition evaluation system, Interspeech, pp 1333\u20131337","DOI":"10.21437\/Interspeech.2017-537"},{"issue":"10","key":"665_CR333","doi-asserted-by":"crossref","first-page":"1294","DOI":"10.1016\/j.specom.2006.06.006","volume":"48","author":"Z Tufekci","year":"2006","unstructured":"Tufekci Z, Gowdy JN, Gurbuz S, Patterson E (2006) Applied mel-frequency discrete wavelet coefficients and parallel model compensation for noise-robust speech recognition. Speech Commun 48(10):1294\u20131307","journal-title":"Speech Commun"},{"key":"665_CR334","unstructured":"Tufi\u0219 D, Dan C (2018) A Bird\u2019s-eye view of language processing projects at the Romanian academy. In: Eleventh international conference on language resources and evaluation, pp 2446\u201356"},{"key":"665_CR335","doi-asserted-by":"crossref","unstructured":"Turunen VT, Kurimo M (2007) Indexing confusion networks for morph-based spoken document retrieval. In: 30th annual international ACM SIGIR conference on Research and development in information retrieval, ACM, pp 631\u2013638","DOI":"10.1145\/1277741.1277849"},{"key":"665_CR336","doi-asserted-by":"crossref","unstructured":"Tuske Z, Nolden D, Schluter R, Ney H (2013) Multilingual hierarchical MRASTA features for ASR, INTERSPEECH-2013, pp 2222\u20132226","DOI":"10.21437\/Interspeech.2013-523"},{"key":"665_CR337","doi-asserted-by":"crossref","unstructured":"Tuske Z, Nolden D, Schluter R, Ney H (2014) Multilingual MRASTA features for low-resource keyword search and speech recognition systems. In: IEEE international conference on acoustics, speech and signal processing, pp 7854\u201358","DOI":"10.1109\/ICASSP.2014.6855129"},{"key":"665_CR338","doi-asserted-by":"crossref","first-page":"1385","DOI":"10.1016\/j.procs.2018.05.066","volume":"132","author":"P Upadhyaya","year":"2018","unstructured":"Upadhyaya P, Farooq O, Abidi MR (2018) Block energy based visual features using histogram of oriented gradient for bimodal hindi speech recognition. Procedia Comput Sci 132:1385\u20131393","journal-title":"Procedia Comput Sci"},{"key":"665_CR339","doi-asserted-by":"crossref","unstructured":"Valente F, Doss MM, Plahl C, Ravuri S, Wang W (2010) Comparative large scale study of MLP features for mandarin ASR,Interspeech\u201910, Brisbane, Australia, pp 2630\u20132633","DOI":"10.21437\/Interspeech.2010-383"},{"key":"665_CR340","doi-asserted-by":"crossref","unstructured":"Varjokallio M, Virpioja S, Kurimo M (2018)\u00a0First-pass techniques for very large vocabulary speech recognition FF morphologically rich languages 2018 IEEE spoken language technology workshop, pp 227\u2013234","DOI":"10.1109\/SLT.2018.8639691"},{"key":"665_CR341","doi-asserted-by":"crossref","unstructured":"Vazhenina D, Markov K (2011) Phoneme set selection for Russian speech recognition. In: 7th international conference on\u00a0natural language processing and knowledge engineering, pp 475\u2013478, IEEE","DOI":"10.1109\/NLPKE.2011.6138246"},{"key":"665_CR342","doi-asserted-by":"crossref","unstructured":"Vegesna VVR, Gurugubelli K, Vuppala AK (2018) Application of emotion recognition and modification for emotional telugu speech recognition\u00a0mobile networks and applications, pp 1\u20139","DOI":"10.1007\/s11036-018-1052-9"},{"issue":"1","key":"665_CR343","doi-asserted-by":"crossref","first-page":"36","DOI":"10.1016\/j.dsp.2010.07.004","volume":"21","author":"H Veisi","year":"2011","unstructured":"Veisi H, Sameti H (2011) The integration of principal component analysis and cepstral mean subtraction in parallel model combination for robust speech recognition. Dig Signal Process 21(1):36\u201353","journal-title":"Dig Signal Process"},{"issue":"2","key":"665_CR344","doi-asserted-by":"crossref","first-page":"101","DOI":"10.1016\/j.anorl.2016.01.001","volume":"133","author":"F Venail","year":"2016","unstructured":"Venail F, Legris E, Vaerenberg B, Puel JL, Govaerts PJ, Ceccato JC (2016) Validation of the French-language version of the OTOSPEECH automated scoring software package for speech audiometry. Eur Ann Otorhinolaryngol Head Neck Dis 133(2):101\u2013106","journal-title":"Eur Ann Otorhinolaryngol Head Neck Dis"},{"key":"665_CR345","doi-asserted-by":"crossref","unstructured":"Venkateswarlu RLK, Teja RR, Kumari RV (2012) Developing efficient speech recognition system for Telugu letter recognition. In: 2012 international conference on computing, communication and applications, Dindigul, Tamilnadu, pp 1\u20136","DOI":"10.1109\/ICCCA.2012.6179184"},{"key":"665_CR346","doi-asserted-by":"crossref","unstructured":"Vergyri D, Kirchhoff K, Duh K, Stolcke A (2004) Morphology-based language modeling for Arabic speech recognition SRI International Menlo Park United States, pp 1\u20134","DOI":"10.21437\/Interspeech.2004-495"},{"issue":"9","key":"665_CR347","doi-asserted-by":"crossref","first-page":"1162","DOI":"10.1016\/j.specom.2006.04.003","volume":"48","author":"D Ververidis","year":"2006","unstructured":"Ververidis D, Kotropoulos C (2006) Emotional speech recognition: Resources, features, and methods. Speech Commun 48(9):1162\u20131181","journal-title":"Speech Commun"},{"key":"665_CR348","unstructured":"Viszlay P, Juh\u00e1r J, Pleva M (2012) Alternative phonetic class definition in linear discriminant analysis of speech. In: 19th international conference on systems, signals and image processing, pp 637\u2013640, IEEE"},{"key":"665_CR349","unstructured":"Waghmare VB, Deshmukh RR, Shrishrimal PP, Janvale GB (2014) Emotion recognition system from artificial marathi speech using MFCC and LDA techniques. In: Fifth international conference on advances in communication, network, and computing\u2013CNC, pp 1\u20139"},{"key":"665_CR350","doi-asserted-by":"crossref","unstructured":"Wand M, Toth A, Jou SC, Schultz T (2009) Interspeech, Brighton, United Kingdom. In: 2009 impact of different speaking modes on EMG-based speech recognition, pp 648\u2013651","DOI":"10.21437\/Interspeech.2009-228"},{"key":"665_CR351","doi-asserted-by":"crossref","unstructured":"Wang L, Tong R, Leung C, Sivadas S, Ni C, Ma S (2017) Cloud-based automatic speech recognition systems for Southeast Asian Languages. In: International conference on orange technologies, pp 147\u2013150","DOI":"10.1109\/ICOT.2017.8336109"},{"key":"665_CR352","first-page":"2103","volume":"2008","author":"W Wang","year":"2008","unstructured":"Wang W, Mandal A, Lei X, Stolcke A, Zheng J (2008) Multifactor adaptation for mandarin broadcast news and conversation speech recognition. Interspeech 2008:2103\u20132102","journal-title":"Interspeech"},{"key":"665_CR353","first-page":"178","volume":"2021","author":"V Kadyan","year":"2021","unstructured":"Kadyan V, Shanawazuddin S, Singh A (2021) Developing children\u2019s speech recognition system for low resource Punjabi language. Appl Acoust 2021:178","journal-title":"Appl Acoust"},{"key":"665_CR354","doi-asserted-by":"crossref","unstructured":"Wani P, Patil UG, Bormane DS, Shirbahadurkar SD (2016) Automatic speech recognition of isolated words in Hindi language. In: International conference on computing communication control and automation, pp 1\u20136, IEEE","DOI":"10.1109\/ICCUBEA.2016.7860101"},{"key":"665_CR355","doi-asserted-by":"crossref","unstructured":"Watanabe S, Hori T, Hershey JR (2017) Language independent end-to-end architecture for joint language identification and speech recognition. In: IEEE automatic speech recognition and understanding workshop (ASRU), Okinawa, pp 265\u2013271","DOI":"10.1109\/ASRU.2017.8268945"},{"key":"665_CR356","doi-asserted-by":"crossref","unstructured":"Weng C, Yu D, Watanabe S, Juang BHF (2014) Recurrent deep neural networks for robust speech recognition. In: IEEE international conference on acoustics, speech and signal processing, pp 5532\u20135536, IEEE","DOI":"10.1109\/ICASSP.2014.6854661"},{"key":"665_CR357","unstructured":"Weninger F, Schuller B, Eyben F, W\u00f6llmer M, Rigoll G (2014) A broadcast news corpus for evaluation and tuning of german LVCSR systems. arXiv:14124616"},{"issue":"3","key":"665_CR358","doi-asserted-by":"crossref","first-page":"635","DOI":"10.1007\/s10772-017-9428-y","volume":"20","author":"TG Yadava","year":"2017","unstructured":"Yadava TG, Jayanna HS (2017) A spoken query system for the agricultural commodity prices and weather information access in Kannada language. Int J Speech Technol 20(3):635\u2013644","journal-title":"Int J Speech Technol"},{"issue":"5","key":"665_CR359","doi-asserted-by":"crossref","first-page":"321","DOI":"10.1016\/j.csl.2011.12.002","volume":"26","author":"D Yang","year":"2012","unstructured":"Yang D, Pan Y, Furui S (2012) Vocabulary expansion through automatic abbreviation generation for Chinese voice search. Comput Speech Lang 26(5):321\u2013335","journal-title":"Comput Speech Lang"},{"key":"665_CR360","unstructured":"Yanzhou M, Mianzhu Y (2014) Russian speech recognition system design based on HMM. In: International conference on logistics, engineering, management and computer science, pp 377\u2013380"},{"key":"665_CR361","doi-asserted-by":"crossref","unstructured":"Yi J, Tao J, Bai Y (2019) Language-invariant Bottleneck features from adversarial end-to-end acoustic models for low resource speech recognition. In: IEEE international conference on acoustics, speech and signal processing (ICASSP), UK, pp 6071\u20136075","DOI":"10.1109\/ICASSP.2019.8682972"},{"key":"665_CR362","first-page":"1","volume":"2018","author":"J Yi","year":"2018","unstructured":"Yi J, Tao J, Wen Z, Bai Y (2018) Language-adversarial Transfer Learning for Low-resource Speech Recognition. IEEE\/ACM Trans Audio Speech Lang Process 2018:1\u20131","journal-title":"IEEE\/ACM Trans Audio Speech Lang Process"},{"key":"665_CR363","doi-asserted-by":"crossref","first-page":"508","DOI":"10.1016\/j.procs.2015.08.259","volume":"60","author":"E Zarrouk","year":"2015","unstructured":"Zarrouk E, BenAyed Y, Gargouri F (2015) Graphical models for multi-dialect arabic isolated words recognition. Procedia Comput Sci 60:508\u2013516","journal-title":"Procedia Comput Sci"},{"key":"665_CR364","doi-asserted-by":"crossref","unstructured":"Zhang Y, Pezeshki M, Brakel P, Zhang S, Bengio CLY, Courville A (2017) Towards end-to-end speech recognition with deep convolutional neural networks. arXiv:170102720","DOI":"10.21437\/Interspeech.2016-1446"},{"key":"665_CR365","first-page":"1","volume":"2021","author":"K Zhang Goyal","year":"2021","unstructured":"Zhang Goyal K, Singh A, Kadyan V (2021) A comparison of Laryngeal effect in the dialects of Punjabi language. J Ambient Intell Hum Comput 2021:1\u201314","journal-title":"J Ambient Intell Hum Comput"},{"key":"665_CR366","doi-asserted-by":"crossref","unstructured":"Zou W, Jiang D, Zhao S, Li X (2018) A comparable study of modeling units for end-to-end Mandarin speech recognition. arXiv:180503832","DOI":"10.1109\/ISCSLP.2018.8706661"}],"container-title":["Complex &amp; Intelligent Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s40747-022-00665-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s40747-022-00665-1\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s40747-022-00665-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,9,18]],"date-time":"2024-09-18T20:10:35Z","timestamp":1726690235000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s40747-022-00665-1"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,2,17]]},"references-count":366,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2022,6]]}},"alternative-id":["665"],"URL":"https:\/\/doi.org\/10.1007\/s40747-022-00665-1","relation":{},"ISSN":["2199-4536","2198-6053"],"issn-type":[{"value":"2199-4536","type":"print"},{"value":"2198-6053","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022,2,17]]},"assertion":[{"value":"14 April 2021","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"22 January 2022","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"17 February 2022","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"On behalf of all authors, the corresponding author states that there is no conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}