{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,6]],"date-time":"2026-05-06T16:01:51Z","timestamp":1778083311079,"version":"3.51.4"},"reference-count":39,"publisher":"Springer Science and Business Media LLC","issue":"11","license":[{"start":{"date-parts":[[2022,10,24]],"date-time":"2022-10-24T00:00:00Z","timestamp":1666569600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2022,10,24]],"date-time":"2022-10-24T00:00:00Z","timestamp":1666569600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2023,5]]},"DOI":"10.1007\/s11042-022-14019-z","type":"journal-article","created":{"date-parts":[[2022,10,24]],"date-time":"2022-10-24T00:03:13Z","timestamp":1666569793000},"page":"16173-16193","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":16,"title":["HindiSpeech-Net: a deep learning based robust automatic speech recognition system for Hindi language"],"prefix":"10.1007","volume":"82","author":[{"given":"Usha","family":"Sharma","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hari","family":"Om","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"A. N.","family":"Mishra","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2022,10,24]]},"reference":[{"key":"14019_CR1","doi-asserted-by":"publisher","unstructured":"Adiwijaya, Aulia MN, Mubarok MS, Novia U, Nhita F (2017) A comparative study of MFCC-KNN and LPC-KNN for hijaiyyah letters pronounciation classification system. 2017 5th International Conference on Information and Communication Technology, ICoIC7 2017. https:\/\/doi.org\/10.1109\/ICoICT.2017.8074689","DOI":"10.1109\/ICoICT.2017.8074689"},{"key":"14019_CR2","doi-asserted-by":"publisher","DOI":"10.1007\/s00521-020-05210-0","author":"M Alweshah","year":"2020","unstructured":"Alweshah M, Khalaileh S, Al, Gupta BB et al (2020) The monarch butterfly optimization algorithm for solving feature selection problems. Neural Comput Appl. https:\/\/doi.org\/10.1007\/s00521-020-05210-0","journal-title":"Neural Comput Appl"},{"key":"14019_CR3","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2018.07.026","author":"S AlZu\u2019bi","year":"2020","unstructured":"AlZu\u2019bi S, Shehab M, Al-Ayyoub M et al (2020) Parallel implementation for 3D medical volume fuzzy segmentation. Pattern Recognit Lett. https:\/\/doi.org\/10.1016\/j.patrec.2018.07.026","journal-title":"Pattern Recognit Lett"},{"key":"14019_CR4","doi-asserted-by":"publisher","unstructured":"Benzeghiba M, De Mori R, Deroo O, Dupont S, Erbes T, Jouvet D, Fissore L, Laface P, Mertins A, Ris C, Rose R, Tyagi V, Wellekens C (2007) Automatic speech recognition and speech variability: a review. Speech Commun. https:\/\/doi.org\/10.1016\/j.specom.2007.02.006","DOI":"10.1016\/j.specom.2007.02.006"},{"key":"14019_CR5","doi-asserted-by":"publisher","unstructured":"Bhatt S, Dev A, Jain A (2018) Hindi speech vowel recognition using hidden Markov model. The 6th intl. workshop on spoken language technologies for under-resourced languages, pp 196\u2013199. https:\/\/doi.org\/10.21437\/SLTU.2018-41","DOI":"10.21437\/SLTU.2018-41"},{"issue":"6","key":"14019_CR6","doi-asserted-by":"publisher","first-page":"1333","DOI":"10.1080\/02522667.2020.1809091","volume":"41","author":"S Bhatt","year":"2020","unstructured":"Bhatt S, Jain A, Dev A (2020) Syllable based Hindi speech recognition. J Inform Optim Sci 41(6):1333\u20131351. https:\/\/doi.org\/10.1080\/02522667.2020.1809091","journal-title":"J Inform Optim Sci"},{"key":"14019_CR7","doi-asserted-by":"publisher","unstructured":"Dey A, Zhang W, Fung P (2014) Acoustic modeling for hindi speech recognition in low-resource settings. 2014 international conference on audio, language and image processing, pp 891\u2013894. https:\/\/doi.org\/10.1109\/ICALIP.2014.7009923","DOI":"10.1109\/ICALIP.2014.7009923"},{"key":"14019_CR8","doi-asserted-by":"publisher","unstructured":"Dong X, Yin B, Cong Y, Du Z, Huang X (2020) Environment Sound event classification with a two-stream convolutional neural network. IEEE Access 8:125714\u2013125721. https:\/\/doi.org\/10.1109\/ACCESS.2020.3007906","DOI":"10.1109\/ACCESS.2020.3007906"},{"issue":"3","key":"14019_CR9","doi-asserted-by":"publisher","first-page":"389","DOI":"10.1016\/j.jestch.2018.04.005","volume":"21","author":"M Dua","year":"2018","unstructured":"Dua M, Aggarwal RK, Biswas M (2018) Performance evaluation of Hindi speech recognition system using optimized filterbanks. Eng Sci Technol Int J 21(3):389\u2013398. https:\/\/doi.org\/10.1016\/j.jestch.2018.04.005","journal-title":"Eng Sci Technol Int J"},{"key":"14019_CR10","doi-asserted-by":"publisher","DOI":"10.1007\/s00521-018-3499-9","author":"M Dua","year":"2019","unstructured":"Dua M, Aggarwal RK, Biswas M (2019) Discriminatively trained continuous Hindi speech recognition system using interpolated recurrent neural network language modeling. Neural Comput Appl. https:\/\/doi.org\/10.1007\/s00521-018-3499-9","journal-title":"Neural Comput Appl"},{"key":"14019_CR11","doi-asserted-by":"publisher","DOI":"10.1142\/S0219691310003845","author":"O Farooq","year":"2010","unstructured":"Farooq O, Datta S, Shrotriya MC (2010) Wavelet sub-band based temporal features for robust hindi phoneme recognition. Int J Wavelets Multiresolut Inf Process. https:\/\/doi.org\/10.1142\/S0219691310003845","journal-title":"Int J Wavelets Multiresolut Inf Process"},{"key":"14019_CR12","doi-asserted-by":"publisher","unstructured":"Ganapathiraju A, Hamaker J, Picone J (2004) Applications of support vector machines to speech recognition. IEEE Trans Signal Process 52(8):2348\u20132355. https:\/\/doi.org\/10.1109\/TSP.2004.831018","DOI":"10.1109\/TSP.2004.831018"},{"key":"14019_CR13","doi-asserted-by":"crossref","unstructured":"Gaudani H, Patel NM (2022) Comparative study of robust feature extraction techniques for ASR for Limited Resource Hindi Language, pp&nbsp;763\u2013775","DOI":"10.1007\/978-981-16-7657-4_62"},{"key":"14019_CR14","doi-asserted-by":"publisher","unstructured":"Han W, Zhang Z, Zhang Y, Yu J, Chiu C-C, Qin J, Gulati A, Pang R, Wu Y (2020) ContextNet: improving convolutional neural networks for automatic speech recognition with global context. Interspeech 2020, pp 3610\u20133614. https:\/\/doi.org\/10.21437\/Interspeech.2020-2059","DOI":"10.21437\/Interspeech.2020-2059"},{"key":"14019_CR15","doi-asserted-by":"publisher","DOI":"10.1016\/j.specom.2006.06.008","author":"K Ishizuka","year":"2006","unstructured":"Ishizuka K, Nakatani T (2006) A feature extraction method using subband based periodicity and aperiodicity decomposition with noise robust frontend processing for automatic speech recognition. Speech Commun. https:\/\/doi.org\/10.1016\/j.specom.2006.06.008","journal-title":"Speech Commun"},{"key":"14019_CR16","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2019.2930913","author":"Q Kong","year":"2019","unstructured":"Kong Q, Yu C, Xu Y, Iqbal T, Wang W, Plumbley MD (2019) Weakly labelled audioset tagging with attention neural networks. IEEE\/ACM Trans Audio Speech Lang Process. https:\/\/doi.org\/10.1109\/TASLP.2019.2930913","journal-title":"IEEE\/ACM Trans Audio Speech Lang Process"},{"issue":"1","key":"14019_CR17","doi-asserted-by":"publisher","first-page":"165","DOI":"10.1515\/jisys-2018-0417","volume":"30","author":"A Kumar","year":"2020","unstructured":"Kumar A, Aggarwal RK (2020) Discriminatively trained continuous Hindi speech recognition using integrated acoustic features and recurrent neural network language modeling. J Intell Syst 30(1):165\u2013179. https:\/\/doi.org\/10.1515\/jisys-2018-0417","journal-title":"J Intell Syst"},{"key":"14019_CR18","doi-asserted-by":"publisher","DOI":"10.1007\/s10772-020-09757-0","author":"A Kumar","year":"2020","unstructured":"Kumar A, Aggarwal RK (2020) Hindi speech recognition using time delay neural network acoustic modeling with i-vector adaptation. Int J Speech Technol. https:\/\/doi.org\/10.1007\/s10772-020-09757-0","journal-title":"Int J Speech Technol"},{"key":"14019_CR19","doi-asserted-by":"publisher","DOI":"10.1007\/s41870-020-00586-7","author":"A Kumar","year":"2021","unstructured":"Kumar A, Mittal V (2021) Hindi speech recognition in noisy environment using hybrid technique. Int J Inform Technol. https:\/\/doi.org\/10.1007\/s41870-020-00586-7","journal-title":"Int J Inform Technol"},{"key":"14019_CR20","doi-asserted-by":"publisher","unstructured":"Kumar P, Jayanna HS (2022) Development of speaker-independent automatic speech recognition system for Kannada language. Indian J Sci Technol 15:333\u2013342. https:\/\/doi.org\/10.17485\/IJST\/v15i8.2322","DOI":"10.17485\/IJST\/v15i8.2322"},{"key":"14019_CR21","doi-asserted-by":"publisher","DOI":"10.1007\/s10772-021-09948-3","author":"A Kumar","year":"2022","unstructured":"Kumar A, Solanki SS, Chandra M (2022) Effect of background Indian music on performance of speech recognition models for Hindi databases. Int J Speech Technol. https:\/\/doi.org\/10.1007\/s10772-021-09948-3","journal-title":"Int J Speech Technol"},{"key":"14019_CR22","doi-asserted-by":"publisher","unstructured":"Lee J, Park J, Kim K, Nam J (2018) SampleCNN: end-to-end deep convolutional neural networks using very small filters for music classification. Appl Sci 8(1):150. https:\/\/doi.org\/10.3390\/app8010150","DOI":"10.3390\/app8010150"},{"issue":"1","key":"14019_CR23","doi-asserted-by":"publisher","first-page":"59","DOI":"10.1186\/s13634-019-0651-3","volume":"2019","author":"F Li","year":"2019","unstructured":"Li F, Liu M, Zhao Y, Kong L, Dong L, Liu X, Hui M (2019) Feature extraction and classification of heart sound using 1D convolutional neural networks. EURASIP J Adv Signal Process 2019(1):59. https:\/\/doi.org\/10.1186\/s13634-019-0651-3","journal-title":"EURASIP J Adv Signal Process"},{"key":"14019_CR24","doi-asserted-by":"publisher","unstructured":"Liu Z, Wang Y, Chen T (1998) Audio feature extraction and analysis for scene segmentation and classification. Journal of VLSI Signal Processing Systems for Signal, Image, and Video Technology. https:\/\/doi.org\/10.1023\/A:1008066223044","DOI":"10.1023\/A:1008066223044"},{"key":"14019_CR25","doi-asserted-by":"publisher","DOI":"10.1007\/s00521-017-3028-2","author":"MK Mustafa","year":"2019","unstructured":"Mustafa MK, Allen T, Appiah K (2019) A comparative review of dynamic neural networks and hidden Markov model methods for mobile on-device speech recognition. Neural Comput Appl. https:\/\/doi.org\/10.1007\/s00521-017-3028-2","journal-title":"Neural Comput Appl"},{"key":"14019_CR26","doi-asserted-by":"publisher","DOI":"10.3390\/s20010183","author":"Mustaqeem","year":"2020","unstructured":"Mustaqeem, Kwon S (2020) A CNN-assisted enhanced audio signal processing for speech emotion recognition. Sens (Switzerland). https:\/\/doi.org\/10.3390\/s20010183","journal-title":"Sens (Switzerland)"},{"key":"14019_CR27","doi-asserted-by":"publisher","DOI":"10.1016\/j.mlwa.2020.100005","author":"M Muzammel","year":"2020","unstructured":"Muzammel M, Salam H, Hoffmann Y, Chetouani M, Othmani A (2020) AudVowelConsNet: A phoneme-level based deep CNN architecture for clinical depression diagnosis. Mach Learn Appl. https:\/\/doi.org\/10.1016\/j.mlwa.2020.100005","journal-title":"Mach Learn Appl"},{"key":"14019_CR28","doi-asserted-by":"publisher","unstructured":"Nanni L, Costa YMG, Aguiar RL, Mangolin RB, Brahnam S, Silla CN (2020) Ensemble of convolutional neural networks to improve animal audio classification. Eurasip J Audio Speech Music Process. https:\/\/doi.org\/10.1186\/s13636-020-00175-3","DOI":"10.1186\/s13636-020-00175-3"},{"issue":"4","key":"14019_CR29","doi-asserted-by":"publisher","first-page":"722","DOI":"10.1007\/s10489-014-0629-7","volume":"42","author":"K Noda","year":"2015","unstructured":"Noda K, Yamaguchi Y, Nakadai K, Okuno HG, Ogata T (2015) Audio-visual speech recognition using deep learning. Appl Intell 42(4):722\u2013737. https:\/\/doi.org\/10.1007\/s10489-014-0629-7","journal-title":"Appl Intell"},{"issue":"1","key":"14019_CR30","doi-asserted-by":"publisher","first-page":"428","DOI":"10.3390\/app11010428","volume":"11","author":"D Oh","year":"2021","unstructured":"Oh D, Park J-S, Kim J-H, Jang G-J (2021) Hierarchical Phoneme Classification for Improved Speech Recognition. Appl Sci 11(1):428. https:\/\/doi.org\/10.3390\/app11010428","journal-title":"Appl Sci"},{"key":"14019_CR31","doi-asserted-by":"publisher","unstructured":"Onea\u0163\u0103 D, Cucu H (2019) Kite: automatic speech recognition for unmanned aerial vehicles. Proceedings of the Annual Conference of the International Speech Communication Association, INTERSPEECH. https:\/\/doi.org\/10.21437\/Interspeech.2019-1390","DOI":"10.21437\/Interspeech.2019-1390"},{"key":"14019_CR32","doi-asserted-by":"publisher","unstructured":"Purwins H, Li B, Virtanen T, Schluter J, Chang S-Y, Sainath T (2019) Deep learning for audio signal processing. IEEE J Selec Topics Signal Process 13(2):206\u2013219. https:\/\/doi.org\/10.1109\/JSTSP.2019.2908700","DOI":"10.1109\/JSTSP.2019.2908700"},{"key":"14019_CR33","unstructured":"Samudravijaya K, Murthy HA (2012) Indian language speech sound label set (ILSL12), 2012 developed by Indian Language TTS Consortium & ASR Consortium retrieved from https:\/\/www.iitm.ac.in\/donlab\/tts\/downloads\/cls\/cls_v2.1.6.pdf. Accessed 21 Feb 2021"},{"key":"14019_CR34","doi-asserted-by":"publisher","unstructured":"Sertolli B, Ren Z, Schuller BW, Cummins N (2021) Representation transfer learning from deep end-to-end speech recognition networks for the classification of health states from speech. Comput Speech Lang 101204. https:\/\/doi.org\/10.1016\/j.csl.2021.101204","DOI":"10.1016\/j.csl.2021.101204"},{"issue":"3\/4","key":"14019_CR35","doi-asserted-by":"publisher","first-page":"373","DOI":"10.1504\/IJICT.2008.024008","volume":"1","author":"A Sharma","year":"2008","unstructured":"Sharma A, Shrotriya MC, Farooq O, Abbasi ZA (2008) Hybrid wavelet based LPC features for Hindi speech recognition. Int J Inf Commun Technol 1(3\/4):373. https:\/\/doi.org\/10.1504\/IJICT.2008.024008","journal-title":"Int J Inf Commun Technol"},{"key":"14019_CR36","unstructured":"Sharmila, Mishra AN, Awasthy N, Verma V, Malhotra S (2020) Hindi speech audio visual feature recognition. Int J Adv Sci Technol"},{"key":"14019_CR37","doi-asserted-by":"publisher","DOI":"10.1016\/j.patrec.2018.08.010","author":"H Wang","year":"2020","unstructured":"Wang H, Li Z, Li Y et al (2020) Visual saliency guided complex image retrieval. Pattern Recognit Lett. https:\/\/doi.org\/10.1016\/j.patrec.2018.08.010","journal-title":"Pattern Recognit Lett"},{"key":"14019_CR38","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-017-4637-6","author":"C Yu","year":"2018","unstructured":"Yu C, Li J, Li X et al (2018) Four-image encryption scheme based on quaternion Fresnel transform, chaos and computer generated hologram. Multimed Tools Appl. https:\/\/doi.org\/10.1007\/s11042-017-4637-6","journal-title":"Multimed Tools Appl"},{"key":"14019_CR39","doi-asserted-by":"publisher","unstructured":"Zahid S, Hussain F, Rashid M, Yousaf MH, Habib HA (2015) Optimized audio classification and segmentation algorithm by using ensemble methods. Math Probl Eng. https:\/\/doi.org\/10.1155\/2015\/209814","DOI":"10.1155\/2015\/209814"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-022-14019-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-022-14019-z\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-022-14019-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,4,15]],"date-time":"2023-04-15T09:24:06Z","timestamp":1681550646000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-022-14019-z"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,10,24]]},"references-count":39,"journal-issue":{"issue":"11","published-print":{"date-parts":[[2023,5]]}},"alternative-id":["14019"],"URL":"https:\/\/doi.org\/10.1007\/s11042-022-14019-z","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022,10,24]]},"assertion":[{"value":"16 August 2021","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"26 April 2022","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"23 September 2022","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"24 October 2022","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declared no potential conflicts of interest concerning the research, authorship, and\/or publication of this article.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interest"}}]}}