{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,3]],"date-time":"2026-06-03T19:48:26Z","timestamp":1780516106448,"version":"3.54.1"},"reference-count":37,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2023,5,9]],"date-time":"2023-05-09T00:00:00Z","timestamp":1683590400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,5,9]],"date-time":"2023-05-09T00:00:00Z","timestamp":1683590400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"published-print":{"date-parts":[[2024,1]]},"DOI":"10.1007\/s11042-023-15598-1","type":"journal-article","created":{"date-parts":[[2023,5,10]],"date-time":"2023-05-10T21:41:28Z","timestamp":1683754888000},"page":"1669-1692","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":7,"title":["A hybrid feature-extracted deep CNN with reduced parameters substitutes an End-to-End CNN for the recognition of spoken Bengali digits"],"prefix":"10.1007","volume":"83","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-4485-3393","authenticated-orcid":false,"given":"Bachchu","family":"Paul","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Santanu","family":"Phadikar","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2023,5,9]]},"reference":[{"issue":"10","key":"15598_CR1","doi-asserted-by":"publisher","first-page":"1533","DOI":"10.1109\/TASLP.2014.2339736","volume":"22","author":"O Abdel-Hamid","year":"2014","unstructured":"Abdel-Hamid O, Mohamed AR, Jiang H, Deng L, Penn G, Yu D (2014) Convolutional neural networks for speech recognition. IEEE\/ACM Trans Audio, Speech, Language Process 22(10):1533\u20131545","journal-title":"IEEE\/ACM Trans Audio, Speech, Language Process"},{"issue":"9","key":"15598_CR2","first-page":"38","volume":"149","author":"K Ahammad","year":"2016","unstructured":"Ahammad K, Rahman MM (2016) Connected bangla speech recognition using artificial neural network. Int J Comput Appl 149(9):38\u201341","journal-title":"Int J Comput Appl"},{"key":"15598_CR3","unstructured":"Becker S, Ackermann M, Lapuschkin S, M\u00fcller KR, Samek W (2018) Interpreting and explaining deep neural networks for classification of audio signals. arXiv preprint arXiv:1807.03418"},{"issue":"1","key":"15598_CR4","doi-asserted-by":"publisher","first-page":"131","DOI":"10.1109\/TSP.2015.2480048","volume":"64","author":"S Dikmese","year":"2015","unstructured":"Dikmese S, Sofotasios PC, Renfors M, Valkama M (2015) Subband energy based reduced complexity spectrum sensing under noise uncertainty and frequency-selective spectral characteristics. IEEE Trans Signal Process 64(1):131\u2013145","journal-title":"IEEE Trans Signal Process"},{"issue":"1","key":"15598_CR5","doi-asserted-by":"publisher","first-page":"105","DOI":"10.1109\/TASLP.2015.2496226","volume":"24","author":"L Ferrer","year":"2015","unstructured":"Ferrer L, Lei Y, McLaren M, Scheffer N (2015) Study of senone-based deep neural network approaches for spoken language recognition. IEEE\/ACM Trans Audio, Speech, Language Process 24(1):105\u2013116","journal-title":"IEEE\/ACM Trans Audio, Speech, Language Process"},{"issue":"6","key":"15598_CR6","doi-asserted-by":"publisher","first-page":"146","DOI":"10.15623\/ijret.2015.0406024","volume":"4","author":"MR Gamit","year":"2015","unstructured":"Gamit MR, Dhameliya K (2015) Isolated words recognition using MFCC, LPC and neural network. Int J Res Eng Technol 4(6):146\u2013149","journal-title":"Int J Res Eng Technol"},{"key":"15598_CR7","doi-asserted-by":"crossref","unstructured":"Girshick R (2015) Fast r-cnn. In Proceedings of the IEEE international conference on computer vision (pp 1440\u20131448)","DOI":"10.1109\/ICCV.2015.169"},{"key":"15598_CR8","doi-asserted-by":"publisher","first-page":"15","DOI":"10.1016\/j.engappai.2016.12.012","volume":"59","author":"\u0110T Grozdi\u0107","year":"2017","unstructured":"Grozdi\u0107 \u0110T, Jovi\u010di\u0107 ST, Suboti\u0107 M (2017) Whispered speech recognition using deep denoising autoencoder. Eng Appl Artif Intell 59:15\u201322","journal-title":"Eng Appl Artif Intell"},{"key":"15598_CR9","doi-asserted-by":"crossref","unstructured":"Guiming D, Xia W, Guangyan W, Yan Z, Dan L (2016) Speech recognition based on convolutional neural networks. In 2016 IEEE International Conference on Signal and Image Processing (ICSIP) (pp 708-711). IEEE","DOI":"10.1109\/SIPROCESS.2016.7888355"},{"issue":"2","key":"15598_CR10","first-page":"263","volume":"15","author":"A Gupta","year":"2018","unstructured":"Gupta A, Sarkar K (2018) Recognition of spoken bengali numerals using MLP, SVM, RF based models with PCA based feature summarization. Int Arab J Inf Technol 15(2):263\u2013269","journal-title":"Int Arab J Inf Technol"},{"issue":"1","key":"15598_CR11","doi-asserted-by":"publisher","first-page":"111","DOI":"10.1007\/s10772-018-09577-3","volume":"22","author":"V Kadyan","year":"2019","unstructured":"Kadyan V, Mantri A, Aggarwal RK, Singh A (2019) A comparative study of deep neural network based Punjabi-ASR system. Int J Speech Technol 22(1):111\u2013119","journal-title":"Int J Speech Technol"},{"key":"15598_CR12","first-page":"8","volume":"6","author":"G Kaur","year":"2017","unstructured":"Kaur G, Srivastava M, Kumar A (2017) Speaker and speech recognition using deep neural network. Int J Emerg Res Manag Technol 6:8","journal-title":"Int J Emerg Res Manag Technol"},{"issue":"2","key":"15598_CR13","first-page":"726","volume":"14","author":"H Kondhalkar","year":"2019","unstructured":"Kondhalkar H, Mukherji P (2019) A novel algorithm for speech recognition using tonal frequency cepstral coefficients based on human cochlea frequency map. J Eng Sci Technol 14(2):726\u2013746","journal-title":"J Eng Sci Technol"},{"issue":"2","key":"15598_CR14","doi-asserted-by":"publisher","first-page":"154","DOI":"10.1016\/j.specom.2010.08.011","volume":"53","author":"P Krishnamoorthy","year":"2011","unstructured":"Krishnamoorthy P, Prasanna SM (2011) Enhancement of noisy speech by temporal and spectral processing. Speech Commun 53(2):154\u2013174","journal-title":"Speech Commun"},{"key":"15598_CR15","first-page":"96","volume":"10","author":"NJ Lisa","year":"2010","unstructured":"Lisa NJ, Eity QN, Muhammad G, Huda MN, Rahman CM (2010) Performance evaluation of Bangla word recognition using different acoustic features. Int J Comput Sci Netw Secur 10:96\u2013100","journal-title":"Int J Comput Sci Netw Secur"},{"key":"15598_CR16","first-page":"12","volume":"7","author":"H Mahalingam","year":"2019","unstructured":"Mahalingam H, Rajakumar M (2019) Speech recognition using multiscale scattering of audio signals and long short-term memory 0f neural networks. Int J Adv Comput Sci Cloud Comput 7:12\u201316","journal-title":"Int J Adv Comput Sci Cloud Comput"},{"issue":"1","key":"15598_CR17","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s10772-010-9082-0","volume":"14","author":"S Masmoudi","year":"2011","unstructured":"Masmoudi S, Frikha M, Chtourou M, Hamida AB (2011) Efficient MLP constructive training algorithm using a neuron recruiting approach for isolated word recognition system. Int J Speech Technol 14(1):1\u201310","journal-title":"Int J Speech Technol"},{"issue":"4.6","key":"15598_CR18","doi-asserted-by":"publisher","first-page":"133","DOI":"10.14419\/ijet.v7i4.6.20449","volume":"7","author":"D Nagajyothi","year":"2018","unstructured":"Nagajyothi D, Siddaiah P (2018) Speech recognition using convolutional neural networks. Int J Eng Technol 7(4.6):133\u2013137","journal-title":"Int J Eng Technol"},{"issue":"1","key":"15598_CR19","doi-asserted-by":"publisher","first-page":"12","DOI":"10.18178\/ijsps.6.1.12-16","volume":"6","author":"A Nicolson","year":"2018","unstructured":"Nicolson A, Hanson J, Lyons J, Paliwal K (2018) Spectral subband centroids for robust speaker identification using marginalization-based missing feature theory. Int J Signal Process Syst 6(1):12\u201316","journal-title":"Int J Signal Process Syst"},{"key":"15598_CR20","doi-asserted-by":"crossref","unstructured":"Palaz D, Doss MM, Collobert R (2015) Convolutional neural networks-based continuous speech recognition using raw speech signal. In 2015 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp 4295\u20134299). IEEE","DOI":"10.1109\/ICASSP.2015.7178781"},{"key":"15598_CR21","doi-asserted-by":"crossref","unstructured":"Paul B, Adhikary DD, Dey T, Guchhait S, Bera S (2022) Bangla Spoken Numerals Recognition by Using HMM. In Computational Intelligence in Pattern Recognition (pp 85\u201397). Springer, Singapore","DOI":"10.1007\/978-981-16-2543-5_8"},{"key":"15598_CR22","doi-asserted-by":"crossref","unstructured":"Paul B, Bera S, Paul R, Phadikar S (2021) Bengali spoken numerals recognition by MFCC and GMM technique. In Advances in Electronics, Communication and Computing (pp 85\u201396). Springer, Singapore","DOI":"10.1007\/978-981-15-8752-8_9"},{"key":"15598_CR23","doi-asserted-by":"crossref","unstructured":"Paul B, Dey T, Adhikary DD, Guchhai S, Bera S (2022) A novel approach of audio-visual color recognition using KNN. In Computational Intelligence in Pattern Recognition (pp 231\u2013244). Springer, Singapore","DOI":"10.1007\/978-981-16-2543-5_20"},{"key":"15598_CR24","doi-asserted-by":"crossref","unstructured":"Paul B, Mukherjee H, Phadikar S, Roy K (2019) MFCC-Based Bangla Vowel Phoneme Recognition from Micro Clips. In International Conference on Intelligent Computing and Communication (pp 511\u2013519). Springer, Singapore","DOI":"10.1007\/978-981-15-1084-7_49"},{"key":"15598_CR25","doi-asserted-by":"crossref","unstructured":"Paul B, Phadikar S, Bera S (2021) Indian regional spoken language identification using deep learning approach. In Proceedings of the Sixth International Conference on Mathematics and Computing (pp 263\u2013274). Springer, Singapore","DOI":"10.1007\/978-981-15-8061-1_21"},{"key":"15598_CR26","unstructured":"Pawar GS, Morade SS (2014) Isolated English language digit recognition using hidden markov model toolkit. Int J Adv Res Comput Sci Softw Eng Jaunpur-222001, Uttar Pradesh, India, 4(6)"},{"issue":"4","key":"15598_CR27","doi-asserted-by":"publisher","first-page":"272","DOI":"10.5391\/IJFIS.2020.20.4.272","volume":"20","author":"JA Qadir","year":"2020","unstructured":"Qadir JA, Al-Talabani AK, Aziz HA (2020) Isolated spoken word recognition using one-dimensional convolutional neural network. Int J Fuzzy Logic Intell Syst 20(4):272\u2013277","journal-title":"Int J Fuzzy Logic Intell Syst"},{"issue":"1-2","key":"15598_CR28","first-page":"71","volume":"1","author":"M Sarma","year":"2017","unstructured":"Sarma M (2017) Speech recognition using deep neural network-recent trends. Int J Intell Syst Des Comput 1(1-2):71\u201386","journal-title":"Int J Intell Syst Des Comput"},{"key":"15598_CR29","doi-asserted-by":"publisher","first-page":"1381","DOI":"10.1016\/j.procs.2020.04.148","volume":"171","author":"R Sharmin","year":"2020","unstructured":"Sharmin R, Rahut SK, Huq MR (2020) Bengali spoken digit classification: A deep learning approach using convolutional neural network. Proc Comput Sci 171:1381\u20131388","journal-title":"Proc Comput Sci"},{"key":"15598_CR30","doi-asserted-by":"crossref","unstructured":"Shukla S, Jain M (2021) A novel stochastic deep resilient network for effective speech recognition. Int J Speech Technol 1\u201310","DOI":"10.1007\/s10772-021-09851-x"},{"key":"15598_CR31","doi-asserted-by":"crossref","unstructured":"Si S, Wang J, Sun H, Wu J, Zhang C, Qu X, Cheng N, Chen L, Xiao J (2021) Variational information bottleneck for effective low-resource audio classification. arXiv preprint arXiv:2107.04803","DOI":"10.21437\/Interspeech.2021-2028"},{"key":"15598_CR32","doi-asserted-by":"publisher","first-page":"148","DOI":"10.1016\/j.neucom.2012.11.008","volume":"106","author":"SM Siniscalchi","year":"2013","unstructured":"Siniscalchi SM, Yu D, Deng L, Lee CH (2013) Exploiting deep neural networks for detection-based speech recognition. Neurocomputing 106:148\u2013157","journal-title":"Neurocomputing"},{"issue":"3","key":"15598_CR33","doi-asserted-by":"publisher","first-page":"663","DOI":"10.1007\/s00607-019-00753-0","volume":"102","author":"Z Song","year":"2020","unstructured":"Song Z (2020) English speech recognition based on deep learning with multiple features. Computing 102(3):663\u2013682","journal-title":"Computing"},{"key":"15598_CR34","doi-asserted-by":"crossref","unstructured":"Sumon SA, Chowdhury J, Debnath S, Mohammed N, Momen S (2018) Bangla short speech commands recognition using convolutional neural networks. In 2018 international conference on bangla speech and language processing (ICBSLP) (pp 1\u20136). IEEE","DOI":"10.1109\/ICBSLP.2018.8554395"},{"key":"15598_CR35","doi-asserted-by":"publisher","first-page":"108813","DOI":"10.1016\/j.apacoust.2022.108813","volume":"195","author":"AM Tripathi","year":"2022","unstructured":"Tripathi AM, Paul K (2022) When sub-band features meet attention mechanism while knowledge distillation for sound classification. Appl Acoust 195:108813","journal-title":"Appl Acoust"},{"issue":"47","key":"15598_CR36","first-page":"39","volume":"177","author":"HY Vani","year":"2020","unstructured":"Vani HY, Anusuya MA (2020) Fuzzy speech recognition: a review. Int J Comput Appl 177(47):39\u201354","journal-title":"Int J Comput Appl"},{"issue":"4","key":"15598_CR37","doi-asserted-by":"publisher","first-page":"893","DOI":"10.1007\/s10772-020-09768-x","volume":"23","author":"H Veisi","year":"2020","unstructured":"Veisi H, Mani AH (2020) Persian speech recognition using deep learning. Int J Speech Technol 23(4):893\u2013905","journal-title":"Int J Speech Technol"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-15598-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-023-15598-1\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-15598-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,10,20]],"date-time":"2024-10-20T04:45:47Z","timestamp":1729399547000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-023-15598-1"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,5,9]]},"references-count":37,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2024,1]]}},"alternative-id":["15598"],"URL":"https:\/\/doi.org\/10.1007\/s11042-023-15598-1","relation":{},"ISSN":["1380-7501","1573-7721"],"issn-type":[{"value":"1380-7501","type":"print"},{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,5,9]]},"assertion":[{"value":"3 August 2022","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"16 February 2023","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 April 2023","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"9 May 2023","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"There is no conflict of Interest between the authors regarding the manuscript preparation and submission.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}