{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,27]],"date-time":"2026-05-27T18:32:00Z","timestamp":1779906720161,"version":"3.53.1"},"reference-count":33,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2024,3,1]],"date-time":"2024-03-01T00:00:00Z","timestamp":1709251200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,3,1]],"date-time":"2024-03-01T00:00:00Z","timestamp":1709251200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Speech Technol"],"published-print":{"date-parts":[[2024,3]]},"DOI":"10.1007\/s10772-024-10093-w","type":"journal-article","created":{"date-parts":[[2024,3,29]],"date-time":"2024-03-29T18:02:02Z","timestamp":1711735322000},"page":"225-237","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":21,"title":["Feature extraction using GTCC spectrogram and ResNet50 based classification for audio spoof detection"],"prefix":"10.1007","volume":"27","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-5454-1561","authenticated-orcid":false,"given":"Nidhi","family":"Chakravarty","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Mohit","family":"Dua","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2024,3,29]]},"reference":[{"key":"10093_CR1","doi-asserted-by":"publisher","DOI":"10.1007\/s11235-011-9623-0","author":"R Aggarwal","year":"2011","unstructured":"Aggarwal, R., & Dave, M. (2011). Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system. Telecommunication Systems. https:\/\/doi.org\/10.1007\/s11235-011-9623-0","journal-title":"Telecommunication Systems"},{"issue":"3","key":"10093_CR2","doi-asserted-by":"publisher","first-page":"235","DOI":"10.1109\/TASSP.1977.1162950","volume":"25","author":"J Allen","year":"1977","unstructured":"Allen, J. (1977). Short term spectral analysis, synthesis, and modification by discrete Fourier transform. IEEE Transactions on Acoustics, Speech, and Signal Processing, 25(3), 235\u2013238.","journal-title":"IEEE Transactions on Acoustics, Speech, and Signal Processing"},{"key":"10093_CR3","doi-asserted-by":"crossref","unstructured":"Alzantot, M., Wang, Z., & Srivastava, M. (2019). Deep residual neural networks for audio spoofing detection. arXiv:1907.00501","DOI":"10.21437\/Interspeech.2019-3174"},{"key":"10093_CR4","unstructured":"Aravind, P. R., Nechiyil, U., & Paramparambath, N. (2020). Audio spoofing verification using deep convolutional neural networks by transfer learning. arXiv Prepr. arXiv:2008.03464"},{"key":"10093_CR5","doi-asserted-by":"crossref","unstructured":"Cai, W., Danwei, C., Liu, W., Li, G., & Li, M. (2017). Countermeasures for automatic speaker verification replay spoofing attack: On data augmentation, feature representation, classification and fusion.","DOI":"10.21437\/Interspeech.2017-906"},{"issue":"2","key":"10093_CR6","doi-asserted-by":"publisher","first-page":"127","DOI":"10.1007\/s42979-022-01557-4","volume":"4","author":"N Chakravarty","year":"2022","unstructured":"Chakravarty, N., & Dua, M. (2022). Noise robust ASV spoof detection using integrated features and time delay neural network. SN Computer Science, 4(2), 127.","journal-title":"SN Computer Science"},{"key":"10093_CR8","doi-asserted-by":"publisher","DOI":"10.1088\/1402-4896\/acea05","author":"N Chakravarty","year":"2023","unstructured":"Chakravarty, N., & Dua, M. (2023a). Data augmentation and hybrid feature amalgamation to detect audio deep fake attacks. Physica Scripta. https:\/\/doi.org\/10.1088\/1402-4896\/acea05","journal-title":"Physica Scripta"},{"issue":"1","key":"10093_CR7","doi-asserted-by":"publisher","first-page":"1","DOI":"10.12785\/ijcds\/1301111","volume":"13","author":"N Chakravarty","year":"2023","unstructured":"Chakravarty, N., & Dua, M. (2023b). Spoof detection using sequentially integrated image and audio features. International Journal of Computing and Digital Systems, 13(1), 1.","journal-title":"International Journal of Computing and Digital Systems"},{"key":"10093_CR9","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-024-18217-9","author":"N Chakravarty","year":"2024","unstructured":"Chakravarty, N., & Dua, M. (2024a). A lightweight feature extraction technique for deepfake audio detection. Multimedia Tools and Applications. https:\/\/doi.org\/10.1007\/s11042-024-18217-9","journal-title":"Multimedia Tools and Applications"},{"key":"10093_CR10","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-023-18104-9","author":"N Chakravarty","year":"2024","unstructured":"Chakravarty, N., & Dua, M. (2024b). An improved feature extraction for Hindi language audio impersonation attack detection. Multimedia Tools and Applications. https:\/\/doi.org\/10.1007\/s11042-023-18104-9","journal-title":"Multimedia Tools and Applications"},{"issue":"4","key":"10093_CR11","doi-asserted-by":"publisher","first-page":"357","DOI":"10.1109\/TASSP.1980.1163420","volume":"28","author":"S Davis","year":"1980","unstructured":"Davis, S., & Mermelstein, P. (1980). Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IEEE Transactions on Acoustics, Speech, and Signal Processing, 28(4), 357\u2013366.","journal-title":"IEEE Transactions on Acoustics, Speech, and Signal Processing"},{"key":"10093_CR16","doi-asserted-by":"crossref","unstructured":"Dua, M., Aggarwal, R., & Biswas, M. (2017). Discriminative training using heterogeneous feature vector for Hindi automatic speech recognition system. In  2017 international conference on computer and applications (ICCA). IEEE.","DOI":"10.1109\/COMAPP.2017.8079777"},{"key":"10093_CR13","doi-asserted-by":"publisher","DOI":"10.1515\/jisys-2018-0057","author":"M Dua","year":"2018","unstructured":"Dua, M., Aggarwal, R., & Biswas, M. (2018a). Optimizing integrated features for Hindi automatic speech recognition system. Journal of Intelligent Systems. https:\/\/doi.org\/10.1515\/jisys-2018-0057","journal-title":"Journal of Intelligent Systems"},{"issue":"1","key":"10093_CR12","doi-asserted-by":"publisher","first-page":"327","DOI":"10.1515\/jisys-2017-0618","volume":"29","author":"M Dua","year":"2018","unstructured":"Dua, M., Aggarwal, R. K., & Biswas, M. (2018b). Discriminative training using noise robust integrated features and refined HMM modeling. Journal of Intelligent Systems, 29(1), 327\u2013344.","journal-title":"Journal of Intelligent Systems"},{"key":"10093_CR15","doi-asserted-by":"crossref","unstructured":"Dua, M., Aggarwal, R. K., Kadyan, V., & Dua, S. (2012). Punjabi speech to text system for connected words. In Fourth international conference on advances in recent technologies in communication and computing (ARTCom2012) (pp. 206\u2013209).","DOI":"10.1049\/cp.2012.2528"},{"key":"10093_CR14","doi-asserted-by":"publisher","first-page":"103517","DOI":"10.1016\/j.bspc.2022.103517","volume":"74","author":"M Dua","year":"2022","unstructured":"Dua, M., Sadhu, A., Jindal, A., & Mehta, R. (2022). A hybrid noise robust model for multireplay attack detection in automatic speaker verification systems. Biomedical Signal Processing and Control, 74, 103517. https:\/\/doi.org\/10.1016\/j.bspc.2022.103517","journal-title":"Biomedical Signal Processing and Control"},{"issue":"200","key":"10093_CR17","doi-asserted-by":"publisher","first-page":"675","DOI":"10.1080\/01621459.1937.10503522","volume":"32","author":"M Friedman","year":"1937","unstructured":"Friedman, M. (1937). The use of ranks to avoid the assumption of normality implicit in the analysis of variance. Journal of American Statistical Association, 32(200), 675\u2013701.","journal-title":"Journal of American Statistical Association"},{"key":"10093_CR18","doi-asserted-by":"publisher","unstructured":"Hossan, M. A., Memon, S., & Gregory, M. A. (2010). A novel approach for MFCC feature extraction. In 2010 4th international conference on signal processing and communication systems (pp. 1\u20135). https:\/\/doi.org\/10.1109\/ICSPCS.2010.5709752.","DOI":"10.1109\/ICSPCS.2010.5709752"},{"key":"10093_CR20","doi-asserted-by":"crossref","unstructured":"Joshi, S., & Dua, M. (2022). LSTM-GTCC based approach for audio spoof detection. In 2022 international conference on machine learning, big data, cloud and parallel computing (COM-IT-CON) (Vol. 1, pp. 656\u2013661).","DOI":"10.1109\/COM-IT-CON54601.2022.9850820"},{"key":"10093_CR19","doi-asserted-by":"crossref","unstructured":"Joshi, S., & Dua, M. (2023). Multi-order replay attack detection using enhanced feature extraction and deep learning classification. In Proceedings of international conference on recent trends in computing (ICRTC 2022) (pp. 739\u2013745).","DOI":"10.1007\/978-981-19-8825-7_63"},{"issue":"11","key":"10093_CR21","doi-asserted-by":"publisher","first-page":"2059","DOI":"10.1109\/TMM.2015.2478068","volume":"17","author":"C Kereliuk","year":"2015","unstructured":"Kereliuk, C., Sturm, B. L., & Larsen, J. (2015). Deep learning and music adversaries. IEEE Transactions on Multimedia, 17(11), 2059\u20132071.","journal-title":"IEEE Transactions on Multimedia"},{"key":"10093_CR22","unstructured":"Liu, G. K. (2018). Evaluating Gammatone frequency cepstral coefficients with neural networks for emotion recognition from speech. arXiv Prepr. arXiv:1806.09010"},{"key":"10093_CR23","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2020.2999828","author":"K Malik","year":"2020","unstructured":"Malik, K., Javed, A., Malik, H., & Irtaza, A. (2020). A light-weight replay detection framework for voice controlled IoT devices. IEEE Journal of Selected Topics in Signal Processing. https:\/\/doi.org\/10.1109\/JSTSP.2020.2999828","journal-title":"IEEE Journal of Selected Topics in Signal Processing"},{"key":"10093_CR24","doi-asserted-by":"publisher","DOI":"10.1007\/s40747-021-00565-w","author":"A Mittal","year":"2021","unstructured":"Mittal, A., & Dua, M. (2021). Static\u2013dynamic features and hybrid deep learning models based spoof detection system for ASV. Complex & Intelligent Systems. https:\/\/doi.org\/10.1007\/s40747-021-00565-w","journal-title":"Complex & Intelligent Systems"},{"key":"10093_CR25","doi-asserted-by":"publisher","unstructured":"Mittal, A., Dua, M., & Dua, S. (2021). Classical and deep learning data processing techniques for speech and speaker recognitions. In  Virender Kadyan, Amitoj Singh, Mohit Mittal, & Laith Abualigah (Eds.), Deep learning approaches for spoken and natural language processing, (pp. 111- 126). Springer. https:\/\/doi.org\/10.1007\/978-3-030-79778-2_7","DOI":"10.1007\/978-3-030-79778-2_7"},{"issue":"1","key":"10093_CR26","first-page":"399","volume":"31","author":"J Qian","year":"2023","unstructured":"Qian, J., Zhang, Y., Zhao, D., Zhang, X., Xu, Y., & Tao, Z. (2023). Investigation of vowel generation method in low-resource pathological voice database. Engineering Letters, 31(1), 399.","journal-title":"Engineering Letters"},{"key":"10093_CR27","doi-asserted-by":"publisher","first-page":"1684","DOI":"10.1109\/TMM.2012.2199972","volume":"14","author":"X Valero","year":"2012","unstructured":"Valero, X., & Al\u00edas, F. (2012). Gammatone cepstral coefficients: Biologically inspired features for non-speech audio classification. IEEE Transactions on Multimedia, 14, 1684\u20131689. https:\/\/doi.org\/10.1109\/TMM.2012.2199972","journal-title":"IEEE Transactions on Multimedia"},{"key":"10093_CR29","doi-asserted-by":"crossref","unstructured":"Todisco, M., Wang, X., Vestman, V., Sahidullah, M., Delgado, H., Nautsch, Andreas N., Junichi Y., Nicholas E., Tomi K., & Lee, K. A. (2019). ASVspoof 2019: Future horizons in spoofed and fake audio detection. arXiv preprint arXiv:1904.05441.","DOI":"10.21437\/Interspeech.2019-2249"},{"key":"10093_CR28","doi-asserted-by":"publisher","first-page":"101114","DOI":"10.1016\/j.csl.2020.101114","volume":"64","author":"X Wang","year":"2020","unstructured":"Wang, X & Yamagishi, Junichi & Todisco, Massimiliano & Delgado, H\u00e9ctor & Nautsch, Andreas & Evans, Nicholas & Sahidullah, Md & Vestman, Ville & Kinnunen, Tomi & Lee, Kong Aik & Juvela, Lauri & Alku, Paavo & Peng, Yu-Huai & Hwang, Hsin-Te & Tsao, Yu & Wang, Hsin-min & Le Maguer, S\u00e9bastien & Becker, Markus & Henderson, Fergus & Ling, Zhen-Hua (2020). ASVspoof 2019: A large-scale public database of synthetized, converted and replayed speech. Computer Speech & Language, 64, 101114. https:\/\/doi.org\/10.1016\/j.csl.2020.101114","journal-title":"Computer Speech & Language"},{"issue":"4","key":"10093_CR30","doi-asserted-by":"publisher","first-page":"588","DOI":"10.1109\/JSTSP.2017.2671435","volume":"11","author":"Z Wu","year":"2017","unstructured":"Wu, Zhizheng,  Yamagishi,\u00a0Junichi,  Kinnunen,\u00a0Tomi,  Hanil\u00e7i, Cemal,  Sahidullah,\u00a0Mohammed,  Sizov,\u00a0Aleksandr, Evans,\u00a0Nicholas,\u00a0Todisco,\u00a0Massimiliano, & Delgado, Hector. (2017). ASVspoof: The automatic speaker verification spoofing and countermeasures challenge. IEEE Journal of Selected Topics in Signal Processing, 11(4), 588\u2013604. https:\/\/doi.org\/10.1109\/JSTSP.2017.2671435","journal-title":"IEEE Journal of Selected Topics in Signal Processing"},{"issue":"2","key":"10093_CR31","doi-asserted-by":"publisher","first-page":"172318","DOI":"10.1007\/s11704-022-2121-6","volume":"17","author":"J Xue","year":"2023","unstructured":"Xue, J., & Zhou, H. (2023). Physiological-physical feature fusion for automatic voice spoofing detection. Frontiers of Computer Science, 17(2), 172318.","journal-title":"Frontiers of Computer Science"},{"key":"10093_CR32","unstructured":"Yamagishi, Junichi,  Todisco, Massimiliano, Md Sahidullah,  Delgado, H\u00e9ctor,  Wang, Xin, Evans, Nicolas,   Kinnunen, Tomi,  Lee, Kong Aik,  Vestman, Ville, &  Nautsch, Andreas. (2019). Asvspoof 2019: The 3rd automatic speaker verification spoofing and countermeasures challenge database. Zenodo. https:\/\/doi.org\/10.7488\/ds\/2555"},{"key":"10093_CR33","doi-asserted-by":"crossref","unstructured":"Zeiler, M. D., & Fergus, R. (2014). Visualizing and understanding convolutional networks. In Computer vision\u2013ECCV 2014: 13th European conference, Zurich, Switzerland, September 6--12, 2014, Proceedings, Part I 13 (pp. 818\u2013833).","DOI":"10.1007\/978-3-319-10590-1_53"}],"container-title":["International Journal of Speech Technology"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10772-024-10093-w.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s10772-024-10093-w\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10772-024-10093-w.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,5,13]],"date-time":"2024-05-13T15:14:42Z","timestamp":1715613282000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s10772-024-10093-w"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,3]]},"references-count":33,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2024,3]]}},"alternative-id":["10093"],"URL":"https:\/\/doi.org\/10.1007\/s10772-024-10093-w","relation":{},"ISSN":["1381-2416","1572-8110"],"issn-type":[{"value":"1381-2416","type":"print"},{"value":"1572-8110","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,3]]},"assertion":[{"value":"23 December 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"16 February 2024","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"29 March 2024","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}