{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,26]],"date-time":"2025-03-26T13:25:35Z","timestamp":1742995535572,"version":"3.40.3"},"publisher-location":"Cham","reference-count":51,"publisher":"Springer Nature Switzerland","isbn-type":[{"type":"print","value":"9783031781032"},{"type":"electronic","value":"9783031781049"}],"license":[{"start":{"date-parts":[[2024,12,2]],"date-time":"2024-12-02T00:00:00Z","timestamp":1733097600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,12,2]],"date-time":"2024-12-02T00:00:00Z","timestamp":1733097600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-78104-9_25","type":"book-chapter","created":{"date-parts":[[2024,12,1]],"date-time":"2024-12-01T21:44:35Z","timestamp":1733089475000},"page":"367-382","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Sampling Rate Adaptive Speaker Verification from\u00a0Raw Waveforms"],"prefix":"10.1007","author":[{"given":"Vinayak","family":"Abrol","sequence":"first","affiliation":[]},{"given":"Anshul","family":"Thakur","sequence":"additional","affiliation":[]},{"given":"Akshat","family":"Gupta","sequence":"additional","affiliation":[]},{"given":"Xiaomo","family":"Liu","sequence":"additional","affiliation":[]},{"given":"Sameena","family":"Shah","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,12,2]]},"reference":[{"key":"25_CR1","doi-asserted-by":"crossref","unstructured":"Abdel-Hamid, O., Mohamed, A.R., Jiang, H., Penn, G.: Applying convolutional neural networks concepts to hybrid NN-HMM model for speech recognition. In: Proceedings IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2012)","DOI":"10.1109\/ICASSP.2012.6288864"},{"key":"25_CR2","doi-asserted-by":"crossref","unstructured":"Abel, J., Strake, M., Fingscheidt, T.: Artificial bandwidth extension using deep neural networks for spectral envelope estimation. In: IEEE International Workshop on Acoustic Signal Enhancement (IWAENC), pp.\u00a01\u20135 (2016)","DOI":"10.1109\/IWAENC.2016.7602894"},{"key":"25_CR3","first-page":"1964","volume":"28","author":"V Abrol","year":"2020","unstructured":"Abrol, V., Sharma, P.: Learning hierarchy aware embedding from raw audio for acoustic scene classification. IEEE\/ACM Trans. Audio Speech Lang. Process. 28, 1964\u20131973 (2020)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"25_CR4","doi-asserted-by":"crossref","unstructured":"Bansal, D., Raj, B.: Smaragdis: bandwidth expansion of narrowband speech using non-negative matrix factorization. In: Interspeech, pp. 1505\u20131508 (2005)","DOI":"10.21437\/Interspeech.2005-528"},{"key":"25_CR5","doi-asserted-by":"publisher","DOI":"10.1007\/978-0-387-77592-0","volume-title":"Fundamentals of Speaker Recognition","author":"H Beigi","year":"2011","unstructured":"Beigi, H.: Fundamentals of Speaker Recognition. Springer, New York (2011). https:\/\/doi.org\/10.1007\/978-0-387-77592-0"},{"issue":"5","key":"25_CR6","doi-asserted-by":"publisher","first-page":"6672","DOI":"10.1109\/JSEN.2020.3042989","volume":"21","author":"D Bhagya","year":"2021","unstructured":"Bhagya, D., Suchetha, M.: A 1-D deformable convolutional neural network for the quantitative analysis of capnographic sensor. IEEE Sens. J. 21(5), 6672\u20136678 (2021)","journal-title":"IEEE Sens. J."},{"key":"25_CR7","doi-asserted-by":"crossref","unstructured":"Caron, M., et al.: Emerging properties in self-supervised vision transformers. In: IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 9630\u20139640 (2021)","DOI":"10.1109\/ICCV48922.2021.00951"},{"issue":"6","key":"25_CR8","doi-asserted-by":"publisher","first-page":"1505","DOI":"10.1109\/JSTSP.2022.3188113","volume":"16","author":"S Chen","year":"2022","unstructured":"Chen, S., et al.: WavLM: large-scale self-supervised pre-training for full stack speech processing. IEEE J. Sel. Top. Sig. Process. 16(6), 1505\u20131518 (2022)","journal-title":"IEEE J. Sel. Top. Sig. Process."},{"key":"25_CR9","doi-asserted-by":"crossref","unstructured":"Chollet, F.: Xception: deep learning with depthwise separable convolutions. In: IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1800\u20131807 (2017)","DOI":"10.1109\/CVPR.2017.195"},{"issue":"10","key":"25_CR10","doi-asserted-by":"publisher","first-page":"5962","DOI":"10.1109\/TPAMI.2021.3087709","volume":"44","author":"J Deng","year":"2022","unstructured":"Deng, J., Guo, J., Yang, J., Xue, N., Kotsia, I., Zafeiriou, S.: ArcFace: additive angular margin loss for deep face recognition. IEEE Trans. Pattern Anal. Mach. Intell. 44(10), 5962\u20135979 (2022)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"25_CR11","doi-asserted-by":"crossref","unstructured":"Desplanques, B., Thienpondt, J., Demuynck, K.: ECAPA-TDNN: emphasized channel attention, propagation and aggregation in TDNN based speaker verification. In: Interspeech, pp. 3830\u20133834 (2020)","DOI":"10.21437\/Interspeech.2020-2650"},{"key":"25_CR12","doi-asserted-by":"crossref","unstructured":"Fernandez Gallardo, L., Wagner, M., M\u00f6ller, S.: Spectral sub-band analysis of speaker verification employing narrowband and wideband speech. In: The Speaker and Language Recognition Workshop (Odyssey), pp. 81\u201387 (2014)","DOI":"10.21437\/Odyssey.2014-18"},{"key":"25_CR13","doi-asserted-by":"crossref","unstructured":"Gupta, D., Abrol, V.: Time-frequency and geometric analysis of task-dependent learning in raw waveform based acoustic models. In: IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4323\u20134327 (2022)","DOI":"10.1109\/ICASSP43922.2022.9746577"},{"issue":"11","key":"25_CR14","doi-asserted-by":"publisher","first-page":"7436","DOI":"10.1109\/TPAMI.2021.3117837","volume":"44","author":"Y Han","year":"2022","unstructured":"Han, Y., Huang, G., Song, S., Yang, L., Wang, H., Wang, Y.: Dynamic neural networks: a survey. IEEE Trans. Pattern Anal. Mach. Intell. 44(11), 7436\u20137456 (2022)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"25_CR15","doi-asserted-by":"crossref","unstructured":"Haws, D., Cui, X.: CycleGAN bandwidth extension acoustic modeling for automatic speech recognition. In: IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 6780\u20136784 (2019)","DOI":"10.1109\/ICASSP.2019.8682760"},{"key":"25_CR16","doi-asserted-by":"crossref","unstructured":"Heigold, G., Moreno, I.L., Bengio, S., Shazeer, N.: End-to-end text-dependent speaker verification. In: Proceedings of ICASSP (2016)","DOI":"10.1109\/ICASSP.2016.7472652"},{"key":"25_CR17","doi-asserted-by":"crossref","unstructured":"Hirsch, H., Hellwig, K., Dobler, S.: Speech recognition at multiple sampling rates. In: Eurospeech, pp. 1837\u20131840 (2001)","DOI":"10.21437\/Eurospeech.2001-434"},{"key":"25_CR18","doi-asserted-by":"crossref","unstructured":"Jung, J., Kim, Y., Heo, H.S., Lee, B.J., Kwon, Y., Chung, J.S.: Pushing the limits of raw waveform speaker recognition. In: Interspeech, pp. 2228\u20132232 (2022)","DOI":"10.21437\/Interspeech.2022-126"},{"key":"25_CR19","doi-asserted-by":"crossref","unstructured":"Koluguri, N.R., Park, T., Ginsburg, B.: TitaNet: neural model for speaker representation with 1D depth-wise separable convolutions and global context. In: IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 8102\u20138106 (2022)","DOI":"10.1109\/ICASSP43922.2022.9746806"},{"key":"25_CR20","series-title":"Communications in Computer and Information Science","doi-asserted-by":"publisher","first-page":"293","DOI":"10.1007\/978-3-642-22726-4_31","volume-title":"Advances in Computing and Communications","author":"KK Bhuvanagiri","year":"2011","unstructured":"Bhuvanagiri, K.K., Kopparapu, S.K.: Recognition of subsampled speech using a modified Mel filter bank. In: Abraham, A., Mauri, J.L., Buford, J.F., Suzuki, J., Thampi, S.M. (eds.) ACC 2011. CCIS, vol. 193, pp. 293\u2013299. Springer, Heidelberg (2011). https:\/\/doi.org\/10.1007\/978-3-642-22726-4_31"},{"key":"25_CR21","doi-asserted-by":"crossref","unstructured":"Kuzmin, N., Fedorov, I., Sholokhov, A.: Magnitude-aware probabilistic speaker embeddings. In: The Speaker and Language Recognition Workshop (Odyssey), pp.\u00a01\u20138 (2022)","DOI":"10.21437\/Odyssey.2022-1"},{"key":"25_CR22","doi-asserted-by":"crossref","unstructured":"Lee, J., Han, S.: NU-Wave: a diffusion probabilistic model for neural audio upsampling. In: Proceedings Interspeech 2021, pp. 1634\u20131638 (2021)","DOI":"10.21437\/Interspeech.2021-36"},{"key":"25_CR23","doi-asserted-by":"crossref","unstructured":"Li, Y., Tagliasacchi, M., Rybakov, O., Ungureanu, V., Roblek, D.: Real-time speech frequency bandwidth extension. In: IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 691\u2013695 (2021)","DOI":"10.1109\/ICASSP39728.2021.9413439"},{"key":"25_CR24","doi-asserted-by":"crossref","unstructured":"Lim, T.Y., Yeh, R.A., Xu, Y., Do, M.N., Hasegawa-Johnson, M.: Time-frequency networks for audio super-resolution. In: IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 646\u2013650 (2018)","DOI":"10.1109\/ICASSP.2018.8462049"},{"key":"25_CR25","doi-asserted-by":"crossref","unstructured":"Mac, K.N., Joshi, D., Yeh, R., Xiong, J., Feris, R., Do, M.: Learning motion in feature space: locally-consistent deformable convolution networks for fine-grained action detection. In: FIEEE\/CVF International Conference on Computer Vision (ICCV), pp. 6281\u20136290 (2019)","DOI":"10.1109\/ICCV.2019.00638"},{"key":"25_CR26","doi-asserted-by":"crossref","unstructured":"Mantena, G., Kalinli, O., Abdel-Hamid, O., McAllaster, D.: Bandwidth embeddings for mixed-bandwidth speech recognition. In: Interspeech, pp. 3203\u20133207 (2019)","DOI":"10.21437\/Interspeech.2019-2589"},{"key":"25_CR27","doi-asserted-by":"crossref","unstructured":"Muckenhirn, H., Abrol, V., Magimai-Doss, M., Marcel, S.: Understanding and visualizing raw waveform-based CNNs. In: Interspeech, pp. 2345\u20132349 (2019)","DOI":"10.21437\/Interspeech.2019-2341"},{"key":"25_CR28","doi-asserted-by":"crossref","unstructured":"Muckenhirn, H., Doss, M.M., Marcel, S.: Towards directly modeling raw speech signal for speaker verification using CNNs. In: Proceedings of ICASSP (2018)","DOI":"10.1109\/ICASSP.2018.8462165"},{"key":"25_CR29","doi-asserted-by":"crossref","unstructured":"Nagrani, A., Chung, J.S., Zisserman, A.: VoxCeleb: a large-scale speaker identification dataset. In: INTERSPEECH (2017)","DOI":"10.21437\/Interspeech.2017-950"},{"key":"25_CR30","doi-asserted-by":"publisher","DOI":"10.1016\/j.csl.2019.101027","volume":"60","author":"A Nagrani","year":"2020","unstructured":"Nagrani, A., Chung, J.S., Xie, W., Zisserman, A.: VoxCeleb: large-scale speaker verification in the wild. Comput. Speech Lang. 60, 101027 (2020)","journal-title":"Comput. Speech Lang."},{"key":"25_CR31","doi-asserted-by":"crossref","unstructured":"Nandwana, M.K., et al.: The VOiCES from a distance challenge 2019: analysis of speaker verification results and remaining challenges. In: The Speaker and Language Recognition Workshop (Odyssey), pp. 165\u2013170 (2020)","DOI":"10.21437\/Odyssey.2020-24"},{"key":"25_CR32","doi-asserted-by":"crossref","unstructured":"Palaz, D., Collobert, R., Doss, M.M.: Estimating phoneme class conditional probabilities from raw speech signal using convolutional neural networks. In: Interspeech (2013)","DOI":"10.21437\/Interspeech.2013-438"},{"key":"25_CR33","doi-asserted-by":"crossref","unstructured":"Palaz, D., Doss, M.M., Collobert, R.: Analysis of CNN-based speech recognition system using raw speech as input. In: Proceedings of Interspeech (2015)","DOI":"10.21437\/Interspeech.2015-3"},{"key":"25_CR34","doi-asserted-by":"crossref","unstructured":"Pariente, M., et al.: Asteroid: the PyTorch-based audio source separation toolkit for researchers. In: Interspeech (2020)","DOI":"10.21437\/Interspeech.2020-1673"},{"key":"25_CR35","doi-asserted-by":"crossref","unstructured":"Ravanelli, M., Bengio, Y.: Speaker recognition from raw waveform with SincNet. In: IEEE Spoken Language Technology Workshop (SLT), pp. 1021\u20131028 (2018)","DOI":"10.1109\/SLT.2018.8639585"},{"key":"25_CR36","doi-asserted-by":"crossref","unstructured":"Ravenscroft, W., Goetze, S., Hain, T.: Deformable temporal convolutional networks for monaural noisy reverberant speech separation. In: ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.\u00a01\u20135 (2023)","DOI":"10.1109\/ICASSP49357.2023.10095230"},{"key":"25_CR37","doi-asserted-by":"crossref","unstructured":"Sainath, T.N., Weiss, R.J., Senior, A., Wilson, K.W., Vinyals, O.: Learning the speech front-end with raw waveform CLDNNs. In: Interspeech (2015)","DOI":"10.21437\/Interspeech.2015-1"},{"key":"25_CR38","doi-asserted-by":"publisher","first-page":"2928","DOI":"10.1109\/TASLP.2022.3203907","volume":"30","author":"K Saito","year":"2022","unstructured":"Saito, K., Nakamura, T., Yatabe, K., Saruwatari, H.: Sampling-frequency-independent convolutional layer and its application to audio source separation. IEEE\/ACM Trans. Audio Speech Lang. Process. 30, 2928\u20132943 (2022)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"issue":"3","key":"25_CR39","doi-asserted-by":"publisher","first-page":"279","DOI":"10.1109\/LSP.2017.2657381","volume":"24","author":"J Salamon","year":"2017","unstructured":"Salamon, J., Bello, J.P.: Deep convolutional neural networks and data augmentation for environmental sound classification. IEEE Signal Process. Lett. 24(3), 279\u2013283 (2017)","journal-title":"IEEE Signal Process. Lett."},{"issue":"1","key":"25_CR40","doi-asserted-by":"publisher","first-page":"235","DOI":"10.1109\/TASL.2006.876774","volume":"15","author":"ML Seltzer","year":"2007","unstructured":"Seltzer, M.L., Acero, A.: Training wideband acoustic models using mixed-bandwidth training data for speech recognition. IEEE Trans. Audio Speech Lang. Process. 15(1), 235\u2013245 (2007)","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"key":"25_CR41","doi-asserted-by":"crossref","unstructured":"Sivaraman, G., Vidwans, A., Khoury, E.: Speech bandwidth expansion for speaker recognition on telephony audio. In: The Speaker and Language Recognition Workshop (Odyssey), pp. 440\u2013445 (2020)","DOI":"10.21437\/Odyssey.2020-63"},{"key":"25_CR42","doi-asserted-by":"crossref","unstructured":"Snyder, D., Garcia-Romero, D., Povey, D.: Time delay deep neural network-based universal background models for speaker recognition. In: 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU), pp. 92\u201397, December 2015","DOI":"10.1109\/ASRU.2015.7404779"},{"key":"25_CR43","doi-asserted-by":"crossref","unstructured":"Su, J., Wang, Y., Finkelstein, A., Jin, Z.: Bandwidth extension is all you need. In: IIEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 696\u2013700 (2021)","DOI":"10.1109\/ICASSP39728.2021.9413575"},{"key":"25_CR44","doi-asserted-by":"crossref","unstructured":"Variani, E., Lei, X., McDermott, E., Moreno, I.L., Gonzalez-Dominguez, J.: Deep neural networks for small footprint text-dependent speaker verification. In: Proceedings of International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2014)","DOI":"10.1109\/ICASSP.2014.6854363"},{"key":"25_CR45","doi-asserted-by":"crossref","unstructured":"Wang, M., et al.: Speech super-resolution using parallel WaveNet. In: International Symposium on Chinese Spoken Language Processing (ISCSLP), pp. 260\u2013264 (2018)","DOI":"10.1109\/ISCSLP.2018.8706637"},{"key":"25_CR46","doi-asserted-by":"crossref","unstructured":"Wang, X., Zhang, S., Yu, Z., Feng, L., Zhang, W.: Scale-equalizing pyramid convolution for object detection. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 13356\u201313365 (2020)","DOI":"10.1109\/CVPR42600.2020.01337"},{"key":"25_CR47","doi-asserted-by":"crossref","unstructured":"Yamamoto, H., Lee, K.A., Okabe, K., Koshinaka, T.: Speaker augmentation and bandwidth extension for deep speaker embedding. In: Proceedings Interspeech 2019, pp. 406\u2013410 (2019)","DOI":"10.21437\/Interspeech.2019-1508"},{"key":"25_CR48","doi-asserted-by":"crossref","unstructured":"Yu, J., Luo, Y.: Efficient monaural speech enhancement with universal sample rate band-split RNN. In: ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp.\u00a01\u20135 (2023)","DOI":"10.1109\/ICASSP49357.2023.10096020"},{"key":"25_CR49","doi-asserted-by":"crossref","unstructured":"Zhang, C., Koishida, K.: End-to-end text-independent speaker verification with triplet loss on short utterances. In: Proceedings of Interspeech (2017)","DOI":"10.21437\/Interspeech.2017-1608"},{"key":"25_CR50","doi-asserted-by":"crossref","unstructured":"Zhang, Y., et al.: MFA-conformer: multi-scale feature aggregation conformer for automatic speaker verification. In: Proceedings Interspeech 2022, pp. 306\u2013310 (2022)","DOI":"10.21437\/Interspeech.2022-563"},{"key":"25_CR51","doi-asserted-by":"crossref","unstructured":"Zhu, X., Hu, H., Lin, S., Dai, J.: Deformable ConvNets V2: more deformable, better results. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9300\u20139308 (2019)","DOI":"10.1109\/CVPR.2019.00953"}],"container-title":["Lecture Notes in Computer Science","Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-78104-9_25","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,12,1]],"date-time":"2024-12-01T23:30:09Z","timestamp":1733095809000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-78104-9_25"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,2]]},"ISBN":["9783031781032","9783031781049"],"references-count":51,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-78104-9_25","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2024,12,2]]},"assertion":[{"value":"2 December 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ICPR","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Pattern Recognition","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Kolkata","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"India","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"1 December 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"5 December 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"27","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"icpr2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/icpr2024.org\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}