{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,3]],"date-time":"2025-12-03T18:13:55Z","timestamp":1764785635446,"version":"3.44.0"},"reference-count":35,"publisher":"Springer Science and Business Media LLC","issue":"9","license":[{"start":{"date-parts":[[2025,5,17]],"date-time":"2025-05-17T00:00:00Z","timestamp":1747440000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,5,17]],"date-time":"2025-05-17T00:00:00Z","timestamp":1747440000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"name":"AI.Singapore","award":["AISG2-100E-2021-071"],"award-info":[{"award-number":["AISG2-100E-2021-071"]}]},{"DOI":"10.13039\/501100001459","name":"Ministry of Education - Singapore","doi-asserted-by":"publisher","award":["R-MOE-A405-F029"],"award-info":[{"award-number":["R-MOE-A405-F029"]}],"id":[{"id":"10.13039\/501100001459","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Circuits Syst Signal Process"],"published-print":{"date-parts":[[2025,9]]},"DOI":"10.1007\/s00034-025-03138-1","type":"journal-article","created":{"date-parts":[[2025,5,16]],"date-time":"2025-05-16T23:09:29Z","timestamp":1747436969000},"page":"7108-7121","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["On the Nature and Potential of Deep Noise Suppression Embeddings"],"prefix":"10.1007","volume":"44","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-7111-2008","authenticated-orcid":false,"given":"Ian","family":"McLoughlin","sequence":"first","affiliation":[]},{"given":"Zhongqiang","family":"Ding","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0003-3927-6995","authenticated-orcid":false,"given":"Bowen","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Evelyn","family":"Kurniawati","sequence":"additional","affiliation":[]},{"given":"A. B.","family":"Premkumar","sequence":"additional","affiliation":[]},{"given":"Sasiraj","family":"Somarajan","sequence":"additional","affiliation":[]},{"given":"Song","family":"Yan","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,5,17]]},"reference":[{"key":"3138_CR1","unstructured":"S. Arik, G. Diamos, A. Gibiansky et\u00a0al., Deep voice 2: Multi-speaker neural text-to-speech. arXiv preprint arXiv:1705.08947 (2017)"},{"issue":"5","key":"3138_CR2","doi-asserted-by":"publisher","first-page":"3590","DOI":"10.1121\/1.5133944","volume":"146","author":"MJ Bianco","year":"2019","unstructured":"M.J. Bianco, P. Gerstoft, J. Traer et al., Machine learning in acoustics: theory and applications. J. Acoust. Soc. Am. 146(5), 3590\u20133628 (2019)","journal-title":"J. Acoust. Soc. Am."},{"key":"3138_CR3","doi-asserted-by":"crossref","unstructured":"S. Braun, H. Gamper, C.K. Reddy, et\u00a0al., Towards efficient models for real-time deep noise suppression. In: ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, pp. 656\u2013660 (2021)","DOI":"10.1109\/ICASSP39728.2021.9413580"},{"key":"3138_CR4","doi-asserted-by":"crossref","unstructured":"O.M. Camburu, B. Shillingford, P. Minervini et\u00a0al., Make up your mind! adversarial generation of inconsistent natural language explanations. arXiv preprint arXiv:1910.03065 (2019)","DOI":"10.18653\/v1\/2020.acl-main.382"},{"key":"3138_CR5","unstructured":"R. Cutler, A. Saabas, B. Naderi , et\u00a0al., ICASSP 2023 deep noise suppression challenge. In: IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (2023)"},{"issue":"1","key":"3138_CR6","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1049\/ip-vis:20030161","volume":"150","author":"Z Ding","year":"2003","unstructured":"Z. Ding, I.V. McLoughlin, E. Tan, Extension of proposal of standards for intelligibility tests of Chinese speech: CDRT-tone. IEE Proc.-Vis. Image Signal Process. 150(1), 1\u20135 (2003)","journal-title":"IEE Proc.-Vis. Image Signal Process."},{"key":"3138_CR7","doi-asserted-by":"crossref","unstructured":"H. Dubey, V. Gopal, R. Cutler , et\u00a0al., ICASSP 2022 deep noise suppression challenge. In: ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), IEEE, pp. 9271\u20139275 (2022)","DOI":"10.1109\/ICASSP43922.2022.9747230"},{"key":"3138_CR8","unstructured":"J.S. Garofolo, Timit acoustic phonetic continuous speech corpus. Linguistic Data Consortium, 1993 (1993)"},{"key":"3138_CR9","unstructured":"A.K. Halberstadt, Heterogeneous acoustic measurements and multiple classifiers for speech recognition. Ph.D. thesis, Massachusetts Institute of Technology (1999)"},{"key":"3138_CR10","unstructured":"M. Hasannezhad, Z. Ouyang, W.P. Zhu, et\u00a0al., An integrated cnn-gru framework for complex ratio mask estimation in speech enhancement. In: 2020 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC), pp 764\u2013768 (2020)"},{"key":"3138_CR11","doi-asserted-by":"crossref","unstructured":"Y. Hu, Y. Liu, S. Lv, et\u00a0al., DCCRN: Deep complex convolution recurrent network for phase-aware speech enhancement. arXiv preprint arXiv:2008.00264 (2020)","DOI":"10.21437\/Interspeech.2020-2537"},{"issue":"01","key":"3138_CR12","doi-asserted-by":"publisher","first-page":"2550001","DOI":"10.1142\/S0219467825500019","volume":"25","author":"C Jannu","year":"2025","unstructured":"C. Jannu, S.D. Vanambathina, An overview of speech enhancement based on deep learning techniques. Int. J. Image Graph. 25(01), 2550001 (2025)","journal-title":"Int. J. Image Graph."},{"issue":"1","key":"3138_CR13","doi-asserted-by":"publisher","first-page":"171","DOI":"10.1109\/TASLP.2017.2766023","volume":"26","author":"M Jin","year":"2018","unstructured":"M. Jin, Y. Song, I. McLoughlin et al., LID-senones and their statistics for language identification. IEEE\/ACM Trans. Audio Speech Lang. Process. 26(1), 171\u2013183 (2018)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"3138_CR14","unstructured":"N. Kalchbrenner, E. Elsen, K. Simonyan, et\u00a0al., Efficient neural audio synthesis. In: International Conference on Machine Learning, PMLR, pp. 2410\u20132419 (2018)"},{"key":"3138_CR15","doi-asserted-by":"crossref","unstructured":"O. Li, H. Liu, C. Chen et\u00a0al., Deep learning for case-based reasoning through prototypes: A neural network that explains its predictions. In: Proceedings of the AAAI Conference on Artificial Intelligence (2018)","DOI":"10.1609\/aaai.v32i1.11771"},{"key":"3138_CR16","doi-asserted-by":"crossref","unstructured":"T. Li, Z. Wang, X. Zhu , et\u00a0al., U-style: Cascading u-nets with multi-level speaker and style modeling for zero-shot voice cloning. IEEE\/ACM Trans. Audio Speech Lang. Process. (2024)","DOI":"10.1109\/TASLP.2024.3453606"},{"key":"3138_CR17","unstructured":"L. Van\u00a0der Maaten, G. Hinton, Visualizing data using t-sne. J. Mach. Learn. Res. 9(11) (2008)"},{"key":"3138_CR18","doi-asserted-by":"publisher","first-page":"540","DOI":"10.1109\/TASLP.2015.2389618","volume":"23","author":"I McLoughlin","year":"2015","unstructured":"I. McLoughlin, H.M. Zhang, Z.P. Xie et al., Robust sound event classification using deep neural networks. IEEE Trans. Audio Speech Lang. Process. 23, 540\u2013552 (2015)","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"key":"3138_CR19","doi-asserted-by":"crossref","unstructured":"I. McLoughlin, J.S. Lee, I. Atmosukarto, Single channel ai speech reverberation time modification for room dimension matching. In: 2024 IEEE International Symposium on Mixed and Augmented Reality Adjunct (ISMAR-Adjunct), IEEE, pp. 429\u2013430 (2024)","DOI":"10.1109\/ISMAR-Adjunct64951.2024.00125"},{"issue":"1","key":"3138_CR20","doi-asserted-by":"publisher","first-page":"117","DOI":"10.1109\/TASL.2009.2024381","volume":"18","author":"IV McLoughlin","year":"2010","unstructured":"I.V. McLoughlin, Vowel intelligibility in Chinese. IEEE Trans. Audio Speech Lang. Process. 18(1), 117\u2013125 (2010)","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"key":"3138_CR21","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9781316084205","volume-title":"Speech and audio processing: a MATLAB-based approach","author":"IV McLoughlin","year":"2016","unstructured":"I.V. McLoughlin, Speech and audio processing: a MATLAB-based approach (Cambridge University Press, Cambridge, 2016)"},{"key":"3138_CR22","doi-asserted-by":"publisher","first-page":"101869","DOI":"10.1016\/j.inffus.2023.101869","volume":"99","author":"A Mehrish","year":"2023","unstructured":"A. Mehrish, N. Majumder, R. Bharadwaj et al., A review of deep learning techniques for speech processing. Inf. Fusion 99, 101869 (2023)","journal-title":"Inf. Fusion"},{"key":"3138_CR23","doi-asserted-by":"crossref","unstructured":"X. Miao, R. Tao, C. Zeng, et\u00a0al., A benchmark for multi-speaker anonymization. arXiv preprint arXiv:2407.05608 (2024)","DOI":"10.1109\/TIFS.2025.3556345"},{"key":"3138_CR24","doi-asserted-by":"crossref","unstructured":"K.J. Piczak, Esc: dataset for environmental sound classification. In: Proceedings of the 23rd ACM international conference on Multimedia, pp. 1015\u20131018 (2015)","DOI":"10.1145\/2733373.2806390"},{"key":"3138_CR25","doi-asserted-by":"crossref","unstructured":"C.K. Reddy, H. Dubey, V. Gopal et al., ICASSP 2021 deep noise suppression challenge, in ICASSP 2021\u20132021 IEEE International Conference on Acoustics. (IEEE, Speech and Signal Processing (ICASSP), 2021), pp. 6623\u20136627","DOI":"10.1109\/ICASSP39728.2021.9415105"},{"key":"3138_CR26","doi-asserted-by":"crossref","unstructured":"H. Schroter, A.N. Escalante-B, T. Rosenkranz et al., Deepfilternet: a low complexity speech enhancement framework for full-band audio based on deep filtering, in ICASSP 2022\u20132022 IEEE International Conference on Acoustics. (IEEE, Speech and Signal Processing (ICASSP), 2022), pp.7407\u20137411","DOI":"10.1109\/ICASSP43922.2022.9747055"},{"key":"3138_CR27","doi-asserted-by":"crossref","unstructured":"H. Schr\u00f6ter, A. Maier, A.N. Escalante-B, et\u00a0al., Deepfilternet2: towards real-time speech enhancement on embedded devices for full-band audio. In: 2022 International Workshop on Acoustic Signal Enhancement (IWAENC), IEEE, pp. 1\u20135 (2022)","DOI":"10.1109\/IWAENC53105.2022.9914782"},{"key":"3138_CR28","doi-asserted-by":"publisher","unstructured":"J. Shen, R. Pang, R.J. Weiss, et\u00a0al., Natural tts synthesis by conditioning wavenet on mel spectrogram predictions. In: 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4779\u20134783, https:\/\/doi.org\/10.1109\/ICASSP.2018.8461368 (2018a)","DOI":"10.1109\/ICASSP.2018.8461368"},{"key":"3138_CR29","doi-asserted-by":"crossref","unstructured":"J. Shen, R. Pang, R.J. Weiss et al., Natural TTS synthesis by conditioning wavenet on mel spectrogram predictions, in 2018 IEEE International Conference on Acoustics. (IEEE, Speech and Signal Processing (ICASSP), 2018), pp.4779\u20134783","DOI":"10.1109\/ICASSP.2018.8461368"},{"issue":"6","key":"3138_CR30","doi-asserted-by":"publisher","first-page":"697","DOI":"10.1109\/89.799695","volume":"7","author":"JO Smith","year":"1999","unstructured":"J.O. Smith, J.S. Abel, Bark and ERB bilinear transforms. IEEE Trans. Speech Audio Process. 7(6), 697\u2013708 (1999)","journal-title":"IEEE Trans. Speech Audio Process."},{"key":"3138_CR31","doi-asserted-by":"crossref","unstructured":"P.L. Tobing, Y.C. Wu, T. Toda, Baseline system of voice conversion challenge 2020 with cyclic variational autoencoder and parallel wavegan. arXiv preprint arXiv:2010.04429 (2020)","DOI":"10.21437\/VCCBC.2020-23"},{"key":"3138_CR32","doi-asserted-by":"crossref","unstructured":"M. Wu, M. Hughes, S. Parbhoo, et\u00a0al., Beyond sparsity: tree regularization of deep models for interpretability. In: Proceedings of the AAAI conference on artificial intelligence (2018)","DOI":"10.1609\/aaai.v32i1.11501"},{"key":"3138_CR33","doi-asserted-by":"publisher","unstructured":"T. Yoshioka, T. Nakatani, Speech enhancement based on log spectral envelope model and harmonicity-derived spectral mask, and its coupling with feature compensation. In: 2011 IEEE International conference on acoustics, speech and signal processing (ICASSP), pp 5064\u20135067, https:\/\/doi.org\/10.1109\/ICASSP.2011.5947495 (2011)","DOI":"10.1109\/ICASSP.2011.5947495"},{"key":"3138_CR34","doi-asserted-by":"publisher","first-page":"1310","DOI":"10.1109\/LSP.2020.3010163","volume":"27","author":"Y Zhou","year":"2020","unstructured":"Y. Zhou, X. Tian, H. Li, Multi-task wavernn with an integrated architecture for cross-lingual voice conversion. IEEE Signal Process. Lett. 27, 1310\u20131314 (2020). https:\/\/doi.org\/10.1109\/LSP.2020.3010163","journal-title":"IEEE Signal Process. Lett."},{"key":"3138_CR35","doi-asserted-by":"publisher","first-page":"3427","DOI":"10.1109\/TASLP.2021.3125142","volume":"29","author":"Y Zhou","year":"2021","unstructured":"Y. Zhou, X. Tian, H. Li, Language agnostic speaker embedding for cross-lingual personalized speech generation. IEEE\/ACM Trans. Audio Speech Lang. Process. 29, 3427\u20133439 (2021)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."}],"container-title":["Circuits, Systems, and Signal Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-025-03138-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00034-025-03138-1\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-025-03138-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,6]],"date-time":"2025-09-06T14:48:12Z","timestamp":1757170092000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00034-025-03138-1"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5,17]]},"references-count":35,"journal-issue":{"issue":"9","published-print":{"date-parts":[[2025,9]]}},"alternative-id":["3138"],"URL":"https:\/\/doi.org\/10.1007\/s00034-025-03138-1","relation":{},"ISSN":["0278-081X","1531-5878"],"issn-type":[{"type":"print","value":"0278-081X"},{"type":"electronic","value":"1531-5878"}],"subject":[],"published":{"date-parts":[[2025,5,17]]},"assertion":[{"value":"4 November 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"10 April 2025","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"10 April 2025","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"17 May 2025","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}