{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,22]],"date-time":"2026-05-22T08:06:27Z","timestamp":1779437187564,"version":"3.53.1"},"reference-count":34,"publisher":"Springer Science and Business Media LLC","issue":"5","license":[{"start":{"date-parts":[[2025,10,22]],"date-time":"2025-10-22T00:00:00Z","timestamp":1761091200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,10,22]],"date-time":"2025-10-22T00:00:00Z","timestamp":1761091200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62373084"],"award-info":[{"award-number":["62373084"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Circuits Syst Signal Process"],"published-print":{"date-parts":[[2026,5]]},"DOI":"10.1007\/s00034-025-03388-z","type":"journal-article","created":{"date-parts":[[2025,10,22]],"date-time":"2025-10-22T17:41:10Z","timestamp":1761154870000},"page":"3862-3879","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Two-Stage Speech Enhancement Based on Dual-Branch Multi-scale Time\u2013Frequency Attention"],"prefix":"10.1007","volume":"45","author":[{"given":"Zekang","family":"Qi","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6615-5484","authenticated-orcid":false,"given":"Yangjie","family":"Wei","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Bingbing","family":"Wang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zhuangzhuang","family":"Wang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2025,10,22]]},"reference":[{"issue":"2","key":"3388_CR1","doi-asserted-by":"publisher","first-page":"113","DOI":"10.1109\/TASSP.1979.1163209","volume":"27","author":"S Boll","year":"1979","unstructured":"S. Boll, Suppression of acoustic noise in speech using spectral subtraction. IEEE Trans. Acoust. Speech Signal Process. 27(2), 113\u2013120 (1979)","journal-title":"IEEE Trans. Acoust. Speech Signal Process."},{"issue":"6","key":"3388_CR2","doi-asserted-by":"publisher","first-page":"1109","DOI":"10.1109\/TASSP.1984.1164453","volume":"32","author":"Y Ephraim","year":"1984","unstructured":"Y. Ephraim, D. Malah, Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator. IEEE Trans. Acoust. Speech Signal Process. 32(6), 1109\u20131121 (1984)","journal-title":"IEEE Trans. Acoust. Speech Signal Process."},{"issue":"2","key":"3388_CR3","doi-asserted-by":"publisher","first-page":"443","DOI":"10.1109\/TASSP.1985.1164550","volume":"33","author":"Y Ephraim","year":"1985","unstructured":"Y. Ephraim, D. Malah, Speech enhancement using a minimum mean-square error log-spectral amplitude estimator. IEEE Trans. Acoust. Speech Signal Process. 33(2), 443\u2013445 (1985)","journal-title":"IEEE Trans. Acoust. Speech Signal Process."},{"issue":"4","key":"3388_CR4","doi-asserted-by":"publisher","first-page":"251","DOI":"10.1109\/89.397090","volume":"3","author":"Y Ephraim","year":"1995","unstructured":"Y. Ephraim, H.L. Van Trees, A signal subspace approach for speech enhancement. IEEE Trans. Speech Audio Process. 3(4), 251\u2013266 (1995)","journal-title":"IEEE Trans. Speech Audio Process."},{"key":"3388_CR5","doi-asserted-by":"crossref","unstructured":"S. Gonzalez, M. Brookes, Mask-based enhancement for very low quality speech, in Proceedings of IEEE International Conference in Acoustics, Speech, Signal Process. (ICASSP) (2014), pp. 7029\u20137033","DOI":"10.1109\/ICASSP.2014.6854963"},{"key":"3388_CR6","doi-asserted-by":"crossref","unstructured":"D. Wang, On ideal binary mask as the computational goal of auditory scene analysis, in Speech Separation by Humans and Machines (2005), pp. 181\u2013197","DOI":"10.1007\/0-387-22794-6_12"},{"issue":"12","key":"3388_CR7","doi-asserted-by":"publisher","first-page":"1849","DOI":"10.1109\/TASLP.2014.2352935","volume":"22","author":"Y Wang","year":"2014","unstructured":"Y. Wang, A. Narayanan, D. Wang, On training targets for supervised speech separation. IEEE\/ACM Trans. Audio Speech Lang. Process. 22(12), 1849\u20131858 (2014)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"issue":"7","key":"3388_CR8","doi-asserted-by":"publisher","first-page":"4117","DOI":"10.1007\/s00034-022-01981-0","volume":"41","author":"S Devi","year":"2022","unstructured":"S. Devi, S. Sivapatham, A. Kar, V. Mladenovic, Mask estimation using phase information and inter-channel correlation for speech enhancement. Circuits Syst. Signal Process. 41(7), 4117\u20134135 (2022)","journal-title":"Circuits Syst. Signal Process."},{"issue":"1","key":"3388_CR9","doi-asserted-by":"publisher","first-page":"7","DOI":"10.1109\/TASLP.2014.2364452","volume":"23","author":"Y Xu","year":"2014","unstructured":"Y. Xu, J. Du, L. Dai, C. Lee, A regression approach to speech enhancement based on deep neural networks. IEEE\/ACM Trans. Audio Speech Lang. Process. 23(1), 7\u201319 (2014)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"3388_CR10","doi-asserted-by":"crossref","unstructured":"K. Han, Y. Wang, D. Wang, Learning spectral mapping for speech dereverberation, in Proceedings of IEEE International Conference in Acoustics, Speech, Signal Process (ICASSP) (2014), pp. 4628\u20134632","DOI":"10.1109\/ICASSP.2014.6854479"},{"key":"3388_CR11","doi-asserted-by":"crossref","unstructured":"K. Tan, J. Chen, D. Wang, Gated residual networks with dilated convolutions for supervised speech separation, in Proceedings of IEEE International Conference in Acoustics, Speech, Signal Process (ICASSP) (2018), pp. 21\u201325","DOI":"10.1109\/ICASSP.2018.8461819"},{"issue":"4","key":"3388_CR12","doi-asserted-by":"publisher","first-page":"465","DOI":"10.1016\/j.specom.2010.12.003","volume":"53","author":"K Paliwal","year":"2011","unstructured":"K. Paliwal, K. W\u00f3jcicki, B. Shannon, The importance of phase in speech enhancement. Speech Commun. 53(4), 465\u2013494 (2011)","journal-title":"Speech Commun."},{"issue":"16","key":"3388_CR13","doi-asserted-by":"publisher","first-page":"4199","DOI":"10.1109\/TSP.2014.2336615","volume":"62","author":"T Gerkmann","year":"2014","unstructured":"T. Gerkmann, Bayesian estimation of clean speech spectral coefficients given a priori knowledge of the phase. IEEE Trans. Signal Process. 62(16), 4199\u20134208 (2014)","journal-title":"IEEE Trans. Signal Process."},{"issue":"12","key":"3388_CR14","doi-asserted-by":"publisher","first-page":"1931","DOI":"10.1109\/TASLP.2014.2354236","volume":"22","author":"M Krawczyk","year":"2014","unstructured":"M. Krawczyk, T. Gerkmann, STFT phase reconstruction in voiced speech for an improved single-channel speech enhancement. IEEE\/ACM Trans. Audio Speech Lang. Process. 22(12), 1931\u20131940 (2014)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"issue":"2","key":"3388_CR15","doi-asserted-by":"publisher","first-page":"55","DOI":"10.1109\/MSP.2014.2369251","volume":"32","author":"T Gerkmann","year":"2015","unstructured":"T. Gerkmann, M. Krawczyk-Becker, J. Le Roux, Phase processing for single-channel speech enhancement: history and recent advances. IEEE Signal Process. Mag. 32(2), 55\u201366 (2015)","journal-title":"IEEE Signal Process. Mag."},{"issue":"3","key":"3388_CR16","doi-asserted-by":"publisher","first-page":"483","DOI":"10.1109\/TASLP.2015.2512042","volume":"24","author":"DS Williamson","year":"2015","unstructured":"D.S. Williamson, Y. Wang, D. Wang, Complex ratio masking for monaural speech separation. IEEE\/ACM Trans. Audio Speech Lang. Process. 24(3), 483\u2013492 (2015)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"3388_CR17","doi-asserted-by":"crossref","unstructured":"K. Tan, D. Wang, Complex spectral mapping with a convolutional recurrent network for monaural speech enhancement, in Proceedings of IEEE International Conference in Acoustics, Speech, Signal Process (ICASSP) (2019), pp. 6865\u20136869","DOI":"10.1109\/ICASSP.2019.8682834"},{"key":"3388_CR18","doi-asserted-by":"publisher","first-page":"380","DOI":"10.1109\/TASLP.2019.2955276","volume":"28","author":"K Tan","year":"2019","unstructured":"K. Tan, D. Wang, Learning complex spectral mapping with gated convolutional recurrent networks for monaural speech enhancement. IEEE\/ACM Trans. Audio Speech Lang. Process. 28, 380\u2013390 (2019)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"3388_CR19","doi-asserted-by":"crossref","unstructured":"Y. Hu, Y. Liu, S. Lv, M. Xing, S. Zhang, Y. Fu, J. Wu, B. Zhang, L. Xie, DCCRN: Deep Complex Convolution Recurrent Network for Phase-Aware Speech Enhancement. Interspeech (2020)","DOI":"10.21437\/Interspeech.2020-2537"},{"issue":"3","key":"3388_CR20","doi-asserted-by":"publisher","first-page":"1834","DOI":"10.1007\/s00034-022-02155-8","volume":"42","author":"J Zeng","year":"2023","unstructured":"J. Zeng, L. Yang, Speech enhancement of complex convolutional recurrent network with attention. Circuits Syst. Signal Process. 42(3), 1834\u20131847 (2023)","journal-title":"Circuits Syst. Signal Process."},{"key":"3388_CR21","doi-asserted-by":"publisher","first-page":"2018","DOI":"10.1109\/LSP.2021.3116502","volume":"28","author":"Z Wang","year":"2021","unstructured":"Z. Wang, G. Wichern, J. Le Roux, On the compensation between magnitude and phase in speech separation. IEEE Signal Process. Lett. 28, 2018\u20132022 (2021)","journal-title":"IEEE Signal Process. Lett."},{"issue":"8","key":"3388_CR22","doi-asserted-by":"publisher","first-page":"1256","DOI":"10.1109\/TASLP.2019.2915167","volume":"27","author":"Y Luo","year":"2019","unstructured":"Y. Luo, N. Mesgarani, Conv-tasnet: surpassing ideal time-frequency magnitude masking for speech separation. IEEE\/ACM Trans. Audio Speech Lang. Process. 27(8), 1256\u20131266 (2019)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"3388_CR23","doi-asserted-by":"publisher","first-page":"1829","DOI":"10.1109\/TASLP.2021.3079813","volume":"29","author":"A Li","year":"2021","unstructured":"A. Li, W. Liu, C. Zheng, C. Fan, X. Li, Two heads are better than one: a two-stage complex spectral mapping approach for monaural speech enhancement. IEEE\/ACM Trans. Audio Speech Lang. Process. 29, 1829\u20131843 (2021)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"3388_CR24","doi-asserted-by":"publisher","first-page":"2156","DOI":"10.1109\/TASLP.2022.3184889","volume":"30","author":"A Li","year":"2022","unstructured":"A. Li, C. Zheng, G. Yu, J. Cai, X. Li, Filtering and refining: a collaborative-style framework for single-channel speech enhancement. IEEE\/ACM Trans. Audio Speech Lang. Process. 30, 2156\u20132172 (2022)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"3388_CR25","doi-asserted-by":"publisher","DOI":"10.1016\/j.apacoust.2021.108499","volume":"187","author":"A Li","year":"2022","unstructured":"A. Li, C. Zheng, L. Zhang, X. Li, Glance and gaze: a collaborative learning framework for single-channel speech enhancement. Appl. Acoust. 187, 108499 (2022)","journal-title":"Appl. Acoust."},{"issue":"12","key":"3388_CR26","doi-asserted-by":"publisher","first-page":"7467","DOI":"10.1007\/s00034-023-02455-7","volume":"42","author":"C Jannu","year":"2023","unstructured":"C. Jannu, S.D. Vanambathina, Multi-stage progressive learning-based speech enhancement using time-frequency attentive squeezed temporal convolutional networks. Circuits Syst. Signal Process. 42(12), 7467\u20137493 (2023)","journal-title":"Circuits Syst. Signal Process."},{"key":"3388_CR27","doi-asserted-by":"crossref","unstructured":"A. Li, S. You, G. Yu, C. Zheng, X. Li, Taylor, can you hear me now? A Taylor-unfolding framework for monaural speech enhancement, in IJCAI (2022), pp. 4193\u20134200","DOI":"10.24963\/ijcai.2022\/582"},{"key":"3388_CR28","doi-asserted-by":"crossref","unstructured":"D. Ouyang, S. He, G. Zhang, M. Luo, H. Guo, J. Zhan, Z. Huang, Efficient multi-scale attention module with cross-spatial learning, in Proceedings of IEEE International Conference in Acoustics, Speech, Signal Process. (ICASSP) (2023), pp. 1\u20135","DOI":"10.1109\/ICASSP49357.2023.10096516"},{"key":"3388_CR29","doi-asserted-by":"publisher","DOI":"10.1016\/j.compbiomed.2023.106626","volume":"154","author":"Q Xu","year":"2023","unstructured":"Q. Xu, Z. Ma, H. Na, W. Duan, DCSAU-Net: a deeper and more compact split-attention U-Net for medical image segmentation. Comput. Biol. Med. 154, 106626 (2023)","journal-title":"Comput. Biol. Med."},{"key":"3388_CR30","doi-asserted-by":"crossref","unstructured":"C. Valentini-Botinhao, X. Wang, S. Takaki, J. Yamagishi, Investigating RNN-based speech enhancement methods for noise-robust Text-to-Speech, in SSW (2016), pp. 146\u2013152","DOI":"10.21437\/SSW.2016-24"},{"key":"3388_CR31","doi-asserted-by":"crossref","unstructured":"D. Yin, C. Luo, Z. Xiong, W. Zeng, Phasen: a phase-and-harmonics-aware speech enhancement network, in Proceedings of AAAI Conference in Artificial Intelligence, vol. 34, no. 05, pp. 9458\u20139465 (2020)","DOI":"10.1609\/aaai.v34i05.6489"},{"key":"3388_CR32","doi-asserted-by":"crossref","unstructured":"E. Kim, H. Seo, SE-conformer: time-domain speech enhancement using conformer, in Interspeech (2021), pp. 2736\u20132740","DOI":"10.21437\/Interspeech.2021-2207"},{"key":"3388_CR33","doi-asserted-by":"crossref","unstructured":"J. Valin, U. Isik, N. Phansalkar, R. Giri, K. Helwani, A. Krishnaswamy, A perceptually-motivated approach for low-complexity, real-time enhancement of fullband speech, in Interspeech (2020), pp. 2482\u20132486","DOI":"10.21437\/Interspeech.2020-2730"},{"key":"3388_CR34","doi-asserted-by":"crossref","unstructured":"H. Schroter, A.N. Escalante-B, T. Rosenkranz, A. Maier, DeepFilterNet: a low complexity speech enhancement framework for full-band audio based on deep filtering, in Proceedings of IEEE International Conference in Acoustics, Speech, Signal Process (ICASSP) (2022), pp. 7407\u20137411","DOI":"10.1109\/ICASSP43922.2022.9747055"}],"container-title":["Circuits, Systems, and Signal Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-025-03388-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00034-025-03388-z","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-025-03388-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,22]],"date-time":"2026-05-22T07:32:08Z","timestamp":1779435128000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00034-025-03388-z"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,22]]},"references-count":34,"journal-issue":{"issue":"5","published-print":{"date-parts":[[2026,5]]}},"alternative-id":["3388"],"URL":"https:\/\/doi.org\/10.1007\/s00034-025-03388-z","relation":{},"ISSN":["0278-081X","1531-5878"],"issn-type":[{"value":"0278-081X","type":"print"},{"value":"1531-5878","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,10,22]]},"assertion":[{"value":"29 December 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"1 October 2025","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"4 October 2025","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"22 October 2025","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declared that they have no Conflict of interest to this work.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}