{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,11]],"date-time":"2026-03-11T23:56:30Z","timestamp":1773273390768,"version":"3.50.1"},"reference-count":50,"publisher":"Springer Science and Business Media LLC","issue":"9","license":[{"start":{"date-parts":[[2024,5,28]],"date-time":"2024-05-28T00:00:00Z","timestamp":1716854400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,5,28]],"date-time":"2024-05-28T00:00:00Z","timestamp":1716854400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Circuits Syst Signal Process"],"published-print":{"date-parts":[[2024,9]]},"DOI":"10.1007\/s00034-024-02721-2","type":"journal-article","created":{"date-parts":[[2024,5,28]],"date-time":"2024-05-28T20:36:11Z","timestamp":1716928571000},"page":"5682-5710","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":4,"title":["A Multi-scale Subconvolutional U-Net with Time-Frequency Attention Mechanism for Single Channel Speech Enhancement"],"prefix":"10.1007","volume":"43","author":[{"given":"Sivaramakrishna","family":"Yechuri","sequence":"first","affiliation":[]},{"given":"Thirupathi Rao","family":"Komati","sequence":"additional","affiliation":[]},{"given":"Rama Krishna","family":"Yellapragada","sequence":"additional","affiliation":[]},{"given":"Sunnydaya","family":"Vanambathina","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,5,28]]},"reference":[{"issue":"6","key":"2721_CR1","doi-asserted-by":"publisher","first-page":"4705","DOI":"10.1121\/1.4986931","volume":"141","author":"J Chen","year":"2017","unstructured":"J. Chen, D. Wang, Long short-term memory for speaker generalization in supervised speech separation. J. Acoust. Soc. Am. 141(6), 4705\u20134714 (2017)","journal-title":"J. Acoust. Soc. Am."},{"key":"2721_CR2","doi-asserted-by":"crossref","unstructured":"K. Cho, B. Van\u00a0Merri\u00ebnboer, C. Gulcehre et\u00a0al., Learning phrase representations using RNN encoder\u2013decoder for statistical machine translation (2014). arXiv preprint arXiv:1406.1078","DOI":"10.3115\/v1\/D14-1179"},{"key":"2721_CR3","unstructured":"J. Chung, C. Gulcehre, K. Cho et\u00a0al., Empirical evaluation of gated recurrent neural networks on sequence modeling (2014a). arXiv preprint arXiv:1412.3555"},{"key":"2721_CR4","unstructured":"J. Chung, C. Gulcehre, K. Cho et\u00a0al., Empirical evaluation of gated recurrent neural networks on sequence modeling (2014b). arXiv preprint arXiv:1412.3555"},{"issue":"6","key":"2721_CR5","doi-asserted-by":"publisher","first-page":"1109","DOI":"10.1109\/TASSP.1984.1164453","volume":"32","author":"Y Ephraim","year":"1984","unstructured":"Y. Ephraim, D. Malah, Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator. IEEE Trans. Acoust. Speech Signal Process. 32(6), 1109\u20131121 (1984)","journal-title":"IEEE Trans. Acoust. Speech Signal Process."},{"key":"2721_CR6","doi-asserted-by":"crossref","unstructured":"E.M. Grais, D. Ward, M.D. Plumbley, Raw multi-channel audio source separation using multi-resolution convolutional auto-encoders, in 2018 26th European Signal Processing Conference (EUSIPCO) (IEEE, 2018), pp. 1577\u20131581","DOI":"10.23919\/EUSIPCO.2018.8553571"},{"issue":"6","key":"2721_CR7","doi-asserted-by":"publisher","first-page":"982","DOI":"10.1109\/TASLP.2015.2416653","volume":"23","author":"K Han","year":"2015","unstructured":"K. Han, Y. Wang, D. Wang et al., Learning spectral mapping for speech dereverberation and denoising. IEEE\/ACM Trans. Audio Speech Lang. Process. 23(6), 982\u2013992 (2015)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"2721_CR8","doi-asserted-by":"crossref","unstructured":"C. Haruta, N. Ono, A low-computational DNN-based speech enhancement for hearing aids based on element selection, in 2021 29th European Signal Processing Conference (EUSIPCO) (IEEE, 2021), pp 1025\u20131029","DOI":"10.23919\/EUSIPCO54536.2021.9616073"},{"key":"2721_CR9","doi-asserted-by":"crossref","unstructured":"K. He, X. Zhang, S. Ren et\u00a0al., Deep residual learning for image recognition, in Proceedings of the IEEE conference on computer vision and pattern recognition, pp 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"issue":"8","key":"2721_CR10","doi-asserted-by":"publisher","first-page":"1735","DOI":"10.1162\/neco.1997.9.8.1735","volume":"9","author":"S Hochreiter","year":"1997","unstructured":"S. Hochreiter, J. Schmidhuber, Long short-term memory. Neural Comput. 9(8), 1735\u20131780 (1997)","journal-title":"Neural Comput."},{"key":"2721_CR11","doi-asserted-by":"crossref","unstructured":"J. Hu, L. Shen, G. Sun, Squeeze-and-excitation networks, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 7132\u20137141 (2018)","DOI":"10.1109\/CVPR.2018.00745"},{"key":"2721_CR12","doi-asserted-by":"crossref","unstructured":"Y. Hu, Y. Liu, S. Lv et\u00a0al., DCCRN: deep complex convolution recurrent network for phase-aware speech enhancement (2020). arXiv preprint arXiv:2008.00264","DOI":"10.21437\/Interspeech.2020-2537"},{"issue":"12","key":"2721_CR13","doi-asserted-by":"publisher","first-page":"7467","DOI":"10.1007\/s00034-023-02455-7","volume":"42","author":"C Jannu","year":"2023","unstructured":"C. Jannu, S.D. Vanambathina, Multi-stage progressive learning-based speech enhancement using time-frequency attentive squeezed temporal convolutional networks. Circuits Syst. Signal Process. 42(12), 7467\u20137493 (2023)","journal-title":"Circuits Syst. Signal Process."},{"issue":"12","key":"2721_CR14","doi-asserted-by":"publisher","first-page":"2112","DOI":"10.1109\/TASLP.2014.2361023","volume":"22","author":"Y Jiang","year":"2014","unstructured":"Y. Jiang, D. Wang, R. Liu et al., Binaural classification for reverberant speech segregation using deep neural networks. IEEE\/ACM Trans. Audio Speech Lang. Process. 22(12), 2112\u20132121 (2014)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"2721_CR15","unstructured":"R. Jozefowicz, W. Zaremba, I. Sutskever, An empirical exploration of recurrent network architectures, in International Conference on Machine Learning (PMLR, 2015), pp 2342\u20132350"},{"key":"2721_CR16","unstructured":"D.P. Kingma, J. Ba, Adam: a method for stochastic optimization (2014). arXiv preprint arXiv:1412.6980"},{"issue":"1","key":"2721_CR17","doi-asserted-by":"publisher","first-page":"43","DOI":"10.1109\/TAI.2021.3119927","volume":"3","author":"Y Li","year":"2022","unstructured":"Y. Li, Y. Sun, K. Horoshenkov et al., Domain adaptation and autoencoder-based unsupervised speech enhancement. IEEE Trans. Artif. Intell. 3(1), 43\u201352 (2022)","journal-title":"IEEE Trans. Artif. Intell."},{"key":"2721_CR18","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2023.3265839","author":"Y Li","year":"2023","unstructured":"Y. Li, Y. Sun, W. Wang et al., U-shaped transformer with frequency-band aware attention for speech enhancement. IEEE\/ACM Trans. Audio Speech Lang. Process. (2023). https:\/\/doi.org\/10.1109\/TASLP.2023.3265839","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"issue":"3","key":"2721_CR19","doi-asserted-by":"publisher","first-page":"197","DOI":"10.1109\/TASSP.1978.1163086","volume":"26","author":"J Lim","year":"1978","unstructured":"J. Lim, A. Oppenheim, All-pole modeling of degraded speech. IEEE Trans. Acoust. Speech Signal Process. 26(3), 197\u2013210 (1978)","journal-title":"IEEE Trans. Acoust. Speech Signal Process."},{"key":"2721_CR20","first-page":"588","volume":"49","author":"P Loizou","year":"2017","unstructured":"P. Loizou, Y. Hu, NOIZEUS: a noisy speech corpus for evaluation of speech enhancement algorithms. Speech Commun. 49, 588\u2013601 (2017)","journal-title":"Speech Commun."},{"key":"2721_CR21","doi-asserted-by":"publisher","DOI":"10.1201\/9781420015836","volume-title":"Speech Enhancement: Theory and Practice","author":"PC Loizou","year":"2007","unstructured":"P.C. Loizou, Speech Enhancement: Theory and Practice (CRC Press, Boca Raton, 2007)"},{"key":"2721_CR22","unstructured":"A.L. Maas, A.Y. Hannun, A.Y. Ng et\u00a0al., Rectifier nonlinearities improve neural network acoustic models, in Proc. ICML, (Atlanta, 2013), p\u00a03"},{"key":"2721_CR23","unstructured":"Mozilla (2017) Commonvoice. https:\/\/commonvoice.mozilla.org\/en"},{"key":"2721_CR24","unstructured":"V. Nair, G.E. Hinton, Rectified linear units improve restricted Boltzmann machines, in ICML (2010)"},{"issue":"5","key":"2721_CR25","doi-asserted-by":"publisher","first-page":"895","DOI":"10.1109\/JSTSP.2010.2057198","volume":"4","author":"SM Naqvi","year":"2010","unstructured":"S.M. Naqvi, M. Yu, J.A. Chambers, A multimodal approach to blind source separation of moving sources. IEEE J. Sel. Top. Signal Process. 4(5), 895\u2013910 (2010)","journal-title":"IEEE J. Sel. Top. Signal Process."},{"key":"2721_CR26","doi-asserted-by":"publisher","first-page":"7092","DOI":"10.1109\/ICASSP.2013.6639038","volume-title":"2013 IEEE International Conference on Acoustics, Speech and Signal Processing","author":"A Narayanan","year":"2013","unstructured":"A. Narayanan, D. Wang, Ideal ratio mask estimation using deep neural networks for robust speech recognition, in 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. (IEEE, 2013), pp.7092\u20137096"},{"key":"2721_CR27","doi-asserted-by":"publisher","first-page":"6875","DOI":"10.1109\/ICASSP.2019.8683634","volume-title":"ICASSP 2019\u20132019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","author":"A Pandey","year":"2019","unstructured":"A. Pandey, D. Wang, TCNN: temporal convolutional neural network for real-time speech enhancement in the time domain, in ICASSP 2019\u20132019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). (IEEE, 2019), pp.6875\u20136879"},{"key":"2721_CR28","doi-asserted-by":"crossref","unstructured":"S.R. Park, J. Lee, A fully convolutional neural network for speech enhancement (2016). arXiv preprint arXiv:1609.07132","DOI":"10.21437\/Interspeech.2017-1465"},{"key":"2721_CR29","unstructured":"Recommendation IT, Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs. Rec ITU-T P 862 (2001)"},{"key":"2721_CR30","doi-asserted-by":"publisher","first-page":"5069","DOI":"10.1109\/ICASSP.2018.8462417","volume-title":"2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","author":"D Rethage","year":"2018","unstructured":"D. Rethage, J. Pons, X. Serra, A wavenet for speech denoising, in 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). (IEEE, 2018), pp.5069\u20135073"},{"key":"2721_CR31","doi-asserted-by":"crossref","unstructured":"S. Rickard, O. Yilmaz, On the approximate w-disjoint orthogonality of speech, in 2002 IEEE International Conference on Acoustics, Speech, and Signal Processing. (IEEE, 2002), pp I\u2013529","DOI":"10.1109\/ICASSP.2002.1005793"},{"issue":"3","key":"2721_CR32","doi-asserted-by":"publisher","first-page":"125","DOI":"10.1109\/MSP.2013.2296173","volume":"31","author":"B Rivet","year":"2014","unstructured":"B. Rivet, W. Wang, S.M. Naqvi et al., Audiovisual speech source separation: an overview of key methodologies. IEEE Signal Process. Mag. 31(3), 125\u2013134 (2014)","journal-title":"IEEE Signal Process. Mag."},{"issue":"2","key":"2721_CR33","doi-asserted-by":"publisher","first-page":"359","DOI":"10.1109\/JSTSP.2019.2908760","volume":"13","author":"Y Sun","year":"2019","unstructured":"Y. Sun, Y. Xian, W. Wang et al., Monaural source separation in complex domain with long short-term memory neural network. IEEE J. Sel. Top. Signal Process. 13(2), 359\u2013369 (2019)","journal-title":"IEEE J. Sel. Top. Signal Process."},{"key":"2721_CR34","doi-asserted-by":"crossref","unstructured":"C. Szegedy, W. Liu, Y. Jia et\u00a0al., Going deeper with convolutions, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 1\u20139 (2015)","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"2721_CR35","doi-asserted-by":"crossref","unstructured":"C. Szegedy, V. Vanhoucke, S. Ioffe, et\u00a0al., Rethinking the inception architecture for computer vision, in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 2818\u20132826 (2016)","DOI":"10.1109\/CVPR.2016.308"},{"issue":"7","key":"2721_CR36","doi-asserted-by":"publisher","first-page":"2125","DOI":"10.1109\/TASL.2011.2114881","volume":"19","author":"CH Taal","year":"2011","unstructured":"C.H. Taal, R.C. Hendriks, R. Heusdens et al., An algorithm for intelligibility prediction of time-frequency weighted noisy speech. IEEE Trans. Audio Speech Lang. Process. 19(7), 2125\u20132136 (2011)","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"key":"2721_CR37","doi-asserted-by":"crossref","unstructured":"K. Tan, D. Wang, A convolutional recurrent neural network for real-time speech enhancement, in Interspeech, pp 3229\u20133233 (2018)","DOI":"10.21437\/Interspeech.2018-1405"},{"issue":"1","key":"2721_CR38","doi-asserted-by":"publisher","first-page":"189","DOI":"10.1109\/TASLP.2018.2876171","volume":"27","author":"K Tan","year":"2018","unstructured":"K. Tan, J. Chen, D. Wang, Gated residual networks with dilated convolutions for monaural speech enhancement. IEEE\/ACM Trans. Audio Speech Lang. Process. 27(1), 189\u2013198 (2018)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"2721_CR39","doi-asserted-by":"crossref","unstructured":"M. Tu, X. Zhang, Speech enhancement based on deep neural networks with skip connections, in 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). (IEEE, 2017), pp 5565\u20135569","DOI":"10.1109\/ICASSP.2017.7953221"},{"key":"2721_CR40","doi-asserted-by":"publisher","first-page":"104","DOI":"10.1016\/j.procs.2020.01.079","volume":"165","author":"S Velliangiri","year":"2019","unstructured":"S. Velliangiri, S. Alagumuthukrishnan et al., A review of dimensionality reduction techniques for efficient computation. Procedia Comput. Sci. 165, 104\u2013111 (2019)","journal-title":"Procedia Comput. Sci."},{"issue":"4","key":"2721_CR41","doi-asserted-by":"publisher","first-page":"1462","DOI":"10.1109\/TSA.2005.858005","volume":"14","author":"E Vincent","year":"2006","unstructured":"E. Vincent, R. Gribonval, C. F\u00e9votte, Performance measurement in blind audio source separation. IEEE Trans. Audio Speech Lang. Process. 14(4), 1462\u20131469 (2006)","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"issue":"3","key":"2721_CR42","doi-asserted-by":"publisher","first-page":"32","DOI":"10.1109\/MSPEC.2017.7864754","volume":"54","author":"D Wang","year":"2017","unstructured":"D. Wang, Deep learning reinvents the hearing aid. IEEE Spectr. 54(3), 32\u201337 (2017)","journal-title":"IEEE Spectr."},{"issue":"7","key":"2721_CR43","doi-asserted-by":"publisher","first-page":"1381","DOI":"10.1109\/TASL.2013.2250961","volume":"21","author":"Y Wang","year":"2013","unstructured":"Y. Wang, D. Wang, Towards scaling up classification-based speech separation. IEEE Trans. Audio Speech Lang. Process. 21(7), 1381\u20131390 (2013)","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"key":"2721_CR44","doi-asserted-by":"crossref","unstructured":"F. Weninger, H. Erdogan, S. Watanabe et\u00a0al., Speech enhancement with LSTM recurrent neural networks and its application to noise-robust ASR, in International conference on latent variable analysis and signal separation. (Springer, 2015), pp. 91\u201399","DOI":"10.1007\/978-3-319-22482-4_11"},{"key":"2721_CR45","doi-asserted-by":"crossref","unstructured":"S. Woo, J. Park, J. Lee et\u00a0al., CBAM: convolutional block attention module, in Proceedings of the European Conference on Computer Vision (ECCV), pp. 3\u201319 (2018)","DOI":"10.1007\/978-3-030-01234-2_1"},{"issue":"1","key":"2721_CR46","doi-asserted-by":"publisher","first-page":"143","DOI":"10.1109\/JSTSP.2020.3045846","volume":"15","author":"Y Xian","year":"2020","unstructured":"Y. Xian, Y. Sun, W. Wang et al., A multi-scale feature recalibration network for end-to-end single channel speech enhancement. IEEE J. Sel. Top. Signal Process. 15(1), 143\u2013155 (2020)","journal-title":"IEEE J. Sel. Top. Signal Process."},{"key":"2721_CR47","doi-asserted-by":"publisher","first-page":"1455","DOI":"10.1109\/LSP.2021.3093859","volume":"28","author":"X Xiang","year":"2021","unstructured":"X. Xiang, X. Zhang, H. Chen, A convolutional network with multi-scale and attention mechanisms for end-to-end single-channel speech enhancement. IEEE Signal Process. Lett. 28, 1455\u20131459 (2021)","journal-title":"IEEE Signal Process. Lett."},{"key":"2721_CR48","doi-asserted-by":"publisher","first-page":"105","DOI":"10.1109\/LSP.2021.3128374","volume":"29","author":"X Xiang","year":"2021","unstructured":"X. Xiang, X. Zhang, H. Chen, A nested u-net with self-attention and dense connectivity for monaural speech enhancement. IEEE Signal Process. Lett. 29, 105\u2013109 (2021)","journal-title":"IEEE Signal Process. Lett."},{"issue":"1","key":"2721_CR49","doi-asserted-by":"publisher","first-page":"7","DOI":"10.1109\/TASLP.2014.2364452","volume":"23","author":"Y Xu","year":"2014","unstructured":"Y. Xu, J. Du, L.R. Dai et al., A regression approach to speech enhancement based on deep neural networks. IEEE\/ACM Trans. Audio Speech Lang. Process. 23(1), 7\u201319 (2014)","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"2721_CR50","doi-asserted-by":"crossref","unstructured":"X. Zhang, X. Ren, X. Zheng et\u00a0al., Low-delay speech enhancement using perceptually motivated target and loss, in Interspeech, pp. 2826\u20132830 (2021)","DOI":"10.21437\/Interspeech.2021-1410"}],"container-title":["Circuits, Systems, and Signal Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-024-02721-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00034-024-02721-2\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-024-02721-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,8,14]],"date-time":"2024-08-14T12:05:29Z","timestamp":1723637129000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00034-024-02721-2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,5,28]]},"references-count":50,"journal-issue":{"issue":"9","published-print":{"date-parts":[[2024,9]]}},"alternative-id":["2721"],"URL":"https:\/\/doi.org\/10.1007\/s00034-024-02721-2","relation":{},"ISSN":["0278-081X","1531-5878"],"issn-type":[{"value":"0278-081X","type":"print"},{"value":"1531-5878","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,5,28]]},"assertion":[{"value":"18 January 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"27 April 2024","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"1 May 2024","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"28 May 2024","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"There is no conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}