{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,29]],"date-time":"2025-11-29T08:04:34Z","timestamp":1764403474380,"version":"3.44.0"},"reference-count":45,"publisher":"Springer Science and Business Media LLC","issue":"10","license":[{"start":{"date-parts":[[2025,5,22]],"date-time":"2025-05-22T00:00:00Z","timestamp":1747872000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,5,22]],"date-time":"2025-05-22T00:00:00Z","timestamp":1747872000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100018542","name":"Natural Science Foundation of Sichuan Province","doi-asserted-by":"publisher","award":["2024NSFSC1482<"],"award-info":[{"award-number":["2024NSFSC1482<"]}],"id":[{"id":"10.13039\/501100018542","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Circuits Syst Signal Process"],"published-print":{"date-parts":[[2025,10]]},"DOI":"10.1007\/s00034-025-03151-4","type":"journal-article","created":{"date-parts":[[2025,5,22]],"date-time":"2025-05-22T05:58:35Z","timestamp":1747893515000},"page":"7680-7701","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Unsupervised Weak Speech Enhancement Using Periodic Mixing Invariant Training"],"prefix":"10.1007","volume":"44","author":[{"given":"Maoning","family":"Wang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaomin","family":"Bai","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chensi","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8046-1904","authenticated-orcid":false,"given":"Yuzhong","family":"Zhong","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,5,22]]},"reference":[{"key":"3151_CR1","unstructured":"F.\u00a0Albu, N.\u00a0Dumitriu, L.D.\u00a0Stanciu. Speech enhancement by spectral subtraction. In Proceedings of International Symposium on Electronics and Telecommunications, pages 78\u201383, (1996)"},{"key":"3151_CR2","doi-asserted-by":"crossref","unstructured":"Yoshiaki Bando, Masato Mimura, Katsutoshi Itoyama, Kazuyoshi Yoshii, Tatsuya Kawahara. Statistical speech enhancement based on probabilistic integration of variational autoencoder and non-negative matrix factorization. In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 716\u2013720. IEEE, (2018)","DOI":"10.1109\/ICASSP.2018.8461530"},{"key":"3151_CR3","unstructured":"Rachel\u00a0M Bittner, Brian McFee, Justin Salamon, Peter Li, Juan\u00a0Pablo Bello. Deep salience representations for f0 estimation in polyphonic music. In ISMIR, pages 63\u201370. Suzhou (China), (2017)"},{"issue":"2","key":"3151_CR4","doi-asserted-by":"publisher","first-page":"113","DOI":"10.1109\/TASSP.1979.1163209","volume":"27","author":"Steven Boll","year":"2003","unstructured":"Steven Boll, Suppression of acoustic noise in speech using spectral subtraction. IEEE Transactions on acoustics, speech, and signal processing 27(2), 113\u2013120 (2003)","journal-title":"IEEE Transactions on acoustics, speech, and signal processing"},{"key":"3151_CR5","doi-asserted-by":"crossref","unstructured":"Cassia\u00a0Valentini Botinhao, Xin Wang, Shinji Takaki, Junichi Yamagishi. Investigating rnn-based speech enhancement methods for noise-robust text-to-speech. In 9th ISCA speech synthesis workshop, pages 159\u2013165, (2016)","DOI":"10.21437\/SSW.2016-24"},{"key":"3151_CR6","doi-asserted-by":"crossref","unstructured":"Haoyu Chen, Jinjin Gu, Yihao Liu, Salma\u00a0Abdel Magid, Chao Dong, Qiong Wang, Hanspeter Pfister, Lei Zhu. Masked image training for generalizable deep image denoising. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pages 1692\u20131703, (2023)","DOI":"10.1109\/CVPR52729.2023.00169"},{"key":"3151_CR7","unstructured":"Li-Wei Chen, Yao-Fei Cheng, Hung-Shin Lee, Yu\u00a0Tsao, Hsin-Min Wang. A teacher-student framework for unsupervised speech enhancement using noise remixing training and two-stage inference. CoRR, (2022)"},{"key":"3151_CR8","unstructured":"Hyeong-Seok Choi, Jang-Hyun Kim, Jaesung Huh, Adrian Kim, Jung-Woo Ha, Kyogu Lee. Phase-aware speech enhancement with deep complex u-net. In International Conference on Learning Representations, (2018)"},{"key":"3151_CR9","unstructured":"Alexandre D\u00e9fossez, Nicolas Usunier, L\u00e9on Bottou, Francis Bach. Demucs: Deep extractor for music sources with extra unlabeled data remixed. arXiv preprint arXiv:1909.01174, (2019)"},{"issue":"4","key":"3151_CR10","doi-asserted-by":"publisher","first-page":"251","DOI":"10.1109\/89.397090","volume":"3","author":"Yariv Ephraim","year":"1995","unstructured":"Yariv Ephraim, Harry L. Van Trees, A signal subspace approach for speech enhancement. IEEE Transactions on speech and audio processing 3(4), 251\u2013266 (1995)","journal-title":"IEEE Transactions on speech and audio processing"},{"key":"3151_CR11","unstructured":"Szu-Wei Fu, Chien-Feng Liao, Yu\u00a0Tsao, Shou-De Lin. Metricgan: Generative adversarial networks based black-box metric scores optimization for speech enhancement. In International Conference on Machine Learning, pages 2031\u20132041. PmLR, (2019)"},{"key":"3151_CR12","unstructured":"Szu-Wei Fu, Cheng Yu, Tsun-An Hsieh, Peter Plantinga, Mirco Ravanelli, Xugang Lu, Yu\u00a0Tsao. Metricgan+: An improved version of metricgan for speech enhancement. arXiv preprint arXiv:2104.03538, (2021)"},{"key":"3151_CR13","unstructured":"Szu-Wei Fu, Cheng Yu, Kuo-Hsuan Hung, Mirco Ravanelli, Yu\u00a0Tsao. Metricgan-u: Unsupervised speech enhancement\/dereverberation based only on noisy\/reverberated speech. In ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 7412\u20137416. IEEE, (2022)"},{"key":"3151_CR14","doi-asserted-by":"crossref","unstructured":"Takuya Fujimura, Yuma Koizumi, Kohei Yatabe, Ryoichi Miyazaki. Noisy-target training: A training strategy for dnn-based speech enhancement without clean speech. In 2021 29th european signal processing conference (EUSIPCO), pages 436\u2013440. IEEE, (2021)","DOI":"10.23919\/EUSIPCO54536.2021.9616166"},{"key":"3151_CR15","unstructured":"John\u00a0S Garofolo. Timit acoustic phonetic continuous speech corpus. Linguistic Data Consortium, 1993, (1993)"},{"key":"3151_CR16","doi-asserted-by":"crossref","unstructured":"Umut Isik, Ritwik Giri, Neerad Phansalkar, Jean-Marc Valin, Karim Helwani, Arvindh Krishnaswamy. Poconet: Better speech enhancement with frequency-positional embeddings, semi-supervised conversational data, and biased loss. arXiv preprint arXiv:2008.04470, (2020)","DOI":"10.21437\/Interspeech.2020-3027"},{"issue":"21","key":"3151_CR17","doi-asserted-by":"publisher","first-page":"33467","DOI":"10.1364\/OE.439646","volume":"29","author":"Fei Jiang","year":"2021","unstructured":"Fei Jiang, Zhenhai Zhang, Lu. Zixiao, Honglang Li, Yahui Tian, Yixin Zhang, Xuping Zhang, High-fidelity acoustic signal enhancement for phase-otdr using supervised learning. Optics Express 29(21), 33467\u201333480 (2021)","journal-title":"Optics Express"},{"key":"3151_CR18","doi-asserted-by":"publisher","first-page":"2637","DOI":"10.1109\/LSP.2022.3232276","volume":"29","author":"Ertu\u011f Karamatl\u0131","year":"2022","unstructured":"Ertu\u011f Karamatl\u0131, Serap K\u0131rb\u0131z, Mixcycle: unsupervised speech separation via cyclic mixture permutation invariant training. IEEE Signal Processing Letters 29, 2637\u20132641 (2022)","journal-title":"IEEE Signal Processing Letters"},{"key":"3151_CR19","unstructured":"Diederik\u00a0P. Kingma. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, (2014)"},{"key":"3151_CR20","doi-asserted-by":"crossref","unstructured":"Yuma Koizumi, Kohei Yatabe, Marc Delcroix, Yoshiki Masuyama, Daiki Takeuchi. Speech enhancement using self-adaptation and multi-head self-attention. In ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 181\u2013185. IEEE, (2020)","DOI":"10.1109\/ICASSP40776.2020.9053214"},{"issue":"02","key":"3151_CR21","doi-asserted-by":"publisher","first-page":"2150017","DOI":"10.1142\/S0219477521500176","volume":"20","author":"Bittu Kumar","year":"2021","unstructured":"Bittu Kumar, Comparative performance evaluation of greedy algorithms for speech enhancement system. Fluctuation and Noise Letters 20(02), 2150017 (2021)","journal-title":"Fluctuation and Noise Letters"},{"key":"3151_CR22","doi-asserted-by":"crossref","unstructured":"Jonathan Le\u00a0Roux, Scott Wisdom, Hakan Erdogan, John\u00a0R. Hershey. Sdr\u2013half-baked or well done? In ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 626\u2013630. IEEE, (2019)","DOI":"10.1109\/ICASSP.2019.8683855"},{"key":"3151_CR23","unstructured":"Zizhen Lin, Xiaoting Chen, Junyu Wang. Muse: Flexible voiceprint receptive fields and multi-path fusion enhanced taylor transformer for u-net-based speech enhancement. arXiv preprint arXiv:2406.04589, (2024)"},{"key":"3151_CR24","doi-asserted-by":"crossref","unstructured":"Santiago Pascual, Antonio Bonafonte, Joan Serra. Segan: Speech enhancement generative adversarial network. arXiv preprint arXiv:1703.09452, (2017)","DOI":"10.21437\/Interspeech.2017-1428"},{"issue":"1","key":"3151_CR25","doi-asserted-by":"publisher","first-page":"2122","DOI":"10.1038\/s41467-018-04551-8","volume":"9","author":"Sara Popham","year":"2018","unstructured":"Sara Popham, Dana Boebinger, Dan PW. Ellis, Hideki Kawahara, Josh H. McDermott, Inharmonic speech reveals the role of harmonicity in the cocktail party problem. Nature communications 9(1), 2122 (2018)","journal-title":"Nature communications"},{"key":"3151_CR26","doi-asserted-by":"crossref","unstructured":"Antony\u00a0W. Rix, John\u00a0G. Beerends, Michael\u00a0P. Hollier, Andries\u00a0P. Hekstra. Perceptual evaluation of speech quality (pesq)-a new method for speech quality assessment of telephone networks and codecs. In 2001 IEEE international conference on acoustics, speech, and signal processing. Proceedings (Cat. No. 01CH37221), volume\u00a02, pages 749\u2013752. IEEE, (2001)","DOI":"10.1109\/ICASSP.2001.941023"},{"key":"3151_CR27","doi-asserted-by":"crossref","unstructured":"Kohei Saijo, Tetsuji Ogawa. Self-remixing: Unsupervised speech separation via separation and remixing. In ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 1\u20135. IEEE, (2023)","DOI":"10.1109\/ICASSP49357.2023.10095596"},{"key":"3151_CR28","unstructured":"Koichi Saito, Stefan Uhlich, Giorgio Fabbro, Yuki Mitsufuji. Training speech enhancement systems with noisy speech datasets. arXiv preprint arXiv:2105.12315, (2021)"},{"key":"3151_CR29","unstructured":"William\u00a0A. Sethares. Tuning, timbre, spectrum, scale. Springer Science & Business Media, (2005)"},{"issue":"3","key":"3151_CR30","doi-asserted-by":"publisher","first-page":"4067","DOI":"10.1364\/OE.477175","volume":"31","author":"Ying Shang","year":"2023","unstructured":"Ying Shang, Jian Yang, Wang Chen, Jichao Yi, Maocheng Sun, Du. Yuankai, Sheng Huang, Wenan Zhao, Qu. Shuai, Weitao Wang et al., Speech signal enhancement based on deep learning in distributed acoustic sensing. Optics express 31(3), 4067\u20134079 (2023)","journal-title":"Optics express"},{"key":"3151_CR31","doi-asserted-by":"crossref","unstructured":"Sudeep Surendran, T. Kishore Kumar. Oblique projection and cepstral subtraction in signal subspace speech enhancement for colored noise reduction. IEEE\/ACM Transactions on Audio, Speech, and Language Processing 26(12), 2328\u20132340 (2018)","DOI":"10.1109\/TASLP.2018.2864535"},{"key":"3151_CR32","unstructured":"Yapeng Tian, Chenliang Xu, Dingzeyu Li. Deep audio prior. arXiv preprint arXiv:1912.10292, (2019)"},{"key":"3151_CR33","doi-asserted-by":"crossref","unstructured":"Efthymios Tzinis, Yossi Adi, Vamsi\u00a0K. Ithapu, Buye Xu, Paris Smaragdis, Anurag Kumar. Remixit: Continual self-training of speech enhancement models via bootstrapped remixing. IEEE Journal of Selected Topics in Signal Processing, 16(6):1329\u20131341, (2022)","DOI":"10.1109\/JSTSP.2022.3200911"},{"issue":"3","key":"3151_CR34","doi-asserted-by":"publisher","first-page":"247","DOI":"10.1016\/0167-6393(93)90095-3","volume":"12","author":"A Varga","year":"1993","unstructured":"A. Varga, H.J. Steeneken, Ii. noisex-92: a database and an experiment to study the effect of additive noise on speech recognition systems. Speech Commun 12(3), 247\u2013251 (1993)","journal-title":"Speech Commun"},{"key":"3151_CR35","doi-asserted-by":"crossref","unstructured":"Jie Wang, Lu\u00a0Yang, Long Gao, Qiang Miao. Current progress on weak signal detection. In 2013 International Conference on Quality, Reliability, Risk, Maintenance, and Safety Engineering (QR2MSE), pages 1812\u20131818. IEEE, (2013)","DOI":"10.1109\/QR2MSE.2013.6625929"},{"issue":"4","key":"3151_CR36","doi-asserted-by":"publisher","first-page":"6117","DOI":"10.1109\/JIOT.2018.2869474","volume":"6","author":"Zinan Wang","year":"2018","unstructured":"Zinan Wang, Bin Zhang, Ji. Xiong, Fu. Yun, Shengtao Lin, Jialin Jiang, Yongxiang Chen, Wu. Yue, Qingyang Meng, Yunjiang Rao, Distributed acoustic sensing based on pulse-coding phase-sensitive otdr. IEEE Internet of Things Journal 6(4), 6117\u20136124 (2018)","journal-title":"IEEE Internet of Things Journal"},{"key":"3151_CR37","first-page":"3846","volume":"33","author":"Scott Wisdom","year":"2020","unstructured":"Scott Wisdom, Efthymios Tzinis, Hakan Erdogan, Ron Weiss, Kevin Wilson, John Hershey, Unsupervised sound separation using mixture invariant training. Advances in neural information processing systems 33, 3846\u20133857 (2020)","journal-title":"Advances in neural information processing systems"},{"key":"3151_CR38","doi-asserted-by":"crossref","unstructured":"Minz Won, Sanghyuk Chun, Oriol Nieto, Xavier Serrc. Data-driven harmonic filters for audio representation learning. In ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 536\u2013540. IEEE, (2020)","DOI":"10.1109\/ICASSP40776.2020.9053669"},{"key":"3151_CR39","doi-asserted-by":"publisher","first-page":"14283","DOI":"10.1109\/ACCESS.2019.2892764","volume":"7","author":"Biao Xue","year":"2019","unstructured":"Biao Xue, Hong Hong, Gu. Songzhao Zhou, Yusheng Li Chen, Zhiyong Wang, Xiaohua Zhu, Morphological filtering enhanced empirical wavelet transform for mode decomposition. IEEE Access 7, 14283\u201314293 (2019)","journal-title":"IEEE Access"},{"key":"3151_CR40","unstructured":"Gene-Ping Yang, Chao-I Tuan, Hung-Yi Lee, Lin-shan Lee. Improved speech separation with time-and-frequency cross-domain joint embedding and clustering. arXiv preprint arXiv:1904.07845, (2019)"},{"key":"3151_CR41","doi-asserted-by":"crossref","unstructured":"Dong Yu, Morten Kolb\u00e6k, Zheng-Hua Tan, Jesper Jensen. Permutation invariant training of deep models for speaker-independent multi-talker speech separation. In 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 241\u2013245. IEEE, (2017)","DOI":"10.1109\/ICASSP.2017.7952154"},{"key":"3151_CR42","doi-asserted-by":"crossref","unstructured":"Xuaner Zhang, Ren Ng, Qifeng Chen. Single image reflection separation with perceptual losses. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4786\u20134794, (2018)","DOI":"10.1109\/CVPR.2018.00503"},{"key":"3151_CR43","volume-title":"Joshua B Tenenbaum, Antonio Torralba, and William T Freeman","author":"Zhoutong Zhang","year":"2019","unstructured":"Zhoutong Zhang, Yunyun Wang, Chuang Gan, Wu. Jiajun, Joshua B Tenenbaum, Antonio Torralba, and William T Freeman (Deep audio priors emerge from harmonic convolutional networks, In International conference on learning representations, 2019)"},{"key":"3151_CR44","doi-asserted-by":"crossref","unstructured":"Han Zhao, Shuayb Zarar, Ivan Tashev, Chin-Hui Lee. Convolutional-recurrent neural networks for speech enhancement. In 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pages 2401\u20132405. IEEE, (2018)","DOI":"10.1109\/ICASSP.2018.8462155"},{"issue":"1","key":"3151_CR45","doi-asserted-by":"publisher","first-page":"53","DOI":"10.1109\/TASLP.2018.2870725","volume":"27","author":"Yan Zhao","year":"2018","unstructured":"Yan Zhao, Zhong-Qiu. Wang, DeLiang Wang, Two-stage deep learning for noisy-reverberant speech enhancement. IEEE\/ACM transactions on audio, speech, and language processing 27(1), 53\u201362 (2018)","journal-title":"IEEE\/ACM transactions on audio, speech, and language processing"}],"container-title":["Circuits, Systems, and Signal Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-025-03151-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00034-025-03151-4\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00034-025-03151-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,24]],"date-time":"2025-09-24T19:06:47Z","timestamp":1758740807000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00034-025-03151-4"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5,22]]},"references-count":45,"journal-issue":{"issue":"10","published-print":{"date-parts":[[2025,10]]}},"alternative-id":["3151"],"URL":"https:\/\/doi.org\/10.1007\/s00034-025-03151-4","relation":{},"ISSN":["0278-081X","1531-5878"],"issn-type":[{"type":"print","value":"0278-081X"},{"type":"electronic","value":"1531-5878"}],"subject":[],"published":{"date-parts":[[2025,5,22]]},"assertion":[{"value":"19 February 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"15 April 2025","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"17 April 2025","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"22 May 2025","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare that there is no conflict of interests regarding the publication of this paper.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflicts of Interest"}}]}}