{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,14]],"date-time":"2026-05-14T18:08:03Z","timestamp":1778782083073,"version":"3.51.4"},"reference-count":49,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100000038","name":"Natural Sciences and Engineering Research Council of Canada","doi-asserted-by":"publisher","award":["RES0048688"],"award-info":[{"award-number":["RES0048688"]}],"id":[{"id":"10.13039\/501100000038","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100000038","name":"Natural Sciences and Engineering Research Council of Canada","doi-asserted-by":"publisher","award":["RES0054326"],"award-info":[{"award-number":["RES0054326"]}],"id":[{"id":"10.13039\/501100000038","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001381","name":"National Research Foundation","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001381","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001321","name":"National Research Foundation","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001321","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100009192","name":"Alberta Innovates","doi-asserted-by":"publisher","award":["RES0053965"],"award-info":[{"award-number":["RES0053965"]}],"id":[{"id":"10.13039\/501100009192","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Engineering Applications of Artificial Intelligence"],"published-print":{"date-parts":[[2026,7]]},"DOI":"10.1016\/j.engappai.2026.114597","type":"journal-article","created":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T05:17:38Z","timestamp":1775020658000},"page":"114597","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Model-based speech enhancement with spectral envelope correction using stacked autoencoders"],"prefix":"10.1016","volume":"175","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-4842-2400","authenticated-orcid":false,"given":"Wenhao","family":"Lu","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4952-6727","authenticated-orcid":false,"given":"Zhenya","family":"Zang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0920-0274","authenticated-orcid":false,"given":"Feng","family":"Qin","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2412-3120","authenticated-orcid":false,"given":"Xia","family":"Dong","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8849-4994","authenticated-orcid":false,"given":"Jie","family":"Han","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8178-9784","authenticated-orcid":false,"given":"Zuozhou","family":"Pan","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9473-3202","authenticated-orcid":false,"given":"Yiping","family":"Ke","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.engappai.2026.114597_b1","article-title":"Greedy layer-wise training of deep networks","volume":"19","author":"Bengio","year":"2006","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"10","key":"10.1016\/j.engappai.2026.114597_b2","doi-asserted-by":"crossref","first-page":"870","DOI":"10.1049\/el:19960593","article-title":"Improving pitch estimation for efficient multiband excitation coding of speech","volume":"32","author":"Chan","year":"1996","journal-title":"Electron. Lett."},{"key":"10.1016\/j.engappai.2026.114597_b3","doi-asserted-by":"crossref","unstructured":"Chao, R., Yu, C., Fu, S.-W., Lu, X., Tsao, Y., 2022. Perceptual Contrast Stretching on Target Feature for Speech Enhancement. In: Proc. of INTERSPEECH.","DOI":"10.21437\/Interspeech.2022-10478"},{"key":"10.1016\/j.engappai.2026.114597_b4","series-title":"ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"1","article-title":"Unsupervised noise adaptation using data simulation","author":"Chen","year":"2023"},{"key":"10.1016\/j.engappai.2026.114597_b5","series-title":"TRNet: Two-level refinement network leveraging speech enhancement for noise robust speech emotion recognition","author":"Chen","year":"2024"},{"key":"10.1016\/j.engappai.2026.114597_b6","series-title":"ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"1","article-title":"Semi-supervised speech enhancement based on speech purity","author":"Cui","year":"2023"},{"key":"10.1016\/j.engappai.2026.114597_b7","series-title":"Proceedings of the 11th Annual Conference of the International Speech Communication Association","first-page":"3110","article-title":"The QUT-NOISE-TIMIT corpus for evaluation of voice activity detection algorithms","author":"Dean","year":"2010"},{"issue":"1","key":"10.1016\/j.engappai.2026.114597_b8","doi-asserted-by":"crossref","first-page":"139","DOI":"10.1111\/j.2517-6161.1960.tb00361.x","article-title":"Estimation of parameters in time-series regression models","volume":"22","author":"Durbin","year":"1960","journal-title":"J. R. Stat. Soc. Ser. B Stat. Methodol."},{"issue":"2","key":"10.1016\/j.engappai.2026.114597_b9","doi-asserted-by":"crossref","first-page":"443","DOI":"10.1109\/TASSP.1985.1164550","article-title":"Speech enhancement using a minimum mean-square error log-spectral amplitude estimator","volume":"33","author":"Ephraim","year":"1985","journal-title":"IEEE Trans. Acoust. Speech Signal Process."},{"key":"10.1016\/j.engappai.2026.114597_b10","series-title":"2011 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"4728","article-title":"HNM-based MFCC+ F0 extractor applied to statistical speech synthesis","author":"Erro","year":"2011"},{"key":"10.1016\/j.engappai.2026.114597_b11","series-title":"Interspeech","first-page":"1809","article-title":"Improved HNM-based vocoder for statistical synthesizers","author":"Erro","year":"2011"},{"issue":"4","key":"10.1016\/j.engappai.2026.114597_b12","doi-asserted-by":"crossref","first-page":"2389","DOI":"10.1121\/1.2772228","article-title":"Static features in real-time recognition of isolated vowels at high pitch","volume":"122","author":"Ferreira","year":"2007","journal-title":"J. Acoust. Soc. Am."},{"issue":"3","key":"10.1016\/j.engappai.2026.114597_b13","doi-asserted-by":"crossref","first-page":"764","DOI":"10.1121\/1.1911461","article-title":"Excitation of vocal-tract synthesizers","volume":"45","author":"Flanagan","year":"1969","journal-title":"J. Acoust. Soc. Am."},{"key":"10.1016\/j.engappai.2026.114597_b14","series-title":"Getting Started with the DARPA TIMIT CD-Rom: An Acoustic Phonetic Continuous Speech Database","first-page":"16","author":"Garofolo","year":"1988"},{"key":"10.1016\/j.engappai.2026.114597_b15","article-title":"Speech recognition with a hearing-aid processing scheme combining beamforming with mask-informed speech enhancement","volume":"26","author":"Green","year":"2022","journal-title":"Trends Hear."},{"issue":"8","key":"10.1016\/j.engappai.2026.114597_b16","doi-asserted-by":"crossref","first-page":"1223","DOI":"10.1109\/29.1651","article-title":"Multiband excitation vocoder","volume":"36","author":"Griffin","year":"1988","journal-title":"IEEE Trans. Acoust. Speech Signal Process."},{"issue":"5786","key":"10.1016\/j.engappai.2026.114597_b17","doi-asserted-by":"crossref","first-page":"504","DOI":"10.1126\/science.1127647","article-title":"Reducing the dimensionality of data with neural networks","volume":"313","author":"Hinton","year":"2006","journal-title":"Science"},{"key":"10.1016\/j.engappai.2026.114597_b18","series-title":"ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"8787","article-title":"Learning-based personal speech enhancement for teleconferencing by exploiting spatial-spectral features","author":"Hsu","year":"2022"},{"key":"10.1016\/j.engappai.2026.114597_b19","series-title":"Interspeech","first-page":"3627","article-title":"Improved codebook-based speech enhancement based on MBE model","author":"Huang","year":"2017"},{"key":"10.1016\/j.engappai.2026.114597_b20","doi-asserted-by":"crossref","DOI":"10.1016\/j.apacoust.2020.107236","article-title":"Speech enhancement method based on multi-band excitation model","volume":"163","author":"Huang","year":"2020","journal-title":"Appl. Acoust."},{"key":"10.1016\/j.engappai.2026.114597_b21","series-title":"2023 IEEE International Conference on Acoustics, Speech, and Signal Processing Workshops","first-page":"1","article-title":"Towards individualised speech enhancement: An SNR preference learning system for multi-modal hearing aids","author":"Kirton-Wingate","year":"2023"},{"issue":"2","key":"10.1016\/j.engappai.2026.114597_b22","doi-asserted-by":"crossref","first-page":"242","DOI":"10.1109\/49.601","article-title":"Objective quality evaluation for low-bit-rate speech coding systems","volume":"6","author":"Kitawaki","year":"1988","journal-title":"IEEE J. Sel. Areas Commun."},{"key":"10.1016\/j.engappai.2026.114597_b23","doi-asserted-by":"crossref","DOI":"10.1016\/j.dsp.2024.104787","article-title":"DeConformer-SENet: An efficient deformable conformer speech enhancement network","volume":"156","author":"Li","year":"2025","journal-title":"Digit. Signal Process."},{"issue":"1","key":"10.1016\/j.engappai.2026.114597_b24","doi-asserted-by":"crossref","first-page":"84","DOI":"10.1109\/TCOM.1980.1094577","article-title":"An algorithm for vector quantizer design","volume":"28","author":"Linde","year":"1980","journal-title":"IEEE Trans. Commun."},{"key":"10.1016\/j.engappai.2026.114597_b25","doi-asserted-by":"crossref","unstructured":"Liu, D., Smaragdis, P., Kim, M., 2014. Experiments on deep learning for speech denoising. In: Fifteenth Annual Conference of the International Speech Communication Association.","DOI":"10.21437\/Interspeech.2014-574"},{"key":"10.1016\/j.engappai.2026.114597_b26","series-title":"Speech Enhancement: Theory and Practice","author":"Loizou","year":"2007"},{"key":"10.1016\/j.engappai.2026.114597_b27","series-title":"ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"7402","article-title":"Conditional diffusion probabilistic model for speech enhancement","author":"Lu","year":"2022"},{"issue":"8","key":"10.1016\/j.engappai.2026.114597_b28","doi-asserted-by":"crossref","first-page":"1256","DOI":"10.1109\/TASLP.2019.2915167","article-title":"Conv-tasnet: Surpassing ideal time\u2013frequency magnitude masking for speech separation","volume":"27","author":"Luo","year":"2019","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.engappai.2026.114597_b29","series-title":"A fully convolutional neural network for speech enhancement","author":"Park","year":"2016"},{"key":"10.1016\/j.engappai.2026.114597_b30","doi-asserted-by":"crossref","unstructured":"Piczak, K.J., 2015. ESC: Dataset for environmental sound classification. In: Proceedings of the 23rd ACM International Conference on Multimedia. pp. 1015\u20131018.","DOI":"10.1145\/2733373.2806390"},{"key":"10.1016\/j.engappai.2026.114597_b31","doi-asserted-by":"crossref","first-page":"36","DOI":"10.1016\/j.specom.2022.10.002","article-title":"Single-channel speech enhancement using improved progressive deep neural network and masking-based harmonic regeneration","volume":"145","author":"Ping","year":"2022","journal-title":"Speech Commun."},{"key":"10.1016\/j.engappai.2026.114597_b32","series-title":"Fundamentals of Speech Recognition","author":"Rabiner","year":"1993"},{"issue":"4","key":"10.1016\/j.engappai.2026.114597_b33","doi-asserted-by":"crossref","first-page":"1160","DOI":"10.1109\/18.508839","article-title":"Analysis of linear prediction, coding, and spectral estimation from subbands","volume":"42","author":"Rao","year":"1996","journal-title":"IEEE Trans. Inform. Theory"},{"key":"10.1016\/j.engappai.2026.114597_b34","article-title":"Perceptual evaluation of speech quality (PESQ): An objective method for end-to-end speech quality assessment of narrow-band telephone networks and speech codecs","author":"Recommendation","year":"2001","journal-title":"Rec. ITU-T P. 862"},{"key":"10.1016\/j.engappai.2026.114597_b35","doi-asserted-by":"crossref","first-page":"2351","DOI":"10.1109\/TASLP.2023.3285241","article-title":"Speech enhancement and dereverberation with diffusion-based generative models","volume":"31","author":"Richter","year":"2023","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.engappai.2026.114597_b36","series-title":"Neural Networks: A Systematic Introduction","first-page":"149","article-title":"The backpropagation algorithm","author":"Rojas","year":"1996"},{"key":"10.1016\/j.engappai.2026.114597_b37","doi-asserted-by":"crossref","DOI":"10.1016\/j.dsp.2024.104408","article-title":"Time domain speech enhancement with CNN and time-attention transformer","volume":"147","author":"Saleem","year":"2024","journal-title":"Digit. Signal Process."},{"key":"10.1016\/j.engappai.2026.114597_b38","doi-asserted-by":"crossref","first-page":"583","DOI":"10.1016\/j.asoc.2018.10.031","article-title":"Time\u2013frequency masking based supervised speech enhancement framework using fuzzy deep belief network","volume":"74","author":"Samui","year":"2019","journal-title":"Appl. Soft Comput."},{"key":"10.1016\/j.engappai.2026.114597_b39","series-title":"International Conference on Machine Learning","first-page":"31521","article-title":"MetricGAN-OKD: multi-metric optimization of metricgan via online knowledge distillation for speech enhancement","author":"Shin","year":"2023"},{"key":"10.1016\/j.engappai.2026.114597_b40","series-title":"2010 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"4214","article-title":"A short-time objective intelligibility measure for time-frequency weighted noisy speech","author":"Taal","year":"2010"},{"key":"10.1016\/j.engappai.2026.114597_b41","doi-asserted-by":"crossref","first-page":"1853","DOI":"10.1109\/TASLP.2021.3082318","article-title":"Deep learning based real-time speech enhancement for dual-microphone mobile phones","volume":"29","author":"Tan","year":"2021","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.engappai.2026.114597_b42","series-title":"ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"391","article-title":"Unsupervised speech enhancement with speech recognition embedding and disentanglement losses","author":"Trinh","year":"2022"},{"key":"10.1016\/j.engappai.2026.114597_b43","series-title":"The 2nd International Seminar on Science and Technology","first-page":"121","article-title":"K-means clustering optimization using the elbow method and early centroid determination based on mean and median formula","author":"Umargono","year":"2020"},{"issue":"3","key":"10.1016\/j.engappai.2026.114597_b44","doi-asserted-by":"crossref","first-page":"247","DOI":"10.1016\/0167-6393(93)90095-3","article-title":"Assessment for automatic speech recognition: Ii. NOISEX-92: A database and an experiment to study the effect of additive noise on speech recognition systems","volume":"12","author":"Varga","year":"1993","journal-title":"Speech Commun."},{"issue":"4","key":"10.1016\/j.engappai.2026.114597_b45","doi-asserted-by":"crossref","first-page":"679","DOI":"10.1109\/TASSP.1982.1163920","article-title":"The unimportance of phase in speech enhancement","volume":"30","author":"Wang","year":"1982","journal-title":"IEEE Trans. Acoust. Speech Signal Process."},{"key":"10.1016\/j.engappai.2026.114597_b46","series-title":"ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"1","article-title":"Cross-domain diffusion based speech enhancement for very noisy speech","author":"Wang","year":"2023"},{"key":"10.1016\/j.engappai.2026.114597_b47","series-title":"Interspeech 2022","first-page":"2928","article-title":"Speech enhancement with score-based generative models in the complex STFT domain","author":"Welker","year":"2022"},{"issue":"1","key":"10.1016\/j.engappai.2026.114597_b48","doi-asserted-by":"crossref","first-page":"7","DOI":"10.1109\/TASLP.2014.2364452","article-title":"A regression approach to speech enhancement based on deep neural networks","volume":"23","author":"Xu","year":"2014","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.engappai.2026.114597_b49","series-title":"1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings. ICASSP99 (Cat. No. 99CH36258)","first-page":"477","article-title":"Harmonic+ noise coding using improved v\/UV mixing and efficient spectral quantization","volume":"vol. 1","author":"Yu","year":"1999"}],"container-title":["Engineering Applications of Artificial Intelligence"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S095219762600878X?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S095219762600878X?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,14]],"date-time":"2026-05-14T17:12:55Z","timestamp":1778778775000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S095219762600878X"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,7]]},"references-count":49,"alternative-id":["S095219762600878X"],"URL":"https:\/\/doi.org\/10.1016\/j.engappai.2026.114597","relation":{},"ISSN":["0952-1976"],"issn-type":[{"value":"0952-1976","type":"print"}],"subject":[],"published":{"date-parts":[[2026,7]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Model-based speech enhancement with spectral envelope correction using stacked autoencoders","name":"articletitle","label":"Article Title"},{"value":"Engineering Applications of Artificial Intelligence","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.engappai.2026.114597","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"114597"}}