{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,19]],"date-time":"2026-03-19T22:20:55Z","timestamp":1773958855456,"version":"3.50.1"},"reference-count":57,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100004479","name":"Jiangxi Provincial Natural Science Foundation","doi-asserted-by":"publisher","award":["20252BAC250020"],"award-info":[{"award-number":["20252BAC250020"]}],"id":[{"id":"10.13039\/501100004479","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62462035"],"award-info":[{"award-number":["62462035"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61762048"],"award-info":[{"award-number":["61762048"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Knowledge-Based Systems"],"published-print":{"date-parts":[[2026,2]]},"DOI":"10.1016\/j.knosys.2025.115194","type":"journal-article","created":{"date-parts":[[2025,12,24]],"date-time":"2025-12-24T16:37:04Z","timestamp":1766594224000},"page":"115194","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["SONANCE: Speech-oriented neuromorphic auditory noise-resilient cascaded emotion-recognition"],"prefix":"10.1016","volume":"335","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-9266-3498","authenticated-orcid":false,"given":"Wenlong","family":"Yi","sequence":"first","affiliation":[]},{"given":"Tiantian","family":"Weng","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0681-9469","authenticated-orcid":false,"given":"Sergey","family":"Kuzmin","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0965-1438","authenticated-orcid":false,"given":"Igor","family":"Gerasimov","sequence":"additional","affiliation":[]},{"given":"Xiangping","family":"Cheng","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"issue":"8","key":"10.1016\/j.knosys.2025.115194_bib0001","first-page":"1845","article-title":"Emotional experience during human-Computer interaction: a survey","volume":"40","author":"Tang","year":"2023","journal-title":"In. J. Human-Comput. Int."},{"key":"10.1016\/j.knosys.2025.115194_bib0002","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.110794","article-title":"A survey of dialogic emotion analysis: developments, approaches and perspectives","volume":"156","author":"Gan","year":"2024","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.knosys.2025.115194_bib0003","series-title":"Decoding Digital Emotions: Advancing Online Learning with Speech-Emotion Recognition Systems","first-page":"139","author":"Welsen","year":"2025"},{"issue":"1","key":"10.1016\/j.knosys.2025.115194_bib0004","doi-asserted-by":"crossref","DOI":"10.2174\/0117450179315688240607052117","article-title":"Machine learning techniques to predict mental health diagnoses: a systematic literature review","volume":"20","author":"Madububambachu","year":"2024","journal-title":"Clinical Pract. Epidemiol. Mental Health"},{"key":"10.1016\/j.knosys.2025.115194_bib0005","doi-asserted-by":"crossref","DOI":"10.1016\/j.dss.2023.114051","article-title":"Measuring service quality based on customer emotion: an explainable AI approach","volume":"176","author":"Guo","year":"2024","journal-title":"Decis. Support Syst."},{"key":"10.1016\/j.knosys.2025.115194_bib0006","doi-asserted-by":"crossref","first-page":"56","DOI":"10.1016\/j.specom.2019.12.001","article-title":"Speech emotion recognition: emotional models, databases, features, preprocessing methods, supporting modalities, and classifiers","volume":"116","author":"Ak\u00e7ay","year":"2020","journal-title":"Speech Commun."},{"key":"10.1016\/j.knosys.2025.115194_bib0007","article-title":"Speech emotion recognition using machine learning - a systematic review","volume":"20","author":"Madanian","year":"2023","journal-title":"Intell. Syst. Appl."},{"issue":"4","key":"10.1016\/j.knosys.2025.115194_bib0008","doi-asserted-by":"crossref","first-page":"450","DOI":"10.1109\/LSP.2004.824017","article-title":"A modified a priori SNR for speech enhancement using spectral subtraction rules","volume":"11","author":"Hasan","year":"2004","journal-title":"IEEE Signal Process Lett."},{"key":"10.1016\/j.knosys.2025.115194_bib0009","doi-asserted-by":"crossref","first-page":"13","DOI":"10.1016\/j.specom.2014.02.001","article-title":"Wiener filtering based speech enhancement with weighted denoising auto-encoder and noise classification","volume":"60","author":"Xia","year":"2014","journal-title":"Speech Commun."},{"issue":"1","key":"10.1016\/j.knosys.2025.115194_bib0010","doi-asserted-by":"crossref","DOI":"10.1038\/s41467-024-48302-4","article-title":"Spatiotemporal brain hierarchies of auditory memory recognition and predictive coding","volume":"15","author":"Bonetti","year":"2024","journal-title":"Nat. Commun."},{"issue":"1","key":"10.1016\/j.knosys.2025.115194_bib0011","doi-asserted-by":"crossref","DOI":"10.1038\/s41467-024-48329-7","article-title":"Distributed representations of prediction error signals across the cortical hierarchy are synergistic","volume":"15","author":"Gelens","year":"2024","journal-title":"Nat. Commun."},{"issue":"4","key":"10.1016\/j.knosys.2025.115194_bib0012","doi-asserted-by":"crossref","first-page":"467","DOI":"10.1038\/s42256-024-00824-8","article-title":"A neural speech decoding framework leveraging deep learning and speech synthesis","volume":"6","author":"Chen","year":"2024","journal-title":"Nature Machine Intelligence"},{"key":"10.1016\/j.knosys.2025.115194_bib0013","doi-asserted-by":"crossref","DOI":"10.3389\/fnhum.2023.1286621","article-title":"Understanding the role of emotion in decision making process: using machine learning to analyze physiological responses to visual, auditory, and combined stimulation","volume":"17","author":"Polo","year":"2024","journal-title":"Front. Hum. Neurosci."},{"key":"10.1016\/j.knosys.2025.115194_bib0014","series-title":"Proceedings of the 18th ACM International Conference on Multimedia","first-page":"1459","article-title":"Opensmile: the munich versatile and fast open-source audio feature extractor","author":"Eyben","year":"2010"},{"key":"10.1016\/j.knosys.2025.115194_bib0015","doi-asserted-by":"crossref","first-page":"3451","DOI":"10.1109\/TASLP.2021.3122291","article-title":"HuBERT: self-Supervised speech representation learning by masked prediction of hidden units","volume":"29","author":"Hsu","year":"2021","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.knosys.2025.115194_bib0016","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2024.112521","article-title":"Causally aware reinforcement learning agents for autonomous cyber defence","volume":"304","author":"Purves","year":"2024","journal-title":"Knowl. Based Syst."},{"issue":"9","key":"10.1016\/j.knosys.2025.115194_bib0017","first-page":"34","article-title":"SVM Scheme for speech emotion recognition using MFCC feature","volume":"69","author":"Milton","year":"2013","journal-title":"Int. J. Comput. Appl."},{"key":"10.1016\/j.knosys.2025.115194_bib0018","doi-asserted-by":"crossref","first-page":"150","DOI":"10.1016\/j.ins.2019.09.005","article-title":"Two-layer fuzzy multiple random forest for speech emotion recognition in human-robot interaction","volume":"509","author":"Chen","year":"2020","journal-title":"Inf. Sci."},{"key":"10.1016\/j.knosys.2025.115194_bib0019","series-title":"Interspeech 2019","article-title":"Direct modelling of speech emotion from raw speech","author":"Latif","year":"2019"},{"key":"10.1016\/j.knosys.2025.115194_bib0020","doi-asserted-by":"crossref","DOI":"10.1016\/j.apacoust.2023.109578","article-title":"Variational mode decomposition based acoustic and entropy features for speech emotion recognition","volume":"212","author":"Mishra","year":"2023","journal-title":"Appl. Acoustics"},{"key":"10.1016\/j.knosys.2025.115194_bib0021","series-title":"2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"2227","article-title":"Automatic speech emotion recognition using recurrent neural networks with local attention","author":"Mirsamadi","year":"2017"},{"key":"10.1016\/j.knosys.2025.115194_bib0022","series-title":"ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"6437","article-title":"Speech emotion recognition with global-Aware fusion on multi-Scale feature representation","author":"Zhu","year":"2022"},{"key":"10.1016\/j.knosys.2025.115194_bib0023","series-title":"ICASSP 2022 - 2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"7367","article-title":"Speech emotion recognition with co-Attention based multi-Level acoustic information","author":"Zou","year":"2022"},{"key":"10.1016\/j.knosys.2025.115194_bib0024","series-title":"ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"1","article-title":"DST: Deformable speech transformer for emotion recognition","author":"Chen","year":"2023"},{"issue":"1","key":"10.1016\/j.knosys.2025.115194_bib0025","doi-asserted-by":"crossref","DOI":"10.1017\/ATSIP.2020.14","article-title":"Dimensional speech emotion recognition from speech features and word embeddings by using multitask learning","volume":"9","author":"Atmaja","year":"2020","journal-title":"APSIPA Trans. Signal Inf. Process."},{"key":"10.1016\/j.knosys.2025.115194_bib0026","series-title":"2016 10th International Conference on Signal Processing and Communication Systems (ICSPCS)","first-page":"1","article-title":"Continuous wavelet transform based speech emotion recognition","author":"Shegokar","year":"2016"},{"key":"10.1016\/j.knosys.2025.115194_bib0027","series-title":"2018 9th International Conference on Computing, Communication and Networking Technologies (ICCCNT)","first-page":"1","article-title":"Applying Machine Learning Techniques for Speech Emotion Recognition","author":"Tarunika","year":"2018"},{"issue":"18","key":"10.1016\/j.knosys.2025.115194_bib0028","doi-asserted-by":"crossref","first-page":"5212","DOI":"10.3390\/s20185212","article-title":"Deep-Net: a lightweight CNN-Based speech emotion recognition system using deep frequency features","volume":"20","author":"Anvarjon","year":"2020","journal-title":"Sensors"},{"key":"10.1016\/j.knosys.2025.115194_bib0029","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2023.119633","article-title":"An ensemble 1D-CNN-LSTM-GRU model with data augmentation for speech emotion recognition","volume":"218","author":"Rayhan Ahmed","year":"2023","journal-title":"Expert Syst. Appl."},{"key":"10.1016\/j.knosys.2025.115194_bib0030","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2025.110060","article-title":"Sparse temporal aware capsule network for robust speech emotion recognition","volume":"144","author":"Zhang","year":"2025","journal-title":"Eng. Appl. Artif. Intell."},{"key":"10.1016\/j.knosys.2025.115194_bib0031","first-page":"12449","article-title":"Wav2vec 2.0: a framework for self-supervised learning of speech representations","volume":"33","author":"Baevski","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"6","key":"10.1016\/j.knosys.2025.115194_bib0032","doi-asserted-by":"crossref","first-page":"1505","DOI":"10.1109\/JSTSP.2022.3188113","article-title":"WavLM: large-Scale self-Supervised pre-Training for full stack speech processing","volume":"16","author":"Chen","year":"2022","journal-title":"IEEE J. Sel. Top Signal Process."},{"key":"10.1016\/j.knosys.2025.115194_bib0033","series-title":"International Conference on Machine Learning","first-page":"28492","article-title":"Robust speech recognition via large-scale weak supervision","author":"Radford","year":"2023"},{"key":"10.1016\/j.knosys.2025.115194_bib0034","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2024.102382","article-title":"HiCMAE: hierarchical contrastive masked autoencoder for self-supervised audio-Visual emotion recognition","volume":"108","author":"Sun","year":"2024","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.knosys.2025.115194_bib0035","doi-asserted-by":"crossref","first-page":"1787","DOI":"10.1109\/TASLPRO.2025.3561606","article-title":"Enhancing speech emotion recognition with conditional emotion feature diffusion and progressive interleaved learning strategy","volume":"33","author":"Liu","year":"2025","journal-title":"IEEE Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.knosys.2025.115194_bib0036","first-page":"1","article-title":"Seenet: a soft emotion expert and data augmentation method to enhance speech emotion recognition","author":"Li","year":"2025","journal-title":"IEEE Trans. Affect Comput."},{"key":"10.1016\/j.knosys.2025.115194_bib0037","series-title":"Interspeech 2020","article-title":"Dual-Signal transformation LSTM network for real-Time noise suppression","author":"Westhausen","year":"2020"},{"key":"10.1016\/j.knosys.2025.115194_bib0038","doi-asserted-by":"crossref","unstructured":"H. Zhang, H. Huang, H. Han, Ma-Capsnet-Da: speech emotion recognition based on ma-Capsnet using data augmentation (2023). 10.2139\/ssrn.4423335.","DOI":"10.2139\/ssrn.4423335"},{"key":"10.1016\/j.knosys.2025.115194_bib0039","doi-asserted-by":"crossref","DOI":"10.1016\/j.bspc.2025.107996","article-title":"Reproducible and generalizable speech emotion recognition via an intelligent fusion network","volume":"109","author":"Zhang","year":"2025","journal-title":"Biomed. Signal Process Contr."},{"key":"10.1016\/j.knosys.2025.115194_bib0040","series-title":"Interspeech 2017","article-title":"SEGAN: Speech enhancement generative adversarial network","author":"Pascual","year":"2017"},{"key":"10.1016\/j.knosys.2025.115194_bib0041","doi-asserted-by":"crossref","first-page":"2724","DOI":"10.1109\/TASLP.2023.3294692","article-title":"StoRM: a diffusion-Based stochastic regeneration model for speech enhancement and dereverberation","volume":"31","author":"Lemercier","year":"2023","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.knosys.2025.115194_bib0042","doi-asserted-by":"crossref","DOI":"10.1016\/j.bspc.2025.108782","article-title":"Pre-attentive speech signal processing with adaptive routing for emotion recognition","volume":"112","author":"Zhang","year":"2026","journal-title":"Biomed Signal Process. Contr."},{"key":"10.1016\/j.knosys.2025.115194_bib0043","series-title":"DFT-domain based single-microphone noise reduction for speech enhancement","author":"Hendriks","year":"2022"},{"issue":"4","key":"10.1016\/j.knosys.2025.115194_bib0044","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3626235","article-title":"Diffusion models: a comprehensive survey of methods and applications","volume":"56","author":"Yang","year":"2023","journal-title":"ACM Comput. Surv."},{"key":"10.1016\/j.knosys.2025.115194_bib0045","series-title":"2023 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU)","first-page":"1","article-title":"Diffusion-Based mel-Spectrogram enhancement for personalized speech synthesis with found data","author":"Tian","year":"2023"},{"key":"10.1016\/j.knosys.2025.115194_bib0046","doi-asserted-by":"crossref","first-page":"2351","DOI":"10.1109\/TASLP.2023.3285241","article-title":"Speech enhancement and dereverberation with diffusion-Based generative models","volume":"31","author":"Richter","year":"2023","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.knosys.2025.115194_bib0047","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2024.102272","article-title":"Bi-stream graph learning based multimodal fusion for emotion recognition in conversation","volume":"106","author":"Lu","year":"2024","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.knosys.2025.115194_bib0048","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2024.109013","article-title":"Batch reinforcement learning approach using recursive feature elimination for network intrusion detection","volume":"136","author":"Sharma","year":"2024","journal-title":"Eng. Appl. Artif. Intell."},{"issue":"6","key":"10.1016\/j.knosys.2025.115194_bib0049","doi-asserted-by":"crossref","first-page":"8068","DOI":"10.1109\/TII.2023.3266366","article-title":"LDCNet: Limb direction cues-Aware network for flexible HPE in industrial behavioral biometrics systems","volume":"20","author":"Liu","year":"2024","journal-title":"IEEE Trans. Ind. Inf."},{"issue":"5","key":"10.1016\/j.knosys.2025.115194_bib0050","doi-asserted-by":"crossref","DOI":"10.1371\/journal.pone.0196391","article-title":"The ryerson audio-Visual database of emotional speech and song (RAVDESS): a dynamic, multimodal set of facial and vocal expressions in north american english","volume":"13","author":"Livingstone","year":"2018","journal-title":"PLoS ONE"},{"issue":"4","key":"10.1016\/j.knosys.2025.115194_bib0051","doi-asserted-by":"crossref","first-page":"335","DOI":"10.1007\/s10579-008-9076-6","article-title":"IEMOCAP: Interactive emotional dyadic motion capture database","volume":"42","author":"Busso","year":"2008","journal-title":"Lang. Resour. Eval."},{"key":"10.1016\/j.knosys.2025.115194_bib0052","series-title":"6th International Workshop on Speech Processing in Everyday Environments (CHiME 2020)","article-title":"CHiME-6 Challenge: tackling multispeaker speech recognition for unsegmented recordings","author":"Watanabe","year":"2020"},{"key":"10.1016\/j.knosys.2025.115194_bib0053","series-title":"Interspeech 2010","article-title":"The QUT-NOISE-TIMIT corpus for the evaluation of voice activity detection algorithms","author":"Dean","year":"2010"},{"issue":"1","key":"10.1016\/j.knosys.2025.115194_bib0054","doi-asserted-by":"crossref","DOI":"10.1038\/s41598-021-90144-3","article-title":"Coolmomentum: a method for stochastic optimization by langevin dynamics with simulated annealing","volume":"11","author":"Borysenko","year":"2021","journal-title":"Sci. Rep."},{"key":"10.1016\/j.knosys.2025.115194_bib0055","series-title":"2001 IEEE International Conference on Acoustics, Speech, and Signal Processing. Proceedings (Cat. No.01CH37221)","first-page":"749","article-title":"Perceptual evaluation of speech quality (PESQ)-a new method for speech quality assessment of telephone networks and codecs","volume":"2","author":"Rix","year":"2001"},{"key":"10.1016\/j.knosys.2025.115194_bib0056","series-title":"2010 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"4214","article-title":"A short-time objective intelligibility measure for time-frequency weighted noisy speech","author":"Taal","year":"2010"},{"key":"10.1016\/j.knosys.2025.115194_bib0057","first-page":"1","article-title":"Generalized focal loss: towards efficient representation learning for dense object detection","author":"Li","year":"2022","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."}],"container-title":["Knowledge-Based Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0950705125022282?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0950705125022282?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,3,19]],"date-time":"2026-03-19T18:37:56Z","timestamp":1773945476000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0950705125022282"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,2]]},"references-count":57,"alternative-id":["S0950705125022282"],"URL":"https:\/\/doi.org\/10.1016\/j.knosys.2025.115194","relation":{},"ISSN":["0950-7051"],"issn-type":[{"value":"0950-7051","type":"print"}],"subject":[],"published":{"date-parts":[[2026,2]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"SONANCE: Speech-oriented neuromorphic auditory noise-resilient cascaded emotion-recognition","name":"articletitle","label":"Article Title"},{"value":"Knowledge-Based Systems","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.knosys.2025.115194","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2025 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"115194"}}