{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,19]],"date-time":"2026-05-19T22:06:36Z","timestamp":1779228396255,"version":"3.51.4"},"reference-count":48,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T00:00:00Z","timestamp":1775001600000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by-nc\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100001691","name":"Japan Society for the Promotion of Science","doi-asserted-by":"publisher","award":["21H05054"],"award-info":[{"award-number":["21H05054"]}],"id":[{"id":"10.13039\/501100001691","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002241","name":"Japan Science and Technology Agency","doi-asserted-by":"publisher","award":["JPMJCR25U5"],"award-info":[{"award-number":["JPMJCR25U5"]}],"id":[{"id":"10.13039\/501100002241","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002241","name":"Japan Science and Technology Agency","doi-asserted-by":"publisher","award":["JPMJSP2125"],"award-info":[{"award-number":["JPMJSP2125"]}],"id":[{"id":"10.13039\/501100002241","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Computer Speech &amp; Language"],"published-print":{"date-parts":[[2026,10]]},"DOI":"10.1016\/j.csl.2026.101987","type":"journal-article","created":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T16:09:23Z","timestamp":1775059763000},"page":"101987","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Robust speech emotion recognition under human speech noise"],"prefix":"10.1016","volume":"100","author":[{"ORCID":"https:\/\/orcid.org\/0009-0007-8554-0987","authenticated-orcid":false,"given":"Jinyi","family":"Mi","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaohan","family":"Shi","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ding","family":"Ma","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiajun","family":"He","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Takuya","family":"Fujimura","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tomoki","family":"Toda","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"78","reference":[{"key":"10.1016\/j.csl.2026.101987_b1","series-title":"Layer normalization","author":"Ba","year":"2016"},{"key":"10.1016\/j.csl.2026.101987_b2","first-page":"12449","article-title":"Wav2vec 2.0: A framework for self-supervised learning of speech representations","volume":"33","author":"Baevski","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"4","key":"10.1016\/j.csl.2026.101987_b3","doi-asserted-by":"crossref","first-page":"335","DOI":"10.1007\/s10579-008-9076-6","article-title":"IEMOCAP: Interactive emotional dyadic motion capture database","volume":"42","author":"Busso","year":"2008","journal-title":"Lang. Resour. Eval."},{"issue":"10","key":"10.1016\/j.csl.2026.101987_b4","doi-asserted-by":"crossref","first-page":"1440","DOI":"10.1109\/LSP.2018.2860246","article-title":"3-D convolutional recurrent neural networks with attention model for speech emotion recognition","volume":"25","author":"Chen","year":"2018","journal-title":"IEEE Signal Process. Lett."},{"key":"10.1016\/j.csl.2026.101987_b5","series-title":"ICASSP","first-page":"1","article-title":"Exploring wav2vec 2.0 fine tuning for improved speech emotion recognition","author":"Chen","year":"2023"},{"key":"10.1016\/j.csl.2026.101987_b6","doi-asserted-by":"crossref","first-page":"6","DOI":"10.1016\/j.apacoust.2016.06.020","article-title":"A bio-inspired emotion recognition system under real-life conditions","volume":"115","author":"Chenchah","year":"2017","journal-title":"Appl. Acoust."},{"issue":"6","key":"10.1016\/j.csl.2026.101987_b7","doi-asserted-by":"crossref","first-page":"406","DOI":"10.1250\/ast.40.406","article-title":"Multi-condition training for noise-robust speech emotion recognition","volume":"40","author":"Chiba","year":"2019","journal-title":"Acoust. Sci. Technol."},{"key":"10.1016\/j.csl.2026.101987_b8","series-title":"Librimix: An open-source dataset for generalizable speech separation","author":"Cosentino","year":"2020"},{"key":"10.1016\/j.csl.2026.101987_b9","series-title":"ICASSP","first-page":"691","article-title":"Improving speaker discrimination of target speech extraction with time-domain speakerbeam","author":"Delcroix","year":"2020"},{"issue":"3","key":"10.1016\/j.csl.2026.101987_b10","doi-asserted-by":"crossref","first-page":"572","DOI":"10.1016\/j.patcog.2010.09.020","article-title":"Survey on speech emotion recognition: Features, classification schemes, and databases","volume":"44","author":"El Ayadi","year":"2011","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.csl.2026.101987_b11","series-title":"Listening: an Introduction to the Perception of Auditory Events","author":"Handel","year":"1993"},{"issue":"4","key":"10.1016\/j.csl.2026.101987_b12","doi-asserted-by":"crossref","first-page":"457","DOI":"10.2478\/aoa-2013-0054","article-title":"Speech emotion recognition under white noise","volume":"38","author":"Huang","year":"2013","journal-title":"Arch. Acoust."},{"key":"10.1016\/j.csl.2026.101987_b13","series-title":"TorchAudio 2.1: Advancing speech recognition, self-supervised learning, and audio processing components for PyTorch","author":"Hwang","year":"2023"},{"key":"10.1016\/j.csl.2026.101987_b14","series-title":"PRML","first-page":"280","article-title":"Speech separation and emotion recognition for multi-speaker scenarios","author":"Jin","year":"2022"},{"key":"10.1016\/j.csl.2026.101987_b15","doi-asserted-by":"crossref","first-page":"513","DOI":"10.1037\/1528-3542.5.4.513","article-title":"Affective speech elicited with a computer game","volume":"5","author":"Johnstone","year":"2005","journal-title":"Emotion"},{"key":"10.1016\/j.csl.2026.101987_b16","series-title":"ICLR","first-page":"7","article-title":"Adam: A method for stochastic optimization","author":"Kingma","year":"2015"},{"key":"10.1016\/j.csl.2026.101987_b17","series-title":"ICASSP","first-page":"626","article-title":"SDR\u2013half-baked or well done?","author":"Le Roux","year":"2019"},{"key":"10.1016\/j.csl.2026.101987_b18","series-title":"Robust Automatic Speech Recognition: A Bridge to Practical Applications","article-title":"Fundamentals of speech recognition","author":"Li","year":"2016"},{"key":"10.1016\/j.csl.2026.101987_b19","doi-asserted-by":"crossref","first-page":"1063","DOI":"10.1109\/TASLP.2023.3245401","article-title":"A discriminative feature representation method based on cascaded attention network with adversarial strategy for speech emotion recognition","volume":"31","author":"Liu","year":"2023","journal-title":"IEEE\/ACM Trans. Audio Speech Lang. Process."},{"key":"10.1016\/j.csl.2026.101987_b20","series-title":"ICLR","article-title":"Decoupled weight decay regularization","author":"Loshchilov","year":"2019"},{"issue":"1","key":"10.1016\/j.csl.2026.101987_b21","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1561\/116.20240094","article-title":"Sequence-to-sequence voice conversion-based techniques for electrolaryngeal speech enhancement in noisy and reverberant conditions","volume":"14","author":"Ma","year":"2025","journal-title":"APSIPA Trans. Signal Inf. Process."},{"key":"10.1016\/j.csl.2026.101987_b22","series-title":"EMBC","first-page":"1","article-title":"Robust sequence-to-sequence voice conversion for electrolaryngeal speech enhancement in noisy and reverberant conditions","author":"Ma","year":"2024"},{"key":"10.1016\/j.csl.2026.101987_b23","doi-asserted-by":"crossref","DOI":"10.1016\/j.csl.2025.101813","article-title":"An end-to-end integration of speech separation and recognition with self-supervised learning representation","volume":"95","author":"Masuyama","year":"2026","journal-title":"Comput. Speech Lang."},{"key":"10.1016\/j.csl.2026.101987_b24","series-title":"APSIPA ASC","first-page":"1","article-title":"Two-stage framework for robust speech emotion recognition using target speaker extraction in human speech noise conditions","author":"Mi","year":"2024"},{"issue":"4","key":"10.1016\/j.csl.2026.101987_b25","doi-asserted-by":"crossref","first-page":"895","DOI":"10.1007\/s11390-024-2934-x","article-title":"Audio enhancement for computer audition\u2014an iterative training paradigm using sample importance","volume":"39","author":"Milling","year":"2024","journal-title":"J. Comput. Sci. Tech."},{"key":"10.1016\/j.csl.2026.101987_b26","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2023.110814","article-title":"Cross corpus speech emotion recognition using transfer learning and attention-based fusion of Wav2Vec2 and prosody features","volume":"277","author":"Naderi","year":"2023","journal-title":"Knowl.-Based Syst."},{"key":"10.1016\/j.csl.2026.101987_b27","series-title":"Interspeech","first-page":"1263","article-title":"Attentive convolutional neural network based speech emotion recognition: A study on the impact of input features, signal length, and acted speech","author":"Neumann","year":"2017"},{"key":"10.1016\/j.csl.2026.101987_b28","series-title":"ICASSP","first-page":"5206","article-title":"Librispeech: an asr corpus based on public domain audio books","author":"Panayotov","year":"2015"},{"key":"10.1016\/j.csl.2026.101987_b29","series-title":"EUSIPCO","first-page":"2055","article-title":"An unsupervised frame selection technique for robust emotion recognition in noisy speech","author":"Pandharipande","year":"2018"},{"key":"10.1016\/j.csl.2026.101987_b30","series-title":"Interspeech","first-page":"3097","article-title":"Emotion identification from raw speech signals using DNNs","author":"Sarma","year":"2018"},{"key":"10.1016\/j.csl.2026.101987_b31","doi-asserted-by":"crossref","first-page":"227","DOI":"10.1016\/S0167-6393(02)00084-5","article-title":"Vocal communication of emotion: A review of research paradigms","volume":"40","author":"Scherer","year":"2003","journal-title":"Speech Commun."},{"key":"10.1016\/j.csl.2026.101987_b32","doi-asserted-by":"crossref","first-page":"90","DOI":"10.1145\/3129340","article-title":"Speech emotion recognition: Two decades in a nutshell, benchmarks, and ongoing trends","volume":"61","author":"Schuller","year":"2018","journal-title":"Commun. ACM"},{"key":"10.1016\/j.csl.2026.101987_b33","series-title":"ICASSP","first-page":"1","article-title":"Mingling or misalignment? temporal shift for speech emotion recognition with pre-trained representations","author":"Shen","year":"2023"},{"key":"10.1016\/j.csl.2026.101987_b34","series-title":"On the effectiveness of ASR representations in real-world noisy speech emotion recognition","author":"Shi","year":"2023"},{"key":"10.1016\/j.csl.2026.101987_b35","series-title":"IWAENC","first-page":"1","article-title":"Analysis of impact of emotions on target speech extraction and speech separation","author":"\u0160vec","year":"2022"},{"key":"10.1016\/j.csl.2026.101987_b36","doi-asserted-by":"crossref","DOI":"10.1016\/j.specom.2025.103242","article-title":"Speech emotion recognition via CNN-transformer and multidimensional attention mechanism","author":"Tang","year":"2025","journal-title":"Speech Commun."},{"key":"10.1016\/j.csl.2026.101987_b37","series-title":"ICASSP","first-page":"7194","article-title":"Multi-conditioning and data augmentation using generative noise model for speech emotion recognition in noisy conditions","author":"Tiwari","year":"2020"},{"key":"10.1016\/j.csl.2026.101987_b38","series-title":"Interspeech","first-page":"1691","article-title":"Towards robust speech emotion recognition using deep residual networks for speech enhancement","author":"Triantafyllopoulos","year":"2019"},{"key":"10.1016\/j.csl.2026.101987_b39","doi-asserted-by":"crossref","DOI":"10.3389\/fcomp.2023.1072479","article-title":"Multistage linguistic conditioning of convolutional layers for speech emotion recognition","volume":"5","author":"Triantafyllopoulos","year":"2023","journal-title":"Front. Comput. Sci."},{"key":"10.1016\/j.csl.2026.101987_b40","series-title":"Interspeech","first-page":"3729","article-title":"Enrolment-based personalisation for improving individual-level fairness in speech emotion recognition","author":"Triantafyllopoulos","year":"2024"},{"key":"10.1016\/j.csl.2026.101987_b41","series-title":"Interspeech","first-page":"146","article-title":"Probing speech emotion recognition transformers for linguistic knowledge","author":"Triantafyllopoulos","year":"2022"},{"key":"10.1016\/j.csl.2026.101987_b42","series-title":"ICASSP","first-page":"1","article-title":"Noise-robust speech emotion recognition using shared self-supervised representations with integrated speech enhancement","author":"Tzeng","year":"2025"},{"key":"10.1016\/j.csl.2026.101987_b43","first-page":"5998","article-title":"Attention is all you need","volume":"30","author":"Vaswani","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"9","key":"10.1016\/j.csl.2026.101987_b44","doi-asserted-by":"crossref","first-page":"10745","DOI":"10.1109\/TPAMI.2023.3263585","article-title":"Dawn of the transformer era in speech emotion recognition: Closing the valence gap","volume":"45","author":"Wagner","year":"2023","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.csl.2026.101987_b45","series-title":"TorchAudio: Building blocks for audio and speech processing","author":"Yang","year":"2021"},{"key":"10.1016\/j.csl.2026.101987_b46","series-title":"APSIPA ASC","first-page":"2002","article-title":"Analysis of speech separation performance degradation on emotional speech mixtures","author":"Yip","year":"2023"},{"key":"10.1016\/j.csl.2026.101987_b47","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1016\/j.specom.2021.11.006","article-title":"Emotional voice conversion: Theory, databases and ESD","volume":"137","author":"Zhou","year":"2022","journal-title":"Speech Commun."},{"issue":"4","key":"10.1016\/j.csl.2026.101987_b48","doi-asserted-by":"crossref","first-page":"800","DOI":"10.1109\/JSTSP.2019.2922820","article-title":"Speakerbeam: Speaker aware neural network for target speaker extraction in speech mixtures","volume":"13","author":"\u017dmol\u00edkov\u00e1","year":"2019","journal-title":"IEEE J. Sel. Top. Signal Process."}],"container-title":["Computer Speech &amp; Language"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0885230826000501?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0885230826000501?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,19]],"date-time":"2026-05-19T21:14:14Z","timestamp":1779225254000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0885230826000501"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,10]]},"references-count":48,"alternative-id":["S0885230826000501"],"URL":"https:\/\/doi.org\/10.1016\/j.csl.2026.101987","relation":{},"ISSN":["0885-2308"],"issn-type":[{"value":"0885-2308","type":"print"}],"subject":[],"published":{"date-parts":[[2026,10]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Robust speech emotion recognition under human speech noise","name":"articletitle","label":"Article Title"},{"value":"Computer Speech & Language","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.csl.2026.101987","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 The Author(s). Published by Elsevier Ltd.","name":"copyright","label":"Copyright"}],"article-number":"101987"}}