{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,11]],"date-time":"2026-06-11T03:00:34Z","timestamp":1781146834443,"version":"3.54.1"},"reference-count":78,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Neural Networks"],"published-print":{"date-parts":[[2026,9]]},"DOI":"10.1016\/j.neunet.2026.108907","type":"journal-article","created":{"date-parts":[[2026,3,28]],"date-time":"2026-03-28T00:42:39Z","timestamp":1774658559000},"page":"108907","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["CEMTNet: a cognitive emotion modulated network for multimodal depression detection"],"prefix":"10.1016","volume":"201","author":[{"given":"Yujie","family":"Huo","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Hongyu","family":"Gao","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Weng Howe","family":"Chan","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ahmad Najmi","family":"Bin Amerhaider Nuar","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"key":"10.1016\/j.neunet.2026.108907_bib0001","doi-asserted-by":"crossref","DOI":"10.1016\/j.icte.2025.04.007","article-title":"Tmnet: Transformer-fused multimodal framework for emotion recognition via eeg and speech","author":"Alam","year":"2025","journal-title":"ICT Express"},{"key":"10.1016\/j.neunet.2026.108907_bib0002","doi-asserted-by":"crossref","DOI":"10.1016\/j.bspc.2023.105020","article-title":"Bio-acoustic features of depression: A review","volume":"85","author":"Almaghrabi","year":"2023","journal-title":"Biomedical Signal Processing and Control"},{"key":"10.1016\/j.neunet.2026.108907_bib0003","series-title":"Proceedings of the 34th international conference on neural information processing systems","article-title":"wav2vec 2.0: A framework for self-supervised learning of speech representations","author":"Baevski","year":"2020"},{"issue":"6","key":"10.1016\/j.neunet.2026.108907_bib0004","doi-asserted-by":"crossref","first-page":"561","DOI":"10.1001\/archpsyc.1961.01710120031004","article-title":"An inventory for measuring depression","volume":"4","author":"BECK","year":"1961","journal-title":"Archives of General Psychiatry"},{"key":"10.1016\/j.neunet.2026.108907_bib0005","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2023.102017","article-title":"Iifdd: Intra and inter-modal fusion for depression detection with multi-modal information from internet of medical things","volume":"102","author":"Chen","year":"2024","journal-title":"Information Fusion"},{"issue":"6","key":"10.1016\/j.neunet.2026.108907_bib0006","doi-asserted-by":"crossref","first-page":"137","DOI":"10.1007\/s10462-024-10759-6","article-title":"A survey on imbalanced learning: Latest research, applications and future directions","volume":"57","author":"Chen","year":"2024","journal-title":"Artificial Intelligence Review"},{"key":"10.1016\/j.neunet.2026.108907_bib0007","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2024.102861","article-title":"Text-guided multimodal depression detection via cross-modal feature reconstruction and decomposition","volume":"117","author":"Chen","year":"2025","journal-title":"Information Fusion"},{"key":"10.1016\/j.neunet.2026.108907_bib0008","doi-asserted-by":"crossref","DOI":"10.1016\/j.compbiomed.2021.104499","article-title":"A textual-based featuring approach for depression detection using machine learning classifiers and social media texts","volume":"135","author":"Chiong","year":"2021","journal-title":"Computers in Biology and Medicine"},{"key":"10.1016\/j.neunet.2026.108907_bib0009","article-title":"Intervoxnet: A novel dual-modal audio-text fusion network for automatic and efficient depression detection from interviews","volume":"Volume 12 - 2024","author":"Ding","year":"2024","journal-title":"Frontiers in Physics"},{"key":"10.1016\/j.neunet.2026.108907_bib0010","doi-asserted-by":"crossref","DOI":"10.1016\/j.bspc.2022.104561","article-title":"A multimodal fusion model with multi-level attention mechanism for depression detection","volume":"82","author":"Fang","year":"2023","journal-title":"Biomedical Signal Processing and Control"},{"key":"10.1016\/j.neunet.2026.108907_bib0011","doi-asserted-by":"crossref","DOI":"10.1016\/j.bspc.2022.104561","article-title":"A multimodal fusion model with multi-level attention mechanism for depression detection","volume":"82","author":"Fang","year":"2023","journal-title":"Biomedical Signal Processing and Control"},{"key":"10.1016\/j.neunet.2026.108907_bib0012","series-title":"The distress analysis interview corpus of human and computer interviews","author":"Gratch","year":"2014"},{"issue":"8","key":"10.1016\/j.neunet.2026.108907_bib0013","doi-asserted-by":"crossref","first-page":"5057","DOI":"10.1007\/s10994-023-06344-7","article-title":"A survey of class-imbalanced semi-supervised learning","volume":"113","author":"Gui","year":"2024","journal-title":"Machine Learning"},{"key":"10.1016\/j.neunet.2026.108907_bib0014","doi-asserted-by":"crossref","first-page":"220","DOI":"10.1016\/j.eswa.2016.12.035","article-title":"Learning from class-imbalanced data: Review of methods and applications","volume":"73","author":"Haixiang","year":"2017","journal-title":"Expert Systems with Applications"},{"key":"10.1016\/j.neunet.2026.108907_bib0015","series-title":"Proceedings of the 2021 conference on empirical methods in natural language processing","first-page":"9180","article-title":"Improving multimodal fusion with hierarchical mutual information maximization for multimodal sentiment analysis","author":"Han","year":"2021"},{"key":"10.1016\/j.neunet.2026.108907_bib0016","doi-asserted-by":"crossref","first-page":"56","DOI":"10.1016\/j.inffus.2021.10.012","article-title":"Deep learning for depression recognition with audiovisual cues: A review","volume":"80","author":"He","year":"2022","journal-title":"Information Fusion"},{"issue":"1","key":"10.1016\/j.neunet.2026.108907_bib0017","doi-asserted-by":"crossref","DOI":"10.1038\/s41598-024-63232-3","article-title":"Integration of passive sensing technology to enhance delivery of psychological interventions for mothers with depression: The standstrong study","volume":"14","author":"van Heerden","year":"2024","journal-title":"Scientific Reports"},{"issue":"10","key":"10.1016\/j.neunet.2026.108907_bib0018","doi-asserted-by":"crossref","DOI":"10.3390\/s21103461","article-title":"Smart devices and wearable technologies to detect and monitor mental health conditions and stress: A systematic review","volume":"21","author":"Hickey","year":"2021","journal-title":"Sensors"},{"key":"10.1016\/j.neunet.2026.108907_bib0019","series-title":"Companion of the 2024 on ACM international joint conference on pervasive and ubiquitous computing","first-page":"412","article-title":"Exploring large-scale language models to evaluate EEG-based multimodal data for mental health","author":"Hu","year":"2024"},{"issue":"1","key":"10.1016\/j.neunet.2026.108907_bib0020","doi-asserted-by":"crossref","first-page":"55","DOI":"10.1016\/j.vrih.2020.11.005","article-title":"Learning long-term temporal contexts using skip RNN for continuous emotion recognition","volume":"3","author":"Huang","year":"2021","journal-title":"Virtual Reality & Intelligent Hardware"},{"issue":"1","key":"10.1016\/j.neunet.2026.108907_bib0021","article-title":"Depression recognition using voice-based pre-training model","volume":"14","author":"Huang","year":"2024","journal-title":"Scientific Reports"},{"key":"10.1016\/j.neunet.2026.108907_bib0022","series-title":"Icassp 2024 - 2024 IEEE international conference on acoustics, speech and signal processing (icassp)","first-page":"10601","article-title":"Hierarchical emotion prediction and control in text-to-speech synthesis","author":"Inoue","year":"2024"},{"issue":"1","key":"10.1016\/j.neunet.2026.108907_bib0023","doi-asserted-by":"crossref","first-page":"43","DOI":"10.1109\/TFUZZ.2024.3461776","article-title":"Depression detection from social media posts using emotion aware encoders and fuzzy based contrastive networks","volume":"33","author":"Khowaja","year":"2025","journal-title":"IEEE Transactions on Fuzzy Systems"},{"key":"10.1016\/j.neunet.2026.108907_bib0024","doi-asserted-by":"crossref","DOI":"10.2196\/34474","article-title":"Automatic depression detection using smartphone-based text-dependent speech signals: Deep convolutional neural network approach","volume":"25","author":"Kim","year":"2023","journal-title":"Journal of Medical Internet Research"},{"issue":"9","key":"10.1016\/j.neunet.2026.108907_bib0025","doi-asserted-by":"crossref","first-page":"606","DOI":"10.1046\/j.1525-1497.2001.016009606.x","article-title":"The PHQ-9","volume":"16","author":"Kroenke","year":"2001","journal-title":"Journal of General Internal Medicine"},{"key":"10.1016\/j.neunet.2026.108907_bib0026","article-title":"A survey of current progress in depression detection using deep learning and machine learning","author":"Kumari","year":"2025","journal-title":"Biomedical Materials & Devices"},{"key":"10.1016\/j.neunet.2026.108907_bib0027","series-title":"Albert: A lite bert for self-supervised learning of language representations","author":"Lan","year":"2019"},{"key":"10.1016\/j.neunet.2026.108907_bib0028","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2024.108413","article-title":"A multimodal shared network with a cross-modal distribution constraint for continuous emotion recognition","volume":"133","author":"Li","year":"2024","journal-title":"Engineering Applications of Artificial Intelligence"},{"key":"10.1016\/j.neunet.2026.108907_bib0029","doi-asserted-by":"crossref","DOI":"10.1016\/j.bspc.2022.103660","article-title":"Drs-net: A spatial\u2013temporal affective computing model based on multichannel EEG data","volume":"76","author":"Li","year":"2022","journal-title":"Biomedical Signal Processing and Control"},{"key":"10.1016\/j.neunet.2026.108907_bib0030","doi-asserted-by":"crossref","DOI":"10.1016\/j.cmpb.2023.107923","article-title":"Sftnet: A microexpression-based method for depression detection","volume":"243","author":"Li","year":"2024","journal-title":"Computer Methods and Programs in Biomedicine"},{"key":"10.1016\/j.neunet.2026.108907_bib0031","doi-asserted-by":"crossref","DOI":"10.1016\/j.compbiomed.2024.109618","article-title":"A lightweight approach based on cross-modality for depression detection","volume":"186","author":"Lim","year":"2025","journal-title":"Computers in Biology and Medicine"},{"key":"10.1016\/j.neunet.2026.108907_bib0032","article-title":"Tacfn: Transformer-based adaptive cross-modal fusion network for multimodal emotion recognition","volume":"2","author":"Liu","year":"2023","journal-title":"CAAI Artificial Intelligence Research"},{"key":"10.1016\/j.neunet.2026.108907_bib0033","doi-asserted-by":"crossref","DOI":"10.1016\/j.jiixd.2025.02.004","article-title":"Multimodal emotion recognition method in complex dynamic scenes","author":"Liu","year":"2025","journal-title":"Journal of Information and Intelligence"},{"key":"10.1016\/j.neunet.2026.108907_bib0034","doi-asserted-by":"crossref","first-page":"44","DOI":"10.1016\/j.jad.2025.03.155","article-title":"Multimodal depression recognition and analysis: Facial expression and body posture changes via emotional stimuli","volume":"381","author":"Liu","year":"2025","journal-title":"Journal of Affective Disorders"},{"key":"10.1016\/j.neunet.2026.108907_bib0035","unstructured":"Loshchilov, I., & Hutter, F. (2016). Sgdr: Stochastic gradient descent with warm restarts. 10.48550\/arXiv.1608.03983."},{"issue":"2","key":"10.1016\/j.neunet.2026.108907_bib0036","doi-asserted-by":"crossref","first-page":"1447","DOI":"10.1609\/aaai.v39i2.32135","article-title":"Understanding emotional body expressions via large language models","volume":"39","author":"Lu","year":"2025","journal-title":"Proceedings of the AAAI Conference on Artificial Intelligence"},{"key":"10.1016\/j.neunet.2026.108907_bib0037","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2025.110004","article-title":"Multimodal emotion recognition by fusing complementary patterns from central to peripheral neurophysiological signals across feature domains","volume":"143","author":"Ma","year":"2025","journal-title":"Engineering Applications of Artificial Intelligence"},{"issue":"10161","key":"10.1016\/j.neunet.2026.108907_bib0038","doi-asserted-by":"crossref","first-page":"2299","DOI":"10.1016\/S0140-6736(18)31948-2","article-title":"Depression","volume":"392","author":"Malhi","year":"2018","journal-title":"The Lancet"},{"issue":"1","key":"10.1016\/j.neunet.2026.108907_bib0039","doi-asserted-by":"crossref","first-page":"20","DOI":"10.1038\/s44184-023-00040-z","article-title":"A systematic review on automated clinical depression diagnosis","volume":"2","author":"Mao","year":"2023","journal-title":"npj Mental Health Research"},{"key":"10.1016\/j.neunet.2026.108907_bib0040","first-page":"6","article-title":"Depression: A global public health concern","author":"Marcus","year":"2012","journal-title":"World Health Organization Paper on Depression"},{"key":"10.1016\/j.neunet.2026.108907_bib0041","doi-asserted-by":"crossref","first-page":"46","DOI":"10.1016\/j.specom.2022.07.006","article-title":"Fusing features of speech for depression classification based on higher-order spectral analysis","volume":"143","author":"Miao","year":"2022","journal-title":"Speech Communication"},{"issue":"7","key":"10.1016\/j.neunet.2026.108907_bib0042","doi-asserted-by":"crossref","DOI":"10.3390\/math13071100","article-title":"Hybrid multi-attention network for audio\u2013visual emotion recognition through multimodal feature fusion","volume":"13","author":"Moorthy","year":"2025","journal-title":"Mathematics"},{"key":"10.1016\/j.neunet.2026.108907_bib0043","series-title":"Proceedings of the fifth workshop on computational linguistics and clinical psychology: From keyboard to clinic","first-page":"13","article-title":"A linguistically-informed fusion approach for multimodal depression detection","author":"Morales","year":"2018"},{"issue":"7","key":"10.1016\/j.neunet.2026.108907_bib0044","doi-asserted-by":"crossref","first-page":"580","DOI":"10.1016\/j.biopsych.2012.03.015","article-title":"Vocal acoustic biomarkers of depression severity and treatment response","volume":"72","author":"Mundt","year":"2012","journal-title":"Biological Psychiatry"},{"key":"10.1016\/j.neunet.2026.108907_bib0045","series-title":"Proceedings of the 2024\u202fCHI conference on human factors in computing systems","article-title":"Moodcapture: Depression detection using in-the-wild smartphone images","author":"Nepal","year":"2024"},{"key":"10.1016\/j.neunet.2026.108907_bib0046","doi-asserted-by":"crossref","DOI":"10.2196\/59002","article-title":"Text-based depression prediction on social media using machine learning: Systematic review and meta-analysis","volume":"27","author":"Phiri","year":"2025","journal-title":"Journal of Medical Internet Research"},{"key":"10.1016\/j.neunet.2026.108907_bib0047","doi-asserted-by":"crossref","first-page":"340","DOI":"10.1016\/j.ijin.2024.10.001","article-title":"Multimodal spatio-temporal framework for real-world affect recognition","volume":"5","author":"Raut","year":"2024","journal-title":"International Journal of Intelligent Networks"},{"key":"10.1016\/j.neunet.2026.108907_bib0048","doi-asserted-by":"crossref","first-page":"538","DOI":"10.1016\/j.jad.2024.10.022","article-title":"Reliability and validity of facial expression recognition in the screening of generalized anxiety disorder","volume":"369","author":"Ren","year":"2025","journal-title":"Journal of Affective Disorders"},{"issue":"1","key":"10.1016\/j.neunet.2026.108907_bib0049","doi-asserted-by":"crossref","first-page":"66","DOI":"10.1038\/s44184-024-00112-8","article-title":"Harnessing multimodal approaches for depression detection using large language models and facial expressions","volume":"3","author":"Sadeghi","year":"2024","journal-title":"npj Mental Health Research"},{"key":"10.1016\/j.neunet.2026.108907_bib0050","doi-asserted-by":"crossref","DOI":"10.1007\/s11042-024-20227-6","article-title":"Multimodal emotion recognition based on a fusion of audiovisual information with temporal dynamics","author":"Salas-C\u00e1ceres","year":"2024","journal-title":"Multimedia Tools and Applications"},{"issue":"7","key":"10.1016\/j.neunet.2026.108907_bib0051","doi-asserted-by":"crossref","first-page":"3234","DOI":"10.1109\/JBHI.2023.3265805","article-title":"Depression recognition from EEG signals using an adaptive channel fusion method via improved focal loss","volume":"27","author":"Shen","year":"2023","journal-title":"IEEE Journal of Biomedical and Health Informatics"},{"key":"10.1016\/j.neunet.2026.108907_bib0052","series-title":"Icassp 2022 - 2022 IEEE international conference on acoustics, speech and signal processing (icassp)","first-page":"6247","article-title":"Automatic depression detection: An emotional audio-textual corpus and a gru\/bilstm-based model","author":"Shen","year":"2022"},{"key":"10.1016\/j.neunet.2026.108907_bib0053","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2025.127346","article-title":"Semantic distillation and enhanced diagnostic alignment: A novel approach for depression detection in social media","volume":"279","author":"Su","year":"2025","journal-title":"Expert Systems with Applications"},{"issue":"4","key":"10.1016\/j.neunet.2026.108907_bib0054","doi-asserted-by":"crossref","first-page":"1212","DOI":"10.1007\/s11036-022-02086-3","article-title":"Deep learning for depression recognition from speech","volume":"29","author":"Tian","year":"2024","journal-title":"Mobile Networks and Applications"},{"key":"10.1016\/j.neunet.2026.108907_bib0055","series-title":"Proceedings of the 57th annual meeting of the association for computational linguistics","first-page":"6558","article-title":"Multimodal transformer for unaligned multimodal language sequences","author":"Tsai","year":"2019"},{"key":"10.1016\/j.neunet.2026.108907_bib0056","article-title":"Emotion regulation in current and remitted depression: A systematic review and meta-analysis","volume":"Volume 9 - 2018","author":"Visted","year":"2018","journal-title":"Frontiers in Psychology"},{"key":"10.1016\/j.neunet.2026.108907_bib0057","series-title":"Pattern recognition and computer vision","first-page":"222","article-title":"Exploring cross-modal inconsistency in entities and emotions for multimodal fake news detection","author":"Wang","year":"2024"},{"issue":"3","key":"10.1016\/j.neunet.2026.108907_bib0058","doi-asserted-by":"crossref","DOI":"10.1016\/j.ipm.2022.103151","article-title":"Deepemotionnet: Emotion mining for corporate performance analysis and prediction","volume":"60","author":"Wang","year":"2023","journal-title":"Information Processing & Management"},{"key":"10.1016\/j.neunet.2026.108907_bib0059","series-title":"Proceedings of the thirty-third AAAI conference on artificial intelligence and thirty-first innovative applications of artificial intelligence conference and ninth AAAI symposium on educational advances in artificial intelligence","article-title":"Words can shift: Dynamically adjusting word representations using nonverbal behaviors","author":"Wang","year":"2019"},{"key":"10.1016\/j.neunet.2026.108907_bib0060","series-title":"Pricai 2023: Trends in artificial intelligence","first-page":"111","article-title":"Canamrf: An attention-based model for multimodal depression detection","author":"Wei","year":"2024"},{"key":"10.1016\/j.neunet.2026.108907_bib0061","unstructured":"World Health Organization (2008). The global burden of disease : 2004 update."},{"key":"10.1016\/j.neunet.2026.108907_bib0062","doi-asserted-by":"crossref","DOI":"10.1016\/j.iot.2025.101562","article-title":"Deep multimodal emotion recognition using modality-aware attention and proxy-based multimodal loss","volume":"31","author":"Woo","year":"2025","journal-title":"Internet of Things"},{"issue":"6","key":"10.1016\/j.neunet.2026.108907_bib0063","doi-asserted-by":"crossref","DOI":"10.1016\/j.ipm.2024.103830","article-title":"Pie: A personalized information embedded model for text-based depression detection","volume":"61","author":"Wu","year":"2024","journal-title":"Information Processing & Management"},{"issue":"1","key":"10.1016\/j.neunet.2026.108907_bib0064","doi-asserted-by":"crossref","DOI":"10.1038\/s41598-024-79981-0","article-title":"An adaptive multi-graph neural network with multimodal feature fusion learning for MDD detection","volume":"14","author":"Xing","year":"2024","journal-title":"Scientific Reports"},{"key":"10.1016\/j.neunet.2026.108907_bib0065","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2024.128209","article-title":"Attention-based acoustic feature fusion network for depression detection","volume":"601","author":"Xu","year":"2024","journal-title":"Neurocomputing"},{"key":"10.1016\/j.neunet.2026.108907_bib0066","series-title":"Icassp 2024 - 2024 IEEE international conference on acoustics, speech and signal processing (icassp)","first-page":"6790","article-title":"Fusing multi-level features from audio and contextual sentence embedding from text for interview-based depression detection","author":"Xue","year":"2024"},{"key":"10.1016\/j.neunet.2026.108907_bib0067","doi-asserted-by":"crossref","DOI":"10.1016\/j.dss.2025.114421","article-title":"Decen: A deep learning model enhanced by depressive emotions for depression detection from social media content","volume":"191","author":"Yan","year":"2025","journal-title":"Decision Support Systems"},{"issue":"4","key":"10.1016\/j.neunet.2026.108907_bib0068","doi-asserted-by":"crossref","DOI":"10.1016\/j.heliyon.2024.e25959","article-title":"Enhancing multimodal depression diagnosis through representation learning and knowledge transfer","volume":"10","author":"Yang","year":"2024","journal-title":"Heliyon"},{"key":"10.1016\/j.neunet.2026.108907_bib0069","doi-asserted-by":"crossref","first-page":"135","DOI":"10.1016\/j.neunet.2023.05.041","article-title":"Attention guided learnable time-domain filterbanks for speech depression detection","volume":"165","author":"Yang","year":"2023","journal-title":"Neural Networks"},{"key":"10.1016\/j.neunet.2026.108907_bib0070","doi-asserted-by":"crossref","first-page":"904","DOI":"10.1016\/j.jad.2021.08.090","article-title":"Multi-modal depression detection based on emotional audio and evaluation text","volume":"295","author":"Ye","year":"2021","journal-title":"Journal of Affective Disorders"},{"issue":"12","key":"10.1016\/j.neunet.2026.108907_bib0071","doi-asserted-by":"crossref","first-page":"10790","DOI":"10.1609\/aaai.v35i12.17289","article-title":"Learning modality-specific representations with self-supervised multi-task learning for multimodal sentiment analysis","volume":"35","author":"Yu","year":"2021","journal-title":"Proceedings of the AAAI Conference on Artificial Intelligence"},{"key":"10.1016\/j.neunet.2026.108907_bib0072","doi-asserted-by":"crossref","DOI":"10.1016\/j.cmpb.2023.107702","article-title":"Detecting depression tendency with multimodal features","volume":"240","author":"Zhang","year":"2023","journal-title":"Computer Methods and Programs in Biomedicine"},{"issue":"7","key":"10.1016\/j.neunet.2026.108907_bib0073","doi-asserted-by":"crossref","DOI":"10.3390\/electronics14071464","article-title":"A multimodal artificial intelligence model for depression severity detection based on audio and video signals","volume":"14","author":"Zhang","year":"2025","journal-title":"Electronics"},{"issue":"3","key":"10.1016\/j.neunet.2026.108907_bib0074","doi-asserted-by":"crossref","first-page":"234","DOI":"10.1007\/s43657-023-00152-8","article-title":"A multimodal approach for detection and assessment of depression using text, audio and video","volume":"4","author":"Zhang","year":"2024","journal-title":"Phenomics"},{"key":"10.1016\/j.neunet.2026.108907_bib0075","series-title":"Proceedings of the 32nd ACM international conference on multimedia","first-page":"321","article-title":"Mddr: Multi-modal dual-attention aggregation for depression recognition","author":"Zhang","year":"2024"},{"issue":"9","key":"10.1016\/j.neunet.2026.108907_bib0076","doi-asserted-by":"crossref","first-page":"4386","DOI":"10.1109\/TCYB.2020.2987575","article-title":"Emotion recognition from multimodal physiological signals using a regularized deep fusion of kernel machine","volume":"51","author":"Zhang","year":"2021","journal-title":"IEEE Transactions on Cybernetics"},{"issue":"12","key":"10.1016\/j.neunet.2026.108907_bib0077","doi-asserted-by":"crossref","DOI":"10.3390\/s24123714","article-title":"Multimodal sensing for depression risk detection: Integrating audio, video, and text data","volume":"24","author":"Zhang","year":"2024","journal-title":"Sensors"},{"issue":"1","key":"10.1016\/j.neunet.2026.108907_bib0078","doi-asserted-by":"crossref","first-page":"281","DOI":"10.1007\/s11280-021-00992-2","article-title":"Explainable depression detection with multi-aspect features using a hybrid deep learning model on social media","volume":"25","author":"Zogan","year":"2022","journal-title":"World Wide Web"}],"container-title":["Neural Networks"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0893608026003680?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0893608026003680?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,6,11]],"date-time":"2026-06-11T02:49:45Z","timestamp":1781146185000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0893608026003680"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,9]]},"references-count":78,"alternative-id":["S0893608026003680"],"URL":"https:\/\/doi.org\/10.1016\/j.neunet.2026.108907","relation":{},"ISSN":["0893-6080"],"issn-type":[{"value":"0893-6080","type":"print"}],"subject":[],"published":{"date-parts":[[2026,9]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"CEMTNet: a cognitive emotion modulated network for multimodal depression detection","name":"articletitle","label":"Article Title"},{"value":"Neural Networks","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.neunet.2026.108907","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"108907"}}