{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,28]],"date-time":"2026-03-28T12:51:50Z","timestamp":1774702310481,"version":"3.50.1"},"reference-count":42,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100012458","name":"Chongqing Basic Science and Advanced Technology Research Program","doi-asserted-by":"publisher","award":["CSTB2024TIAD-STX0027"],"award-info":[{"award-number":["CSTB2024TIAD-STX0027"]}],"id":[{"id":"10.13039\/501100012458","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62472059"],"award-info":[{"award-number":["62472059"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Knowledge-Based Systems"],"published-print":{"date-parts":[[2026,5]]},"DOI":"10.1016\/j.knosys.2026.115594","type":"journal-article","created":{"date-parts":[[2026,2,26]],"date-time":"2026-02-26T17:11:15Z","timestamp":1772125875000},"page":"115594","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Cross-modality multiband differential conditional diffusion for multimodal emotion recognition in conversation"],"prefix":"10.1016","volume":"340","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-8239-7176","authenticated-orcid":false,"given":"Xiaofei","family":"Zhu","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0002-8905-2298","authenticated-orcid":false,"given":"Yang","family":"Jiang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8619-0356","authenticated-orcid":false,"given":"Xiaoyang","family":"Liu","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1032-0329","authenticated-orcid":false,"given":"Yihao","family":"Zhang","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.knosys.2026.115594_bib0001","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"4652","article-title":"M2fNet: multi-modal fusion network for emotion recognition in conversation","author":"Chudasama","year":"2022"},{"issue":"7","key":"10.1016\/j.knosys.2026.115594_bib0002","doi-asserted-by":"crossref","first-page":"1482","DOI":"10.55214\/25768484.v9i7.8944","article-title":"Multimodal emotion recognition in children\u2019s online learning: emotion monitoring and intervention strategy design","volume":"9","author":"Li","year":"2025","journal-title":"Edelweiss Appl. Sci. Technol."},{"issue":"6","key":"10.1016\/j.knosys.2026.115594_bib0003","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1007\/s11036-024-02303-1","article-title":"A sentiment analysis method for big social online multimodal comments based on pre-trained models","volume":"29","author":"Wan","year":"2024","journal-title":"Mob. Netw. Appl."},{"key":"10.1016\/j.knosys.2026.115594_bib0004","series-title":"Proceedings of the Thirty-Third AAAI Conference on Artificial Intelligence (AAAI-19)","first-page":"6818","article-title":"DialogueRNN: an attentive RNN for emotion detection in conversations","volume":"33","author":"Majumder","year":"2019"},{"key":"10.1016\/j.knosys.2026.115594_bib0005","series-title":"Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP)","first-page":"154","article-title":"DialogueGCN: a graph convolutional neural network for emotion recognition in conversation","author":"Ghosal","year":"2019"},{"issue":"6","key":"10.1016\/j.knosys.2026.115594_bib0006","doi-asserted-by":"crossref","first-page":"112","DOI":"10.9781\/ijimai.2020.07.004","article-title":"Attention-based multi-modal sentiment analysis and emotion detection in conversation using RNN","volume":"6","author":"Huddar","year":"2021","journal-title":"International Journal of Interactive Multimedia and Artificial Intelligence"},{"key":"10.1016\/j.knosys.2026.115594_bib0007","doi-asserted-by":"crossref","first-page":"424","DOI":"10.1016\/j.inffus.2022.09.025","article-title":"Multimodal sentiment analysis: a systematic review of history, datasets, multimodal fusion methods, applications, challenges and future directions","volume":"91","author":"Gandhi","year":"2023","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.knosys.2026.115594_bib0008","doi-asserted-by":"crossref","first-page":"985","DOI":"10.1109\/TASLP.2021.3049898","article-title":"CTNet: conversational transformer network for emotion recognition","volume":"29","author":"Lian","year":"2021","journal-title":"IEEE\/ACM Trans. Audio Speech Lang Process."},{"key":"10.1016\/j.knosys.2026.115594_bib0009","series-title":"Proceedings of the 31st ACM International Conference on Multimedia","first-page":"5994","article-title":"Multimodal prompt transformer with hybrid contrastive learning for emotion recognition in conversation","author":"Zou","year":"2023"},{"key":"10.1016\/j.knosys.2026.115594_bib0010","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"19089","article-title":"Adaptive graph learning for multimodal conversational emotion detection","volume":"38","author":"Tu","year":"2024"},{"key":"10.1016\/j.knosys.2026.115594_bib0011","series-title":"Proceedings of the 32nd ACM International Conference on Multimedia","first-page":"4341","article-title":"Multimodal fusion via hypergraph autoencoder and contrastive learning for emotion recognition in conversation","author":"Yi","year":"2024"},{"issue":"3","key":"10.1016\/j.knosys.2026.115594_bib0012","doi-asserted-by":"crossref","first-page":"1885","DOI":"10.1109\/TAFFC.2025.3544608","article-title":"Semantic and emotional dual channel for emotion recognition in conversation","volume":"16","author":"Yang","year":"2025","journal-title":"IEEE Trans. Affect. Comput."},{"key":"10.1016\/j.knosys.2026.115594_bib0013","series-title":"Proceedings of the 2021 International Conference on Multimodal Interaction","first-page":"6","article-title":"Bi-bimodal modality fusion for correlation-controlled multimodal sentiment analysis","author":"Han","year":"2021"},{"key":"10.1016\/j.knosys.2026.115594_bib0014","first-page":"4328","article-title":"Diffusion-lm improves controllable text generation","volume":"35","author":"Li","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.knosys.2026.115594_bib0015","series-title":"ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","first-page":"7037","article-title":"MM-DFN: multimodal dynamic fusion network for emotion recognition in conversations","author":"Hu","year":"2022"},{"key":"10.1016\/j.knosys.2026.115594_bib0016","series-title":"Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)","first-page":"13099","article-title":"A cross-modality context fusion and semantic refinement network for emotion recognition in conversation","author":"Zhang","year":"2023"},{"key":"10.1016\/j.knosys.2026.115594_bib0017","series-title":"Proceedings of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)","first-page":"5666","article-title":"MMGCN: multimodal fusion via deep graph convolution network for emotion recognition in conversation","author":"Hu","year":"2021"},{"key":"10.1016\/j.knosys.2026.115594_bib0018","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"10761","article-title":"Multivariate, multi-frequency and multimodal: rethinking graph neural networks for emotion recognition in conversation","author":"Chen","year":"2023"},{"key":"10.1016\/j.knosys.2026.115594_bib0019","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2024.112900","article-title":"LECM: a model leveraging emotion cause to improve real-time emotion recognition in conversations","volume":"309","author":"Lu","year":"2025","journal-title":"Knowl. Based. Syst."},{"key":"10.1016\/j.knosys.2026.115594_bib0020","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.111340","article-title":"FrameERC: framelet transform based multimodal graph neural networks for emotion recognition in conversation","volume":"161","author":"Li","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.knosys.2026.115594_bib0021","series-title":"Proceedings of the Thirty-Fourth International Joint Conference on Artificial Intelligence","first-page":"6164","article-title":"MATCH: modality-calibrated hypergraph fusion network for conversational emotion recognition","author":"Shi","year":"2025"},{"issue":"18","key":"10.1016\/j.knosys.2026.115594_bib0022","doi-asserted-by":"crossref","first-page":"4443","DOI":"10.1080\/15376494.2023.2198528","article-title":"Microstructure reconstruction using diffusion-based generative models","volume":"31","author":"Lee","year":"2024","journal-title":"Mech. Adv. Mater. Struct."},{"issue":"2","key":"10.1016\/j.knosys.2026.115594_bib0023","doi-asserted-by":"crossref","first-page":"310","DOI":"10.1038\/s41592-024-02516-y","article-title":"SurfDock is a surface-informed diffusion generative model for reliable and accurate protein\u2013ligand complex prediction","volume":"22","author":"Cao","year":"2025","journal-title":"Nat. Methods"},{"key":"10.1016\/j.knosys.2026.115594_bib0024","series-title":"Proceedings of the 47th International ACM SIGIR Conference on Research and Development in Information Retrieval","first-page":"1370","article-title":"Denoising diffusion recommender model","author":"Zhao","year":"2024"},{"key":"10.1016\/j.knosys.2026.115594_bib0025","series-title":"Proceedings of the 32nd ACM International Conference on Multimedia","first-page":"2842","article-title":"Mitigating social hazards: early detection of fake news via diffusion-guided propagation path generation","author":"Zhang","year":"2024"},{"key":"10.1016\/j.knosys.2026.115594_bib0026","unstructured":"L. Yang, Y. Tian, B. Li, X. Zhang, K. Shen, Y. Tong, M. Wang, Mmada: Multimodal large diffusion language models, (2025). arXiv: 2505.15809."},{"key":"10.1016\/j.knosys.2026.115594_bib0027","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume":"33","author":"Ho","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.knosys.2026.115594_bib0028","series-title":"Adv. Neural Inf. Process. Syst.","first-page":"11895","article-title":"Generative modeling by estimating gradients of the data distribution","author":"Song","year":"2019"},{"key":"10.1016\/j.knosys.2026.115594_bib0029","first-page":"17117","article-title":"Incomplete multimodality-diffused emotion recognition","volume":"36","author":"Wang","year":"2023","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.knosys.2026.115594_bib0030","series-title":"Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)","first-page":"16304","article-title":"TopicDiff: a topic-enriched diffusion approach for multimodal conversational emotion detection","author":"Luo","year":"2024"},{"key":"10.1016\/j.knosys.2026.115594_bib0031","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2025.103268","article-title":"RMER-DT: robust multimodal emotion recognition in conversational contexts based on diffusion and transformers","volume":"123","author":"Zhu","year":"2025","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.knosys.2026.115594_bib0032","article-title":"Roberta: a robustly optimized bert pretraining approach","author":"Liu","year":"2019","journal-title":"CoRR"},{"key":"10.1016\/j.knosys.2026.115594_bib0033","series-title":"Proceedings of the 18th ACM International Conference on Multimedia","first-page":"1459","article-title":"Opensmile: the munich versatile and fast open-source audio feature extractor","author":"Eyben","year":"2010"},{"key":"10.1016\/j.knosys.2026.115594_bib0034","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"4700","article-title":"Densely connected convolutional networks","author":"Huang","year":"2017"},{"issue":"4","key":"10.1016\/j.knosys.2026.115594_bib0035","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3450626.3459836","article-title":"SWAGAN: a style-based wavelet-driven generative model","volume":"40","author":"Gal","year":"2021","journal-title":"ACM Trans. Graphics"},{"issue":"6","key":"10.1016\/j.knosys.2026.115594_bib0036","doi-asserted-by":"crossref","first-page":"1358","DOI":"10.1109\/TMI.2018.2823756","article-title":"Deep convolutional framelet denosing for low-dose CT via wavelet residual network","volume":"37","author":"Kang","year":"2018","journal-title":"IEEE Trans. Med. Imaging"},{"issue":"1","key":"10.1016\/j.knosys.2026.115594_bib0037","doi-asserted-by":"crossref","first-page":"25","DOI":"10.1016\/S0045-7906(01)00011-8","article-title":"The haar wavelet transform: its status and achievements","volume":"29","author":"Stankovi\u0107","year":"2003","journal-title":"Comput. Electr. Eng."},{"key":"10.1016\/j.knosys.2026.115594_bib0038","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"8281","article-title":"Wavelet-based fourier information interaction with frequency diffusion adjustment for underwater image restoration","author":"Zhao","year":"2024"},{"key":"10.1016\/j.knosys.2026.115594_bib0039","doi-asserted-by":"crossref","first-page":"335","DOI":"10.1007\/s10579-008-9076-6","article-title":"IEMOCAP: interactive emotional dyadic motion capture database","volume":"42","author":"Busso","year":"2008","journal-title":"Lang. Resour. Eval."},{"key":"10.1016\/j.knosys.2026.115594_bib0040","series-title":"Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics","first-page":"527","article-title":"Meld: a multimodal multi-party dataset for emotion recognition in conversations","author":"Poria","year":"2019"},{"key":"10.1016\/j.knosys.2026.115594_bib0041","series-title":"Proc. Interspeech 2020","first-page":"379","article-title":"Group gated fusion on attention-based bidirectional alignment for multimodal emotion recognition","author":"Liu","year":"2020"},{"issue":"86","key":"10.1016\/j.knosys.2026.115594_bib0042","first-page":"2579","article-title":"Visualizing data using t-SNE","volume":"9","author":"van der","year":"2008","journal-title":"J. Mach. Learn. Res."}],"container-title":["Knowledge-Based Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0950705126003345?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0950705126003345?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,3,28]],"date-time":"2026-03-28T12:14:50Z","timestamp":1774700090000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0950705126003345"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,5]]},"references-count":42,"alternative-id":["S0950705126003345"],"URL":"https:\/\/doi.org\/10.1016\/j.knosys.2026.115594","relation":{},"ISSN":["0950-7051"],"issn-type":[{"value":"0950-7051","type":"print"}],"subject":[],"published":{"date-parts":[[2026,5]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Cross-modality multiband differential conditional diffusion for multimodal emotion recognition in conversation","name":"articletitle","label":"Article Title"},{"value":"Knowledge-Based Systems","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.knosys.2026.115594","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"115594"}}