{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,11]],"date-time":"2026-03-11T14:08:55Z","timestamp":1773238135914,"version":"3.50.1"},"reference-count":33,"publisher":"Springer Science and Business Media LLC","issue":"9","license":[{"start":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T00:00:00Z","timestamp":1750118400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T00:00:00Z","timestamp":1750118400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"name":"The authors extend their appreciation to the Deputyship for Research & Innovation, Ministry of Education in Saudi Arabia for funding this research work through the project number UJ-21-DR-103."}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J Supercomput"],"DOI":"10.1007\/s11227-025-07515-0","type":"journal-article","created":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T20:00:57Z","timestamp":1750190457000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":8,"title":["Interpretable multimodal emotion recognition using optimized transformer model with SHAP-based transparency"],"prefix":"10.1007","volume":"81","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-5107-7356","authenticated-orcid":false,"given":"Adel A.","family":"Alyoubi","sequence":"first","affiliation":[]},{"given":"Bader A.","family":"Alyoubi","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,6,17]]},"reference":[{"issue":"22","key":"7515_CR1","doi-asserted-by":"publisher","first-page":"11457","DOI":"10.3390\/app122211457","volume":"12","author":"Z Lv","year":"2022","unstructured":"Lv Z, Poiesi F, Dong Qi, Lloret J, Song H (2022) Deep learning for intelligent human\u2013computer interaction. Appl Sci 12(22):11457","journal-title":"Appl Sci"},{"key":"7515_CR2","doi-asserted-by":"publisher","first-page":"424","DOI":"10.1016\/j.inffus.2022.09.025","volume":"91","author":"A Gandhi","year":"2023","unstructured":"Gandhi A, Adhvaryu K, Poria S, Cambria E, Hussain A (2023) Multimodal sentiment analysis: a systematic review of history, datasets, multimodal fusion methods, applications, challenges and future directions. Inf Fus 91:424\u2013444","journal-title":"Inf Fus"},{"key":"7515_CR3","unstructured":"Latif S, Zaidi A, Cuayahuitl H, Shamshad F, Shoukat M, Qadir J (2023) Transformers in speech processing: a survey. arXiv preprint arXiv:2303.11607"},{"issue":"1","key":"7515_CR4","doi-asserted-by":"publisher","first-page":"25","DOI":"10.56578\/ataiml040103","volume":"4","author":"B Paulchamy","year":"2025","unstructured":"Paulchamy B, Yahya A, Chinnasamy N, Kasilingam K (2025) Facial expression recognition through transfer learning: integration of VGG16, ResNet, and AlexNet with a multiclass classifier. Acadlore Trans AI Mach Learn 4(1):25\u201339","journal-title":"Acadlore Trans AI Mach Learn"},{"key":"7515_CR5","doi-asserted-by":"crossref","unstructured":"Kumar H, Aruldoss M (2025) Advanced optimal cross-modal fusion mechanism for audio-video based artificial emotion recognition. Informatica 49(12)","DOI":"10.31449\/inf.v49i12.7392"},{"issue":"1","key":"7515_CR6","first-page":"29","volume":"12","author":"S Hosseini","year":"2024","unstructured":"Hosseini S, Yamaghani MR, Poorzaker Arabani S (2024) A review of the methods of recognition multimodal emotions in sound, image and text. Int J Appl Operat Res-An Open Access J 12(1):29\u201341","journal-title":"Int J Appl Operat Res-An Open Access J"},{"key":"7515_CR7","doi-asserted-by":"crossref","unstructured":"Zhang X, Zhang T, Sun L, Zhao J, Jin Q (2025) Exploring interpretability in deep learning for affective computing: a comprehensive review. ACM Trans Multimed Comput Commun Appl","DOI":"10.1145\/3723005"},{"issue":"3","key":"7515_CR8","doi-asserted-by":"publisher","DOI":"10.1007\/s00530-024-01302-2","volume":"30","author":"UA Khan","year":"2024","unstructured":"Khan UA, Xu Q, Liu Y, Lagstedt A, Alam\u00e4ki A, Kauttonen J (2024) Exploring contactless techniques in multimodal emotion recognition: insights into diverse applications, challenges, solutions, and prospects. Multimed Syst 30(3):115","journal-title":"Multimed Syst"},{"key":"7515_CR9","doi-asserted-by":"crossref","unstructured":"Ayyalasomayajula MMT, Ayyalasomayajula S, Pandey JK (2024) Explainable artificial intelligence (XAI) for emotion detection. In: Machine and Deep Learning Techniques for Emotion Detection, pp 203\u2013232. IGI Global","DOI":"10.4018\/979-8-3693-4143-8.ch010"},{"issue":"3","key":"7515_CR10","doi-asserted-by":"publisher","first-page":"1053","DOI":"10.3390\/app15031053","volume":"15","author":"MH Yi","year":"2025","unstructured":"Yi MH, Kwak KC, Shin JH (2025) HyFusER: hybrid multimodal transformer for emotion recognition using dual cross modal attention. Appl Sci 15(3):1053","journal-title":"Appl Sci"},{"issue":"7","key":"7515_CR11","doi-asserted-by":"crossref","first-page":"3127","DOI":"10.3390\/app14073127","volume":"14","author":"MH Yi","year":"2024","unstructured":"Yi MH, Kwak KC, Shin JH (2024) KoHMT: cross-modal attention for multimodal emotion recognition. Appl Sci 14(7):3127","journal-title":"Appl Sci"},{"key":"7515_CR12","doi-asserted-by":"crossref","unstructured":"Perikos I, Pylarinou C (2024) Explainable emotion recognition in social networks with transformers. In: 2024 IEEE\/ACIS 24th International Conference on Computer and Information Science (ICIS), pp 182\u2013187. IEEE, 2024.","DOI":"10.1109\/ICIS61260.2024.10778326"},{"key":"7515_CR13","doi-asserted-by":"crossref","unstructured":"Zhang K, Feng L, Yu X (2022) Shap-PreBiNT: a sentiment analysis model based on optimized transformer. In: Asia-Pacific Web (APWeb) and Web-Age Information Management (WAIM) Joint International Conference on Web and Big Data, pp 444\u2013458. Cham: Springer Nature Switzerland","DOI":"10.1007\/978-3-031-25198-6_33"},{"key":"7515_CR14","unstructured":"Kokalj J, Guid M, Mladeni\u0107 D (2021) TransSHAP: explaining transformers via shapley values. In: Proceedings of the 30th ACM International Conference on Information & Knowledge Management (CIKM), pp. 2897\u20132901. ACM"},{"key":"7515_CR15","doi-asserted-by":"crossref","unstructured":"Patel K, Safavi F, Chandramouli R, Vinjamuri R (2024) Transformer-based emotion recognition with EEG. In: 2024 46th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC), pp 1\u20134. IEEE","DOI":"10.1109\/EMBC53108.2024.10781700"},{"key":"7515_CR16","doi-asserted-by":"crossref","unstructured":"Chen FS, Rao S, Tiwari B, Phoha VV (2024) DSTER: A Dual-Stream Transformer-based Emotion Recognition Model through Keystrokes Dynamics. In: 2024 IEEE International Joint Conference on Biometrics (IJCB), pp 1\u201310. IEEE","DOI":"10.1109\/IJCB62174.2024.10744524"},{"key":"7515_CR17","unstructured":"Venkatraman S, Sharma V, Malarvannan S, Narendra M (2024) Multimodal emotion recognition using audio-video transformer fusion with cross attention. arXiv preprint arXiv:2407.18552 (2024)"},{"key":"7515_CR18","unstructured":"Liu Y, Zhu X, Wang P (2023) TACFN: Adaptive Intra-Modal Selection for Efficient Multimodal Emotion Recognition. In: Proceedings of the 2023 conference on empirical methods in natural language processing (EMNLP), pp 1342\u20131354. ACL"},{"issue":"21","key":"7515_CR19","doi-asserted-by":"publisher","first-page":"4175","DOI":"10.3390\/electronics13214175","volume":"13","author":"M Ji","year":"2024","unstructured":"Ji M, Wei N, Zhou J, Wang X (2024) SS-trans: single-stream transformer for multimodal sentiment analysis and emotion recognition. Electronics 13(21):4175","journal-title":"Electronics"},{"key":"7515_CR20","doi-asserted-by":"publisher","unstructured":"Poria S, Hazarika D, Majumder N, Naik G, Cambria E, Mihalcea R (2019) MELD: a multimodal multi-party dataset for emotion recognition in conversations. In: Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics (pp. 527\u2013536). Association for Computational Linguistics. https:\/\/doi.org\/10.18653\/v1\/P19-1050","DOI":"10.18653\/v1\/P19-1050"},{"key":"7515_CR21","first-page":"12449","volume":"33","author":"A Baevski","year":"2020","unstructured":"Baevski A, Zhou Y, Mohamed A, Auli M (2020) wav2vec 2.0: a framework for self-supervised learning of speech representations. Adv Neural Inf Process Syst 33:12449\u201312460","journal-title":"Adv Neural Inf Process Syst"},{"key":"7515_CR22","doi-asserted-by":"publisher","first-page":"122136","DOI":"10.1109\/ACCESS.2022.3223444","volume":"10","author":"ZK Abdul","year":"2022","unstructured":"Abdul ZK, Al-Talabani AK (2022) Mel frequency cepstral coefficient and its applications: a review. IEEE Access 10:122136\u2013122158","journal-title":"IEEE Access"},{"key":"7515_CR23","doi-asserted-by":"crossref","unstructured":"Das AK, Reddy KA, Bomminayuni H, Naskar R (2024) A multimodal end-to-end speech emotion recognition framework based on audio spectrographic and chroma features, fused by deep learning SERe_DL Model. In: 2024 IEEE 21st India Council International Conference (INDICON), pp 1\u20136. IEEE","DOI":"10.1109\/INDICON63790.2024.10958507"},{"key":"7515_CR24","doi-asserted-by":"publisher","first-page":"1000716","DOI":"10.3389\/fnins.2022.1000716","volume":"16","author":"Z Fu","year":"2022","unstructured":"Fu Z, Zhang B, He X, Li Y, Wang H, Huang J (2022) Emotion recognition based on multi-modal physiological signals and transfer learning. Front Neurosci 16:1000716","journal-title":"Front Neurosci"},{"key":"7515_CR25","doi-asserted-by":"publisher","first-page":"61950","DOI":"10.1109\/ACCESS.2023.3287093","volume":"11","author":"A Mukhamediya","year":"2023","unstructured":"Mukhamediya A, Fazli S, Zollanvari A (2023) On the effect of log-mel spectrogram parameter tuning for deep learning-based speech emotion recognition. IEEE Access 11:61950\u201361957","journal-title":"IEEE Access"},{"issue":"1.2","key":"7515_CR26","doi-asserted-by":"publisher","first-page":"93","DOI":"10.2152\/jmi.72.93","volume":"72","author":"T Akiyama","year":"2025","unstructured":"Akiyama T, Blaquera APL, Bollos LAC, Soriano GP, Ito H, Tanioka R, Umehara H, Osaka K, Tanioka T (2025) Reliability of emotion analysis from human facial expressions using multi-task cascaded convolutional neural networks. J Med Invest 72(1.2):93\u2013101","journal-title":"J Med Invest"},{"key":"7515_CR27","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2024.126236","volume":"270","author":"E Boitel","year":"2025","unstructured":"Boitel E, Mohasseb A, Haig E (2025) MIST: multimodal emotion recognition using DeBERTa for text, Semi-CNN for speech, ResNet-50 for facial, and 3D-CNN for motion analysis. Expert Syst Appl 270:126236","journal-title":"Expert Syst Appl"},{"key":"7515_CR28","doi-asserted-by":"crossref","unstructured":"Ayadi S, Lachiri Z (2024) Visual emotion recognition based on transfer learning technique using VGG16. Przegl\u0105d Elektrotechniczny 8","DOI":"10.15199\/48.2024.08.31"},{"key":"7515_CR29","doi-asserted-by":"publisher","first-page":"94557","DOI":"10.1109\/ACCESS.2021.3092735","volume":"9","author":"S Lee","year":"2021","unstructured":"Lee S, Han DK, Ko H (2021) Multimodal emotion recognition fusion analysis adapting BERT with heterogeneous feature unification. IEEE access 9:94557\u201394572","journal-title":"IEEE access"},{"issue":"1","key":"7515_CR30","doi-asserted-by":"publisher","first-page":"478","DOI":"10.1109\/TCSS.2022.3228649","volume":"11","author":"Y Khurana","year":"2022","unstructured":"Khurana Y, Gupta S, Sathyaraj R, Raja SP (2022) RobinNet: a multimodal speech emotion recognition system with speaker recognition for social interactions. IEEE Trans Comput Social Syst 11(1):478\u2013487","journal-title":"IEEE Trans Comput Social Syst"},{"issue":"1","key":"7515_CR31","doi-asserted-by":"publisher","first-page":"157","DOI":"10.1109\/TAFFC.2023.3263907","volume":"15","author":"Y Wu","year":"2023","unstructured":"Wu Y, Daoudi M, Amad A (2023) Transformer-based self-supervised multimodal representation learning for wearable emotion recognition. IEEE Trans Affect Comput 15(1):157\u2013172","journal-title":"IEEE Trans Affect Comput"},{"key":"7515_CR32","doi-asserted-by":"crossref","unstructured":"Goyal A, Kumar N, Guha T, Narayanan SS (2016) A multimodal mixture-of-experts model for dynamic emotion prediction in movies. In: 2016 IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), pp 2822\u20132826. IEEE","DOI":"10.1109\/ICASSP.2016.7472192"},{"issue":"1","key":"7515_CR33","doi-asserted-by":"publisher","first-page":"200","DOI":"10.1109\/TETCI.2022.3224929","volume":"7","author":"S Zhang","year":"2022","unstructured":"Zhang S, Yin C, Yin Z (2022) Multimodal sentiment recognition with multi-task learning. IEEE Trans Emerg Top Comput Intell 7(1):200\u2013209","journal-title":"IEEE Trans Emerg Top Comput Intell"}],"container-title":["The Journal of Supercomputing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11227-025-07515-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11227-025-07515-0\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11227-025-07515-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T20:01:01Z","timestamp":1750190461000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11227-025-07515-0"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6,17]]},"references-count":33,"journal-issue":{"issue":"9","published-online":{"date-parts":[[2025,6]]}},"alternative-id":["7515"],"URL":"https:\/\/doi.org\/10.1007\/s11227-025-07515-0","relation":{},"ISSN":["1573-0484"],"issn-type":[{"value":"1573-0484","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,6,17]]},"assertion":[{"value":"27 May 2025","order":1,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"17 June 2025","order":2,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}],"article-number":"1044"}}