{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,27]],"date-time":"2026-01-27T02:02:13Z","timestamp":1769479333891,"version":"3.49.0"},"reference-count":44,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"name":"New Era Parenting Quality Project","award":["2024cxcysj132"],"award-info":[{"award-number":["2024cxcysj132"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["SIViP"],"published-print":{"date-parts":[[2026,1]]},"DOI":"10.1007\/s11760-025-05067-7","type":"journal-article","created":{"date-parts":[[2026,1,14]],"date-time":"2026-01-14T20:17:30Z","timestamp":1768421850000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["A UMRFormer-enhanced ALMT with modality-specific attentions for multimodal sentiment analysis"],"prefix":"10.1007","volume":"20","author":[{"given":"RenLei","family":"Ding","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kunxia","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2026,1,14]]},"reference":[{"key":"5067_CR1","doi-asserted-by":"crossref","unstructured":"Ali, K., Hughes, C.E.: A unified transformer-based network for multimodal emotion recognition. arXiv preprint arXiv:2308.14160 (2023)","DOI":"10.36227\/techrxiv.23916123"},{"key":"5067_CR2","doi-asserted-by":"publisher","first-page":"209","DOI":"10.1016\/j.inffus.2019.06.019","volume":"53","author":"Y Jiang","year":"2020","unstructured":"Jiang, Y., Li, W., Hossain, M.S., Chen, M., Alelaiwi, A., Al-Hammadi, M.: A snapshot research and implementation of multimodal information fusion for data-driven emotion recognition. Inf. Fusion. 53, 209\u2013221 (2020)","journal-title":"Inf. Fusion."},{"key":"5067_CR3","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2023.101847","volume":"99","author":"K Ezzameli","year":"2023","unstructured":"Ezzameli, K., Mahersia, H.: Emotion recognition from unimodal to multimodal analysis: A review. Inf. Fusion. 99, 101847 (2023)","journal-title":"Inf. Fusion."},{"issue":"2","key":"5067_CR4","doi-asserted-by":"publisher","first-page":"423","DOI":"10.1109\/TPAMI.2018.2798607","volume":"41","author":"T Baltru\u0161aitis","year":"2018","unstructured":"Baltru\u0161aitis, T., Ahuja, C., Morency, L.-P.: Multimodal machine learning: A survey and taxonomy. IEEE Trans. Pattern Anal. Mach. Intell. 41(2), 423\u2013443 (2018)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"5067_CR5","doi-asserted-by":"publisher","first-page":"98","DOI":"10.1016\/j.inffus.2017.02.003","volume":"37","author":"S Poria","year":"2017","unstructured":"Poria, S., Cambria, E., Bajpai, R., Hussain, A.: A review of affective computing: From unimodal analysis to multimodal fusion. Inf. Fusion. 37, 98\u2013125 (2017)","journal-title":"Inf. Fusion."},{"key":"5067_CR6","doi-asserted-by":"crossref","unstructured":"Wang, P., Zhou, Q., Wu, Y., Chen, T., Hu, J.: Dlf: Disentangled-language-focused multimodal sentiment analysis. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 39, pp. 21180\u201321188 (2025)","DOI":"10.1609\/aaai.v39i20.35416"},{"key":"5067_CR7","doi-asserted-by":"crossref","unstructured":"Han, W., Chen, H., Poria, S.: Improving multimodal fusion with hierarchical mutual information maximization for multimodal sentiment analysis. (2021). arXiv preprint arXiv:2109.00412","DOI":"10.18653\/v1\/2021.emnlp-main.723"},{"key":"5067_CR8","doi-asserted-by":"crossref","unstructured":"Hazarika, D., Zimmermann, R., Poria, S.: Misa: Modality-invariant and-specific representations for multimodal sentiment analysis. In: Proceedings of the 28th ACM International Conference on Multimedia, pp. 1122\u20131131 (2020)","DOI":"10.1145\/3394171.3413678"},{"key":"5067_CR9","doi-asserted-by":"crossref","unstructured":"Yang, D., Huang, S., Kuang, H., Du, Y., Zhang, L.: Disentangled representation learning for multimodal emotion recognition. In: Proceedings of the 30th ACM International Conference on Multimedia, pp. 1642\u20131651 (2022)","DOI":"10.1145\/3503161.3547754"},{"key":"5067_CR10","doi-asserted-by":"crossref","unstructured":"Yu, W., Xu, H., Yuan, Z., Wu, J.: Learning modality-specific representations with self-supervised multi-task learning for multimodal sentiment analysis. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 35, pp. 10790\u201310797 (2021)","DOI":"10.1609\/aaai.v35i12.17289"},{"issue":"3","key":"5067_CR11","doi-asserted-by":"publisher","first-page":"46","DOI":"10.1109\/MIS.2013.34","volume":"28","author":"M W\u00f6llmer","year":"2013","unstructured":"W\u00f6llmer, M., Weninger, F., Knaup, T., Schuller, B., Sun, C., Sagae, K., Morency, L.-P.: Youtube movie reviews: Sentiment analysis in an audio-visual context. IEEE Intell. Syst. 28(3), 46\u201353 (2013)","journal-title":"IEEE Intell. Syst."},{"key":"5067_CR12","doi-asserted-by":"crossref","unstructured":"Poria, S., Chaturvedi, I., Cambria, E., Hussain, A.: Convolutional mkl based multimodal emotion recognition and sentiment analysis. In: 2016 IEEE 16th International Conference on Data Mining (ICDM), pp. 439\u2013448 (2016). IEEE","DOI":"10.1109\/ICDM.2016.0055"},{"key":"5067_CR13","doi-asserted-by":"crossref","unstructured":"Kampman, O., Barezi, E.J., Bertero, D., Fung, P.: Investigating audio, visual, and text fusion methods for end-to-end automatic personality prediction. arXiv preprint arXiv:1805.00705 (2018)","DOI":"10.18653\/v1\/P18-2096"},{"key":"5067_CR14","doi-asserted-by":"crossref","unstructured":"Liu, Z., Shen, Y., Lakshminarasimhan, V.B., Liang, P.P., Zadeh, A., Morency, L.-P.: Efficient low-rank multimodal fusion with modality-specific factors. arXiv preprint arXiv:1806.00064 (2018)","DOI":"10.18653\/v1\/P18-1209"},{"key":"5067_CR15","doi-asserted-by":"crossref","unstructured":"Lei, Y., Yang, D., Li, M., Wang, S., Chen, J., Zhang, L.: Text-oriented modality reinforcement network for multimodal sentiment analysis from unaligned multimodal sequences. In: CAAI International Conference on Artificial Intelligence, pp. 189\u2013200 (2023). Springer","DOI":"10.1007\/978-981-99-9119-8_18"},{"key":"5067_CR16","doi-asserted-by":"crossref","unstructured":"Xiao, L., Wu, X., Wu, W., Yang, J., He, L.: Multi-channel attentive graph convolutional network with sentiment fusion for multimodal sentiment analysis. In: ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 4578\u20134582 (2022). IEEE","DOI":"10.1109\/ICASSP43922.2022.9747542"},{"key":"5067_CR17","doi-asserted-by":"publisher","first-page":"793","DOI":"10.1109\/TIFS.2023.3326368","volume":"19","author":"H Liu","year":"2023","unstructured":"Liu, H., Wang, W., Sun, H., Rocha, A., Li, H.: Robust domain misinformation detection via multi-modal feature alignment. IEEE Trans. Inf. Forensics Secur. 19, 793\u2013806 (2023)","journal-title":"IEEE Trans. Inf. Forensics Secur."},{"key":"5067_CR18","doi-asserted-by":"crossref","unstructured":"Zhang, H., Wang, Y., Yin, G., Liu, K., Liu, Y., Yu, T.: Learning language-guided adaptive hyper-modality representation for multimodal sentiment analysis. In: Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing, pp. 756\u2013767 (2023)","DOI":"10.18653\/v1\/2023.emnlp-main.49"},{"key":"5067_CR19","doi-asserted-by":"crossref","unstructured":"Tsai, Y.-H.H., Bai, S., Liang, P.P., Kolter, J.Z., Morency, L.-P., Salakhutdinov, R.: Multimodal transformer for unaligned multimodal language sequences. In: Proceedings of the Conference. Association for Computational Linguistics. Meeting, vol. 2019, p. 6558 (2019)","DOI":"10.18653\/v1\/P19-1656"},{"key":"5067_CR20","doi-asserted-by":"crossref","unstructured":"Huang, J., Tao, J., Liu, B., Lian, Z., Niu, M.: Multimodal transformer fusion for continuous emotion recognition.In: ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP),pp. 3507\u20133511 (2020). IEEE","DOI":"10.1109\/ICASSP40776.2020.9053762"},{"key":"5067_CR21","doi-asserted-by":"crossref","unstructured":"Sun, Z., Sarma, P., Sethares, W., Liang, Y.: Learning relationships between text, audio, and video via deep canonical correlation for multimodal language analysis. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 34, pp. 8992\u20138999 (2020)","DOI":"10.1609\/aaai.v34i05.6431"},{"key":"5067_CR22","doi-asserted-by":"publisher","DOI":"10.1016\/j.knosys.2023.111346","volume":"285","author":"J Huang","year":"2024","unstructured":"Huang, J., Zhou, J., Tang, Z., Lin, J., Chen, C.Y.-C.: Tmbl: Transformer-based multimodal binding learning model for multimodal sentiment analysis. Knowl.-Based Syst. 285, 111346 (2024)","journal-title":"Knowl.-Based Syst."},{"key":"5067_CR23","doi-asserted-by":"crossref","unstructured":"Xiao, L., Mao, R., Zhang, X., He, L., Cambria, E.: Vanessa: Visual connotation and aesthetic attributes understanding network for multimodal aspect-based sentiment analysis. In: Findings of the Association for Computational Linguistics: EMNLP 2024, pp. 11486\u201311500 (2024)","DOI":"10.18653\/v1\/2024.findings-emnlp.671"},{"key":"5067_CR24","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2024.102304","volume":"106","author":"L Xiao","year":"2024","unstructured":"Xiao, L., Wu, X., Xu, J., Li, W., Jin, C., He, L.: Atlantis: Aesthetic-oriented multiple granularities fusion network for joint multimodal aspect-based sentiment analysis. Inf. Fusion. 106, 102304 (2024)","journal-title":"Inf. Fusion."},{"issue":"6","key":"5067_CR25","doi-asserted-by":"publisher","DOI":"10.1016\/j.ipm.2023.103508","volume":"60","author":"L Xiao","year":"2023","unstructured":"Xiao, L., Wu, X., Yang, S., Xu, J., Zhou, J., He, L.: Cross-modal fine-grained alignment and fusion network for multimodal aspect-based sentiment analysis. Inf. Process. Manag. 60(6), 103508 (2023)","journal-title":"Inf. Process. Manag."},{"key":"5067_CR26","doi-asserted-by":"crossref","unstructured":"Xiao, L., Mao, R., Zhao, S., Lin, Q., Jia, Y., He, L., Cambria, E.: Exploring cognitive and aesthetic causality for multimodal aspect-based sentiment analysis. IEEE Trans. Affect. Comput. (2025)","DOI":"10.1109\/TAFFC.2025.3565506"},{"key":"5067_CR27","doi-asserted-by":"crossref","unstructured":"Zhou, H., Huang, S., Zhang, F., Xu, C.: Ceprompt: Cross-modal emotion-aware prompting for facial expression recognition. IEEE Trans. Circuits Syst. Video Technol. (2024)","DOI":"10.1109\/TCSVT.2024.3424777"},{"key":"5067_CR28","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2024.129261","volume":"621","author":"H Zhou","year":"2025","unstructured":"Zhou, H., Huang, S., Xu, Y.: Ua-fer: Uncertainty-aware representation learning for facial expression recognition. Neurocomputing 621, 129261 (2025)","journal-title":"Neurocomputing"},{"key":"5067_CR29","doi-asserted-by":"crossref","unstructured":"Woo, S., Park, J., Lee, J.-Y., Kweon, I.S.: Cbam: Convolutional block attention module. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 3\u201319 (2018)","DOI":"10.1007\/978-3-030-01234-2_1"},{"key":"5067_CR30","doi-asserted-by":"crossref","unstructured":"Hu, J., Shen, L., Sun, G.: Squeeze-and-excitation networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7132\u20137141 (2018)","DOI":"10.1109\/CVPR.2018.00745"},{"key":"5067_CR31","unstructured":"Kitaev, N., Kaiser, \u0141., Levskaya, A.: Reformer: The efficient transformer. arXiv preprint arXiv:2001.04451 (2020)"},{"key":"5067_CR32","unstructured":"Choromanski, K., Likhosherstov, V., Dohan, D., Song, X., Gane, A., Sarlos, T., Hawkins, P., Davis, J., Mohiuddin, A., Kaiser, L., et al.: Rethinking attention with performers. arXiv preprint arXiv:2009.14794 (2020)"},{"key":"5067_CR33","doi-asserted-by":"crossref","unstructured":"Wang, Q., Wu, B., Zhu, P., Li, P., Zuo, W., Hu, Q.: Eca-net: Efficient channel attention for deep convolutional neural networks. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 11534\u201311542 (2020)","DOI":"10.1109\/CVPR42600.2020.01155"},{"key":"5067_CR34","doi-asserted-by":"crossref","unstructured":"Devlin, J., Chang, M.-W., Lee, K., Toutanova, K.: Bert: Pre-training of deep bidirectional transformers for language understanding. In: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (long and Short Papers), pp. 4171\u20134186 (2019)","DOI":"10.18653\/v1\/N19-1423"},{"key":"5067_CR35","doi-asserted-by":"publisher","first-page":"18","DOI":"10.25080\/Majora-7b98e3ed-003","volume":"2015","author":"B McFee","year":"2015","unstructured":"McFee, B., Raffel, C., Liang, D., Ellis, D.P., McVicar, M., Battenberg, E., Nieto, O.: librosa: Audio and music signal analysis in python. SciPy 2015, 18\u201324 (2015)","journal-title":"SciPy"},{"key":"5067_CR36","doi-asserted-by":"crossref","unstructured":"Baltru\u0161aitis, T., Robinson, P., Morency, L.-P.: Openface: an open source facial behavior analysis toolkit. In: 2016 IEEE Winter Conference on Applications of Computer Vision (WACV), pp. 1\u201310 (2016). IEEE","DOI":"10.1109\/WACV.2016.7477553"},{"key":"5067_CR37","unstructured":"Song, J.-G.: Ufo-vit: High performance linear vision transformer without softmax. arXiv preprint arXiv:2109.14382 (2021)"},{"issue":"6","key":"5067_CR38","doi-asserted-by":"publisher","first-page":"3863","DOI":"10.1007\/s00530-023-01164-0","volume":"29","author":"H Zhou","year":"2023","unstructured":"Zhou, H., Huang, S., Xu, Y.: Inceptr: micro-expression recognition integrating inception-cbam and vision transformer. Multimedia Syst. 29(6), 3863\u20133876 (2023)","journal-title":"Multimedia Syst."},{"key":"5067_CR39","unstructured":"Zadeh, A., Zellers, R., Pincus, E., Morency, L.-P.: Mosi: multimodal corpus of sentiment intensity and subjectivity analysis in online opinion videos. arXiv preprint arXiv:1606.06259 (2016)"},{"key":"5067_CR40","doi-asserted-by":"crossref","unstructured":"Zadeh, A.B., Liang, P.P., Poria, S., Cambria, E., Morency, L.-P.: Multimodal language analysis in the wild: Cmu-mosei dataset and interpretable dynamic fusion graph. In: Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 2236\u20132246 (2018)","DOI":"10.18653\/v1\/P18-1208"},{"key":"5067_CR41","doi-asserted-by":"crossref","unstructured":"Yu, W., Xu, H., Meng, F., Zhu, Y., Ma, Y., Wu, J., Zou, J., Yang, K.: Ch-sims: A chinese multimodal sentiment analysis dataset with fine-grained annotation of modality. In: Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp. 3718\u20133727 (2020)","DOI":"10.18653\/v1\/2020.acl-main.343"},{"key":"5067_CR42","doi-asserted-by":"crossref","unstructured":"Zadeh, A., Chen, M., Poria, S., Cambria, E., Morency, L.-P.: Tensor fusion network for multimodal sentiment analysis. arXiv preprint arXiv:1707.07250 (2017)","DOI":"10.18653\/v1\/D17-1115"},{"issue":"1","key":"5067_CR43","doi-asserted-by":"publisher","first-page":"4095","DOI":"10.1109\/TCE.2024.3357480","volume":"70","author":"Z Tang","year":"2024","unstructured":"Tang, Z., Xiao, Q., Qin, Y., Zhou, X., Zhou, J.T., Li, K.: Multi-view interactive representations for multimodal sentiment analysis. IEEE Trans. Consum. Electron. 70(1), 4095\u20134107 (2024)","journal-title":"IEEE Trans. Consum. Electron."},{"key":"5067_CR44","doi-asserted-by":"crossref","unstructured":"Mao, H., Yuan, Z., Xu, H., Yu, W., Liu, Y., Gao, K.: M-sena: An integrated platform for multimodal sentiment analysis. arXiv preprint arXiv:2203.12441 (2022)","DOI":"10.18653\/v1\/2022.acl-demo.20"}],"container-title":["Signal, Image and Video Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11760-025-05067-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11760-025-05067-7","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11760-025-05067-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,26]],"date-time":"2026-01-26T15:44:12Z","timestamp":1769442252000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11760-025-05067-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,1]]},"references-count":44,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2026,1]]}},"alternative-id":["5067"],"URL":"https:\/\/doi.org\/10.1007\/s11760-025-05067-7","relation":{},"ISSN":["1863-1703","1863-1711"],"issn-type":[{"value":"1863-1703","type":"print"},{"value":"1863-1711","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,1]]},"assertion":[{"value":"14 July 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"22 November 2025","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"23 December 2025","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"14 January 2026","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no competing interests.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interests"}}],"article-number":"17"}}