{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,24]],"date-time":"2026-02-24T16:25:33Z","timestamp":1771950333859,"version":"3.50.1"},"publisher-location":"Cham","reference-count":46,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031915802","type":"print"},{"value":"9783031915819","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-91581-9_19","type":"book-chapter","created":{"date-parts":[[2025,5,27]],"date-time":"2025-05-27T11:23:27Z","timestamp":1748345007000},"page":"267-281","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["ABAW7 Challenge: A Facial Affect Recognition Approach Based on\u00a0Transformer Encoder and\u00a0Multilayer Perceptron"],"prefix":"10.1007","author":[{"given":"Xuxiong","family":"Liu","sequence":"first","affiliation":[]},{"given":"Kang","family":"Shen","sequence":"additional","affiliation":[]},{"given":"Jun","family":"Yao","sequence":"additional","affiliation":[]},{"given":"Boyan","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Yu","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Yujie","family":"Guan","sequence":"additional","affiliation":[]},{"given":"Xin","family":"Liu","sequence":"additional","affiliation":[]},{"given":"Gengchen","family":"Li","sequence":"additional","affiliation":[]},{"given":"Liuwei","family":"An","sequence":"additional","affiliation":[]},{"given":"Zishun","family":"Cui","sequence":"additional","affiliation":[]},{"given":"Minrui","family":"Liu","sequence":"additional","affiliation":[]},{"given":"Xiao","family":"Sun","sequence":"additional","affiliation":[]},{"given":"Weijie","family":"Feng","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,5,12]]},"reference":[{"key":"19_CR1","doi-asserted-by":"crossref","unstructured":"Baltrusaitis, T., Zadeh, A., Lim, Y.C., Morency, L.P.: Openface 2.0: facial behavior analysis toolkit. In: 2018 13th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2018), pp. 59\u201366. IEEE (2018)","DOI":"10.1109\/FG.2018.00019"},{"key":"19_CR2","doi-asserted-by":"crossref","unstructured":"Cabacas-Maso, J., Ortega-Beltr\u00e1n, E., Benito-Altamirano, I., Ventura, C.: Enhancing facial expression recognition through dual-direction attention mixed feature networks: application to 7th ABAW challenge. arXiv preprint arXiv:2407.12390 (2024)","DOI":"10.1007\/978-3-031-91581-9_22"},{"key":"19_CR3","doi-asserted-by":"crossref","unstructured":"Chen, H., Jiang, D., Sahli, H.: Transformer encoder with multi-modal multi-head attention for continuous affect recognition. IEEE Trans. Multimed. (2021)","DOI":"10.1109\/TMM.2020.3037496"},{"key":"19_CR4","doi-asserted-by":"crossref","unstructured":"Dong, R., Lam, K.M.: Bi-center loss for compound facial expression recognition. IEEE Signal Process. Lett. (2024)","DOI":"10.1109\/LSP.2024.3364055"},{"key":"19_CR5","doi-asserted-by":"crossref","unstructured":"Ekman, P., Friesen, W.V.: Facial action coding system. Environ. Psychol. Nonverbal Behav. (1978)","DOI":"10.1037\/t27734-000"},{"key":"19_CR6","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"87","DOI":"10.1007\/978-3-319-46487-9_6","volume-title":"Computer Vision \u2013 ECCV 2016","author":"Y Guo","year":"2016","unstructured":"Guo, Y., Zhang, L., Hu, Y., He, X., Gao, J.: MS-Celeb-1M: a dataset and benchmark for large-scale face recognition. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9907, pp. 87\u2013102. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46487-9_6"},{"key":"19_CR7","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"19_CR8","doi-asserted-by":"crossref","unstructured":"He, S., Zhao, H., Yu, L., Xiang, J., Du, C., Jing, J.: Compound facial expression recognition with multi-domain fusion expression based on adversarial learning. In: 2022 IEEE International Conference on Systems, Man, and Cybernetics (SMC), pp. 688\u2013693. IEEE (2022)","DOI":"10.1109\/SMC53654.2022.9945308"},{"key":"19_CR9","unstructured":"Kim, J.H., Kim, N., Won, C.S.: Facial expression recognition with swin transformer. arXiv preprint arXiv:2203.13472 (2022)"},{"key":"19_CR10","doi-asserted-by":"crossref","unstructured":"Kollias, D., Schulc, A., Hajiyev, E., Zafeiriou, S.: Analysing affective behavior in the first ABAW 2020 competition. In: 2020 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020), pp. 794\u2013800 (2020)","DOI":"10.1109\/FG47880.2020.00126"},{"key":"19_CR11","doi-asserted-by":"crossref","unstructured":"Kollias, D.: ABAW: valence-arousal estimation, expression recognition, action unit detection & multi-task learning challenges. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 2328\u20132336 (2022)","DOI":"10.1109\/CVPRW56347.2022.00259"},{"key":"19_CR12","doi-asserted-by":"crossref","unstructured":"Kollias, D.: ABAW: learning from synthetic data & multi-task learning challenges. In: European Conference on Computer Vision, pp. 157\u2013172. Springer, Cham (2023)","DOI":"10.1007\/978-3-031-25075-0_12"},{"key":"19_CR13","doi-asserted-by":"crossref","unstructured":"Kollias, D.: Multi-label compound expression recognition: C-expr database & network. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 5589\u20135598 (2023)","DOI":"10.1109\/CVPR52729.2023.00541"},{"key":"19_CR14","unstructured":"Kollias, D., Sharmanska, V., Zafeiriou, S.: Face behavior a la carte: expressions, affect and action units in a single network. arXiv preprint arXiv:1910.11111 (2019)"},{"key":"19_CR15","unstructured":"Kollias, D., Sharmanska, V., Zafeiriou, S.: Distribution matching for heterogeneous multi-task learning: a large-scale face study. arXiv preprint arXiv:2105.03790 (2021)"},{"key":"19_CR16","doi-asserted-by":"crossref","unstructured":"Kollias, D., Tzirakis, P., Baird, A., Cowen, A., Zafeiriou, S.: ABAW: valence-arousal estimation, expression recognition, action unit detection & emotional reaction intensity estimation challenges. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 5888\u20135897 (2023)","DOI":"10.1109\/CVPRW59228.2023.00626"},{"key":"19_CR17","doi-asserted-by":"crossref","unstructured":"Kollias, D., Tzirakis, P., Cowen, A., Zafeiriou, S., Shao, C., Hu, G.: The 6th affective behavior analysis in-the-wild (ABAW) competition. arXiv preprint arXiv:2402.19344 (2024)","DOI":"10.1109\/CVPRW63382.2024.00461"},{"key":"19_CR18","unstructured":"Kollias, D., et al.: Deep affect prediction in-the-wild: aff-wild database and challenge, deep architectures, and beyond. Int. J. Comput. Vis. 1\u201323 (2019)"},{"key":"19_CR19","unstructured":"Kollias, D., Zafeiriou, S.: Expression, affect, action unit recognition: aff-wild2, multi-task learning and arcface. arXiv preprint arXiv:1910.04855 (2019)"},{"key":"19_CR20","unstructured":"Kollias, D., Zafeiriou, S.: Affect analysis in-the-wild: valence-arousal, expressions, action units and a unified framework. arXiv preprint arXiv:2103.15792 (2021)"},{"key":"19_CR21","doi-asserted-by":"crossref","unstructured":"Kollias, D., Zafeiriou, S.: Analysing affective behavior in the second ABAW2 competition. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 3652\u20133660 (2021)","DOI":"10.1109\/ICCVW54120.2021.00408"},{"key":"19_CR22","doi-asserted-by":"crossref","unstructured":"Kollias, D., et al.: 7th ABAW competition: multi-task learning and compound expression recognition. arXiv preprint arXiv:2407.03835 (2024)","DOI":"10.1007\/978-3-031-91581-9_3"},{"key":"19_CR23","first-page":"9694","volume":"34","author":"J Li","year":"2021","unstructured":"Li, J., Selvaraju, R., Gotmare, A., Joty, S., Xiong, C., Hoi, S.: Align before fuse: vision and language representation learning with momentum distillation. Adv. Neural. Inf. Process. Syst. 34, 9694\u20139705 (2021)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"19_CR24","doi-asserted-by":"crossref","unstructured":"Li, S., Deng, W., Du, J.: Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2852\u20132861 (2017)","DOI":"10.1109\/CVPR.2017.277"},{"key":"19_CR25","unstructured":"Li, S., et al.: Temporal label hierarchical network for compound emotion recognition (2024). https:\/\/arxiv.org\/abs\/2407.12973"},{"key":"19_CR26","doi-asserted-by":"crossref","unstructured":"Li, X., Du, W., Yang, H.: Affective behavior analysis using task-adaptive and au-assisted graph network. arXiv preprint arXiv:2407.11663 (2024)","DOI":"10.1007\/978-3-031-91581-9_28"},{"key":"19_CR27","unstructured":"Li, Y., Lu, Y., Li, J., Lu, G.: Separate loss for basic and compound facial expression recognition in the wild. In: Asian Conference on Machine Learning, pp. 897\u2013911. PMLR (2019)"},{"key":"19_CR28","unstructured":"Liu, C., Zhang, W., Qiu, F., Li, L., Yu, X.: Affective behaviour analysis via progressive learning. arXiv preprint arXiv:2407.16945 (2024)"},{"key":"19_CR29","doi-asserted-by":"crossref","unstructured":"Luo, C., Song, S., Xie, W., Shen, L., Gunes, H.: Learning multi-dimensional edge feature-based AU relation graph for facial action unit recognition. arXiv preprint arXiv:2205.01782 (2022)","DOI":"10.24963\/ijcai.2022\/173"},{"key":"19_CR30","unstructured":"Mao, J., Xu, R., Yin, X., Chang, Y., Nie, B., Huang, A.: Poster v2: a simpler and stronger facial expression recognition network. arXiv preprint arXiv:2301.12149 (2023)"},{"issue":"1","key":"19_CR31","doi-asserted-by":"publisher","first-page":"18","DOI":"10.1109\/TAFFC.2017.2740923","volume":"10","author":"A Mollahosseini","year":"2017","unstructured":"Mollahosseini, A., Hasani, B., Mahoor, M.H.: Affectnet: a database for facial expression, valence, and arousal computing in the wild. IEEE Trans. Affect. Comput. 10(1), 18\u201331 (2017)","journal-title":"IEEE Trans. Affect. Comput."},{"key":"19_CR32","unstructured":"P\u00e9rez-Rosas, V., Mihalcea, R., Morency, L.P.: Utterance-level multimodal sentiment analysis. In: Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 973\u2013982 (2013)"},{"key":"19_CR33","unstructured":"Radford, A., et\u00a0al.: Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning, pp. 8748\u20138763. PMLR (2021)"},{"key":"19_CR34","unstructured":"Richet, N., et al.: Textualized and feature-based models for compound multimodal emotion recognition in the wild (2024). https:\/\/arxiv.org\/abs\/2407.12927"},{"key":"19_CR35","unstructured":"Savchenko, A.V.: Hsemotion team at the 7th ABAW challenge: multi-task learning and compound facial expression recognition. arXiv preprint arXiv:2407.13184 (2024)"},{"key":"19_CR36","doi-asserted-by":"crossref","unstructured":"Slimani, K., Lekdioui, K., Messoussi, R., Touahni, R.: Compound facial expression recognition based on highway CNN. In: Proceedings of the New Challenges in Data Sciences: Acts of the Second Conference of the Moroccan Classification Society, pp.\u00a01\u20137 (2019)","DOI":"10.1145\/3314074.3314075"},{"key":"19_CR37","unstructured":"Tallec, G., Yvinec, E., Dapogny, A., Bailly, K.: Multi-label transformer for action unit detection. arXiv preprint arXiv:2203.12531 (2022)"},{"key":"19_CR38","doi-asserted-by":"crossref","unstructured":"Truong, Q.T., Lauw, H.W.: Vistanet: visual aspect attention network for multimodal sentiment analysis. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a033, pp. 305\u2013312 (2019)","DOI":"10.1609\/aaai.v33i01.3301305"},{"key":"19_CR39","unstructured":"Vaswani, A., et al.: Attention is all you need. In: Neural Information Processing Systems (2017)"},{"key":"19_CR40","doi-asserted-by":"crossref","unstructured":"Wang, K., Lian, Z., Sun, L., Liu, B., Tao, J., Fan, Y.: Emotional reaction analysis based on multi-label graph convolutional networks and dynamic facial expression recognition transformer. In: Proceedings of the 3rd International on Multimodal Sentiment Analysis Workshop and Challenge, pp. 75\u201380 (2022)","DOI":"10.1145\/3551876.3554810"},{"key":"19_CR41","unstructured":"Wang, L., Wang, S., Qi, J.: Multi-modal multi-label facial action unit detection with transformer. arXiv preprint arXiv:2203.13301 (2022)"},{"issue":"6","key":"19_CR42","doi-asserted-by":"publisher","first-page":"82","DOI":"10.1109\/MIS.2016.94","volume":"31","author":"A Zadeh","year":"2016","unstructured":"Zadeh, A., Zellers, R., Pincus, E., Morency, L.P.: Multimodal sentiment intensity analysis in videos: facial gestures and verbal messages. IEEE Intell. Syst. 31(6), 82\u201388 (2016)","journal-title":"IEEE Intell. Syst."},{"key":"19_CR43","doi-asserted-by":"crossref","unstructured":"Zafeiriou, S., Kollias, D., Nicolaou, M.A., Papaioannou, A., Zhao, G., Kotsia, I.: Aff-wild: valence and arousal \u2018in-the-wild\u2019 challenge. In: 2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pp. 1980\u20131987. IEEE (2017)","DOI":"10.1109\/CVPRW.2017.248"},{"key":"19_CR44","doi-asserted-by":"crossref","unstructured":"Zhang, W., et al.: Transformer-based multimodal information fusion for facial expression analysis. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 2428\u20132437 (2022)","DOI":"10.1109\/CVPRW56347.2022.00271"},{"issue":"24","key":"19_CR45","doi-asserted-by":"publisher","first-page":"5553","DOI":"10.3390\/s19245553","volume":"19","author":"Y Zhao","year":"2019","unstructured":"Zhao, Y., Xu, J.: A convolutional neural network for compound micro-expression recognition. Sensors 19(24), 5553 (2019)","journal-title":"Sensors"},{"key":"19_CR46","doi-asserted-by":"crossref","unstructured":"Zheng, C., Mendieta, M., Chen, C.: Poster: a pyramid cross-fusion transformer network for facial expression recognition. arXiv preprint arXiv:2204.04083 (2022)","DOI":"10.1109\/ICCVW60793.2023.00339"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2024 Workshops"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-91581-9_19","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,6]],"date-time":"2025-09-06T16:09:08Z","timestamp":1757174948000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-91581-9_19"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"ISBN":["9783031915802","9783031915819"],"references-count":46,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-91581-9_19","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025]]},"assertion":[{"value":"12 May 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Milan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Italy","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 September 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2024.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}