{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,11]],"date-time":"2026-07-11T22:05:31Z","timestamp":1783807531815,"version":"3.55.0"},"reference-count":44,"publisher":"Springer Science and Business Media LLC","issue":"10","license":[{"start":{"date-parts":[[2024,6,17]],"date-time":"2024-06-17T00:00:00Z","timestamp":1718582400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,6,17]],"date-time":"2024-06-17T00:00:00Z","timestamp":1718582400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"name":"Anhui Province Key Laboratory of Intelligent Building and Building Energy Saving","award":["IBES2022ZR02"],"award-info":[{"award-number":["IBES2022ZR02"]}]},{"name":"Anhui Provincial Housing and Urban-Rural Construction Science and Technology Program","award":["2023-YF113"],"award-info":[{"award-number":["2023-YF113"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["SIViP"],"published-print":{"date-parts":[[2024,9]]},"DOI":"10.1007\/s11760-024-03356-1","type":"journal-article","created":{"date-parts":[[2024,6,17]],"date-time":"2024-06-17T13:02:07Z","timestamp":1718629327000},"page":"6853-6865","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":13,"title":["MVT-CEAM: a lightweight MobileViT with channel expansion and attention mechanism for facial expression recognition"],"prefix":"10.1007","volume":"18","author":[{"given":"Kunxia","family":"Wang","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Wancheng","family":"Yu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Takashi","family":"Yamauchi","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2024,6,17]]},"reference":[{"issue":"3","key":"3356_CR1","doi-asserted-by":"publisher","first-page":"1195","DOI":"10.1109\/TAFFC.2020.2981446","volume":"13","author":"S Li","year":"2020","unstructured":"Li, S., Deng, W.: Deep facial expression recognition: a survey. IEEE Trans. Affect. Comput. 13(3), 1195\u20131215 (2020)","journal-title":"IEEE Trans. Affect. Comput."},{"issue":"32","key":"3356_CR2","doi-asserted-by":"publisher","first-page":"23311","DOI":"10.1007\/s00521-021-06012-8","volume":"35","author":"MK Chowdary","year":"2023","unstructured":"Chowdary, M.K., Nguyen, T.N., Hemanth, D.J.: Deep learning-based facial emotion recognition for human-computer interaction applications. Neural Comput. Appl. 35(32), 23311\u201323328 (2023)","journal-title":"Neural Comput. Appl."},{"key":"3356_CR3","doi-asserted-by":"publisher","first-page":"2795","DOI":"10.1016\/j.procs.2023.01.251","volume":"218","author":"AS Rajawat","year":"2023","unstructured":"Rajawat, A.S., Bedi, P., Goyal, S., Bhaladhare, P., Aggarwal, A., Singhal, R.S.: Fusion fuzzy logic and deep learning for depression detection using facial expressions. Proc. Comput. Sci. 218, 2795\u20132805 (2023)","journal-title":"Proc. Comput. Sci."},{"issue":"12","key":"3356_CR4","doi-asserted-by":"publisher","first-page":"6937","DOI":"10.1007\/s00521-024-09437-z","volume":"36","author":"G Kumar","year":"2024","unstructured":"Kumar, G., Das, T., Singh, K.: Early detection of depression through facial expression recognition and electroencephalogram-based artificial intelligence-assisted graphical user interface. Neural Comput. Appl. 36(12), 6937\u20136954 (2024)","journal-title":"Neural Comput. Appl."},{"key":"3356_CR5","doi-asserted-by":"crossref","unstructured":"Khorrami, P., Paine, T., Huang, T.: Do deep neural networks learn facial action units when doing expression recognition? In: Proceedings of the IEEE International Conference on Computer Vision Workshops, pp. 19\u201327 (2015)","DOI":"10.1109\/ICCVW.2015.12"},{"issue":"2","key":"3356_CR6","first-page":"2067","volume":"78","author":"S Alphonse","year":"2024","unstructured":"Alphonse, S., Verma, H.: Facial expression recognition with high response-based local directional pattern (HR-LDP) network. Comput. Mater. Cont. 78(2), 2067\u20132086 (2024)","journal-title":"Comput. Mater. Cont."},{"issue":"13","key":"3356_CR7","doi-asserted-by":"publisher","first-page":"16367","DOI":"10.1007\/s10489-022-04349-8","volume":"53","author":"K Wang","year":"2023","unstructured":"Wang, K., He, R., Wang, S., Liu, L., Yamauchi, T.: The efficient-capsnet model for facial expression recognition. Appl. Intell. 53(13), 16367\u201316380 (2023)","journal-title":"Appl. Intell."},{"key":"3356_CR8","doi-asserted-by":"crossref","unstructured":"Hasani, B., Mahoor, M.H.: Spatio-temporal facial expression recognition using convolutional neural networks and conditional random fields. In: 2017 12th IEEE International Conference on Automatic Face & Gesture Recognition (FG 2017), IEEE, pp. 790\u2013795 (2017)","DOI":"10.1109\/FG.2017.99"},{"key":"3356_CR9","first-page":"5998","volume":"30","author":"A Vaswani","year":"2017","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, \u0141, Polosukhin, I.: Attention is all you need. Adv. Neural. Inf. Process. Syst. 30, 5998\u20136008 (2017)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"3356_CR10","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al.: An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020)"},{"key":"3356_CR11","doi-asserted-by":"crossref","unstructured":"Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., Guo, B.: Swin transformer: hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 10012\u201310022 (2021)","DOI":"10.1109\/ICCV48922.2021.00986"},{"issue":"1","key":"3356_CR12","doi-asserted-by":"publisher","first-page":"87","DOI":"10.1109\/TPAMI.2022.3152247","volume":"45","author":"K Han","year":"2022","unstructured":"Han, K., Wang, Y., Chen, H., Chen, X., Guo, J., Liu, Z., Tang, Y., Xiao, A., Xu, C., Xu, Y., et al.: A survey on vision transformer. IEEE Trans. Pattern Anal. Mach. Intell. 45(1), 87\u2013110 (2022)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"3356_CR13","doi-asserted-by":"publisher","first-page":"781","DOI":"10.1016\/j.ins.2022.11.068","volume":"619","author":"C Liu","year":"2023","unstructured":"Liu, C., Hirota, K., Dai, Y.: Patch attention convolutional vision transformer for facial expression recognition with occlusion. Inf. Sci. 619, 781\u2013794 (2023)","journal-title":"Inf. Sci."},{"key":"3356_CR14","doi-asserted-by":"publisher","first-page":"9995","DOI":"10.1109\/ACCESS.2023.3237817","volume":"11","author":"H Feng","year":"2023","unstructured":"Feng, H., Huang, W., Zhang, D., Zhang, B.: Fine-tuning swin transformer and multiple weights optimality-seeking for facial expression recognition. IEEE Access 11, 9995\u201310003 (2023)","journal-title":"IEEE Access"},{"key":"3356_CR15","doi-asserted-by":"publisher","first-page":"206","DOI":"10.1016\/j.ins.2023.03.105","volume":"634","author":"X Chen","year":"2023","unstructured":"Chen, X., Zheng, X., Sun, K., Liu, W., Zhang, Y.: Self-supervised vision transformer-based few-shot learning for facial expression recognition. Inf. Sci. 634, 206\u2013226 (2023)","journal-title":"Inf. Sci."},{"key":"3356_CR16","unstructured":"Mehta, S., Rastegari, M.: Mobilevit: light-weight, general-purpose, and mobile-friendly vision transformer. arXiv preprint arXiv:2110.02178 (2021)"},{"issue":"1","key":"3356_CR17","doi-asserted-by":"publisher","first-page":"223","DOI":"10.3390\/electronics12010223","volume":"12","author":"Q Cheng","year":"2023","unstructured":"Cheng, Q., Li, X., Zhu, B., Shi, Y., Xie, B.: Drone detection method based on MobileVit and CA-PANet. Electronics 12(1), 223 (2023)","journal-title":"Electronics"},{"key":"3356_CR18","first-page":"1","volume":"2023","author":"K Cao","year":"2023","unstructured":"Cao, K., Tao, H., Wang, Z., Jin, X.: MSM-ViT: A multi-scale MobileVit for pulmonary nodule classification using CT images. J. X-Ray Sci. Technol. (Preprint) 2023, 1\u201314 (2023)","journal-title":"J. X-Ray Sci. Technol. (Preprint)"},{"key":"3356_CR19","doi-asserted-by":"publisher","first-page":"1256773","DOI":"10.3389\/fpls.2023.1256773","volume":"14","author":"G Li","year":"2023","unstructured":"Li, G., Wang, Y., Zhao, Q., Chang, B.: PMVT: a lightweight vision transformer for plant disease identification on mobile devices. Front. Plant Sci. 14, 1256773 (2023)","journal-title":"Front. Plant Sci."},{"issue":"12","key":"3356_CR20","doi-asserted-by":"publisher","first-page":"3500","DOI":"10.1049\/ipr2.12881","volume":"17","author":"X Xu","year":"2023","unstructured":"Xu, X., Liu, C., Cao, S., Lu, L.: A high-performance and lightweight framework for real-time facial expression recognition. IET Image Proc. 17(12), 3500\u20133509 (2023)","journal-title":"IET Image Proc."},{"key":"3356_CR21","doi-asserted-by":"crossref","unstructured":"Wang, J., Zhang, Z.: Facial expression recognition in online course using light-weight vision transformer via knowledge distillation. In: Pacific Rim International Conference on Artificial Intelligence, Springer, pp. 247\u2013253 (2023)","DOI":"10.1007\/978-981-99-7025-4_22"},{"issue":"1","key":"3356_CR22","doi-asserted-by":"publisher","first-page":"147","DOI":"10.3390\/s24010147","volume":"24","author":"L Shen","year":"2023","unstructured":"Shen, L., Jin, X.: VaBTFER: an effective variant binary transformer for facial expression recognition. Sensors 24(1), 147 (2023)","journal-title":"Sensors"},{"key":"3356_CR23","doi-asserted-by":"crossref","unstructured":"Hu, J., Shen, L., Sun, G.: Squeeze-and-excitation networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 7132\u20137141 (2018)","DOI":"10.1109\/CVPR.2018.00745"},{"key":"3356_CR24","doi-asserted-by":"crossref","unstructured":"Yang, Y., Wang, X., Sun, B., Zhao, Q.: Channel expansion convolutional network for image classification. IEEE Access 8, 178414\u2013178424 (2020)","DOI":"10.1109\/ACCESS.2020.3027879"},{"key":"3356_CR25","doi-asserted-by":"publisher","first-page":"129116","DOI":"10.1109\/ACCESS.2022.3228331","volume":"10","author":"S Liu","year":"2022","unstructured":"Liu, S., Wang, Y., Yu, Q., Liu, H., Peng, Z.: CEAM-YOLOv7: improved YOLOv7 based on channel expansion and attention mechanism for driver distraction behavior detection. IEEE Access 10, 129116\u2013129124 (2022)","journal-title":"IEEE Access"},{"issue":"2","key":"3356_CR26","doi-asserted-by":"publisher","first-page":"647","DOI":"10.18280\/ts.400223","volume":"40","author":"SM Sundaram","year":"2023","unstructured":"Sundaram, S.M., Narayanan, R.: Human face and facial expression recognition using deep learning and sNET architecture integrated with bottleneck attention module. Traitement du Signal 40(2), 647\u2013655 (2023)","journal-title":"Traitement du Signal"},{"key":"3356_CR27","first-page":"2450131","volume":"27","author":"R Fu","year":"2023","unstructured":"Fu, R., Tian, M.: Classroom facial expression recognition method based on Conv3D-ConvLSTM-SEnet in online education environment. J. Circuits Syst. Comput. 27, 2450131 (2023)","journal-title":"J. Circuits Syst. Comput."},{"key":"3356_CR28","doi-asserted-by":"crossref","unstructured":"Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., Chen, L.-C.: Mobilenetv2: inverted residuals and linear bottlenecks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4510\u20134520 (2018)","DOI":"10.1109\/CVPR.2018.00474"},{"key":"3356_CR29","first-page":"630","volume":"91","author":"D Lundqvist","year":"1998","unstructured":"Lundqvist, D., Flykt, A., \u00d6hman, A.: Karolinska directed emotional faces. PsycTESTS Dataset 91, 630 (1998)","journal-title":"PsycTESTS Dataset"},{"issue":"1","key":"3356_CR30","doi-asserted-by":"publisher","first-page":"356","DOI":"10.1109\/TIP.2018.2868382","volume":"28","author":"S Li","year":"2019","unstructured":"Li, S., Deng, W.: Reliable crowdsourcing and deep locality-preserving learning for unconstrained facial expression recognition. IEEE Trans. Image Process. 28(1), 356\u2013370 (2019)","journal-title":"IEEE Trans. Image Process."},{"key":"3356_CR31","doi-asserted-by":"crossref","unstructured":"Selvaraju, R.R., Cogswell, M., Das, A., Vedantam, R., Parikh, D., Batra, D.: Grad-cam: visual explanations from deep networks via gradient-based localization. In: Proceedings of the IEEE International Conference on Computer Vision, pp. 618\u2013626 (2017)","DOI":"10.1109\/ICCV.2017.74"},{"issue":"11","key":"3356_CR32","first-page":"2579","volume":"9","author":"L Maaten","year":"2008","unstructured":"Maaten, L., Hinton, G.: Visualizing data using t-SNE. J. Mach. Learn. Res. 9(11), 2579\u20132605 (2008)","journal-title":"J. Mach. Learn. Res."},{"issue":"4","key":"3356_CR33","doi-asserted-by":"publisher","first-page":"1111","DOI":"10.1049\/ipr2.12700","volume":"17","author":"HNN Kumar","year":"2023","unstructured":"Kumar, H.N.N., Kumar, A.S., Prasad, M.S.G., Shah, M.A.: Automatic facial expression recognition combining texture and shape features from prominent facial regions. IET Image Process. 17(4), 1111\u20131125 (2023)","journal-title":"IET Image Process."},{"issue":"4","key":"3356_CR34","doi-asserted-by":"publisher","first-page":"893","DOI":"10.1109\/TETCI.2021.3120513","volume":"6","author":"Y Zhou","year":"2021","unstructured":"Zhou, Y., Jin, L., Ma, G., Xu, X.: Quaternion capsule neural network with region attention for facial expression recognition in color images. IEEE Trans. Emerg. Topics Comput. Intell. 6(4), 893\u2013912 (2021)","journal-title":"IEEE Trans. Emerg. Topics Comput. Intell."},{"key":"3356_CR35","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2023.110174","volume":"148","author":"T Liu","year":"2024","unstructured":"Liu, T., Li, J., Wu, J., Du, B., Wan, J., Chang, J.: Confusable facial expression recognition with geometry-aware conditional network. Pattern Recogn. 148, 110174 (2024)","journal-title":"Pattern Recogn."},{"issue":"10","key":"3356_CR36","doi-asserted-by":"publisher","first-page":"5001","DOI":"10.1007\/s00371-022-02642-8","volume":"39","author":"Y Xi","year":"2023","unstructured":"Xi, Y., Mao, Q., Zhou, L.: Weighted contrastive learning using pseudo labels for facial expression recognition. Vis. Comput. 39(10), 5001\u20135012 (2023)","journal-title":"Vis. Comput."},{"key":"3356_CR37","doi-asserted-by":"publisher","first-page":"195","DOI":"10.1016\/j.ins.2021.07.034","volume":"578","author":"Y Liu","year":"2021","unstructured":"Liu, Y., Dai, W., Fang, F., Chen, Y., Huang, R., Wang, R., Wan, B.: Dynamic multi-channel metric network for joint pose-aware and identity-invariant facial expression recognition. Inf. Sci. 578, 195\u2013213 (2021)","journal-title":"Inf. Sci."},{"key":"3356_CR38","doi-asserted-by":"crossref","unstructured":"Zheng, C., Mendieta, M., Chen, C.: Poster: a pyramid cross-fusion transformer network for facial expression recognition. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 3146\u20133155 (2023)","DOI":"10.1109\/ICCVW60793.2023.00339"},{"issue":"7","key":"3356_CR39","doi-asserted-by":"publisher","first-page":"2005","DOI":"10.1049\/ipr2.12743","volume":"17","author":"W Zhang","year":"2023","unstructured":"Zhang, W., Zhang, X., Tang, Y.: Facial expression recognition based on improved residual network. IET Image Proc. 17(7), 2005\u20132014 (2023)","journal-title":"IET Image Proc."},{"issue":"1","key":"3356_CR40","doi-asserted-by":"publisher","first-page":"451","DOI":"10.1109\/TAFFC.2020.3031602","volume":"14","author":"Y Li","year":"2020","unstructured":"Li, Y., Lu, G., Li, J., Zhang, Z., Zhang, D.: Facial expression recognition in the wild using multi-level features and attention mechanisms. IEEE Trans. Affect. Comput. 14(1), 451\u2013462 (2020)","journal-title":"IEEE Trans. Affect. Comput."},{"key":"3356_CR41","doi-asserted-by":"crossref","unstructured":"Jabbooree, A.I., Khanli, L.M., Salehpour, P., Pourbahrami, S.: A novel facial expression recognition algorithm using geometry $$\\beta $$-skeleton in fusion based on deep CNN. Image Vision Comput. 134, 104677 (2023)","DOI":"10.1016\/j.imavis.2023.104677"},{"key":"3356_CR42","unstructured":"Chu, X., Tian, Z., Wang, Y., Zhang, B., Ren, H., Wei, X., Xia, H., Shen, C.: Twins: revisiting spatial attention design in vision transformers. arXiv preprint arXiv:2104.13840 (2021)"},{"key":"3356_CR43","doi-asserted-by":"crossref","unstructured":"Sajjad, M., Zahir, S., Ullah, A., Akhtar, Z., Muhammad, K.: Human behavior understanding in big multimedia data using CNN based facial expression recognition. Mobile Netw. Appl. 25, 1611\u20131621 (2020)","DOI":"10.1007\/s11036-019-01366-9"},{"key":"3356_CR44","doi-asserted-by":"crossref","unstructured":"Wang, K., Peng, X., Yang, J., Meng, D., Qiao, Y.: Region attention networks for pose and occlusion robust facial expression recognition. IEEE Trans. Image Process. 29, 4057\u20134069 (2020)","DOI":"10.1109\/TIP.2019.2956143"}],"container-title":["Signal, Image and Video Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11760-024-03356-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11760-024-03356-1\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11760-024-03356-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,8,10]],"date-time":"2024-08-10T10:20:42Z","timestamp":1723285242000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11760-024-03356-1"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,6,17]]},"references-count":44,"journal-issue":{"issue":"10","published-print":{"date-parts":[[2024,9]]}},"alternative-id":["3356"],"URL":"https:\/\/doi.org\/10.1007\/s11760-024-03356-1","relation":{},"ISSN":["1863-1703","1863-1711"],"issn-type":[{"value":"1863-1703","type":"print"},{"value":"1863-1711","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,6,17]]},"assertion":[{"value":"19 May 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"29 May 2024","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"6 June 2024","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"17 June 2024","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare that they have no known competing financial interests or personal relationships that could have appeared to influence the work reported in this paper.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}