{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,18]],"date-time":"2026-02-18T23:23:34Z","timestamp":1771457014896,"version":"3.50.1"},"reference-count":88,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2022,1,5]],"date-time":"2022-01-05T00:00:00Z","timestamp":1641340800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2022,1,5]],"date-time":"2022-01-05T00:00:00Z","timestamp":1641340800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100001809","name":"Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62071404; 61872307"],"award-info":[{"award-number":["62071404; 61872307"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100003392","name":"Natural Science Foundation of Fujian Province","doi-asserted-by":"publisher","award":["2020J01001"],"award-info":[{"award-number":["2020J01001"]}],"id":[{"id":"10.13039\/501100003392","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Youth Innovation Foundation of Xiamen City","award":["3502Z20206046"],"award-info":[{"award-number":["3502Z20206046"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2022,2]]},"DOI":"10.1007\/s11263-021-01556-7","type":"journal-article","created":{"date-parts":[[2022,1,5]],"date-time":"2022-01-05T10:02:47Z","timestamp":1641376967000},"page":"455-477","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":40,"title":["Adaptive Deep Disturbance-Disentangled Learning for Facial Expression Recognition"],"prefix":"10.1007","volume":"130","author":[{"given":"Delian","family":"Ruan","sequence":"first","affiliation":[]},{"given":"Rongyun","family":"Mo","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3674-7160","authenticated-orcid":false,"given":"Yan","family":"Yan","sequence":"additional","affiliation":[]},{"given":"Si","family":"Chen","sequence":"additional","affiliation":[]},{"given":"Jing-Hao","family":"Xue","sequence":"additional","affiliation":[]},{"given":"Hanzi","family":"Wang","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2022,1,5]]},"reference":[{"key":"1556_CR1","doi-asserted-by":"crossref","unstructured":"Acharya, D., Huang, Z., Pani Paudel, D., & Van Gool, L. (2018). Covariance pooling for facial expression recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition workshops (pp. 367\u2013374).","DOI":"10.1109\/CVPRW.2018.00077"},{"key":"1556_CR2","unstructured":"Anas, H., Rehman, B., & Ong, W.\u00a0H. (2020) Deep convolutional neural network based facial expression recognition in the wild. arXiv preprint arXiv:2010.01301"},{"issue":"1","key":"1556_CR3","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1177\/1529100619832930","volume":"20","author":"LF Barrett","year":"2019","unstructured":"Barrett, L. F., Adolphs, R., Marsella, S., Martinez, A. M., & Pollak, S. D. (2019). Emotional expressions reconsidered: Challenges to inferring emotion from human facial movements. Psychological Science in The Public Interest, 20(1), 1\u201368.","journal-title":"Psychological Science in The Public Interest"},{"key":"1556_CR4","unstructured":"Belghazi, M. I., Baratin, A., Rajeshwar, S., Ozair, S., Bengio, Y., Courville, A., & Hjelm, D. (2018). Mutual information neural estimation. In Proceedings of the International conference on machine learning (pp. 531\u2013540)."},{"issue":"6\u20137","key":"1556_CR5","doi-asserted-by":"publisher","first-page":"930","DOI":"10.1007\/s11263-019-01151-x","volume":"127","author":"FJ Chang","year":"2019","unstructured":"Chang, F. J., Tran, A. T., Hassner, T., Masi, I., Nevatia, R., & Medioni, G. (2019). Deep, landmark-free fame: Face alignment, modeling, and expression estimation. International Journal of Computer Vision, 127(6\u20137), 930\u2013956.","journal-title":"International Journal of Computer Vision"},{"key":"1556_CR6","doi-asserted-by":"crossref","unstructured":"Chen, J., Konrad, J., & Ishwar, P. (2018). VGAN-based image representation learning for privacy-preserving facial expression recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition workshops (pp. 1570\u20131579).","DOI":"10.1109\/CVPRW.2018.00207"},{"key":"1556_CR7","doi-asserted-by":"crossref","unstructured":"Chen, S., Wang, J., Chen, Y., Shi, Z., Geng, X., & Rui, Y. (2020). Label distribution learning on auxiliary label space graphs for facial expression recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 13984\u201313993).","DOI":"10.1109\/CVPR42600.2020.01400"},{"key":"1556_CR8","doi-asserted-by":"crossref","unstructured":"Chen, Y., Wang, J., Chen, S., Shi, Z., & Cai, J. (2019) Facial motion prior networks for facial expression recognition. In Proceedings of the IEEE conference on visual communications and image processing (pp. 1\u20134).","DOI":"10.1109\/VCIP47243.2019.8965826"},{"key":"1556_CR9","doi-asserted-by":"crossref","unstructured":"Chu, X., Yang, W., Ouyang, W., Ma, C., Yuille, A.\u00a0L., & Wang, X. (2017). Multi-context attention for human pose estimation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1831\u20131840).","DOI":"10.1109\/CVPR.2017.601"},{"issue":"2\u20134","key":"1556_CR10","doi-asserted-by":"publisher","first-page":"255","DOI":"10.1007\/s11263-017-1010-1","volume":"126","author":"A Dapogny","year":"2018","unstructured":"Dapogny, A., Bailly, K., & Dubuisson, S. (2018). Confidence-weighted local expression predictions for occlusion handling in expression recognition and action unit detection. International Journal of Computer Vision, 126(2\u20134), 255\u2013271.","journal-title":"International Journal of Computer Vision"},{"key":"1556_CR11","doi-asserted-by":"crossref","unstructured":"Deng, D., Chen, Z., & Shi, B.\u00a0E. (2020) Multitask emotion recognition with incomplete labels. In Proceedings of IEEE international conference on automatic face & gesture recognition (pp. 828\u2013835).","DOI":"10.1109\/FG47880.2020.00131"},{"key":"1556_CR12","doi-asserted-by":"crossref","unstructured":"Dhall, A., Goecke, R., Lucey, S., & Gedeon, T. (2011). Static facial expression analysis in tough conditions: Data, evaluation protocol and benchmark. In Proceedings of the IEEE international conference on computer vision workshops (pp. 2106\u20132112).","DOI":"10.1109\/ICCVW.2011.6130508"},{"key":"1556_CR13","doi-asserted-by":"crossref","unstructured":"Ding, H., Zhou, S.\u00a0K., & Chellappa, R. (2017). FaceNet2ExpNet: Regularizing a deep face recognition net for expression recognition. In Proceedings of the international conference on automatic face and gesture recognition (pp. 118\u2013126).","DOI":"10.1109\/FG.2017.23"},{"issue":"2","key":"1556_CR14","doi-asserted-by":"publisher","first-page":"183","DOI":"10.1002\/cpa.3160360204","volume":"36","author":"MD Donsker","year":"1983","unstructured":"Donsker, M. D., & Varadhan, S. S. (1983). Asymptotic evaluation of certain Markov process expectations for large time. IV. Communications on Pure and Applied Mathematics, 36(2), 183\u2013212.","journal-title":"Communications on Pure and Applied Mathematics"},{"key":"1556_CR15","unstructured":"Dresvyanskiy, D., Ryumina, E., Kaya, H., Markitantov, M., Karpov, A., & Minker, W. (2020) An audio-video deep and transfer learning framework for multimodal emotion recognition in the wild. arXiv preprint arXiv:2010.03692"},{"issue":"1","key":"1556_CR16","doi-asserted-by":"publisher","first-page":"56","DOI":"10.1007\/BF01115465","volume":"1","author":"P Ekman","year":"1976","unstructured":"Ekman, P., & Friesen, W. V. (1976). Measuring facial movement. Environmental Psychology and Nonverbal Behavior, 1(1), 56\u201375.","journal-title":"Environmental Psychology and Nonverbal Behavior"},{"key":"1556_CR17","doi-asserted-by":"crossref","unstructured":"Farzaneh, A.\u00a0H., & Qi, X. (2021) Facial expression recognition in the wild via deep attentive center loss. In Proceedings of IEEE winter conference on applications of computer vision (pp. 2402\u20132411).","DOI":"10.1109\/WACV48630.2021.00245"},{"key":"1556_CR18","doi-asserted-by":"crossref","unstructured":"Fu, J., Zheng, H., & Mei, T. (2017). Look closer to see better: Recurrent attention convolutional neural network for fine-grained image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 4438\u20134446).","DOI":"10.1109\/CVPR.2017.476"},{"key":"1556_CR19","doi-asserted-by":"crossref","unstructured":"Gera, D., & Balasubramanian, S. (2020) Affect expression behaviour analysis in the wild using spatio-channel attention and complementary context information. arXiv preprint arXiv:2009.14440","DOI":"10.1016\/j.patrec.2021.01.029"},{"issue":"5","key":"1556_CR20","doi-asserted-by":"publisher","first-page":"807","DOI":"10.1016\/j.imavis.2009.08.002","volume":"28","author":"R Gross","year":"2010","unstructured":"Gross, R., Matthews, I., Cohn, J., Kanade, T., & Baker, S. (2010). Multi-pie. Image and Vision Computing, 28(5), 807\u2013813.","journal-title":"Image and Vision Computing"},{"key":"1556_CR21","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 770\u2013778).","DOI":"10.1109\/CVPR.2016.90"},{"key":"1556_CR22","doi-asserted-by":"crossref","unstructured":"Hu, J., Shen, L., & Sun, G. (2018). Squeeze-and-excitation networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7132\u20137141).","DOI":"10.1109\/CVPR.2018.00745"},{"key":"1556_CR23","doi-asserted-by":"crossref","unstructured":"Hu, P., Cai, D., Wang, S., Yao, A., & Chen, Y. (2017). Learning supervised scoring ensemble for emotion recognition in the wild. In Proceedings of ACM international conference on multimodal interaction (pp. 553\u2013560).","DOI":"10.1145\/3136755.3143009"},{"key":"1556_CR24","doi-asserted-by":"crossref","unstructured":"Hung, S.\u00a0C., Lee, J.\u00a0H., Wan, T.\u00a0S., Chen, C.\u00a0H., Chan, Y.\u00a0M., & Chen, C.\u00a0S. (2019a) Increasingly packing multiple facial-informatics modules in a unified deep-learning model via lifelong learning. In Proceedings of the international conference on multimedia retrieval (pp. 339\u2013343).","DOI":"10.1145\/3323873.3325053"},{"key":"1556_CR25","unstructured":"Hung, S.\u00a0C., Tu, C.\u00a0H., Wu, C.\u00a0E., Chen, C.\u00a0H., Chan, Y.\u00a0M., & Chen, C.\u00a0S. (2019b) Compacting, picking and growing for unforgetting continual learning. arXiv preprint arXiv:1910.06562"},{"key":"1556_CR26","doi-asserted-by":"publisher","first-page":"17","DOI":"10.1016\/j.cviu.2019.01.006","volume":"182","author":"Y Jang","year":"2019","unstructured":"Jang, Y., Gunes, H., & Patras, I. (2019). Registration-free face-SSD: Single shot analysis of smiles, facial attributes, and affect in the wild. Computer Vision and Image Understanding, 182, 17\u201329.","journal-title":"Computer Vision and Image Understanding"},{"key":"1556_CR27","doi-asserted-by":"crossref","unstructured":"Jung, H., Lee, S., Yim, J., Park, S., & Kim, J. (2015). Joint fine-tuning in deep neural networks for facial expression recognition. In Proceedings of the IEEE international conference on computer vision (pp. 2983\u20132991).","DOI":"10.1109\/ICCV.2015.341"},{"key":"1556_CR28","unstructured":"Kingma, D.\u00a0P., & Ba, J. (2014). Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980."},{"key":"1556_CR29","unstructured":"Kollias, D., & Zafeiriou, S. (2018) Aff-Wild2: Extending the aff-Wild database for affect recognition. arXiv preprint arXiv:1811.07770"},{"key":"1556_CR30","unstructured":"Kollias, D., Cheng, S., Ververas, E., Kotsia, I., & Zafeiriou, S. (2018) Generating faces for affect analysis. arXiv preprint arXiv:1811.05027"},{"issue":"6","key":"1556_CR31","doi-asserted-by":"publisher","first-page":"907","DOI":"10.1007\/s11263-019-01158-4","volume":"127","author":"D Kollias","year":"2019","unstructured":"Kollias, D., Tzirakis, P., Nicolaou, M. A., Papaioannou, A., Zhao, G., Schuller, B., et al. (2019). Deep affect prediction in-the-wild: Aff-Wild database and challenge, deep architectures, and beyond. International Journal of Computer Vision, 127(6), 907\u2013929.","journal-title":"International Journal of Computer Vision"},{"issue":"5","key":"1556_CR32","doi-asserted-by":"publisher","first-page":"1455","DOI":"10.1007\/s11263-020-01304-3","volume":"128","author":"D Kollias","year":"2020","unstructured":"Kollias, D., Cheng, S., Ververas, E., Kotsia, I., & Zafeiriou, S. (2020a). Deep neural network augmentation: Generating faces for affect analysis. International Journal of Computer Vision, 128(5), 1455\u20131484.","journal-title":"International Journal of Computer Vision"},{"key":"1556_CR33","doi-asserted-by":"crossref","unstructured":"Kollias, D., Schulc, A., Hajiyev, E., & Zafeiriou, S. (2020b) Analysing affective behavior in the first ABAW 2020 competition. arXiv preprint arXiv:2001.11409","DOI":"10.1109\/FG47880.2020.00126"},{"key":"1556_CR34","first-page":"1","volume":"21","author":"J Kossaifi","year":"2020","unstructured":"Kossaifi, J., Lipton, Z. C., Kolbeinsson, A., Khanna, A., Furlanello, T., & Anandkumar, A. (2020a). Tensor regression networks. Journal of Machine Learning Research, 21, 1\u201321.","journal-title":"Journal of Machine Learning Research"},{"key":"1556_CR35","doi-asserted-by":"crossref","unstructured":"Kossaifi, J., Toisoul, A., Bulat, A., Panagakis, Y., Hospedales, T.\u00a0M., & Pantic, M. (2020b) Factorized higher-order CNNs with an application to spatio-temporal emotion estimation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6060\u20136069).","DOI":"10.1109\/CVPR42600.2020.00610"},{"key":"1556_CR36","doi-asserted-by":"crossref","unstructured":"Kuhnke, F., Rumberg, L., & Ostermann, J. (2020). Two-stream aural-visual affect analysis in the wild. arXiv preprint arXiv:2002.03399","DOI":"10.1109\/FG47880.2020.00056"},{"issue":"1","key":"1556_CR37","doi-asserted-by":"publisher","first-page":"356","DOI":"10.1109\/TIP.2018.2868382","volume":"28","author":"S Li","year":"2018","unstructured":"Li, S., & Deng, W. (2018). Reliable crowdsourcing and deep locality-preserving learning for unconstrained facial expression recognition. IEEE Transactions on Image Processing, 28(1), 356\u2013370.","journal-title":"IEEE Transactions on Image Processing"},{"issue":"6\u20137","key":"1556_CR38","doi-asserted-by":"publisher","first-page":"884","DOI":"10.1007\/s11263-018-1131-1","volume":"127","author":"S Li","year":"2019","unstructured":"Li, S., & Deng, W. (2019). Blended emotion in-the-wild: Multi-label facial expression recognition using crowdsourced annotations and deep locality feature learning. International Journal of Computer Vision, 127(6\u20137), 884\u2013906.","journal-title":"International Journal of Computer Vision"},{"key":"1556_CR39","doi-asserted-by":"crossref","unstructured":"Li, S., & Deng, W. (2020). Deep facial expression recognition: A survey. IEEE Transactions on Affective Computing, 1\u201325.","DOI":"10.1109\/TAFFC.2020.2981446"},{"key":"1556_CR40","doi-asserted-by":"crossref","unstructured":"Li, S., Deng, W., & Du, J. (2017). Reliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2852\u20132861).","DOI":"10.1109\/CVPR.2017.277"},{"issue":"5","key":"1556_CR41","doi-asserted-by":"publisher","first-page":"2439","DOI":"10.1109\/TIP.2018.2886767","volume":"28","author":"Y Li","year":"2018","unstructured":"Li, Y., Zeng, J., Shan, S., & Chen, X. (2018). Occlusion aware facial expression recognition using CNN with attention mechanism. IEEE Transactions on Image Processing, 28(5), 2439\u20132450.","journal-title":"IEEE Transactions on Image Processing"},{"key":"1556_CR42","doi-asserted-by":"crossref","unstructured":"Li, Y., Zeng, J., Shan, S., & Chen, X. (2019) Self-supervised representation learning from videos for facial action unit detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 10924\u201310933).","DOI":"10.1109\/CVPR.2019.01118"},{"key":"1556_CR43","unstructured":"Liu, H., Zeng, J., Shan, S., & Chen, X. (2020) Emotion recognition for in-the-wild videos. arXiv preprint arXiv:2002.05447"},{"key":"1556_CR44","doi-asserted-by":"crossref","unstructured":"Liu, S., Johns, E., & Davison, A.\u00a0J. (2019). End-to-end multi-task learning with attention. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1871\u20131880).","DOI":"10.1109\/CVPR.2019.00197"},{"key":"1556_CR45","doi-asserted-by":"crossref","unstructured":"Liu, Y., Zeng, J., Shan, S., & Zheng, Z. (2018). Multi-channel pose-aware convolution neural networks for multi-view facial expression recognition. In Proceedings of the international conference on automatic face and gesture recognition (pp. 458\u2013465).","DOI":"10.1109\/FG.2018.00074"},{"key":"1556_CR46","doi-asserted-by":"crossref","unstructured":"Liu, Z., Luo, P., Wang, X., & Tang, X. (2015) Deep learning face attributes in the wild. In Proceedings of the IEEE international conference on computer vision (pp. 3730\u20133738).","DOI":"10.1109\/ICCV.2015.425"},{"key":"1556_CR47","doi-asserted-by":"crossref","unstructured":"Lucey, P., Cohn, J.\u00a0F., Kanade, T., Saragih, J., Ambadar, Z., & Matthews, I. (2010). The extended Cohn-Kanade dataset (CK+): A complete dataset for action unit and emotion-specified expression. In Proceedings of the IEEE conference on computer vision and pattern recognition-workshops (pp. 94\u2013101).","DOI":"10.1109\/CVPRW.2010.5543262"},{"key":"1556_CR48","doi-asserted-by":"crossref","unstructured":"Lv, F., Chen, X., Huang, Y., Duan, L., & Lin, G. (2021) Progressive modality reinforcement for human multimodal emotion recognition from unaligned multimodal sequences. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2554\u20132562).","DOI":"10.1109\/CVPR46437.2021.00258"},{"issue":"11","key":"1556_CR49","first-page":"2579","volume":"9","author":"LVD Maaten","year":"2008","unstructured":"Maaten, L. V. D., & Hinton, G. (2008). Visualizing data using t-SNE. Journal of Machine Learning Research, 9(11), 2579\u20132605.","journal-title":"Journal of Machine Learning Research"},{"key":"1556_CR50","doi-asserted-by":"crossref","unstructured":"Meng, Z., Liu, P., Cai, J., Han, S., & Tong, Y. (2017). Identity-aware convolutional neural network for facial expression recognition. In Proceedings of the international conference on automatic face and gesture recognition (pp. 558\u2013565).","DOI":"10.1109\/FG.2017.140"},{"key":"1556_CR51","doi-asserted-by":"crossref","unstructured":"Mollahosseini, A., Chan, D., & Mahoor, M.\u00a0H. (2016). Going deeper in facial expression recognition using deep neural networks. In Proceedings of the IEEE winter conference on applications of computer vision (pp. 1\u201310).","DOI":"10.1109\/WACV.2016.7477450"},{"issue":"1","key":"1556_CR52","doi-asserted-by":"publisher","first-page":"18","DOI":"10.1109\/TAFFC.2017.2740923","volume":"10","author":"A Mollahosseini","year":"2017","unstructured":"Mollahosseini, A., Hasani, B., & Mahoor, M. H. (2017). AffectNet: A database for facial expression, valence, and arousal computing in the wild. IEEE Transactions on Affective Computing, 10(1), 18\u201331.","journal-title":"IEEE Transactions on Affective Computing"},{"issue":"1","key":"1556_CR53","first-page":"1","volume":"52","author":"MT Motley","year":"1988","unstructured":"Motley, M. T., & Camden, C. T. (1988). Facial expression of emotion: A comparison of posed expressions versus spontaneous expressions in an interpersonal communication setting. Western Journal of Communication (includes Communication Reports), 52(1), 1\u201322.","journal-title":"Western Journal of Communication (includes Communication Reports)"},{"issue":"12","key":"1556_CR54","doi-asserted-by":"publisher","first-page":"1424","DOI":"10.1109\/34.895976","volume":"22","author":"M Pantic","year":"2000","unstructured":"Pantic, M., & Rothkrantz, L. J. M. (2000). Automatic analysis of facial expressions: The state of the art. IEEE Transactions on Pattern Analysis and Machine Intelligence, 22(12), 1424\u20131445.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1556_CR55","doi-asserted-by":"crossref","unstructured":"Rifai, S., Bengio, Y., Courville, A., Vincent, P., & Mirza, M. (2012). Disentangling factors of variation for facial expression recognition. In Proceedings of the European conference on computer vision (pp. 808\u2013822).","DOI":"10.1007\/978-3-642-33783-3_58"},{"key":"1556_CR56","doi-asserted-by":"crossref","unstructured":"Ruan, D., Yan, Y., Chen, S., Xue, J-H., & Wang, H. (2020). Deep disturbance-disentangled learning for facial expression recognition. In Proceedings of the ACM international conference on multimedia (pp. 2833\u20132841).","DOI":"10.1145\/3394171.3413907"},{"key":"1556_CR57","doi-asserted-by":"publisher","first-page":"107","DOI":"10.1016\/j.patcog.2019.107127","volume":"102","author":"N Sankaran","year":"2020","unstructured":"Sankaran, N., Mohan, D. D., Lakshminarayana, N. N., Setlur, S., & Govindaraju, V. (2020). Domain adaptive representation learning for facial action unit recognition. Pattern Recognition, 102, 107\u2013127.","journal-title":"Pattern Recognition"},{"key":"1556_CR58","doi-asserted-by":"crossref","unstructured":"Savchenko, A.\u00a0V. (2021) Facial expression and attributes recognition based on multi-task learning of lightweight neural networks. arXiv preprint arXiv:2103.17107","DOI":"10.1109\/SISY52375.2021.9582508"},{"key":"1556_CR59","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V. & Rabinovich, A. (2015). Going deeper with convolutions. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 1\u20139).","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"1556_CR60","unstructured":"Valstar, M., & Pantic, M. (2010). Induced disgust, happiness and surprise: an addition to the mmi facial expression database. In Proceedings of the international workshop on EMOTION (satellite of LREC): Corpora for research on emotion and affect (pp. 65\u201370)."},{"key":"1556_CR61","doi-asserted-by":"publisher","first-page":"131988","DOI":"10.1109\/ACCESS.2020.3010018","volume":"8","author":"TH Vo","year":"2020","unstructured":"Vo, T. H., Lee, G. S., Yang, H. J., & Kim, S. H. (2020). Pyramid with super resolution for in-the-wild facial expression recognition. IEEE Access, 8, 131988\u2013132001.","journal-title":"IEEE Access"},{"key":"1556_CR62","doi-asserted-by":"crossref","unstructured":"Wang, C., Wang, S., & Liang, G. (2019). Identity- and pose-robust facial expression recognition through adversarial feature learning. In Proceedings of the ACM international conference on multimedia (pp. 238\u2013246).","DOI":"10.1145\/3343031.3350872"},{"key":"1556_CR63","doi-asserted-by":"crossref","unstructured":"Wang, C., Hu, R., Hu, M., Liu, J., Ren, T., He, S., Jiang, M., & Miao, J. (2020a) Lossless attention in convolutional networks for facial expression recognition in the wild. arXiv preprint arXiv:2001.11869","DOI":"10.1109\/IJCNN52387.2021.9534217"},{"key":"1556_CR64","doi-asserted-by":"crossref","unstructured":"Wang, K., Peng, X., Yang, J., Lu, S., & Qiao, Y. (2020b). Suppressing uncertainties for large-scale facial expression recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 6897\u20136906).","DOI":"10.1109\/CVPR42600.2020.00693"},{"issue":"1","key":"1556_CR65","doi-asserted-by":"publisher","first-page":"4057","DOI":"10.1109\/TIP.2019.2956143","volume":"29","author":"K Wang","year":"2020","unstructured":"Wang, K., Peng, X., Yang, J., Meng, D., & Qiao, Y. (2020c). Region attention networks for pose and occlusion robust facial expression recognition. IEEE Transactions on Image Processing, 29(1), 4057\u20134069.","journal-title":"IEEE Transactions on Image Processing"},{"key":"1556_CR66","unstructured":"Wang, W., Fu, Y., Sun, Q., Chen, T., Cao, C., Zheng, Z., Xu, G., Qiu, H., Jiang, Y., & Xue, X. (2020d). Learning to augment expressions for few-shot fine-grained facial expression recognition. arXiv preprint arXiv:2001.06144"},{"issue":"6","key":"1556_CR67","doi-asserted-by":"publisher","first-page":"1412","DOI":"10.1109\/TMM.2018.2877886","volume":"21","author":"L Wu","year":"2018","unstructured":"Wu, L., Wang, Y., Gao, J., & Li, X. (2018). Where-and-when to look: Deep siamese attention networks for video-based person re-identification. IEEE Transactions on Multimedia, 21(6), 1412\u20131424.","journal-title":"IEEE Transactions on Multimedia"},{"key":"1556_CR68","doi-asserted-by":"publisher","first-page":"177","DOI":"10.1016\/j.patcog.2019.03.019","volume":"92","author":"S Xie","year":"2019","unstructured":"Xie, S., Hu, H., & Wu, Y. (2019a). Deep multi-path convolutional neural network joint with salient region attention for facial expression recognition. Pattern Recognition, 92, 177\u2013191.","journal-title":"Pattern Recognition"},{"issue":"6","key":"1556_CR69","doi-asserted-by":"publisher","first-page":"2359","DOI":"10.1109\/TCSVT.2020.3024201","volume":"31","author":"S Xie","year":"2020","unstructured":"Xie, S., Hu, H., & Chen, Y. (2020). Facial expression recognition with two-branch disentangled generative adversarial network. IEEE Transactions on Circuits and Systems for Video Technology, 31(6), 2359\u20132371.","journal-title":"IEEE Transactions on Circuits and Systems for Video Technology"},{"key":"1556_CR70","doi-asserted-by":"publisher","first-page":"106966","DOI":"10.1016\/j.patcog.2019.106966","volume":"96","author":"W Xie","year":"2019","unstructured":"Xie, W., Jia, X., Shen, L., & Yang, M. (2019b). Sparse deep feature learning for facial expression recognition. Pattern Recognition, 96, 106966.","journal-title":"Pattern Recognition"},{"key":"1556_CR71","unstructured":"Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., Zemel, R. and Bengio, Y. (2015). Show, attend and tell: Neural image caption generation with visual attention. In Proceedings of the International conference on machine learning (pp. 2048\u20132057)."},{"issue":"11","key":"1556_CR72","doi-asserted-by":"publisher","first-page":"2792","DOI":"10.1109\/TMM.2019.2962317","volume":"22","author":"Y Yan","year":"2020","unstructured":"Yan, Y., Huang, Y., Chen, S., Shen, C., & Wang, H. (2020). Joint deep learning of facial expression synthesis and recognition. IEEE Transactions on Multimedia, 22(11), 2792\u20132807.","journal-title":"IEEE Transactions on Multimedia"},{"key":"1556_CR73","doi-asserted-by":"crossref","unstructured":"Yang, H., Ciftci, U., & Yin, L. (2018a). Facial expression recognition by de-expression residue learning. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2168\u20132177).","DOI":"10.1109\/CVPR.2018.00231"},{"key":"1556_CR74","doi-asserted-by":"crossref","unstructured":"Yang, H., Zhang, Z., & Yin, L. (2018b). Identity-adaptive facial expression recognition through expression regeneration using conditional generative adversarial networks. In Proceedings of the International conference on automatic face and gesture recognition (pp. 294\u2013301).","DOI":"10.1109\/FG.2018.00050"},{"key":"1556_CR75","doi-asserted-by":"crossref","unstructured":"Yu, Z., & Zhang, C. (2015). Image based static facial expression recognition with multiple deep network learning. In Proceedings of the ACM international conference on multimodal interaction (pp. 435\u2013442).","DOI":"10.1145\/2818346.2830595"},{"key":"1556_CR76","doi-asserted-by":"crossref","unstructured":"Zeng, J., Shan, S., & Chen, X. (2018). Facial expression recognition with inconsistently annotated datasets. In Proceedings of the European conference on computer vision  (pp. 222\u2013237).","DOI":"10.1007\/978-3-030-01261-8_14"},{"key":"1556_CR77","doi-asserted-by":"crossref","unstructured":"Zhang, F., Zhang, T., Mao, Q., Duan, L., & Xu, C. (2018a). Facial expression recognition in the wild: A cycle-consistent adversarial attention transfer approach. In Proceedings of the ACM international conference on multimedia (pp. 126\u2013135).","DOI":"10.1145\/3240508.3240574"},{"key":"1556_CR78","doi-asserted-by":"crossref","unstructured":"Zhang, F., Zhang, T., Mao, Q., & Xu, C. (2018b). Joint pose and expression modeling for facial expression recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3359\u20133368).","DOI":"10.1109\/CVPR.2018.00354"},{"key":"1556_CR79","doi-asserted-by":"crossref","unstructured":"Zhang, F., Zhang, T., Mao, Q., & Xu, C. (2020a). Geometry guided pose-invariant facial expression recognition. IEEE Transactions on Image Processing, 29, 4445\u20134460.","DOI":"10.1109\/TIP.2020.2972114"},{"key":"1556_CR80","doi-asserted-by":"publisher","first-page":"6574","DOI":"10.1109\/TIP.2020.2991549","volume":"29","author":"F Zhang","year":"2020","unstructured":"Zhang, F., Zhang, T., Mao, Q., & Xu, C. (2020b). A unified deep model for joint facial expression recognition, face synthesis, and face alignment. IEEE Transactions on Image Processing, 29, 6574\u20136589.","journal-title":"IEEE Transactions on Image Processing"},{"issue":"9","key":"1556_CR81","doi-asserted-by":"publisher","first-page":"4193","DOI":"10.1109\/TIP.2017.2689999","volume":"26","author":"K Zhang","year":"2017","unstructured":"Zhang, K., Huang, Y., Du, Y., & Wang, L. (2017). Facial expression recognition based on deep evolutional spatial-temporal networks. IEEE Transactions on Image Processing, 26(9), 4193\u20134203.","journal-title":"IEEE Transactions on Image Processing"},{"key":"1556_CR82","doi-asserted-by":"crossref","unstructured":"Zhang, Y.\u00a0H., Huang, R., Zeng, J., Shan, S., & Chen, X. (2020c) M$$^3$$T: Multi-modal continuous valence-arousal estimation in the wild. arXiv preprint arXiv:2002.02957","DOI":"10.1109\/FG47880.2020.00098"},{"issue":"5","key":"1556_CR83","doi-asserted-by":"publisher","first-page":"550","DOI":"10.1007\/s11263-017-1055-1","volume":"126","author":"Z Zhang","year":"2018","unstructured":"Zhang, Z., Luo, P., Loy, C. C., & Tang, X. (2018c). From facial expression recognition to interpersonal relation prediction. International Journal of Computer Vision, 126(5), 550\u2013569.","journal-title":"International Journal of Computer Vision"},{"key":"1556_CR84","unstructured":"Zhang, Z., Zhai, S., & Yin, L. (2018d) Identity-based adversarial training of deep CNNS for facial action unit recognition. In Proceedings of the British machine vision conference (pp. 1\u201313)."},{"issue":"6","key":"1556_CR85","doi-asserted-by":"publisher","first-page":"915","DOI":"10.1109\/TPAMI.2007.1110","volume":"29","author":"G Zhao","year":"2007","unstructured":"Zhao, G., & Pietik\u00e4inen, M. (2007). Dynamic texture recognition using local binary patterns with an application to facial expressions. IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(6), 915\u2013928.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"issue":"9","key":"1556_CR86","doi-asserted-by":"publisher","first-page":"607","DOI":"10.1016\/j.imavis.2011.07.002","volume":"29","author":"G Zhao","year":"2011","unstructured":"Zhao, G., Huang, X., Taini, M., Li, S. Z., & Pietik\u00e4Inen, M. (2011). Facial expression recognition from near-infrared videos. Image and Vision Computing, 29(9), 607\u2013619.","journal-title":"Image and Vision Computing"},{"key":"1556_CR87","doi-asserted-by":"crossref","unstructured":"Zhao, T., & Wu, X. (2019). Pyramid feature attention network for saliency detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3085\u20133094).","DOI":"10.1109\/CVPR.2019.00320"},{"key":"1556_CR88","doi-asserted-by":"crossref","unstructured":"Zhao, X., Liang, X., Liu, L., Li, T., Han, Y., Vasconcelos, N., & Yan, S. (2016). Peak-piloted deep network for facial expression recognition. In Proceedings of the European conference on computer vision (pp. 425\u2013442).","DOI":"10.1007\/978-3-319-46475-6_27"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-021-01556-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11263-021-01556-7\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-021-01556-7.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,2,16]],"date-time":"2022-02-16T10:22:51Z","timestamp":1645006971000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11263-021-01556-7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,1,5]]},"references-count":88,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2022,2]]}},"alternative-id":["1556"],"URL":"https:\/\/doi.org\/10.1007\/s11263-021-01556-7","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022,1,5]]},"assertion":[{"value":"22 December 2020","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"24 November 2021","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"5 January 2022","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}