{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,7]],"date-time":"2026-04-07T20:07:15Z","timestamp":1775592435836,"version":"3.50.1"},"reference-count":342,"publisher":"Springer Science and Business Media LLC","issue":"27","license":[{"start":{"date-parts":[[2024,12,21]],"date-time":"2024-12-21T00:00:00Z","timestamp":1734739200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,12,21]],"date-time":"2024-12-21T00:00:00Z","timestamp":1734739200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"DOI":"10.1007\/s11042-024-20484-5","type":"journal-article","created":{"date-parts":[[2024,12,21]],"date-time":"2024-12-21T03:42:48Z","timestamp":1734752568000},"page":"32705-32776","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":7,"title":["SMART-vision: survey of modern action recognition techniques in vision"],"prefix":"10.1007","volume":"84","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-3705-2651","authenticated-orcid":false,"given":"Ali K.","family":"AlShami","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ryan","family":"Rabinowitz","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Khang","family":"Lam","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yousra","family":"Shleibik","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Melkamu","family":"Mersha","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Terrance","family":"Boult","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jugal","family":"Kalita","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,12,21]]},"reference":[{"key":"20484_CR1","doi-asserted-by":"crossref","unstructured":"Sun Z, Ke Q, Rahmani H, Bennamoun M, Wang G, Liu J (2022) Human action recognition from various data modalities: A review. IEEE Trans Pattern Anal Mach Intell","DOI":"10.36227\/techrxiv.13708270"},{"issue":"4","key":"20484_CR2","doi-asserted-by":"publisher","first-page":"2182","DOI":"10.3390\/s23042182","volume":"23","author":"MG Morshed","year":"2023","unstructured":"Morshed MG, Sultana T, Alam A, Lee Y-K (2023) Human action recognition: A taxonomy-based survey, updates, and opportunities. Sensors 23(4):2182","journal-title":"Sensors"},{"issue":"2","key":"20484_CR3","doi-asserted-by":"publisher","first-page":"128","DOI":"10.1109\/TAI.2021.3076974","volume":"2","author":"T Ahmad","year":"2021","unstructured":"Ahmad T, Jin L, Zhang X, Lai S, Tang G, Lin L (2021) Graph convolutional neural network for human action recognition: A comprehensive survey. IEEE Trans Artif Intell 2(2):128\u2013145","journal-title":"IEEE Trans Artif Intell"},{"key":"20484_CR4","unstructured":"Ulhaq A, Akhtar N, Pogrebna G, Mian A (2022) Vision transformers for action recognition: A survey. arXiv:2209.05700"},{"issue":"3","key":"20484_CR5","doi-asserted-by":"publisher","first-page":"2259","DOI":"10.1007\/s10462-020-09904-8","volume":"54","author":"P Pareek","year":"2021","unstructured":"Pareek P, Thakkar A (2021) A survey on video-based human action recognition: recent updates, datasets, challenges, and applications. Artif Intell Rev 54(3):2259\u20132322","journal-title":"Artif Intell Rev"},{"key":"20484_CR6","doi-asserted-by":"publisher","first-page":"698","DOI":"10.1016\/j.procs.2019.08.100","volume":"155","author":"C Jobanputra","year":"2019","unstructured":"Jobanputra C, Bavishi J, Doshi N (2019) Human activity recognition: A survey. Proc Comput Sci 155:698\u2013703","journal-title":"Proc Comput Sci"},{"issue":"5","key":"20484_CR7","doi-asserted-by":"publisher","first-page":"1366","DOI":"10.1007\/s11263-022-01594-9","volume":"130","author":"Y Kong","year":"2022","unstructured":"Kong Y, Fu Y (2022) Human action recognition and prediction: A survey. Int J Comput Vis 130(5):1366\u20131401","journal-title":"Int J Comput Vis"},{"issue":"17","key":"20484_CR8","doi-asserted-by":"publisher","first-page":"52653","DOI":"10.1007\/s11042-023-17529-6","volume":"83","author":"R Kumar","year":"2024","unstructured":"Kumar R, Kumar S (2024) A survey on intelligent human action recognition techniques. Multimed Tools Appl 83(17):52653\u201352709","journal-title":"Multimed Tools Appl"},{"issue":"2","key":"20484_CR9","doi-asserted-by":"publisher","first-page":"83","DOI":"10.1007\/s00530-019-00635-7","volume":"26","author":"R Singh","year":"2020","unstructured":"Singh R, Sonawane A, Srivastava R (2020) Recent evolution of modern datasets for human activity recognition: a deep survey. Multimed Syst 26(2):83\u2013106","journal-title":"Multimed Syst"},{"key":"20484_CR10","unstructured":"Krizhevsky A, Sutskever I, Hinton GE (2012) Imagenet classification with deep convolutional neural networks. Adv Neural Inf Process Syst 25"},{"issue":"2","key":"20484_CR11","first-page":"2","volume":"1","author":"L Wang","year":"2014","unstructured":"Wang L, Qiao Y, Tang X et al (2014) Action recognition and detection by combining motion and appearance features. THUMOS14 Action Recognition Challenge 1(2):2","journal-title":"THUMOS14 Action Recognition Challenge"},{"key":"20484_CR12","doi-asserted-by":"crossref","unstructured":"Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Fei-Fei L (2014) Large-scale video classification with convolutional neural networks. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1725\u20131732","DOI":"10.1109\/CVPR.2014.223"},{"key":"20484_CR13","doi-asserted-by":"crossref","unstructured":"Zhu W, Hu J, Sun G, Cao X, Qiao Y (2016) A key volume mining deep framework for action recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1991\u20131999","DOI":"10.1109\/CVPR.2016.219"},{"key":"20484_CR14","doi-asserted-by":"crossref","unstructured":"Shou Z, Wang D, Chang S-F (2016) Temporal action localization in untrimmed videos via multi-stage cnns. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1049\u20131058","DOI":"10.1109\/CVPR.2016.119"},{"key":"20484_CR15","doi-asserted-by":"publisher","first-page":"28","DOI":"10.3389\/frobt.2015.00028","volume":"2","author":"M Vrigkas","year":"2015","unstructured":"Vrigkas M, Nikou C, Kakadiaris IA (2015) A review of human activity recognition methods. Front Robot AI 2:28","journal-title":"Front Robot AI"},{"issue":"6","key":"20484_CR16","first-page":"1766","volume":"16","author":"Z Yang","year":"2014","unstructured":"Yang Z, Metallinou A, Narayanan S (2014) Analysis and predictive modeling of body language behavior in dyadic interactions from multimodal interlocutor cues. IEEE Trans Multimed 16(6):1766\u20131778","journal-title":"IEEE Trans Multimed"},{"key":"20484_CR17","doi-asserted-by":"crossref","unstructured":"Ni B, Moulin P, Yang X, Yan S (2015) Motion part regularization: Improving action recognition via trajectory selection. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 3698\u20133706","DOI":"10.1109\/CVPR.2015.7298993"},{"issue":"12","key":"20484_CR18","doi-asserted-by":"publisher","first-page":"2441","DOI":"10.1109\/TPAMI.2012.24","volume":"34","author":"A Patron-Perez","year":"2012","unstructured":"Patron-Perez A, Marszalek M, Reid I, Zisserman A (2012) Structured learning of human interactions in tv shows. IEEE Trans Pattern Anal Mach Intell 34(12):2441\u20132453","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"issue":"7","key":"20484_CR19","doi-asserted-by":"publisher","first-page":"2562","DOI":"10.1016\/j.patcog.2011.12.028","volume":"45","author":"KN Tran","year":"2012","unstructured":"Tran KN, Kakadiaris IA, Shah SK (2012) Part-based motion descriptor image for human action recognition. Pattern Recognit 45(7):2562\u20132572","journal-title":"Pattern Recognit"},{"issue":"3","key":"20484_CR20","doi-asserted-by":"publisher","first-page":"314","DOI":"10.1109\/TAFFC.2014.2352268","volume":"5","author":"HP Martinez","year":"2014","unstructured":"Martinez HP, Yannakakis GN, Hallam J (2014) Don\u2019t classify ratings of affect; rank them! IEEE Trans Affect Comput 5(3):314\u2013326","journal-title":"IEEE Trans Affect Comput"},{"issue":"8","key":"20484_CR21","doi-asserted-by":"publisher","first-page":"1549","DOI":"10.1109\/TPAMI.2011.228","volume":"34","author":"T Lan","year":"2011","unstructured":"Lan T, Wang Y, Yang W, Robinovitch SN, Mori G (2011) Discriminative latent models for recognizing contextual group activities. IEEE Trans Pattern Anal Mach Intell 34(8):1549\u20131562","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"20484_CR22","unstructured":"Al\u00a0Shami AK (2022) Generating tennis player by the predicting movement using 2d pose estimation. PhD thesis, University of Colorado Colorado Springs"},{"key":"20484_CR23","doi-asserted-by":"publisher","first-page":"103954","DOI":"10.1016\/j.jvcir.2023.103954","volume":"97","author":"A AlShami","year":"2023","unstructured":"AlShami A, Boult T, Kalita J (2023) Pose2trajectory: Using transformers on body pose to predict tennis player\u2019s trajectory. J Vis Commun Image Represent 97:103954","journal-title":"J Vis Commun Image Represent"},{"key":"20484_CR24","doi-asserted-by":"publisher","first-page":"115848","DOI":"10.1109\/ACCESS.2020.3003652","volume":"8","author":"H Cui","year":"2020","unstructured":"Cui H, Chang C (2020) Deep learning based advanced spatio-temporal extraction model in medical sports rehabilitation for motion analysis and data processing. IEEE Access 8:115848\u2013115856","journal-title":"IEEE Access"},{"key":"20484_CR25","unstructured":"Simonyan K, Zisserman A (2014) Two-stream convolutional networks for action recognition in videos. Adv Neural Inf Process Syst 27"},{"key":"20484_CR26","doi-asserted-by":"publisher","first-page":"83","DOI":"10.1016\/j.patrec.2017.08.015","volume":"107","author":"Y Han","year":"2018","unstructured":"Han Y, Zhang P, Zhuo T, Huang W, Zhang Y (2018) Going deeper with two-stream ConvNets for action recognition in video surveillance. Pattern Recognit Lett 107:83\u201390","journal-title":"Pattern Recognit Lett"},{"key":"20484_CR27","doi-asserted-by":"crossref","unstructured":"Sarabu A, Santra AK (2020) Distinct two-stream convolutional networks for human action recognition in videos using segment-based temporal modeling. Data 5(4)","DOI":"10.3390\/data5040104"},{"key":"20484_CR28","doi-asserted-by":"publisher","first-page":"85284","DOI":"10.1109\/ACCESS.2020.2993227","volume":"8","author":"Y Wan","year":"2020","unstructured":"Wan Y, Yu Z, Wang Y, Li X (2020) Action Recognition Based on Two-Stream Convolutional Networks With Long-Short-Term Spatiotemporal Features. IEEE Access 8:85284\u201385293","journal-title":"IEEE Access"},{"key":"20484_CR29","doi-asserted-by":"publisher","first-page":"1840","DOI":"10.1109\/ACCESS.2019.2962284","volume":"8","author":"S Yu","year":"2020","unstructured":"Yu S, Xie L, Liu L, Xia D (2020) Learning Long-Term Temporal Features With Deep Neural Networks for Human Action Recognition. IEEE Access 8:1840\u20131850","journal-title":"IEEE Access"},{"key":"20484_CR30","doi-asserted-by":"publisher","first-page":"105820","DOI":"10.1016\/j.asoc.2019.105820","volume":"86","author":"C Dai","year":"2020","unstructured":"Dai C, Liu X, Lai J (2020) Human action recognition using two-stream attention based LSTM networks. Appl Soft Comput 86:105820","journal-title":"Appl Soft Comput"},{"issue":"12","key":"20484_CR31","doi-asserted-by":"publisher","first-page":"5784","DOI":"10.3390\/app12125784","volume":"12","author":"Z Wang","year":"2022","unstructured":"Wang Z, Lu H, Jin J, Hu K (2022) Human Action Recognition Based on Improved Two-Stream Convolution Network. Appl Sci 12(12):5784","journal-title":"Appl Sci"},{"issue":"4","key":"20484_CR32","doi-asserted-by":"publisher","first-page":"1773","DOI":"10.1109\/TIP.2018.2877936","volume":"28","author":"W Huang","year":"2019","unstructured":"Huang W, Fan L, Harandi M, Ma L, Liu H, Liu W, Gan C (2019) Toward Efficient Action Recognition: Principal Backpropagation for Training Two-Stream Networks. IEEE Trans Image Process 28(4):1773\u20131782","journal-title":"IEEE Trans Image Process"},{"key":"20484_CR33","doi-asserted-by":"crossref","unstructured":"Tran A, Cheong L-F (2017) Two-Stream Flow-Guided Convolutional Attention Networks for Action Recognition. In: 2017 IEEE international conference on computer vision workshops (ICCVW), pp 3110\u20133119. IEEE","DOI":"10.1109\/ICCVW.2017.368"},{"key":"20484_CR34","doi-asserted-by":"crossref","unstructured":"Feichtenhofer C, Pinz A, Zisserman A (2016) Convolutional Two-Stream Network Fusion for Video Action Recognition. In: 2016 IEEE conference on computer vision and pattern recognition (CVPR), pp 1933\u20131941. IEEE","DOI":"10.1109\/CVPR.2016.213"},{"key":"20484_CR35","doi-asserted-by":"crossref","unstructured":"Yang X, Kong L, Yang J (2021) Unsupervised motion representation enhanced network for action recognition. In: ICASSP 2021 - 2021 IEEE international conference on acoustics, speech and signal processing (ICASSP), pp 2445\u20132449","DOI":"10.1109\/ICASSP39728.2021.9414222"},{"key":"20484_CR36","doi-asserted-by":"crossref","unstructured":"Gammulle H, Denman S, Sridharan S, Fookes C (2017) Two stream lstm: A deep fusion framework for human action recognition. In: 2017 IEEE winter conference on applications of computer vision (WACV), pp 177\u2013186. IEEE","DOI":"10.1109\/WACV.2017.27"},{"key":"20484_CR37","doi-asserted-by":"crossref","unstructured":"Xiao J, Jing L, Zhang L, He J, She Q, Zhou Z, Yuille A, Li Y (2022) Learning from temporal gradient for semi-supervised action recognition. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (CVPR), pp 3252\u20133262","DOI":"10.1109\/CVPR52688.2022.00325"},{"key":"20484_CR38","doi-asserted-by":"crossref","unstructured":"He K, Zhang X, Ren S, Sun J (2016) Deep residual learning for image recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 770\u2013778","DOI":"10.1109\/CVPR.2016.90"},{"key":"20484_CR39","unstructured":"Ioffe S, Szegedy C (2015) Batch normalization: Accelerating deep network training by reducing internal covariate shift. In: International conference on machine learning, pp 448\u2013456. PMLR"},{"key":"20484_CR40","unstructured":"Simonyan K, Zisserman A (2014) Very deep convolutional networks for large-scale image recognition. arXiv:1409.1556"},{"issue":"4","key":"20484_CR41","doi-asserted-by":"publisher","first-page":"18","DOI":"10.1109\/5254.708428","volume":"13","author":"MA Hearst","year":"1998","unstructured":"Hearst MA, Dumais ST, Osuna E, Platt J, Scholkopf B (1998) Support vector machines. IEEE Intell Syst Appl 13(4):18\u201328","journal-title":"IEEE Intell Syst Appl"},{"key":"20484_CR42","doi-asserted-by":"publisher","first-page":"192","DOI":"10.1016\/j.jvcir.2017.09.007","volume":"49","author":"S Yu","year":"2017","unstructured":"Yu S, Cheng Y, Xie L, Luo Z, Huang M, Li S (2017) A novel recurrent hybrid network for feature fusion in action recognition. J Vis Commun Image Represent 49:192\u2013203","journal-title":"J Vis Commun Image Represent"},{"key":"20484_CR43","doi-asserted-by":"crossref","unstructured":"Szegedy C, Liu W, Jia Y, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A (2015) Going deeper with convolutions. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1\u20139","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"20484_CR44","doi-asserted-by":"crossref","unstructured":"Wang L, Xiong Y, Wang Z, Qiao Y, Lin D, Tang X, Van Gool L (2016) Temporal segment networks: Towards good practices for deep action recognition. In: European conference on computer vision, pp 20\u201336. Springer","DOI":"10.1007\/978-3-319-46484-8_2"},{"key":"20484_CR45","doi-asserted-by":"crossref","unstructured":"Li S, Wang Z, Liu Y, Zhang Y, Zhu J, Cui X, Liu J (2023) Fsformer: Fast-slow transformer for video action recognition. Image Vis Comput 104740","DOI":"10.1016\/j.imavis.2023.104740"},{"key":"20484_CR46","doi-asserted-by":"crossref","unstructured":"Feichtenhofer C, Fan H, Malik J, He K (2019) Slowfast networks for video recognition. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 6202\u20136211","DOI":"10.1109\/ICCV.2019.00630"},{"issue":"4","key":"20484_CR47","doi-asserted-by":"publisher","first-page":"2058","DOI":"10.3390\/app13042058","volume":"13","author":"J Shi","year":"2023","unstructured":"Shi J, Zhang Y, Wang W, Xing B, Hu D, Chen L (2023) A novel two-stream transformer-based framework for multi-modality human action recognition. Appl Sci 13(4):2058","journal-title":"Appl Sci"},{"key":"20484_CR48","doi-asserted-by":"publisher","first-page":"1840","DOI":"10.1109\/ACCESS.2019.2962284","volume":"8","author":"S Yu","year":"2019","unstructured":"Yu S, Xie L, Liu L, Xia D (2019) Learning long-term temporal features with deep neural networks for human action recognition. IEEE Access 8:1840\u20131850","journal-title":"IEEE Access"},{"key":"20484_CR49","unstructured":"Dosovitskiy A, Beyer L, Kolesnikov A, Weissenborn D, Zhai X, Unterthiner T, Dehghani M, Minderer M, Heigold G, Gelly S, et al (2020) An image is worth 16x16 words: Transformers for image recognition at scale. arXiv:2010.11929"},{"issue":"4","key":"20484_CR50","doi-asserted-by":"publisher","first-page":"193","DOI":"10.1007\/BF00344251","volume":"36","author":"K Fukushima","year":"1980","unstructured":"Fukushima K (1980) Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biol Cybern 36(4):193\u2013202","journal-title":"Biol Cybern"},{"issue":"1","key":"20484_CR51","doi-asserted-by":"publisher","first-page":"221","DOI":"10.1109\/TPAMI.2012.59","volume":"35","author":"S Ji","year":"2012","unstructured":"Ji S, Xu W, Yang M, Yu K (2012) 3d convolutional neural networks for human action recognition. IEEE Trans Pattern Anal Mach Intell 35(1):221\u2013231","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"20484_CR52","unstructured":"Yang M, Ji S, Xu W, Wang J, Lv F, Yu K, Gong Y, Dikmen M, Lin DJ, Huang TS (2009) Detecting human actions in surveillance videos. In: TRECVID"},{"key":"20484_CR53","doi-asserted-by":"crossref","unstructured":"Schuldt C, Laptev I, Caputo B (2004) Recognizing human actions: a local svm approach. In: Proceedings of the 17th international conference on pattern recognition, 2004. ICPR 2004., vol 3, pp 32\u201336. IEEE","DOI":"10.1109\/ICPR.2004.1334462"},{"key":"20484_CR54","doi-asserted-by":"crossref","unstructured":"Tran D, Bourdev L, Fergus R, Torresani L, Paluri M (2015) Learning spatiotemporal features with 3d convolutional networks. In: Proceedings of the IEEE international conference on computer vision, pp 4489\u20134497","DOI":"10.1109\/ICCV.2015.510"},{"key":"20484_CR55","doi-asserted-by":"crossref","unstructured":"Carreira J, Zisserman A (2017) Quo vadis, action recognition? a new model and the kinetics dataset. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 6299\u20136308","DOI":"10.1109\/CVPR.2017.502"},{"key":"20484_CR56","doi-asserted-by":"crossref","unstructured":"Deng J, Dong W, Socher R, Li L-J, Li K, Fei-Fei L (2009) Imagenet: A large-scale hierarchical image database. In: 2009 IEEE conference on computer vision and pattern recognition, pp 248\u2013255. IEEE","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"20484_CR57","doi-asserted-by":"crossref","unstructured":"Qiu Z, Yao T, Mei T (2017) Learning spatio-temporal representation with pseudo-3d residual networks. In: Proceedings of the IEEE international conference on computer vision, pp 5533\u20135541","DOI":"10.1109\/ICCV.2017.590"},{"key":"20484_CR58","doi-asserted-by":"crossref","unstructured":"Wang X, Girshick R, Gupta A, He K (2018) Non-local neural networks. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 7794\u20137803","DOI":"10.1109\/CVPR.2018.00813"},{"key":"20484_CR59","doi-asserted-by":"crossref","unstructured":"Zolfaghari M, Singh K, Brox T (2018) Eco: Efficient convolutional network for online video understanding. In: Proceedings of the european conference on computer vision (ECCV), pp 695\u2013712","DOI":"10.1007\/978-3-030-01216-8_43"},{"key":"20484_CR60","doi-asserted-by":"crossref","unstructured":"Feichtenhofer C (2020) X3d: Expanding architectures for efficient video recognition. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 203\u2013213","DOI":"10.1109\/CVPR42600.2020.00028"},{"key":"20484_CR61","doi-asserted-by":"publisher","first-page":"103804","DOI":"10.1016\/j.jvcir.2023.103804","volume":"93","author":"Y Ou","year":"2023","unstructured":"Ou Y, Chen Z (2023) 3d deformable convolution temporal reasoning network for action recognition. J Vis Commun Image Represent 93:103804","journal-title":"J Vis Commun Image Represent"},{"issue":"1","key":"20484_CR62","doi-asserted-by":"publisher","first-page":"61","DOI":"10.1109\/TNN.2008.2005605","volume":"20","author":"F Scarselli","year":"2008","unstructured":"Scarselli F, Gori M, Tsoi AC, Hagenbuchner M, Monfardini G (2008) The graph neural network model. IEEE Trans Neural Netw 20(1):61\u201380","journal-title":"IEEE Trans Neural Netw"},{"key":"20484_CR63","doi-asserted-by":"crossref","unstructured":"Li R, Wang S, Zhu F, Huang J (2018) Adaptive graph convolutional neural networks. In: Proceedings of the AAAI conference on artificial intelligence, vol 32","DOI":"10.1609\/aaai.v32i1.11691"},{"key":"20484_CR64","unstructured":"Kipf TN, Welling M (2016) Semi-supervised classification with graph convolutional networks. arXiv:1609.02907"},{"key":"20484_CR65","unstructured":"Veli\u010dkovi\u0107 P, Cucurull G, Casanova A, Romero A, Lio P, Bengio Y (2017) Graph attention networks. arXiv:1710.10903"},{"key":"20484_CR66","unstructured":"Xu K, Hu W, Leskovec J, Jegelka S (2018) How powerful are graph neural networks? arXiv:1810.00826"},{"issue":"3","key":"20484_CR67","doi-asserted-by":"publisher","first-page":"1755","DOI":"10.1109\/TITS.2020.3026025","volume":"23","author":"J Liu","year":"2020","unstructured":"Liu J, Ong GP, Chen X (2020) Graphsage-based traffic speed forecasting for segment network with sparse data. IEEE Trans Intell Transp Syst 23(3):1755\u20131766","journal-title":"IEEE Trans Intell Transp Syst"},{"key":"20484_CR68","doi-asserted-by":"crossref","unstructured":"Looper S, Rodriguez-Puigvert J, Siegwart R, Cadena C, Schmid L (2022) 3d vsg: Long-term semantic scene change prediction through 3d variable scene graphs. arXiv:2209.07896","DOI":"10.1109\/ICRA48891.2023.10161212"},{"key":"20484_CR69","doi-asserted-by":"crossref","unstructured":"Peng W, Hong X, Chen H, Zhao G (2020) Learning graph convolutional network for skeleton-based human action recognition by neural searching. In: Proceedings of the AAAI conference on artificial intelligence, vol 34, pp 2669\u20132676","DOI":"10.1609\/aaai.v34i03.5652"},{"key":"20484_CR70","doi-asserted-by":"crossref","unstructured":"Yan S, Xiong Y, Lin D (2018) Spatial temporal graph convolutional networks for skeleton-based action recognition. In: Proceedings of the AAAI conference on artificial intelligence, vol 32","DOI":"10.1609\/aaai.v32i1.12328"},{"key":"20484_CR71","doi-asserted-by":"crossref","unstructured":"Li M, Chen S, Chen X, Zhang Y, Wang Y, Tian Q (2019) Actional-structural graph convolutional networks for skeleton-based action recognition. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 3595\u20133603","DOI":"10.1109\/CVPR.2019.00371"},{"key":"20484_CR72","doi-asserted-by":"crossref","unstructured":"Liu Z, Zhang H, Chen Z, Wang Z, Ouyang W (2020) Disentangling and unifying graph convolutions for skeleton-based action recognition. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 143\u2013152","DOI":"10.1109\/CVPR42600.2020.00022"},{"key":"20484_CR73","doi-asserted-by":"crossref","unstructured":"Si C, Chen W, Wang W, Wang L, Tan T (2019) An attention enhanced graph convolutional lstm network for skeleton-based action recognition. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 1227\u20131236","DOI":"10.1109\/CVPR.2019.00132"},{"key":"20484_CR74","doi-asserted-by":"publisher","first-page":"621","DOI":"10.1007\/s00371-019-01644-3","volume":"36","author":"Y Qin","year":"2020","unstructured":"Qin Y, Mo L, Li C, Luo J (2020) Skeleton-based action recognition by part-aware graph convolutional networks. Vis Comput 36:621\u2013631","journal-title":"Vis Comput"},{"key":"20484_CR75","unstructured":"Xiang W, Li C, Zhou Y, Wang B, Zhang L (2022) Language supervised training for skeleton-based action recognition. arXiv:2208.05318"},{"key":"20484_CR76","unstructured":"Xu H, Gao Y, Hui Z, Li J, Gao X (2023) Language knowledge-assisted representation learning for skeleton-based action recognition. arXiv:2305.12398"},{"key":"20484_CR77","doi-asserted-by":"crossref","unstructured":"Lee J, Lee M, Lee D, Lee S (2022) Hierarchically decomposed graph convolutional networks for skeleton-based action recognition. arXiv:2208.10741","DOI":"10.1109\/ICCV51070.2023.00958"},{"key":"20484_CR78","doi-asserted-by":"crossref","unstructured":"Duan H, Wang J, Chen K, Lin D (2022) Dg-stgcn: Dynamic spatial-temporal modeling for skeleton-based action recognition. arXiv:2210.05895","DOI":"10.1109\/CAC57257.2022.10055641"},{"key":"20484_CR79","doi-asserted-by":"crossref","unstructured":"Chi H-g, Ha MH, Chi S, Lee SW, Huang Q, Ramani K (2022) Infogcn: Representation learning for human skeleton-based action recognition. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 20186\u201320196","DOI":"10.1109\/CVPR52688.2022.01955"},{"key":"20484_CR80","unstructured":"Huang X, Zhou H, Feng B, Wang X, Liu W, Wang J, Feng H, Han J, Ding E, Wang J (2023) Graph contrastive learning for skeleton-based action recognition. arXiv:2301.10900"},{"key":"20484_CR81","doi-asserted-by":"publisher","first-page":"21546","DOI":"10.1109\/ACCESS.2023.3247820","volume":"11","author":"M Rahevar","year":"2023","unstructured":"Rahevar M, Ganatra A, Saba T, Rehman A, Bahaj SA (2023) Spatial-temporal dynamic graph attention network for skeleton-based action recognition. IEEE Access 11:21546\u201321553","journal-title":"IEEE Access"},{"key":"20484_CR82","doi-asserted-by":"crossref","unstructured":"Trivedi N, Sarvadevabhatla RK (2022) Psumnet: Unified modality part streams are all you need for efficient pose-based action recognition. arXiv:2208.05775","DOI":"10.1007\/978-3-031-25072-9_14"},{"key":"20484_CR83","doi-asserted-by":"crossref","unstructured":"Zhou H, Liu Q, Wang Y (2023) Learning discriminative representations for skeleton-based action recognition. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 10608\u201310617","DOI":"10.1109\/CVPR52729.2023.01022"},{"key":"20484_CR84","unstructured":"Hu L, Liu S, Feng W (2022) Spatial temporal graph attention network for skeleton-based action recognition. arXiv:2208.08599"},{"key":"20484_CR85","unstructured":"Wang S, Zhang Y, Wei F, Wang K, Zhao M, Jiang Y (2022) Skeleton-based action recognition via temporal-channel aggregation. arXiv:2205.15936"},{"key":"20484_CR86","doi-asserted-by":"crossref","unstructured":"Liu J, Wang X, Wang C, Gao Y, Liu M (2023) Temporal decoupling graph convolutional network for skeleton-based gesture recognition. IEEE Trans Multimed","DOI":"10.1109\/TMM.2023.3271811"},{"key":"20484_CR87","doi-asserted-by":"crossref","unstructured":"Zhou Y, Sun X, Zha Z-J, Zeng W (2018) Mict: Mixed 3d\/2d convolutional tube for human action recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 449\u2013458","DOI":"10.1109\/CVPR.2018.00054"},{"key":"20484_CR88","doi-asserted-by":"crossref","unstructured":"Ghosh P, Yao Y, Davis L, Divakaran A (2020) Stacked spatio-temporal graph convolutional networks for action segmentation. In: Proceedings of the IEEE\/CVF winter conference on applications of computer vision, pp 576\u2013585","DOI":"10.1109\/WACV45572.2020.9093361"},{"key":"20484_CR89","doi-asserted-by":"crossref","unstructured":"Li M, Chen S, Zhao Y, Zhang Y, Wang Y, Tian Q (2020) Dynamic multiscale graph neural networks for 3d skeleton based human motion prediction. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 214\u2013223","DOI":"10.1109\/CVPR42600.2020.00029"},{"key":"20484_CR90","doi-asserted-by":"crossref","unstructured":"Shi L, Zhang Y, Cheng J, Lu H (2019) Two-stream adaptive graph convolutional networks for skeleton-based action recognition. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 12026\u201312035","DOI":"10.1109\/CVPR.2019.01230"},{"key":"20484_CR91","doi-asserted-by":"crossref","unstructured":"Li G, Yang S, Li J (2020) Edge and node graph convolutional neural network for human action recognition. In: 2020 Chinese control and decision conference (CCDC), pp 4630\u20134635. IEEE","DOI":"10.1109\/CCDC49329.2020.9163951"},{"key":"20484_CR92","doi-asserted-by":"crossref","unstructured":"Luo W, Zhang C, Zhang X, Wu H (2019) Improving action recognition with the graph-neural-network-based interaction reasoning. In: 2019 IEEE visual communications and image processing (VCIP), pp 1\u20134. IEEE","DOI":"10.1109\/VCIP47243.2019.8965768"},{"key":"20484_CR93","doi-asserted-by":"crossref","unstructured":"Shi L, Zhang Y, Cheng J, Lu H (2019) Skeleton-based action recognition with directed graph neural networks. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 7912\u20137921","DOI":"10.1109\/CVPR.2019.00810"},{"issue":"9","key":"20484_CR94","doi-asserted-by":"publisher","first-page":"2872","DOI":"10.1109\/TCSVT.2020.2973301","volume":"30","author":"Y Tang","year":"2020","unstructured":"Tang Y, Wei Y, Yu X, Lu J, Zhou J (2020) Graph interaction networks for relation transfer in human activity videos. IEEE Trans Circ Syst Vid Technol 30(9):2872\u20132886","journal-title":"IEEE Trans Circ Syst Vid Technol"},{"key":"20484_CR95","doi-asserted-by":"crossref","unstructured":"Gao J, Zhang T, Xu C (2019) I know the relationships: Zero-shot action recognition via two-stream graph convolutional networks and knowledge graphs. In: Proceedings of the AAAI conference on artificial intelligence, vol 33, pp 8303\u20138311","DOI":"10.1609\/aaai.v33i01.33018303"},{"issue":"10","key":"20484_CR96","doi-asserted-by":"publisher","first-page":"3476","DOI":"10.1109\/TPAMI.2020.2985708","volume":"43","author":"J Gao","year":"2020","unstructured":"Gao J, Zhang T, Xu C (2020) Learning to model relationships for zero-shot video classification. IEEE Trans Pattern Anal Mach Intell 43(10):3476\u20133491","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"20484_CR97","doi-asserted-by":"crossref","unstructured":"Tang Y, Tian Y, Lu J, Li P, Zhou J (2018) Deep progressive reinforcement learning for skeleton-based action recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 5323\u20135332","DOI":"10.1109\/CVPR.2018.00558"},{"key":"20484_CR98","doi-asserted-by":"publisher","first-page":"144529","DOI":"10.1109\/ACCESS.2020.3014445","volume":"8","author":"W Li","year":"2020","unstructured":"Li W, Liu X, Liu Z, Du F, Zou Q (2020) Skeleton-based action recognition using multi-scale and multi-stream improved graph convolutional network. IEEE Access 8:144529\u2013144542","journal-title":"IEEE Access"},{"key":"20484_CR99","doi-asserted-by":"crossref","unstructured":"Aggarwal JK, Cai Q (1997) Human motion analysis: a review. In: Proceedings IEEE nonrigid and articulated motion workshop, pp 90\u2013102","DOI":"10.1109\/NAMW.1997.609859"},{"issue":"1","key":"20484_CR100","doi-asserted-by":"publisher","first-page":"185","DOI":"10.1016\/0004-3702(81)90024-2","volume":"17","author":"BKP Horn","year":"1981","unstructured":"Horn BKP, Schunck BG (1981) Determining optical flow. Artif Intell 17(1):185\u2013203","journal-title":"Artif Intell"},{"key":"20484_CR101","doi-asserted-by":"crossref","unstructured":"Cui Y, Yan L, Cao Z, Liu D (2021) Tf-blender: Temporal feature blender for video object detection. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 8138\u20138147","DOI":"10.1109\/ICCV48922.2021.00803"},{"issue":"10","key":"20484_CR102","doi-asserted-by":"publisher","first-page":"6642","DOI":"10.1109\/TCSVT.2022.3177320","volume":"32","author":"L Yan","year":"2022","unstructured":"Yan L, Ma S, Wang Q, Chen Y, Zhang X, Savakis A, Liu D (2022) Video captioning using global-local representation. IEEE Trans Circ Syst Vid Technol 32(10):6642\u20136656","journal-title":"IEEE Trans Circ Syst Vid Technol"},{"key":"20484_CR103","doi-asserted-by":"crossref","unstructured":"Lu Y, Wang Q, Ma S, Geng T, Chen YV, Chen H, Liu D (2023) Transflow: Transformer as flow learner. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 18063\u201318073","DOI":"10.1109\/CVPR52729.2023.01732"},{"key":"20484_CR104","doi-asserted-by":"crossref","unstructured":"Wang L, Qiao Y, Tang X (2015) Action recognition with trajectory-pooled deep-convolutional descriptors. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4305\u20134314","DOI":"10.1109\/CVPR.2015.7299059"},{"issue":"4","key":"20484_CR105","doi-asserted-by":"publisher","first-page":"773","DOI":"10.1109\/TPAMI.2016.2558148","volume":"39","author":"B Fernando","year":"2016","unstructured":"Fernando B, Gavves E, Oramas J, Ghodrati A, Tuytelaars T (2016) Rank pooling for action recognition. IEEE Trans Pattern Anal Mach Intell 39(4):773\u2013787","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"20484_CR106","doi-asserted-by":"crossref","unstructured":"Misra I, Zitnick CL, Hebert M (2016) Shuffle and learn: unsupervised learning using temporal order verification. In: Computer Vision\u2013ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11\u201314, 2016, Proceedings, Part I 14, pp 527\u2013544. Springer","DOI":"10.1007\/978-3-319-46448-0_32"},{"key":"20484_CR107","doi-asserted-by":"crossref","unstructured":"Zhu Y, Lan Z, Newsam S, Hauptmann A (2019) Hidden two-stream convolutional networks for action recognition. In: Computer Vision\u2013ACCV 2018: 14th Asian Conference on Computer Vision, Perth, Australia, December 2\u20136, 2018, Revised Selected Papers, Part III 14, pp 363\u2013378. Springer","DOI":"10.1007\/978-3-030-20893-6_23"},{"key":"20484_CR108","doi-asserted-by":"crossref","unstructured":"Zhou B, Andonian A, Oliva A, Torralba A (2018) Temporal relational reasoning in videos. In: Proceedings of the European conference on computer vision (ECCV), pp 803\u2013818","DOI":"10.1007\/978-3-030-01246-5_49"},{"key":"20484_CR109","doi-asserted-by":"crossref","unstructured":"Lin J, Gan C, Han S (2019) Tsm: Temporal shift module for efficient video understanding. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 7083\u20137093","DOI":"10.1109\/ICCV.2019.00718"},{"key":"20484_CR110","doi-asserted-by":"crossref","unstructured":"Materzynska J, Xiao T, Herzig R, Xu H, Wang X, Darrell T (2020) Something-else: Compositional action recognition with spatial-temporal interaction networks. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 1049\u20131059","DOI":"10.1109\/CVPR42600.2020.00113"},{"key":"20484_CR111","doi-asserted-by":"crossref","unstructured":"Jiang B, Wang M, Gan W, Wu W, Yan J (2019) Stm: Spatiotemporal and motion encoding for action recognition. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 2000\u20132009","DOI":"10.1109\/ICCV.2019.00209"},{"key":"20484_CR112","doi-asserted-by":"crossref","unstructured":"Li Y, Ji B, Shi X, Zhang J, Kang B, Wang L (2020) Tea: Temporal excitation and aggregation for action recognition. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (CVPR)","DOI":"10.1109\/CVPR42600.2020.00099"},{"key":"20484_CR113","doi-asserted-by":"crossref","unstructured":"Tian Q, Wang K, Liu B, Wang Y (2022) Multi-kernel excitation network for video action recognition. In: 2022 16th IEEE international conference on signal processing (ICSP), vol 1, pp 155\u2013159","DOI":"10.1109\/ICSP56322.2022.9965286"},{"key":"20484_CR114","doi-asserted-by":"crossref","unstructured":"Joefrie YY, Aono M (2022) Video action recognition using motion and multi-view excitation with temporal aggregation. Entropy 24(11)","DOI":"10.3390\/e24111663"},{"key":"20484_CR115","unstructured":"Li C, Hou Z, Chen J, Bu Y, Zhou J, Zhong Q, Xie D, Pu S (2018) Team deep-hri moments in time challenge 2018 technical report. In: Computer vision and pattern recognition"},{"issue":"3","key":"20484_CR116","doi-asserted-by":"publisher","first-page":"368","DOI":"10.3390\/e24030368","volume":"24","author":"Q Yang","year":"2022","unstructured":"Yang Q, Lu T, Zhou H (2022) A spatio-temporal motion network for action recognition based on spatial attention. Entropy 24(3):368","journal-title":"Entropy"},{"key":"20484_CR117","unstructured":"Bahdanau D, Cho K, Bengio Y (2014) Neural machine translation by jointly learning to align and translate. arXiv:1409.0473"},{"key":"20484_CR118","unstructured":"Xu K, Ba J, Kiros R, Cho K, Courville A, Salakhudinov R, Zemel R, Bengio Y (2015) Show, attend and tell: Neural image caption generation with visual attention. In: International conference on machine learning, pp 2048\u20132057. PMLR"},{"key":"20484_CR119","doi-asserted-by":"publisher","first-page":"229","DOI":"10.1023\/A:1022672621406","volume":"8","author":"RJ Williams","year":"1992","unstructured":"Williams RJ (1992) Simple statistical gradient-following algorithms for connectionist reinforcement learning. Mach Learn 8:229\u2013256","journal-title":"Mach Learn"},{"key":"20484_CR120","first-page":"1","volume":"30","author":"A Vaswani","year":"2017","unstructured":"Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser \u0141, Polosukhin I (2017) Attention is all you need. Adv Neural Inf Process Syst 30:1","journal-title":"Adv Neural Inf Process Syst"},{"key":"20484_CR121","doi-asserted-by":"crossref","unstructured":"Cheng J, Dong L, Lapata M (2016) Long short-term memory-networks for machine reading. arXiv:1601.06733","DOI":"10.18653\/v1\/D16-1053"},{"key":"20484_CR122","doi-asserted-by":"crossref","unstructured":"Parikh AP, T\u00e4ckstr\u00f6m O, Das D, Uszkoreit J (2016) A decomposable attention model for natural language inference. arXiv:1606.01933","DOI":"10.18653\/v1\/D16-1244"},{"key":"20484_CR123","unstructured":"Paulus R, Xiong C, Socher R (2017) A deep reinforced model for abstractive summarization. arXiv:1705.04304"},{"key":"20484_CR124","unstructured":"Lin Z, Feng M, Santos CNd, Yu M, Xiang B, Zhou B, Bengio Y (2017) A structured self-attentive sentence embedding. arXiv:1703.03130"},{"key":"20484_CR125","unstructured":"Parmar N, Vaswani A, Uszkoreit J, Kaiser L, Shazeer N, Ku A, Tran D (2018) Image transformer. In: International conference on machine learning, pp 4055\u20134064. PMLR"},{"key":"20484_CR126","doi-asserted-by":"crossref","unstructured":"Girdhar R, Carreira J, Doersch C, Zisserman A (2019) Video action transformer network. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 244\u2013253","DOI":"10.1109\/CVPR.2019.00033"},{"key":"20484_CR127","doi-asserted-by":"crossref","unstructured":"Plizzari C, Cannici M, Matteucci M (2021) Spatial temporal transformer network for skeleton-based action recognition. In: Pattern recognition. ICPR international workshops and challenges: virtual event, January 10\u201315, 2021, Proceedings, Part III, pp 694\u2013701. Springer","DOI":"10.1007\/978-3-030-68796-0_50"},{"key":"20484_CR128","doi-asserted-by":"publisher","first-page":"103219","DOI":"10.1016\/j.cviu.2021.103219","volume":"208","author":"C Plizzari","year":"2021","unstructured":"Plizzari C, Cannici M, Matteucci M (2021) Skeleton-based action recognition via spatial and temporal transformer networks. Comput Vis Image Underst 208:103219","journal-title":"Comput Vis Image Underst"},{"key":"20484_CR129","unstructured":"Shi F, Lee C, Qiu L, Zhao Y, Shen T, Muralidhar S, Han T, Zhu S-C, Narayanan V (2021) Star: Sparse transformer-based action recognition. arXiv:2107.07089"},{"key":"20484_CR130","doi-asserted-by":"crossref","unstructured":"Zhang Y, Wu B, Li W, Duan L, Gan C (2021) STST: Spatial-temporal specialized transformer for skeleton-based action recognition. In: Proceedings of the 29th ACM international conference on multimedia, pp 229\u20133237","DOI":"10.1145\/3474085.3475473"},{"key":"20484_CR131","doi-asserted-by":"crossref","unstructured":"Ahn D, Kim S, Hong H, Ko BC (2023) Star-transformer: A spatio-temporal cross attention transformer for human action recognition. In: Proceedings of the IEEE\/CVF winter conference on applications of computer vision, pp 3330\u20133339","DOI":"10.1109\/WACV56688.2023.00333"},{"key":"20484_CR132","doi-asserted-by":"crossref","unstructured":"Kim S, Ahn D, Ko BC (2022) Cross-modal learning with 3d deformable attention for action recognition. arXiv:2212.05638","DOI":"10.1109\/ICCV51070.2023.00942"},{"key":"20484_CR133","unstructured":"Zhang B, Yu J, Fifty C, Han W, Dai AM, Pang R, Sha F (2021) Co-training transformer with videos and images improves action recognition. arXiv:2112.07175"},{"key":"20484_CR134","unstructured":"Li K, Wang Y, Gao P, Song G, Liu Y, Li H, Qiao Y (2022) Uniformer: Unified transformer for efficient spatiotemporal representation learning. In: Proceedings of the tenth international conference on learning representations"},{"key":"20484_CR135","doi-asserted-by":"crossref","unstructured":"Liang Y, Zhou P, Zimmermann R, Yan S (2022) Dualformer: Local-global stratified transformer for efficient video recognition. In: European conference on computer vision, pp 577\u2013595. Springer","DOI":"10.1007\/978-3-031-19830-4_33"},{"key":"20484_CR136","doi-asserted-by":"crossref","unstructured":"Arnab A, Dehghani M, Heigold G, Sun C, Lu\u010di\u0107 M, Schmid C (2021) ViViT: A video vision transformer. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 6836\u20136846","DOI":"10.1109\/ICCV48922.2021.00676"},{"key":"20484_CR137","unstructured":"Bertasius G, Wang H, Torresani L (2021) Is space-time attention all you need for video understanding? In: International conference on machine learning, vol 2, pp 4"},{"key":"20484_CR138","doi-asserted-by":"crossref","unstructured":"Yan S, Xiong X, Arnab A, Lu Z, Zhang M, Sun C, Schmid C (2022) Multiview transformers for video recognition. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 3333\u20133343","DOI":"10.1109\/CVPR52688.2022.00333"},{"key":"20484_CR139","doi-asserted-by":"publisher","first-page":"108487","DOI":"10.1016\/j.patcog.2021.108487","volume":"124","author":"V Mazzia","year":"2022","unstructured":"Mazzia V, Angarano S, Salvetti F, Angelini F, Chiaberge M (2022) Action transformer: A self-attention model for short-time pose-based human action recognition. Pattern Recognit 124:108487","journal-title":"Pattern Recognit"},{"key":"20484_CR140","doi-asserted-by":"crossref","unstructured":"Chen J, Ho CM (2022) Mm-vit: Multi-modal video transformer for compressed video action recognition. In: Proceedings of the IEEE\/CVF winter conference on applications of computer vision, pp 1910\u20131921","DOI":"10.1109\/WACV51458.2022.00086"},{"key":"20484_CR141","doi-asserted-by":"crossref","unstructured":"Fan H, Xiong B, Mangalam K, Li Y, Yan Z, Malik J, Feichtenhofer C (2021) Multiscale vision Transformers. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 6824\u20136835","DOI":"10.1109\/ICCV48922.2021.00675"},{"key":"20484_CR142","doi-asserted-by":"crossref","unstructured":"Li Y, Wu C-Y, Fan H, Mangalam K, Xiong B, Malik J, Feichtenhofer C (2022) Mvitv2: Improved multiscale vision transformers for classification and detection. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 4804\u20134814","DOI":"10.1109\/CVPR52688.2022.00476"},{"key":"20484_CR143","doi-asserted-by":"crossref","unstructured":"He K, Gkioxari G, Doll\u00e1r P, Girshick R (2017) Mask r-cnn. In: Proceedings of the IEEE international conference on computer vision, pp 2961\u20132969","DOI":"10.1109\/ICCV.2017.322"},{"key":"20484_CR144","doi-asserted-by":"crossref","unstructured":"Lin T-Y, Doll\u00e1r P, Girshick R, He K, Hariharan B, Belongie S (2017) Feature pyramid networks for object detection. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2117\u20132125","DOI":"10.1109\/CVPR.2017.106"},{"key":"20484_CR145","unstructured":"Ryali C, Hu Y-T, Bolya D, Wei C, Fan H, Huang P-Y, Aggarwal V, Chowdhury A, Poursaeed O, Hoffman J, et al (2023) Hiera: A hierarchical vision transformer without the bells-and-whistles. arXiv:2306.00989"},{"key":"20484_CR146","unstructured":"Li K, Wang Y, He Y, Li Y, Wang Y, Wang L, Qiao Y (2022) Uniformerv2: Spatiotemporal learning by arming image vits with video uniformer. arXiv:2211.09552"},{"issue":"1","key":"20484_CR147","doi-asserted-by":"publisher","first-page":"116","DOI":"10.1007\/s44196-023-00292-9","volume":"16","author":"Y Sun","year":"2023","unstructured":"Sun Y, Xu W, Yu X, Gao J, Xia T (2023) Integrating Vision Transformer-Based Bilinear Pooling and Attention Network Fusion of RGB and Skeleton Features for Human Action Recognition. International Journal of Computational Intelligence Systems. 16(1):116","journal-title":"International Journal of Computational Intelligence Systems."},{"key":"20484_CR148","doi-asserted-by":"crossref","unstructured":"He K, Chen X, Xie S, Li Y, Doll\u00e1r P, Girshick R (2022) Masked autoencoders are scalable vision learners. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 16000\u201316009","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"20484_CR149","first-page":"10078","volume":"35","author":"Z Tong","year":"2022","unstructured":"Tong Z, Song Y, Wang J, Wang L (2022) Videomae: Masked autoencoders are data-efficient learners for self-supervised video pre-training. Adv Neural Inf Process Syst 35:10078\u201310093","journal-title":"Adv Neural Inf Process Syst"},{"key":"20484_CR150","doi-asserted-by":"crossref","unstructured":"Wang L, Huang B, Zhao Z, Tong Z, He Y, Wang Y, Wang Y, Qiao Y (2023) Videomae v2: Scaling video masked autoencoders with dual masking. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 14549\u201314560","DOI":"10.1109\/CVPR52729.2023.01398"},{"key":"20484_CR151","doi-asserted-by":"crossref","unstructured":"Sun X, Chen P, Chen L, Li C, Li TH, Tan M, Gan C (2023) Masked motion encoding for self-supervised video representation learning. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 2235\u20132245","DOI":"10.1109\/CVPR52729.2023.00222"},{"key":"20484_CR152","doi-asserted-by":"crossref","unstructured":"Piergiovanni A, Kuo W, Angelova A (2023) Rethinking video vits: Sparse video tubes for joint image and video learning. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 2214\u20132224","DOI":"10.1109\/CVPR52729.2023.00220"},{"key":"20484_CR153","doi-asserted-by":"crossref","unstructured":"Srivastava S, Sharma G (2024) Omnivec: Learning robust representations with cross modal sharing. In: Proceedings of the IEEE\/CVF winter conference on applications of computer vision, pp 1236\u20131248","DOI":"10.1109\/WACV57701.2024.00127"},{"key":"20484_CR154","doi-asserted-by":"crossref","unstructured":"Srivastava S, Sharma G (2024) Omnivec2-a novel transformer based network for large scale multimodal and multitask learning. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 27412\u201327424","DOI":"10.1109\/CVPR52733.2024.02588"},{"key":"20484_CR155","doi-asserted-by":"crossref","unstructured":"Ni B, Peng H, Chen M, Zhang S, Meng G, Fu J, Xiang S, Ling H (2022) Expanding language-image pretrained models for general video recognition. In: European conference on computer vision, pp 1\u201318. Springer","DOI":"10.1007\/978-3-031-19772-7_1"},{"key":"20484_CR156","doi-asserted-by":"crossref","unstructured":"Wu W, Wang X, Luo H, Wang J, Yang Y, Ouyang W (2023) Bidirectional cross-modal knowledge exploration for video recognition with pre-trained vision-language models. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 6620\u20136630","DOI":"10.1109\/CVPR52729.2023.00640"},{"key":"20484_CR157","unstructured":"Radford A, Kim JW, Hallacy C, Ramesh A, Goh G, Agarwal S, Sastry G, Askell A, Mishkin P, Clark J, et al (2021) Learning transferable visual models from natural language supervision. In: International conference on machine learning, pp 8748\u20138763. PMLR"},{"key":"20484_CR158","doi-asserted-by":"crossref","unstructured":"Wu W, Sun Z, Ouyang W (2023) Revisiting classifier: Transferring vision-language models for video recognition. In: Proceedings of the AAAI conference on artificial intelligence, vol 37, pp 2847\u20132855","DOI":"10.1609\/aaai.v37i3.25386"},{"key":"20484_CR159","doi-asserted-by":"crossref","unstructured":"Chaudhuri S, Bhattacharya S (2023) ViLP: Knowledge exploration using vision, language, and pose embeddings for video action recognition. arXiv:2308.03908","DOI":"10.1145\/3627631.3627637"},{"key":"20484_CR160","doi-asserted-by":"crossref","unstructured":"Li K, Wang Y, Li Y, Wang Y, He Y, Wang L, Qiao Y (2023) Unmasked teacher: Towards training-efficient video foundation models. arXiv:2303.16058","DOI":"10.1109\/ICCV51070.2023.01826"},{"key":"20484_CR161","unstructured":"Pan C, Hou R, Yu H, Wang Q, Velipasalar S, Khabsa M (2023) Svt: Supertoken video transformer for efficient video understanding. arXiv:2304.00325"},{"key":"20484_CR162","unstructured":"Liu H, Li C, Wu Q, Lee YJ (2024) Visual instruction tuning. Adv Neural Inf Process Syst 36"},{"key":"20484_CR163","unstructured":"Lu H, Jian H, Poppe R, Salah AA (2024) Enhancing video transformers for action understanding with vlm-aided training. arXiv:2403.16128"},{"key":"20484_CR164","doi-asserted-by":"crossref","unstructured":"Wang T, Liu Y, Liang JC, Cui Y, Mao Y, Nie S, Liu J, Feng F, Xu Z, Han C, et al (2024) Mmpt: Multimodal prompt tuning for zero-shot instruction learning. arXiv:2409.15657","DOI":"10.18653\/v1\/2024.emnlp-main.218"},{"key":"20484_CR165","doi-asserted-by":"crossref","unstructured":"Han C, Wang Q, Cui Y, Cao Z, Wang W, Qi S, Liu D (2023) E$$^{2}$$ vpt: An effective and efficient approach for visual prompt tuning. arXiv:2307.13770","DOI":"10.1109\/ICCV51070.2023.01604"},{"key":"20484_CR166","unstructured":"Han C, Wang Q, Cui Y, Wang W, Huang L, Qi S, Liu D (2024) Facing the elephant in the room: Visual prompt tuning or full finetuning?. arXiv:2401.12902"},{"key":"20484_CR167","doi-asserted-by":"crossref","unstructured":"Liu Z, Ning J, Cao Y, Wei Y, Zhang Z, Lin S, Hu H (2022) Video swin transformer. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 3202\u20133211","DOI":"10.1109\/CVPR52688.2022.00320"},{"key":"20484_CR168","unstructured":"Liang J, Cui Y, Wang Q, Geng T, Wang W, Liu D (2024) Clusterfomer: clustering as a universal visual learner. Adv Neural Inf Process Syst 36"},{"key":"20484_CR169","doi-asserted-by":"publisher","first-page":"107037","DOI":"10.1016\/j.patcog.2019.107037","volume":"98","author":"J Li","year":"2020","unstructured":"Li J, Liu X, Zhang M, Wang D (2020) Spatio-temporal deformable 3d convnets with attention for action recognition. Pattern Recognit 98:107037","journal-title":"Pattern Recognit"},{"key":"20484_CR170","doi-asserted-by":"crossref","unstructured":"Ye F, Pu S, Zhong Q, Li C, Xie D, Tang H (2020) Dynamic gcn: Context-enriched topology learning for skeleton-based action recognition. In: Proceedings of the 28th ACM international conference on multimedia, pp 55\u201363","DOI":"10.1145\/3394171.3413941"},{"issue":"2","key":"20484_CR171","doi-asserted-by":"publisher","first-page":"1474","DOI":"10.1109\/TPAMI.2022.3157033","volume":"45","author":"Y-F Song","year":"2022","unstructured":"Song Y-F, Zhang Z, Shan C, Wang L (2022) Constructing stronger and faster baselines for skeleton-based action recognition. IEEE Trans Pattern Anal Mach Intell 45(2):1474\u20131488","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"20484_CR172","doi-asserted-by":"crossref","unstructured":"Song Y-F, Zhang Z, Shan C, Wang L (2020) Stronger, faster and more explainable: A graph convolutional baseline for skeleton-based action recognition. In: Proceedings of the 28th ACM international conference on multimedia, pp 1625\u20131633","DOI":"10.1145\/3394171.3413802"},{"key":"20484_CR173","unstructured":"Wang Y, Li K, Li Y, He Y, Huang B, Zhao Z, Zhang H, Xu J, Liu Y, Wang Z, et al (2022) Internvideo: General video foundation models via generative and discriminative learning. arXiv:2212.03191"},{"key":"20484_CR174","doi-asserted-by":"crossref","unstructured":"Wang Y, Li K, Li X, Yu J, He Y, Chen G, Pei B, Zheng R, Xu J, Wang Z, et al (2024) Internvideo2: Scaling video foundation models for multimodal video understanding. arXiv:2403.15377","DOI":"10.1007\/978-3-031-73013-9_23"},{"issue":"1","key":"20484_CR175","doi-asserted-by":"publisher","first-page":"574","DOI":"10.1007\/s10489-022-03436-0","volume":"53","author":"W Yang","year":"2023","unstructured":"Yang W, Zhang J, Cai J, Xu Z (2023) Hybridnet: Integrating gcn and cnn for skeleton-based action recognition. Appl Intell 53(1):574\u2013585","journal-title":"Appl Intell"},{"key":"20484_CR176","doi-asserted-by":"crossref","unstructured":"Duan H, Zhao Y, Chen K, Lin D, Dai B (2022) Revisiting skeleton-based action recognition. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 2969\u20132978","DOI":"10.1109\/CVPR52688.2022.00298"},{"key":"20484_CR177","doi-asserted-by":"crossref","unstructured":"Zhu X, Hu H, Lin S, Dai J (2019) Deformable convnets v2: More deformable, better results. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 9308\u20139316","DOI":"10.1109\/CVPR.2019.00953"},{"key":"20484_CR178","doi-asserted-by":"crossref","unstructured":"Das S, Sharma S, Dai R, Bremond F, Thonnat M (2020) Vpn: Learning video-pose embedding for activities of daily living. In: Computer vision\u2013ECCV 2020: 16th European Conference, Glasgow, UK, August 23\u201328, 2020, Proceedings, Part IX 16, pp 72\u201390. Springer","DOI":"10.1007\/978-3-030-58545-7_5"},{"issue":"3","key":"20484_CR179","first-page":"3522","volume":"45","author":"X Bruce","year":"2022","unstructured":"Bruce X, Liu Y, Zhang X, Zhong S-H, Chan KC (2022) Mmnet: A model-based multimodal network for human action recognition in rgb-d videos. IEEE Trans Pattern Anal Mach Intell 45(3):3522\u20133538","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"20484_CR180","doi-asserted-by":"crossref","unstructured":"Asghari-Esfeden S, Sznaier M, Camps O (2020) Dynamic motion representation for human action recognition. In: Proceedings of the IEEE\/CVF winter conference on applications of computer vision, pp 557\u2013566","DOI":"10.1109\/WACV45572.2020.9093500"},{"key":"20484_CR181","doi-asserted-by":"crossref","unstructured":"Gao R, Oh T-H, Grauman K, Torresani L (2020) Listen to look: Action recognition by previewing audio. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 10457\u201310467","DOI":"10.1109\/CVPR42600.2020.01047"},{"key":"20484_CR182","doi-asserted-by":"crossref","unstructured":"Jain M, Ghodrati A, Snoek CG (2020) Actionbytes: Learning from trimmed videos to localize actions. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 1171\u20131180","DOI":"10.1109\/CVPR42600.2020.00125"},{"key":"20484_CR183","doi-asserted-by":"crossref","unstructured":"Ji J, Krishna R, Fei-Fei L, Niebles JC (2020) Action genome: Actions as compositions of spatio-temporal scene graphs. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 10236\u201310247","DOI":"10.1109\/CVPR42600.2020.01025"},{"key":"20484_CR184","doi-asserted-by":"crossref","unstructured":"Weng Z, Gorban AS, Ji J, Najibi M, Zhou Y, Anguelov D (2023) 3d human keypoints estimation from point clouds in the wild without human labels. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 1158\u20131167","DOI":"10.1109\/CVPR52729.2023.00118"},{"key":"20484_CR185","doi-asserted-by":"crossref","unstructured":"Li A, Luo T, Lu Z, Xiang T, Wang L (2019) Large-scale few-shot learning: Knowledge transfer with class hierarchy. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 7212\u20137220","DOI":"10.1109\/CVPR.2019.00738"},{"key":"20484_CR186","doi-asserted-by":"crossref","unstructured":"Wang Y, Xiao Y, Xiong F, Jiang W, Cao Z, Zhou JT, Yuan J (2020) 3dv: 3d dynamic voxel for action recognition in depth video. In: Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR)","DOI":"10.1109\/CVPR42600.2020.00059"},{"key":"20484_CR187","unstructured":"Qi CR, Yi L, Su H, Guibas LJ (2017) Pointnet++: Deep hierarchical feature learning on point sets in a metric space. Adv Neural Inf Process Syst 30"},{"key":"20484_CR188","unstructured":"Soomro K, Zamir AR, Shah M (2012) Ucf101: A dataset of 101 human actions classes from videos in the wild. arXiv:1212.0402"},{"key":"20484_CR189","doi-asserted-by":"crossref","unstructured":"Kuehne H, Jhuang H, Garrote E, Poggio T, Serre T (2011) Hmdb: a large video database for human motion recognition. In: 2011 International conference on computer vision, pp 2556\u20132563. IEEE","DOI":"10.1109\/ICCV.2011.6126543"},{"key":"20484_CR190","unstructured":"Kay W, Carreira J, Simonyan K, Zhang B, Hillier C, Vijayanarasimhan S, Viola F, Green T, Back T, Natsev P, et al (2017) The kinetics human action video dataset. arXiv:1705.06950"},{"key":"20484_CR191","doi-asserted-by":"crossref","unstructured":"Shahroudy A, Liu J, Ng T-T, Wang G (2016) Ntu rgb+ d: A large scale dataset for 3d human activity analysis. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1010\u20131019","DOI":"10.1109\/CVPR.2016.115"},{"issue":"10","key":"20484_CR192","doi-asserted-by":"publisher","first-page":"2684","DOI":"10.1109\/TPAMI.2019.2916873","volume":"42","author":"J Liu","year":"2019","unstructured":"Liu J, Shahroudy A, Perez M, Wang G, Duan L-Y, Kot AC (2019) Ntu rgb+ d 120: A large-scale benchmark for 3d human activity understanding. IEEE Trans Pattern Anal Mach Intell 42(10):2684\u20132701","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"20484_CR193","doi-asserted-by":"crossref","unstructured":"Mersha M, Lamb K, AlShami A, Kalita J, et al (2024) Explainable artificial intelligence: A survey of the need, techniques, applications, and future direction","DOI":"10.2139\/ssrn.4715286"},{"key":"20484_CR194","doi-asserted-by":"crossref","unstructured":"Bendale A, Boult T (2015) Towards open world recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1893\u20131902","DOI":"10.1109\/CVPR.2015.7298799"},{"issue":"7","key":"20484_CR195","doi-asserted-by":"publisher","first-page":"1757","DOI":"10.1109\/TPAMI.2012.256","volume":"35","author":"WJ Scheirer","year":"2012","unstructured":"Scheirer WJ, Rezende Rocha A, Sapkota A, Boult TE (2012) Toward open set recognition. IEEE Trans Pattern Anal Mach Intell 35(7):1757\u20131772","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"issue":"11","key":"20484_CR196","doi-asserted-by":"publisher","first-page":"2317","DOI":"10.1109\/TPAMI.2014.2321392","volume":"36","author":"WJ Scheirer","year":"2014","unstructured":"Scheirer WJ, Jain LP, Boult TE (2014) Probability models for open set recognition. IEEE Trans Pattern Anal Mach Intell 36(11):2317\u20132324","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"20484_CR197","doi-asserted-by":"crossref","unstructured":"Boult T, Grabowicz P, Prijatelj D, Stern R, Holder L, Alspector J, Jafarzadeh MM, Ahmad T, Dhamija A, Li C, et al (2021) Towards a unifying framework for formal theories of novelty. In: Proceedings of the AAAI conference on artificial intelligence, vol 35, pp 15047\u201315052","DOI":"10.1609\/aaai.v35i17.17766"},{"key":"20484_CR198","unstructured":"Prijatelj DS, Grieggs S, Huang J, Du D, Shringi A, Funk C, Kaufman A, Robertson E, Scheirer W.J (2022) Human Activity Recognition in an Open World"},{"key":"20484_CR199","doi-asserted-by":"crossref","unstructured":"Shrivastava A, Kumar P, Anubhav Vondrick C, Scheirer W, Prijatelj D, Jafarzadeh M, Ahmad T, Cruz S, Rabinowitz R, et al (2023) Novelty in image classification. In: A Unifying Framework for Formal theories of novelty: discussions, guidelines, and examples for artificial intelligence, pp. 37\u201348. Springer","DOI":"10.1007\/978-3-031-33054-4_4"},{"issue":"3","key":"20484_CR200","doi-asserted-by":"publisher","first-page":"338","DOI":"10.1016\/S0019-9958(65)90241-X","volume":"8","author":"LA Zadeh","year":"1965","unstructured":"Zadeh LA (1965) Fuzzy sets. Inf Control 8(3):338\u2013353","journal-title":"Inf Control"},{"key":"20484_CR201","doi-asserted-by":"crossref","unstructured":"Wu C-Y, Tsay Y-W, Shih AC-C (2022) Open action recognition by a 3d convolutional neural network combining with an open fuzzy min-max neural network. In: 2022 International conference on advanced robotics and intelligent systems (ARIS), pp 1\u20136. IEEE","DOI":"10.1109\/ARIS56205.2022.9910444"},{"issue":"5","key":"20484_CR202","doi-asserted-by":"publisher","first-page":"776","DOI":"10.1109\/72.159066","volume":"3","author":"PK Simpson","year":"1992","unstructured":"Simpson PK (1992) Fuzzy min-max neural networks. I. classification. IEEE Trans Neural Netw 3(5):776\u2013786","journal-title":"IEEE Trans Neural Netw"},{"issue":"3","key":"20484_CR203","doi-asserted-by":"publisher","first-page":"762","DOI":"10.1109\/TPAMI.2017.2707495","volume":"40","author":"EM Rudd","year":"2017","unstructured":"Rudd EM, Jain LP, Scheirer WJ, Boult TE (2017) The extreme value machine. IEEE Trans Pattern Anal Mach Intell 40(3):762\u2013768","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"20484_CR204","doi-asserted-by":"crossref","unstructured":"Neal L, Olson M, Fern X, Wong W-K, Li F (2018) Open set learning with counterfactual images. In: Proceedings of the european conference on computer vision (ECCV), pp 613\u2013628","DOI":"10.1007\/978-3-030-01231-1_38"},{"key":"20484_CR205","doi-asserted-by":"crossref","unstructured":"Perera P, Morariu VI, Jain R, Manjunatha V, Wigington C, Ordonez V, Patel VM (2020) Generative-Discriminative Feature Representations for Open-Set Recognition, pp 11814\u201311823. https:\/\/openaccess.thecvf.com\/content_CVPR_2020\/html\/Perera_Generative-Discriminative_Feature_Representations_for_Open-Set_Recognition_CVPR_2020_paper.html Accessed 24-Jan-2024","DOI":"10.1109\/CVPR42600.2020.01183"},{"key":"20484_CR206","doi-asserted-by":"crossref","unstructured":"Zhou D-W, Ye H-J, Zhan D-C (2021) Learning placeholders for open-set recognition. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 4401\u20134410","DOI":"10.1109\/CVPR46437.2021.00438"},{"issue":"5","key":"20484_CR207","first-page":"2358","volume":"44","author":"H-M Yang","year":"2020","unstructured":"Yang H-M, Zhang X-Y, Yin F, Yang Q, Liu C-L (2020) Convolutional prototype network for open set recognition. IEEE Trans Pattern Anal Mach Intell 44(5):2358\u20132370","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"20484_CR208","unstructured":"Vaze S, Han K, Vedaldi A, Zisserman A (2021) Open-Set Recognition: A Good Closed-Set Classifier is All You Need. https:\/\/openreview.net\/forum?id=5hLP5JY9S2d Accessed 24-Jan-2024"},{"key":"20484_CR209","doi-asserted-by":"crossref","unstructured":"Bao W, Yu Q, Kong Y (2021) Evidential deep learning for open set action recognition. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 13349\u201313358","DOI":"10.1109\/ICCV48922.2021.01310"},{"key":"20484_CR210","doi-asserted-by":"crossref","unstructured":"Zhao C, Du D, Hoogs A, Funk C (2023) Open set action recognition via multi-label evidential learning. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 22982\u201322991","DOI":"10.1109\/CVPR52729.2023.02201"},{"key":"20484_CR211","doi-asserted-by":"crossref","unstructured":"Feng Y, Gao J, Yang S, Xu C (2023) Spatial-temporal exclusive capsule network for open set action recognition. IEEE Trans Multimed","DOI":"10.1109\/TMM.2023.3252275"},{"key":"20484_CR212","doi-asserted-by":"crossref","unstructured":"Guo Y, Camporese G, Yang W, Sperduti A, Ballan L (2021) Conditional variational capsule network for open set recognition. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 103\u2013111","DOI":"10.1109\/ICCV48922.2021.00017"},{"key":"20484_CR213","doi-asserted-by":"publisher","first-page":"1207","DOI":"10.1007\/s00521-020-05009-z","volume":"33","author":"M Gutoski","year":"2021","unstructured":"Gutoski M, Lazzaretti AE, Lopes HS (2021) Deep metric learning for open-set human action recognition in videos. Neural Comput Appl 33:1207\u20131220","journal-title":"Neural Comput Appl"},{"key":"20484_CR214","doi-asserted-by":"crossref","unstructured":"Shu Y, Shi Y, Wang Y, Zou Y, Yuan Q, Tian Y (2018) Odn: Opening the deep network for open-set action recognition. In: 2018 IEEE international conference on multimedia and expo (ICME), pp 1\u20136. IEEE","DOI":"10.1109\/ICME.2018.8486601"},{"key":"20484_CR215","doi-asserted-by":"crossref","unstructured":"Bendale A, Boult TE (2016) Towards open set deep networks. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1563\u20131572","DOI":"10.1109\/CVPR.2016.173"},{"key":"20484_CR216","doi-asserted-by":"publisher","first-page":"119333","DOI":"10.1109\/ACCESS.2022.3221425","volume":"10","author":"M Lee","year":"2022","unstructured":"Lee M, Kim SB (2022) Sensor-based open-set human activity recognition using representation learning with mixup triplets. IEEE Access 10:119333\u2013119344","journal-title":"IEEE Access"},{"key":"20484_CR217","doi-asserted-by":"crossref","unstructured":"Kong S, Ramanan D (2021) Opengan: Open-set recognition via open data generation. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 813\u2013822","DOI":"10.1109\/ICCV48922.2021.00085"},{"key":"20484_CR218","doi-asserted-by":"crossref","unstructured":"Zhang H, Cisse M, Dauphin YN, Lopez-Paz D (2017) mixup: Beyond empirical risk minimization. arXiv:1710.09412","DOI":"10.1007\/978-1-4899-7687-1_79"},{"key":"20484_CR219","unstructured":"Verma V, Lamb A, Beckham C, Najafi A, Mitliagkas I, Lopez-Paz D, Bengio Y (2019) Manifold mixup: Better representations by interpolating hidden states. In: International conference on machine learning, pp 6438\u20136447. PMLR"},{"key":"20484_CR220","doi-asserted-by":"publisher","first-page":"1457","DOI":"10.1007\/s00371-019-01751-1","volume":"36","author":"J Yu","year":"2020","unstructured":"Yu J, Kim DY, Yoon Y, Jeon M (2020) Action matching network: open-set action recognition using spatio-temporal representation matching. Vis Comput 36:1457\u20131471","journal-title":"Vis Comput"},{"issue":"1","key":"20484_CR221","doi-asserted-by":"publisher","first-page":"7146","DOI":"10.1038\/s41598-020-63649-6","volume":"10","author":"Y Shu","year":"2020","unstructured":"Shu Y, Shi Y, Wang Y, Huang T, Tian Y (2020) P-odn: Prototype-based open deep network for open set recognition. Sci Rep 10(1):7146","journal-title":"Sci Rep"},{"key":"20484_CR222","doi-asserted-by":"crossref","unstructured":"Lu J, Xu Y, Li H, Cheng Z, Niu Y (2022) Pmal: Open set recognition via robust prototype mining. In: Proceedings of the AAAI conference on artificial intelligence, vol 36, pp 1872\u20131880","DOI":"10.1609\/aaai.v36i2.20081"},{"key":"20484_CR223","doi-asserted-by":"crossref","unstructured":"Tran D, Wang H, Torresani L, Ray J, LeCun Y, Paluri M (2018) A closer look at spatiotemporal convolutions for action recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 6450\u20136459","DOI":"10.1109\/CVPR.2018.00675"},{"key":"20484_CR224","doi-asserted-by":"crossref","unstructured":"Yang K, Gao J, Feng Y, Xu C (2023) Leveraging attribute knowledge for open-set action recognition. In: 2023 IEEE international conference on multimedia and expo (ICME), pp 762\u2013767. IEEE","DOI":"10.1109\/ICME55011.2023.00136"},{"key":"20484_CR225","doi-asserted-by":"publisher","first-page":"60","DOI":"10.1016\/j.patcog.2018.07.030","volume":"85","author":"Y Yang","year":"2019","unstructured":"Yang Y, Hou C, Lang Y, Guan D, Huang D, Xu J (2019) Open-set human activity recognition based on micro-doppler signatures. Pattern Recognit 85:60\u201369","journal-title":"Pattern Recognit"},{"key":"20484_CR226","doi-asserted-by":"crossref","unstructured":"Ge Z, Demyanov S, Chen Z, Garnavi R (2017) Generative openmax for multi-class open set classification. arXiv:1707.07418","DOI":"10.5244\/C.31.42"},{"key":"20484_CR227","doi-asserted-by":"crossref","unstructured":"Ditria L, Meyer BJ, Drummond T (2020) Opengan: Open set generative adversarial networks. In: Proceedings of the asian conference on computer vision","DOI":"10.1007\/978-3-030-69538-5_29"},{"key":"20484_CR228","doi-asserted-by":"crossref","unstructured":"Moon W, Park J, Seong HS, Cho C-H, Heo J-P (2022) Difficulty-aware simulator for open set recognition. In: European conference on computer vision, pp 365\u2013381. Springer","DOI":"10.1007\/978-3-031-19806-9_21"},{"key":"20484_CR229","doi-asserted-by":"crossref","unstructured":"Si X, Zhang C, Li S, Liang J (2022) Open-set human micro-doppler action recognition by extreme value theory. In: International conference in communications, signal processing, and systems, pp 366\u2013373. Springer","DOI":"10.1007\/978-981-99-2653-4_45"},{"key":"20484_CR230","doi-asserted-by":"crossref","unstructured":"Wang H, Wang Y, Zhou Z, Ji X, Gong D, Zhou J, Li Z, Liu W (2018) Cosface: Large margin cosine loss for deep face recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 5265\u20135274","DOI":"10.1109\/CVPR.2018.00552"},{"key":"20484_CR231","doi-asserted-by":"crossref","unstructured":"Zhai Y, Liu Z, Wu Z, Wu Y, Zhou C, Doermann D, Yuan J, Hua G (2023) Soar: Scene-debiasing open-set action recognition. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 10244\u201310254","DOI":"10.1109\/ICCV51070.2023.00940"},{"key":"20484_CR232","doi-asserted-by":"crossref","unstructured":"Zhang H, Liu Y, Wang Y, Wang L, Qiao Y (2023) Learning discriminative feature representation for open set action recognition. In: Proceedings of the 31st ACM international conference on multimedia, pp 7696\u20137705","DOI":"10.1145\/3581783.3611824"},{"key":"20484_CR233","doi-asserted-by":"crossref","unstructured":"Du D, Shringi A, Hoogs A, Funk C (2023) Reconstructing humpty dumpty: Multi-feature graph autoencoder for open set action recognition. In: Proceedings of the IEEE\/CVF winter conference on applications of computer vision, pp 3371\u20133380","DOI":"10.1109\/WACV56688.2023.00337"},{"key":"20484_CR234","unstructured":"Jafarzadeh M, Dhamija AR, Cruz S, Li C, Ahmad T, Boult TE (2020) Open-world learning without labels. ArXiv:2011.12906"},{"key":"20484_CR235","doi-asserted-by":"crossref","unstructured":"Gutoski M, Lazzaretti AE, Lopes HS (2023) Unsupervised open-world human action recognition. Pattern Anal Appl 1\u201318","DOI":"10.1007\/s10044-023-01202-7"},{"key":"20484_CR236","doi-asserted-by":"publisher","first-page":"104313","DOI":"10.1016\/j.imavis.2021.104313","volume":"116","author":"M Gutoski","year":"2021","unstructured":"Gutoski M, Lazzaretti AE, Lopes HS (2021) Incremental human action recognition with dual memory. Image Vis Comput 116:104313","journal-title":"Image Vis Comput"},{"issue":"1","key":"20484_CR237","doi-asserted-by":"publisher","first-page":"32","DOI":"10.1002\/1097-0142(1950)3:1<32::AID-CNCR2820030106>3.0.CO;2-3","volume":"3","author":"WJ Youden","year":"1950","unstructured":"Youden WJ (1950) Index for rating diagnostic tests. Cancer 3(1):32\u201335","journal-title":"Cancer"},{"key":"20484_CR238","unstructured":"Jafarzadeh M, Dhamija AR, Cruz S, Li C, Ahmad T, Boult TE (2020) A review of open-world learning and steps toward open-world learning without labels. arXiv:2011.12906"},{"issue":"10","key":"20484_CR239","doi-asserted-by":"publisher","first-page":"98","DOI":"10.1109\/MCOM.2017.1700082","volume":"55","author":"S Yousefi","year":"2017","unstructured":"Yousefi S, Narui H, Dayal S, Ermon S, Valaee S (2017) A survey on behavior recognition using wifi channel state information. IEEE Commun Mag 55(10):98\u2013104","journal-title":"IEEE Commun Mag"},{"key":"20484_CR240","doi-asserted-by":"crossref","unstructured":"Xia L, Chen CC, Aggarwal J (2012) View invariant human action recognition using histograms of 3d joints. In: Computer vision and pattern recognition workshops (CVPRW), 2012 IEEE computer society conference on, pp 20\u201327. IEEE","DOI":"10.1109\/CVPRW.2012.6239233"},{"key":"20484_CR241","doi-asserted-by":"publisher","first-page":"36","DOI":"10.1016\/j.neucom.2016.05.094","volume":"212","author":"C Gao","year":"2016","unstructured":"Gao C, Du Y, Liu J, Lv J, Yang L, Meng D, Hauptmann AG (2016) Infar dataset: Infrared action recognition at different times. Neurocomputing 212:36\u201347","journal-title":"Neurocomputing"},{"key":"20484_CR242","doi-asserted-by":"publisher","first-page":"397","DOI":"10.1016\/j.patcog.2015.09.028","volume":"52","author":"H Cheng","year":"2016","unstructured":"Cheng H, Chung SM (2016) Orthogonal moment-based descriptors for pose shape query on 3d point cloud patches. Pattern Recognit 52:397\u2013409","journal-title":"Pattern Recognit"},{"key":"20484_CR243","doi-asserted-by":"crossref","unstructured":"Calabrese E, Taverni G, Awai\u00a0Easthope C, Skriabine S, Corradi F, Longinotti L, Eng K, Delbruck T (2019) Dhp19: Dynamic vision sensor 3d human pose dataset. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition workshops","DOI":"10.1109\/CVPRW.2019.00217"},{"issue":"7","key":"20484_CR244","doi-asserted-by":"publisher","first-page":"1781","DOI":"10.1109\/TCYB.2016.2582918","volume":"47","author":"A-A Liu","year":"2016","unstructured":"Liu A-A, Xu N, Nie W-Z, Su Y-T, Wong Y, Kankanhalli M (2016) Benchmarking a multimodal and multiview and interactive dataset for human action recognition. IEEE Trans Cybern 47(7):1781\u20131794","journal-title":"IEEE Trans Cybern"},{"issue":"6","key":"20484_CR245","doi-asserted-by":"publisher","first-page":"976","DOI":"10.1016\/j.imavis.2009.11.014","volume":"28","author":"R Poppe","year":"2010","unstructured":"Poppe R (2010) A survey on vision-based human action recognition. Image Vis Comput 28(6):976\u2013990","journal-title":"Image Vis Comput"},{"key":"20484_CR246","doi-asserted-by":"crossref","unstructured":"Ofli F, Chaudhry R, Kurillo G, Vidal R, Bajcsy R (2013) Berkeley mhad: A comprehensive multimodal human action database. In: 2013 IEEE workshop on applications of computer vision (WACV), pp 53\u201360. IEEE","DOI":"10.1109\/WACV.2013.6474999"},{"issue":"2","key":"20484_CR247","doi-asserted-by":"publisher","first-page":"74","DOI":"10.1145\/1964897.1964918","volume":"12","author":"JR Kwapisz","year":"2011","unstructured":"Kwapisz JR, Weiss GM, Moore SA (2011) Activity recognition using cell phone accelerometers. ACM SigKDD Explorations Newsletter. 12(2):74\u201382","journal-title":"ACM SigKDD Explorations Newsletter."},{"issue":"7","key":"20484_CR248","doi-asserted-by":"publisher","first-page":"6851","DOI":"10.1109\/JSEN.2022.3151943","volume":"22","author":"M Chakraborty","year":"2022","unstructured":"Chakraborty M, Kumawat HC, Dhavale SV, Raj AAB (2022) Diat-$$\\mu $$ radhar (micro-doppler signature dataset) & $$\\mu $$ radnet (a lightweight dcnn)\u2014for human suspicious activity recognition. IEEE Sens J 22(7):6851\u20136858","journal-title":"IEEE Sens J"},{"key":"20484_CR249","unstructured":"Wang F, Song Y, Zhang J, Han J, Huang D (2019) Temporal unet: Sample-level human action recognition using wifi. arXiv:1904.11953"},{"key":"20484_CR250","doi-asserted-by":"crossref","unstructured":"Zhu R, Xiao Z, Cheng M, Zhou L, Yan B, Lin S, Wen H (2018) Deep ensemble learning for human activity recognition using smartphone. In: 2018 IEEE 23rd international conference on digital signal processing (DSP), pp 1\u20135. IEEE","DOI":"10.1109\/ICDSP.2018.8631677"},{"key":"20484_CR251","doi-asserted-by":"crossref","unstructured":"Jiang W, Yin Z (2015) Human activity recognition using wearable sensors by deep convolutional neural networks. In: Proceedings of the 23rd ACM international conference on multimedia, pp 1307\u20131310","DOI":"10.1145\/2733373.2806333"},{"issue":"4","key":"20484_CR252","first-page":"160","volume":"17","author":"B Almaslukh","year":"2017","unstructured":"Almaslukh B, AlMuhtadi J, Artoli A (2017) An effective deep autoencoder approach for online smartphone-based human activity recognition. Int J Comput Sci Netw Secur 17(4):160\u2013165","journal-title":"Int J Comput Sci Netw Secur"},{"key":"20484_CR253","doi-asserted-by":"crossref","unstructured":"Yao S, Hu S, Zhao Y, Zhang A, Abdelzaher T (2017) Deepsense: A unified deep learning framework for time-series mobile sensing data processing. In: Proceedings of the 26th international conference on world wide web, pp 351\u2013360","DOI":"10.1145\/3038912.3052577"},{"key":"20484_CR254","doi-asserted-by":"crossref","unstructured":"Liu C, Hu Y, Li Y, Song S, Liu J (2017) Pku-mmd: A large-scale benchmark for continuous multi-modal human action understanding. arXiv:1703.07475","DOI":"10.1145\/3132734.3132739"},{"key":"20484_CR255","doi-asserted-by":"crossref","unstructured":"Rahmani H, Mian A (2016) 3d action recognition from novel viewpoints. In: Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR)","DOI":"10.1109\/CVPR.2016.167"},{"key":"20484_CR256","doi-asserted-by":"crossref","unstructured":"Jiang Z, Rozgic V, Adali S (2017) Learning spatiotemporal features for infrared action recognition with 3d convolutional neural networks. In: Proceedings of the IEEE conference on computer vision and pattern recognition workshops (CVPRW)","DOI":"10.1109\/CVPRW.2017.44"},{"key":"20484_CR257","unstructured":"Ghosh R, Gupta A, Nakagawa A, Soares A, Thakor N (2019) Spatiotemporal filtering for event-based action recognition. arXiv:1903.07067"},{"key":"20484_CR258","doi-asserted-by":"crossref","unstructured":"Liang D, Thomaz E (2019) Audio-based activities of daily living (adl) recognition with large-scale acoustic embeddings from online videos. In: Proceedings of the ACM on interactive, mobile, wearable and ubiquitous technologies (IMWUT). vol 3, no 1","DOI":"10.1145\/3314404"},{"key":"20484_CR259","doi-asserted-by":"crossref","unstructured":"Zeng M, Nguyen LT, Yu B, Mengshoel OJ, Zhu J, Wu P, Zhang J (2014) Convolutional neural networks for human activity recognition using mobile sensors. In: Proceedings of the international conference on mobile computing, applications, and services (MobiCASE)","DOI":"10.4108\/icst.mobicase.2014.257786"},{"key":"20484_CR260","doi-asserted-by":"crossref","unstructured":"Kim Y, Moon T (2015) Human detection and activity classification based on micro-doppler signatures using deep convolutional neural networks. IEEE Geosci Remote Sens Lett (GRSL) 13(1)","DOI":"10.1109\/LGRS.2015.2491329"},{"key":"20484_CR261","doi-asserted-by":"crossref","unstructured":"Lin W, Sun M-T, Poovandran R, Zhang Z (2008) Human activity recognition for video surveillance. In: 2008 IEEE international symposium on circuits and systems (ISCAS), pp 2737\u20132740. IEEE","DOI":"10.1109\/ISCAS.2008.4542023"},{"key":"20484_CR262","doi-asserted-by":"publisher","first-page":"1100","DOI":"10.1007\/s10489-019-01603-4","volume":"50","author":"M Lu","year":"2020","unstructured":"Lu M, Hu Y, Lu X (2020) Driver action recognition using deformable and dilated faster r-cnn with optimized region proposals. Appl Intell 50:1100\u20131111","journal-title":"Appl Intell"},{"key":"20484_CR263","doi-asserted-by":"crossref","unstructured":"Soomro K, Zamir AR (2015) Action recognition in realistic sports videos. In: Computer vision in sports, pp 181\u2013208. Springer","DOI":"10.1007\/978-3-319-09396-3_9"},{"issue":"6","key":"20484_CR264","doi-asserted-by":"publisher","first-page":"633","DOI":"10.1016\/j.cviu.2013.01.013","volume":"117","author":"JM Chaquet","year":"2013","unstructured":"Chaquet JM, Carmona EJ, Fern\u00e1ndez-Caballero A (2013) A survey of video datasets for human action and activity recognition. Comput Vis Image Understand 117(6):633\u2013659","journal-title":"Comput Vis Image Understand"},{"key":"20484_CR265","doi-asserted-by":"crossref","unstructured":"Delaitre V, Laptev I, Sivic J (2010) Recognizing human actions in still images: A study of bag-of-features and part-based representations. In: Proceedings of the british machine vision conference (BMVC)","DOI":"10.5244\/C.24.97"},{"key":"20484_CR266","doi-asserted-by":"crossref","unstructured":"Yao B, Fei-Fei L (2010) Grouplet: A structured image representation for recognizing human and object interactions. In: Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR)","DOI":"10.1109\/CVPR.2010.5540234"},{"key":"20484_CR267","doi-asserted-by":"crossref","unstructured":"Sharma G, Jurie F, Schmid C (2012) Discriminative spatial saliency for image classification. In: Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR)","DOI":"10.1109\/CVPR.2012.6248093"},{"key":"20484_CR268","doi-asserted-by":"crossref","unstructured":"Sun K, Xiao B, Liu D, Wang J (2019) Deep high-resolution representation learning for human pose estimation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 5693\u20135703","DOI":"10.1109\/CVPR.2019.00584"},{"key":"20484_CR269","doi-asserted-by":"crossref","unstructured":"Shotton J, Fitzgibbon A, Cook M, Sharp T, Finocchio M, Moore R, Kipman A, Blake A (2011) Real-time human pose recognition in parts from single depth images. In: CVPR 2011, pp 1297\u20131304. IEEE","DOI":"10.1109\/CVPR.2011.5995316"},{"issue":"15","key":"20484_CR270","doi-asserted-by":"publisher","first-page":"1995","DOI":"10.1016\/j.patrec.2013.02.006","volume":"34","author":"L Chen","year":"2013","unstructured":"Chen L, Wei H, Ferryman J (2013) A survey of human motion analysis using depth imagery. Pattern Recognit Lett 34(15):1995\u20132006","journal-title":"Pattern Recognit Lett"},{"key":"20484_CR271","unstructured":"Shleibik YA (2023) 3d reconstruction of 2d images using deep leaning. PhD thesis, University of Colorado Colorado Springs"},{"key":"20484_CR272","doi-asserted-by":"crossref","unstructured":"Innocenti SU, Becattini F, Pernici F, Del\u00a0Bimbo A (2021) Temporal binary representation for event-based action recognition. In: 2020 25th International conference on pattern recognition (ICPR), pp 10426\u201310432. IEEE","DOI":"10.1109\/ICPR48806.2021.9412991"},{"issue":"2","key":"20484_CR273","doi-asserted-by":"publisher","first-page":"566","DOI":"10.1109\/JSSC.2007.914337","volume":"43","author":"P Lichtsteiner","year":"2008","unstructured":"Lichtsteiner P, Posch C, Delbruck T (2008) A $$128 \\times 128 120$$ db 15 $$\\mu $$s latency asynchronous temporal contrast vision sensor. IEEE J Solid-state Circ 43(2):566\u2013576","journal-title":"IEEE J Solid-state Circ"},{"key":"20484_CR274","unstructured":"Berner R, Brandli C, Yang M, Liu S-C, Delbruck T (2013)A 240$$\\times $$ 180 10mw 12us latency sparse-output vision sensor for mobile applications. In: 2013 Symposium on VLSI Circuits, pp 186\u2013187. IEEE"},{"key":"20484_CR275","doi-asserted-by":"crossref","unstructured":"Li T, Liu J, Zhang W, Ni Y, Wang W, Li Z (2021) Uav-human: A large benchmark for human behavior understanding with unmanned aerial vehicles. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 16266\u201316275","DOI":"10.1109\/CVPR46437.2021.01600"},{"key":"20484_CR276","unstructured":"Carreira J, Noland E, Banki-Horvath A, Hillier C, Zisserman A (2018) A short note about kinetics-600. arXiv:1808.01340"},{"key":"20484_CR277","unstructured":"Carreira J, Noland E, Hillier C, Zisserman A (2019) A short note on the kinetics-700 human action dataset. arXiv:1907.06987"},{"key":"20484_CR278","doi-asserted-by":"crossref","unstructured":"Damen D, Doughty H, Farinella GM, Fidler S, Furnari A, Kazakos E, Moltisanti D, Munro J, Perrett T, Price W, et al (2018) Scaling egocentric vision: The epic-kitchens dataset. In: Proceedings of the european conference on computer vision (ECCV), pp 720\u2013736","DOI":"10.1007\/978-3-030-01225-0_44"},{"key":"20484_CR279","unstructured":"Gorban A, Idrees H, Jiang Y-G, Zamir AR, Laptev I, Shah M, Sukthankar R (2015) THUMOS challenge: Action recognition with a large number of classes"},{"key":"20484_CR280","doi-asserted-by":"crossref","unstructured":"Caba\u00a0Heilbron F, Escorcia V, Ghanem B, Carlos\u00a0Niebles J (2015) Activitynet: A large-scale video benchmark for human activity understanding. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 961\u2013970","DOI":"10.1109\/CVPR.2015.7298698"},{"key":"20484_CR281","doi-asserted-by":"crossref","unstructured":"Goyal R, Ebrahimi\u00a0Kahou S, Michalski V, Materzynska J, Westphal S, Kim H, Haenel V, Fruend I, Yianilos P, Mueller-Freitag M, et al (2017) The\" something something\" video database for learning and evaluating visual common sense. In: Proceedings of the IEEE international conference on computer vision, pp 5842\u20135850","DOI":"10.1109\/ICCV.2017.622"},{"key":"20484_CR282","doi-asserted-by":"crossref","unstructured":"Wang J, Liu Z, Wu Y, Yuan J (2012) Mining actionlet ensemble for action recognition with depth cameras. In: 2012 IEEE conference on computer vision and pattern recognition, pp 1290\u20131297. IEEE","DOI":"10.1109\/CVPR.2012.6247813"},{"key":"20484_CR283","doi-asserted-by":"crossref","unstructured":"Wang J, Nie X, Xia Y, Wu Y, Zhu S-C (2014) Cross-view action modeling, learning and recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2649\u20132656","DOI":"10.1109\/CVPR.2014.339"},{"key":"20484_CR284","doi-asserted-by":"crossref","unstructured":"Rahmani H, Mahmood A, Q\u00a0Huynh D, Mian A (2014) Hopc: Histogram of oriented principal components of 3d pointclouds for action recognition. In: Computer vision\u2013ECCV 2014: 13th european conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part II 13, pp 742\u2013757. Springer","DOI":"10.1007\/978-3-319-10605-2_48"},{"issue":"12","key":"20484_CR285","doi-asserted-by":"publisher","first-page":"2430","DOI":"10.1109\/TPAMI.2016.2533389","volume":"38","author":"H Rahmani","year":"2016","unstructured":"Rahmani H, Mahmood A, Huynh D, Mian A (2016) Histogram of oriented principal components for cross-view action recognition. IEEE Trans Pattern Anal Mach Intell 38(12):2430\u20132443","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"20484_CR286","doi-asserted-by":"crossref","unstructured":"Amir A, Taba B, Berg D, Melano T, McKinstry J, Di\u00a0Nolfo C, Nayak T, Andreopoulos A, Garreau G, Mendoza M, et al (2017) A low power, fully event-based gesture recognition system. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 7243\u20137252","DOI":"10.1109\/CVPR.2017.781"},{"key":"20484_CR287","doi-asserted-by":"crossref","unstructured":"Kong Q, Wu Z, Deng Z, Klinkigt M, Tong B, Murakami T (2019) Mmact: A large-scale dataset for cross modal human action understanding. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 8658\u20138667","DOI":"10.1109\/ICCV.2019.00875"},{"key":"20484_CR288","doi-asserted-by":"crossref","unstructured":"Chen C, Jafari R, Kehtarnavaz N (2015) Utd-mhad: A multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor. In: 2015 IEEE international conference on image processing (ICIP), pp 168\u2013172. IEEE","DOI":"10.1109\/ICIP.2015.7350781"},{"key":"20484_CR289","doi-asserted-by":"publisher","first-page":"420","DOI":"10.1007\/s11263-012-0550-7","volume":"101","author":"C Ellis","year":"2013","unstructured":"Ellis C, Masood SZ, Tappen MF, LaViola JJ, Sukthankar R (2013) Exploring the trade-off between accuracy and observational latency in action recognition. Int J Comput Vis 101:420\u2013436","journal-title":"Int J Comput Vis"},{"key":"20484_CR290","doi-asserted-by":"crossref","unstructured":"Chung J, Wuu C-h, Yang H-r, Tai Y-W, Tang C-K (2021) Haa500: Human-centric atomic action dataset with curated videos. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 13465\u201313474","DOI":"10.1109\/ICCV48922.2021.01321"},{"key":"20484_CR291","doi-asserted-by":"publisher","first-page":"350","DOI":"10.1007\/s11263-016-0982-6","volume":"123","author":"Y Kong","year":"2017","unstructured":"Kong Y, Fu Y (2017) Max-margin heterogeneous information machine for rgb-d action recognition. Int J Comput Vis 123:350\u2013371","journal-title":"Int J Comput Vis"},{"key":"20484_CR292","doi-asserted-by":"crossref","unstructured":"Gu C, Sun C, Ross DA, Vondrick C, Pantofaru C, Li Y, Vijayanarasimhan S, Toderici G, Ricco S, Sukthankar R, et al (2018) Ava: A video dataset of spatio-temporally localized atomic visual actions. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 6047\u20136056","DOI":"10.1109\/CVPR.2018.00633"},{"key":"20484_CR293","doi-asserted-by":"crossref","unstructured":"Lin T-Y, Maire M, Belongie S, Hays J, Perona P, Ramanan D, Doll\u00e1r P, Zitnick CL (2014) Microsoft coco: Common objects in context. In: Computer vision\u2013ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pp 740\u2013755. Springer","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"20484_CR294","doi-asserted-by":"crossref","unstructured":"Chao Y-W, Liu Y, Liu X, Zeng H, Deng J (2018) Learning to detect human-object interactions. In: 2018 IEEE winter conference on applications of computer vision (wacv), pp 381\u2013389. IEEE","DOI":"10.1109\/WACV.2018.00048"},{"key":"20484_CR295","doi-asserted-by":"crossref","unstructured":"Gorelick L, Blank M, Shechtman E, Irani M, Basri R (2007) Actions as space-time shapes. IEEE Trans Pattern Anal Mach Intell (TPAMI) 29(12)","DOI":"10.1109\/TPAMI.2007.70711"},{"key":"20484_CR296","doi-asserted-by":"crossref","unstructured":"Jhuang H, Gall J, Zuffi S, Schmid C, Black MJ (2013) Towards understanding action recognition. In: Proceedings of the IEEE international conference on computer vision, pp 3192\u20133199","DOI":"10.1109\/ICCV.2013.396"},{"key":"20484_CR297","doi-asserted-by":"crossref","unstructured":"Grauman K, Westbury A, Byrne E, Chavis Z, Furnari A, Girdhar R, Hamburger J, Jiang H, Liu M, Liu X, et al (2022) Ego4d: Around the world in 3,000 hours of egocentric video. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 18995\u201319012","DOI":"10.1109\/CVPR52688.2022.01842"},{"issue":"11","key":"20484_CR298","first-page":"9383","volume":"8","author":"L Pei","year":"2021","unstructured":"Pei L, Xia S, Chu L, Xiao F, Wu Q, Yu W, Qiu R (2021) Mars: Mixed virtual and real wearable sensors for human activity recognition with multidomain deep learning model. IEEE Int Things J 8(11):9383\u20139396","journal-title":"IEEE Int Things J"},{"key":"20484_CR299","doi-asserted-by":"crossref","unstructured":"Zhang Z, Chu L, Xia S, Pei L (2021) Open set mixed-reality human activity recognition. In: 2021 IEEE global communications conference (GLOBECOM), pp 1\u20137. IEEE","DOI":"10.1109\/GLOBECOM46510.2021.9685735"},{"key":"20484_CR300","doi-asserted-by":"crossref","unstructured":"Epstein D, Chen B, Vondrick C (2020) Oops! predicting unintentional action in video. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 919\u2013929","DOI":"10.1109\/CVPR42600.2020.00100"},{"key":"20484_CR301","doi-asserted-by":"crossref","unstructured":"Mahmood N, Ghorbani N, Troje NF, Pons-Moll G, Black M.J (2019) Amass: Archive of motion capture as surface shapes. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 5442\u20135451","DOI":"10.1109\/ICCV.2019.00554"},{"issue":"6","key":"20484_CR302","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3272127.3275108","volume":"37","author":"Y Huang","year":"2018","unstructured":"Huang Y, Kaufmann M, Aksan E, Black MJ, Hilliges O, Pons-Moll G (2018) Deep inertial poser: Learning to reconstruct human pose from sparse inertial measurements in real time. ACM Trans Graph (TOG) 37(6):1\u201315","journal-title":"ACM Trans Graph (TOG)"},{"key":"20484_CR303","unstructured":"Perception Neuron Studio System (2023) https:\/\/neuronmocap.com\/pages\/perception-neuron-studio-system. Accessed: 23-Feb-2023"},{"key":"20484_CR304","first-page":"01796","volume":"21","author":"EM Saoudi","year":"2023","unstructured":"Saoudi EM, Jaafari J, Andaloussi SJ (2023) Advancing human action recognition: a hybrid approach using attention-based lstm and 3d cnn. Sci Afr 21:01796","journal-title":"Sci Afr"},{"issue":"1","key":"20484_CR305","doi-asserted-by":"publisher","first-page":"72","DOI":"10.18178\/joig.11.1.72-81","volume":"11","author":"MA Abdelrazik","year":"2023","unstructured":"Abdelrazik MA, Zekry A, Mohamed WA (2023) Efficient hybrid algorithm for human action recognition. J Image Graph 11(1):72\u201381","journal-title":"J Image Graph"},{"issue":"14","key":"20484_CR306","doi-asserted-by":"publisher","first-page":"6384","DOI":"10.3390\/s23146384","volume":"23","author":"GAS Surek","year":"2023","unstructured":"Surek GAS, Seman LO, Stefenon SF, Mariani VC, Coelho LdS (2023) Video-based human activity recognition using deep learning approaches. Sensors 23(14):6384","journal-title":"Sensors"},{"issue":"11","key":"20484_CR307","doi-asserted-by":"publisher","first-page":"5276","DOI":"10.3390\/s23115276","volume":"23","author":"KM Lim","year":"2023","unstructured":"Lim KM, Lee CP, Tan KS, Alqahtani A, Ali M (2023) Fine-tuned temporal dense sampling with 1d convolutional neural network for human action recognition. Sensors 23(11):5276","journal-title":"Sensors"},{"issue":"6","key":"20484_CR308","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1002\/cpe.7588","volume":"35","author":"A Tyagi","year":"2023","unstructured":"Tyagi A, Singh P, Dev H (2023) Proposed spatio-temporal features for human activity classification using ensemble classification model. Concurr Comput Pract Exp 35(6):1\u20131","journal-title":"Concurr Comput Pract Exp"},{"key":"20484_CR309","doi-asserted-by":"crossref","unstructured":"Schiappa MC, Biyani N, Kamtam P, Vyas S, Palangi H, Vineet V, Rawat YS (2023) A large-scale robustness analysis of video action recognition models. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 14698\u201314708","DOI":"10.1109\/CVPR52729.2023.01412"},{"key":"20484_CR310","doi-asserted-by":"publisher","first-page":"118406","DOI":"10.1016\/j.eswa.2022.118406","volume":"212","author":"MS Islam","year":"2023","unstructured":"Islam MS, Bakhat K, Iqbal M, Khan R, Ye Z, Islam MM (2023) Representation for action recognition with motion vector termed as: Sdqio. Expert Syst Appl 212:118406","journal-title":"Expert Syst Appl"},{"issue":"14","key":"20484_CR311","doi-asserted-by":"publisher","first-page":"8003","DOI":"10.3390\/app13148003","volume":"13","author":"S Khan","year":"2023","unstructured":"Khan S, Hassan A, Hussain F, Perwaiz A, Riaz F, Alsabaan M, Abdul W (2023) Enhanced spatial stream of two-stream network using optical flow for human action recognition. Appl Sci 13(14):8003","journal-title":"Appl Sci"},{"issue":"14","key":"20484_CR312","doi-asserted-by":"publisher","first-page":"20771","DOI":"10.1007\/s11042-022-13921-w","volume":"82","author":"V-H Le","year":"2023","unstructured":"Le V-H (2023) Deep learning-based for human segmentation and tracking, 3d human pose estimation and action recognition on monocular video of mads dataset. Multimed Tools Appl 82(14):20771\u201320818","journal-title":"Multimed Tools Appl"},{"key":"20484_CR313","doi-asserted-by":"crossref","unstructured":"Rajasegaran J, Pavlakos G, Kanazawa A, Feichtenhofer C, Malik J (2023) On the benefits of 3d pose and tracking for human action recognition. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 640\u2013649","DOI":"10.1109\/CVPR52729.2023.00069"},{"key":"20484_CR314","doi-asserted-by":"crossref","unstructured":"Dasari P, Zhang L, Yu Y, Huang H, Gao R (2022) Human action recognition using hybrid deep evolving neural networks. In: 2022 International joint conference on neural networks (IJCNN), pp 1\u20138. IEEE","DOI":"10.1109\/IJCNN55064.2022.9892025"},{"issue":"10","key":"20484_CR315","doi-asserted-by":"publisher","first-page":"4899","DOI":"10.3390\/s23104899","volume":"23","author":"I Vernikos","year":"2023","unstructured":"Vernikos I, Spyropoulos T, Spyrou E, Mylonas P (2023) Human activity recognition in the presence of occlusion. Sensors 23(10):4899","journal-title":"Sensors"},{"key":"20484_CR316","doi-asserted-by":"crossref","unstructured":"Chang S, Yuan L, Nie X, Huang Z, Zhou Y, Chen Y, Feng J, Yan S (2020) Towards accurate human pose estimation in videos of crowded scenes. In: Proceedings of the 28th ACM international conference on multimedia, pp 4630\u20134634","DOI":"10.1145\/3394171.3416299"},{"key":"20484_CR317","doi-asserted-by":"crossref","unstructured":"Shi W, Li D, Wen Y, Yang W (2023) Occlusion-aware graph neural networks for skeleton action recognition. IEEE Trans Ind Inf","DOI":"10.1109\/TII.2022.3229140"},{"issue":"21","key":"20484_CR318","doi-asserted-by":"publisher","first-page":"6137","DOI":"10.1002\/cpe.6137","volume":"35","author":"Y Zhao","year":"2023","unstructured":"Zhao Y, Guo H, Gao L, Wang H, Zheng J, Zhang K, Zheng Y (2023) Multifeature fusion action recognition based on key frames. Concurr Comput Pract Exp 35(21):6137","journal-title":"Concurr Comput Pract Exp"},{"key":"20484_CR319","doi-asserted-by":"publisher","first-page":"30","DOI":"10.1016\/j.cogsys.2022.10.003","volume":"77","author":"R Singh","year":"2023","unstructured":"Singh R, Kushwaha AKS, Srivastava R et al (2023) Recent trends in human activity recognition-a comparative study. Cognit Syst Res 77:30\u201344","journal-title":"Cognit Syst Res"},{"issue":"13","key":"20484_CR320","doi-asserted-by":"publisher","first-page":"19829","DOI":"10.1007\/s11042-022-14214-y","volume":"82","author":"SK Ghosh","year":"2023","unstructured":"Ghosh SK, Mohan BR, Guddeti RMR (2023) Deep learning-based multi-view 3d-human action recognition using skeleton and depth data. Multimed Tools Appl 82(13):19829\u201319851","journal-title":"Multimed Tools Appl"},{"issue":"14","key":"20484_CR321","doi-asserted-by":"publisher","first-page":"3626","DOI":"10.3390\/rs15143626","volume":"15","author":"A Bousmina","year":"2023","unstructured":"Bousmina A, Selmi M, Ben Rhaiem MA, Farah IR (2023) A hybrid approach based on gan and cnn-lstm for aerial activity recognition. Remote Sens 15(14):3626","journal-title":"Remote Sens"},{"key":"20484_CR322","doi-asserted-by":"crossref","unstructured":"Gowada R, Pawar D, Barman B (2023) Unethical human action recognition using deep learning based hybrid model for video forensics. Multimed Tools Appl 1\u201326","DOI":"10.1007\/s11042-023-14508-9"},{"key":"20484_CR323","doi-asserted-by":"publisher","first-page":"569","DOI":"10.1016\/j.aej.2023.05.050","volume":"74","author":"A Hussain","year":"2023","unstructured":"Hussain A, Khan SU, Khan N, Rida I, Alharbi M, Baik SW (2023) Low-light aware framework for human activity recognition via optimized dual stream parallel network. Alex Eng J 74:569\u2013583","journal-title":"Alex Eng J"},{"key":"20484_CR324","unstructured":"Song X, Li Z, Chen S, Demachi K (2024) Gtautoact: An automatic datasets generation framework based on game engine redevelopment for action recognition. arXiv:2401.13414"},{"key":"20484_CR325","doi-asserted-by":"crossref","unstructured":"Li J, Le T, Shlizerman E (2023) Al-sar: Active learning for skeleton-based action recognition. IEEE Trans Neural Netw Learn Syst","DOI":"10.1109\/TNNLS.2023.3297853"},{"key":"20484_CR326","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s42979-021-00484-0","volume":"2","author":"F Serpush","year":"2021","unstructured":"Serpush F, Rezaei M (2021) Complex human action recognition using a hierarchical feature reduction and deep learning-based method. SN Comput Sci 2:1\u201315","journal-title":"SN Comput Sci"},{"issue":"11","key":"20484_CR327","doi-asserted-by":"publisher","first-page":"2994","DOI":"10.1007\/s11263-023-01842-6","volume":"131","author":"W Lin","year":"2023","unstructured":"Lin W, Liu H, Liu S, Li Y, Xiong H, Qi G, Sebe N (2023) Hieve: A large-scale benchmark for human-centric video analysis in complex events. Int J Comput Vis 131(11):2994\u20133018","journal-title":"Int J Comput Vis"},{"key":"20484_CR328","doi-asserted-by":"crossref","unstructured":"Wensel J, Ullah H, Munir A (2023) Vit-ret: Vision and recurrent transformer neural networks for human activity recognition in videos. IEEE Access","DOI":"10.1109\/ACCESS.2023.3293813"},{"issue":"1","key":"20484_CR329","doi-asserted-by":"publisher","first-page":"179","DOI":"10.1007\/s11831-023-09986-x","volume":"31","author":"P Kumar","year":"2024","unstructured":"Kumar P, Chauhan S, Awasthi LK (2024) Human activity recognition (har) using deep learning: Review, methodologies, progress and future research directions. Arch Comput Methods Eng 31(1):179\u2013219","journal-title":"Arch Comput Methods Eng"},{"issue":"4","key":"20484_CR330","doi-asserted-by":"publisher","first-page":"1320","DOI":"10.3390\/make5040067","volume":"5","author":"S Sarraf","year":"2023","unstructured":"Sarraf S, Kabia M (2023) Optimal topology of vision transformer for real-time video action recognition in an end-to-end cloud solution. Mach Learn Knowl Extr 5(4):1320\u20131339","journal-title":"Mach Learn Knowl Extr"},{"issue":"11","key":"20484_CR331","doi-asserted-by":"publisher","first-page":"5281","DOI":"10.3390\/s23115281","volume":"23","author":"G Diraco","year":"2023","unstructured":"Diraco G, Rescio G, Siciliano P, Leone A (2023) Review on human action recognition in smart living: Sensing technology, multimodality, real-time processing, interoperability, and resource-constrained processing. Sensors 23(11):5281","journal-title":"Sensors"},{"issue":"1","key":"20484_CR332","doi-asserted-by":"publisher","first-page":"46","DOI":"10.1080\/03772063.2020.1802355","volume":"69","author":"A Verma","year":"2023","unstructured":"Verma A, Meenpal T, Acharya B (2023) Human interaction recognition in videos with body pose traversal analysis and pairwise interaction framework. IETE J Res 69(1):46\u201358","journal-title":"IETE J Res"},{"key":"20484_CR333","doi-asserted-by":"crossref","unstructured":"Faure GJ, Chen M-H, Lai S-H (2023) Holistic interaction transformer network for action detection. In: Proceedings of the IEEE\/CVF winter conference on applications of computer vision, pp 3340\u20133350","DOI":"10.1109\/WACV56688.2023.00334"},{"key":"20484_CR334","doi-asserted-by":"crossref","unstructured":"Ruan Z, Wei Y, Yuan Y, Li Y, Guo Y, Xie Y (2024) Advances in few-shot action recognition: A comprehensive review. In: 2024 7th International conference on artificial intelligence and big data (ICAIBD), pp 390\u2013398. IEEE","DOI":"10.1109\/ICAIBD62003.2024.10604585"},{"key":"20484_CR335","doi-asserted-by":"publisher","first-page":"159","DOI":"10.1016\/j.neucom.2021.01.036","volume":"439","author":"V Estevam","year":"2021","unstructured":"Estevam V, Pedrini H, Menotti D (2021) Zero-shot action recognition in videos: A survey. Neurocomputing 439:159\u2013175","journal-title":"Neurocomputing"},{"key":"20484_CR336","doi-asserted-by":"crossref","unstructured":"Mersha M, Lam K, Wood J, AlShami A, Kalita J (2024) Explainable artificial intelligence: A survey of needs, techniques, applications, and future direction. Neurocomputing 128111128111","DOI":"10.2139\/ssrn.4715286"},{"key":"20484_CR337","doi-asserted-by":"crossref","unstructured":"Jeyakumar JV, Sarker A, Garcia LA, Srivastava M (2023) X-char: A concept-based explainable complex human activity recognition model. In: Proceedings of the ACM on interactive, mobile, wearable and ubiquitous technologies vol 7, no 1, pp 1\u201328","DOI":"10.1145\/3580804"},{"issue":"4","key":"20484_CR338","doi-asserted-by":"publisher","first-page":"59","DOI":"10.1002\/ail2.59","volume":"2","author":"C Roy","year":"2021","unstructured":"Roy C, Nourani M, Honeycutt DR, Block JE, Rahman T, Ragan ED, Ruozzi N, Gogate V (2021) Explainable activity recognition in videos: Lessons learned. Appl AI Lett 2(4):59","journal-title":"Appl AI Lett"},{"issue":"6","key":"20484_CR339","doi-asserted-by":"publisher","first-page":"1940","DOI":"10.3390\/s24061940","volume":"24","author":"KN Pellano","year":"2024","unstructured":"Pellano KN, Str\u00fcmke I, Ihlen EA (2024) From movements to metrics: Evaluating explainable ai methods in skeleton-based human activity recognition. Sensors 24(6):1940","journal-title":"Sensors"},{"key":"20484_CR340","doi-asserted-by":"crossref","unstructured":"Zhang, T., Min, W., Zhu, Y., Rui, Y., Jiang, S.: An egocentric action anticipation framework via fusing intuition and analysis. In: Proceedings of the 28th ACM International Conference on Multimedia, pp. 402\u2013410 (2020)","DOI":"10.1145\/3394171.3413964"},{"key":"20484_CR341","doi-asserted-by":"crossref","unstructured":"Wang X, Hu J-F, Lai J-H, Zhang J, Zheng W-S (2019) Progressive teacher-student learning for early action prediction. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 3556\u20133565","DOI":"10.1109\/CVPR.2019.00367"},{"key":"20484_CR342","unstructured":"Zhu Y, Li X, Liu C, Zolfaghari M, Xiong Y, Wu C, Zhang Z, Tighe J, Manmatha R, Li M (2020) A comprehensive study of deep video action recognition. arXiv:2012.06567"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-024-20484-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-024-20484-5\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-024-20484-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,6]],"date-time":"2025-09-06T04:25:36Z","timestamp":1757132736000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-024-20484-5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,21]]},"references-count":342,"journal-issue":{"issue":"27","published-online":{"date-parts":[[2025,8]]}},"alternative-id":["20484"],"URL":"https:\/\/doi.org\/10.1007\/s11042-024-20484-5","relation":{},"ISSN":["1573-7721"],"issn-type":[{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,12,21]]},"assertion":[{"value":"24 August 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"25 October 2024","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"26 November 2024","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 December 2024","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"Authors declare no competing interests.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interests"}},{"value":"No additional data was introduced in this work, any figures with photographs of humans are original works of the authors or adapted from public domain.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethics approval and consent"}},{"value":"Authors featured in Figs.  and  consent for their publication, otherwise no person\u2019s data has been used.","order":4,"name":"Ethics","group":{"name":"EthicsHeading","label":"Consent for publication"}}]}}