{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,21]],"date-time":"2026-04-21T14:59:00Z","timestamp":1776783540025,"version":"3.51.2"},"reference-count":47,"publisher":"Frontiers Media SA","license":[{"start":{"date-parts":[[2024,9,25]],"date-time":"2024-09-25T00:00:00Z","timestamp":1727222400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"content-domain":{"domain":["frontiersin.org"],"crossmark-restriction":true},"short-container-title":["Front. Neurorobot."],"abstract":"<jats:p>The advancements in intelligent action recognition can be instrumental in developing autonomous robotic systems capable of analyzing complex human activities in real-time, contributing to the growing field of robotics that operates in dynamic environments. The precise recognition of basketball players' actions using artificial intelligence technology can provide valuable assistance and guidance to athletes, coaches, and analysts, and can help referees make fairer decisions during games. However, unlike action recognition in simpler scenarios, the background in basketball is similar and complex, the differences between various actions are subtle, and lighting conditions are inconsistent, making action recognition in basketball a challenging task. To address this problem, an Adaptive Context-Aware Network (ACA-Net) for basketball player action recognition is proposed in this paper. It contains a Long Short-term Adaptive (LSTA) module and a Triplet Spatial-Channel Interaction (TSCI) module to extract effective features at the temporal, spatial, and channel levels. The LSTA module adaptively learns global and local temporal features of the video. The TSCI module enhances the feature representation by learning the interaction features between space and channels. We conducted extensive experiments on the popular basketball action recognition datasets SpaceJam and Basketball-51. The results show that ACA-Net outperforms the current mainstream methods, achieving 89.26% and 92.05% in terms of classification accuracy on the two datasets, respectively. ACA-Net's adaptable architecture also holds potential for real-world applications in autonomous robotics, where accurate recognition of complex human actions in unstructured environments is crucial for tasks such as automated game analysis, player performance evaluation, and enhanced interactive broadcasting experiences.<\/jats:p>","DOI":"10.3389\/fnbot.2024.1471327","type":"journal-article","created":{"date-parts":[[2024,9,25]],"date-time":"2024-09-25T12:50:02Z","timestamp":1727268602000},"update-policy":"https:\/\/doi.org\/10.3389\/crossmark-policy","source":"Crossref","is-referenced-by-count":8,"title":["ACA-Net: adaptive context-aware network for basketball action recognition"],"prefix":"10.3389","volume":"18","author":[{"given":"Yaolei","family":"Zhang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Fei","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yuanli","family":"Zhou","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiao","family":"Xu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"1965","published-online":{"date-parts":[[2024,9,25]]},"reference":[{"key":"B1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00676","article-title":"\u201cVivit: a video vision transformer,\u201d","author":"Arnab","year":"2021","journal-title":"Proceedings of the IEEE\/CVF International Conference On Computer Vision"},{"key":"B2","doi-asserted-by":"publisher","first-page":"412","DOI":"10.22105\/jarie.2021.276107.1270","article-title":"Clustering of basketball players using self-organizing map neural networks","volume":"8","author":"Babaee Khobdeh","year":"2021","journal-title":"J. Appl. Res. Industr. Eng"},{"key":"B3","doi-asserted-by":"publisher","first-page":"5415","DOI":"10.1038\/s41467-019-13055-y","article-title":"Automated optimized parameters for t-distributed stochastic neighbor embedding improve visualization and analysis of large datasets","volume":"10","author":"Belkina","year":"2019","journal-title":"Nat. Commun"},{"key":"B4","article-title":"\u201cIs space-time attention all you need for video understanding?\u201d","author":"Bertasius","year":"2021","journal-title":"ICML"},{"key":"B5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.502","article-title":"\u201cQuo vadis, action recognition? A new model and the kinetics dataset,\u201d","author":"Carreira","year":"2017","journal-title":"proceedings of the IEEE Conference on Computer Vision and Pattern Recognition"},{"key":"B6","first-page":"1","article-title":"\u201cCombining global and local convolutional 3D networks for detecting depression from facial expressions,\u201d","volume-title":"2019 14th IEEE International Conference on Automatic Face &Gesture Recognition (FG 2019)","author":"de Melo","year":"2019"},{"key":"B7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298878","article-title":"\u201cLong-term recurrent convolutional networks for visual recognition and description,\u201d","author":"Donahue","year":"2015","journal-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition"},{"key":"B8","doi-asserted-by":"publisher","DOI":"10.1145\/2993148.2997632","article-title":"\u201cVideo-based emotion recognition using cnn-rnn and c3d hybrid networks,\u201d","author":"Fan","year":"2016","journal-title":"Proceedings of the 18th ACM International Conference on Multimodal Interaction"},{"key":"B9","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00630","article-title":"\u201cSlowfast networks for video recognition,\u201d","author":"Feichtenhofer","year":"2019","journal-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision"},{"key":"B10","unstructured":"Francia\n              S.\n            \n            \n              Calderara\n              S.\n            \n            \n              Lanzi\n              D. F.\n            \n          \n          Classificazione di azioni cestistiche mediante tecniche di deep learning\n          \n          2018"},{"key":"B11","doi-asserted-by":"publisher","first-page":"1431897","DOI":"10.3389\/fnbot.2024.1431897","article-title":"Robust visual slam algorithm based on target detection and clustering in dynamic scenarios","volume":"18","author":"Gan","year":"2024","journal-title":"Front. Neurorobot"},{"key":"B12","first-page":"315","article-title":"\u201cDeep sparse rectifier neural networks,\u201d","volume-title":"Proceedings of the Fourteenth International Conference on Artificial Intelligence and Statistics","author":"Glorot","year":"2011"},{"key":"B13","doi-asserted-by":"crossref","first-page":"2563","DOI":"10.1109\/ICASSP40776.2020.9053928","article-title":"\u201cFine-grained action recognition on a novel basketball dataset,\u201d","volume-title":"ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","author":"Gu","year":"2020"},{"key":"B14","doi-asserted-by":"publisher","first-page":"103334","DOI":"10.1016\/j.micpro.2020.103334","article-title":"Retracted: basketball action recognition based on fpga and particle image","volume":"80","author":"Gun","year":"2021","journal-title":"Microprocess. Microsyst"},{"key":"B15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00685","article-title":"\u201cCan spatiotemporal 3D cnns retrace the history of 2D CNNS and imagenet?\u201d","author":"Hara","year":"2018","journal-title":"Proceedings of the IEEE conference on Computer Vision and Pattern Recognition"},{"key":"B16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90","article-title":"\u201cDeep residual learning for image recognition,\u201d","author":"He","year":"2016","journal-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition"},{"key":"B17","article-title":"\u201cMicro-gesture classification based on ensemble hypergraph-convolution transformer,\u201d","author":"Huang","year":"2023","journal-title":"MiGA@ IJCAI"},{"key":"B18","first-page":"448","article-title":"\u201cBatch normalization: accelerating deep network training by reducing internal covariate shift,\u201d","volume-title":"International Conference on Machine Learning","author":"Ioffe","year":"2015"},{"key":"B19","doi-asserted-by":"publisher","first-page":"94","DOI":"10.1016\/j.isatra.2022.10.034","article-title":"Ambient intelligence-based multimodal human action recognition for autonomous systems","volume":"132","author":"Jain","year":"2023","journal-title":"ISA Trans"},{"key":"B20","doi-asserted-by":"publisher","first-page":"4","DOI":"10.14569\/IJACSA.2023.0140304","article-title":"Deep learning algorithm based wearable device for basketball stance recognition in basketball","volume":"14","author":"Jiang","year":"2023","journal-title":"Int. J. Adv. Comput. Sci. Applic"},{"key":"B21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.223","article-title":"\u201cLarge-scale video classification with convolutional neural networks,\u201d","author":"Karpathy","year":"2014","journal-title":"Proceedings of the IEEE conference on Computer Vision and Pattern Recognition"},{"key":"B22","article-title":"Adam: a method for stochastic optimization","author":"Kingma","year":"2014","journal-title":"arXiv preprint arXiv:1412.6980"},{"key":"B23","doi-asserted-by":"publisher","DOI":"10.1186\/s13640-019-0415-x","article-title":"\u201cAutomatic detection technology of sports athletes based on image recognition technology,\u201d","author":"Li","year":"2019","journal-title":"EURASIP Journal on Image and Video Processing 2019"},{"key":"B24","doi-asserted-by":"publisher","first-page":"2029","DOI":"10.3233\/JIFS-189205","article-title":"Research on basketball players' action recognition based on interactive system and machine learning","volume":"40","author":"Li","year":"2021","journal-title":"J. Intell. Fuzzy Syst"},{"key":"B25","doi-asserted-by":"publisher","first-page":"2956","DOI":"10.1109\/TCSVT.2017.2749509","article-title":"Large-scale gesture recognition with a fusion of rgb-d data based on saliency theory and c3D model","volume":"28","author":"Li","year":"2017","journal-title":"IEEE Trans. Circ. Syst. Video Technol"},{"key":"B26","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00718","article-title":"\u201cTSM: temporal shift module for efficient video understanding,\u201d","author":"Lin","year":"2019","journal-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision"},{"key":"B27","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s00500-023-09085-w","article-title":"Application of wearable devices based on deep learning algorithm in basketball posture recognition","volume":"2023","author":"Liu","year":"2023","journal-title":"Soft Comput"},{"key":"B28","first-page":"9204","article-title":"\u201cPay attention to mlps,\u201d","author":"Liu","year":"2021","journal-title":"Advances in Neural Information Processing Systems"},{"key":"B29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00320","article-title":"\u201cVideo swin transformer,\u201d","author":"Liu","year":"2022","journal-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition"},{"key":"B30","doi-asserted-by":"publisher","first-page":"107582","DOI":"10.1016\/j.ypmed.2023.107582","article-title":"Action recognition for sports combined training based on wearable sensor technology and svm prediction","volume":"173","author":"Liu","year":"2023","journal-title":"Prev. Med"},{"key":"B31","doi-asserted-by":"publisher","DOI":"10.1109\/WACV48630.2021.00318","article-title":"\u201cRotate to attend: convolutional triplet attention module,\u201d","author":"Misra","year":"2021","journal-title":"Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision"},{"key":"B32","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413910","article-title":"\u201cMix dimension in poincar\u00e9 geometry for 3D skeleton-based action recognition,\u201d","author":"Peng","year":"2020","journal-title":"Proceedings of the 28th ACM International Conference on Multimedia"},{"key":"B33","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.590","article-title":"\u201cLearning spatio-temporal representation with pseudo-3D residual networks,\u201d","author":"Qiu","year":"2017","journal-title":"Proceedings of the IEEE International Conference on Computer Vision"},{"key":"B34","doi-asserted-by":"publisher","first-page":"4145","DOI":"10.1007\/s00521-022-07937-4","article-title":"Toward human activity recognition: a survey","volume":"35","author":"Saleem","year":"2023","journal-title":"Neural Comput. Applic"},{"key":"B35","article-title":"\u201cBasketball-51: a video dataset for activity recognition in the basketball game,\u201d","author":"Shakya","year":"2021","journal-title":"CS &IT Conference Proceedings, volume 11. CS &IT Conference Proceedings"},{"key":"B36","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.510","article-title":"\u201cLearning spatiotemporal features with 3D convolutional networks,\u201d","author":"Tran","year":"2015","journal-title":"Proceedings of the IEEE International Conference on Computer Vision"},{"key":"B37","article-title":"Convnet architecture search for spatiotemporal feature learning","author":"Tran","year":"2017","journal-title":"arXiv preprint arXiv:1708.05038"},{"key":"B38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00675","article-title":"\u201cA closer look at spatiotemporal convolutions for action recognition,\u201d","author":"Tran","year":"2018","journal-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition"},{"key":"B39","article-title":"Instance normalization: the missing ingredient for fast stylization","author":"Ulyanov","year":"2016","journal-title":"arXiv preprint arXiv:1607.08022"},{"key":"B40","author":"Vaswani","year":"2017"},{"key":"B41","first-page":"20","article-title":"\u201cTemporal segment networks: towards good practices for deep action recognition,\u201d","volume-title":"European Conference on Computer Vision","author":"Wang","year":"2016"},{"key":"B42","doi-asserted-by":"publisher","first-page":"1671","DOI":"10.1109\/JSEN.2022.3225158","article-title":"Human action recognition of autonomous mobile robot using edge-AI","volume":"23","author":"Wang","year":"2022","journal-title":"IEEE Sens. J"},{"key":"B43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00813","article-title":"\u201cNon-local neural networks,\u201d","author":"Wang","year":"2018","journal-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition"},{"key":"B44","doi-asserted-by":"publisher","first-page":"7483536","DOI":"10.1155\/2016\/7483536","article-title":"Sports motion recognition using mcmr features based on interclass symbolic distance","volume":"12","author":"Wei","year":"2016","journal-title":"Int. J. Distr. Sensor Netw"},{"key":"B45","doi-asserted-by":"publisher","first-page":"217","DOI":"10.1016\/j.neucom.2020.07.003","article-title":"Fusing motion patterns and key visual information for semantic event recognition in basketball videos","volume":"413","author":"Wu","year":"2020","journal-title":"Neurocomputing"},{"key":"B46","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.617","article-title":"\u201cR-c3d: region convolutional 3D network for temporal activity detection,\u201d","author":"Xu","year":"2017","journal-title":"Proceedings of the IEEE International Conference on Computer Vision"},{"key":"B47","first-page":"012138","article-title":"\u201cA review of action recognition based on convolutional neural network,\u201d","volume-title":"Journal of Physics: Conference Series","author":"Yang","year":"2021"}],"container-title":["Frontiers in Neurorobotics"],"original-title":[],"link":[{"URL":"https:\/\/www.frontiersin.org\/articles\/10.3389\/fnbot.2024.1471327\/full","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,9,25]],"date-time":"2024-09-25T12:50:09Z","timestamp":1727268609000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.frontiersin.org\/articles\/10.3389\/fnbot.2024.1471327\/full"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,9,25]]},"references-count":47,"alternative-id":["10.3389\/fnbot.2024.1471327"],"URL":"https:\/\/doi.org\/10.3389\/fnbot.2024.1471327","relation":{},"ISSN":["1662-5218"],"issn-type":[{"value":"1662-5218","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,9,25]]},"article-number":"1471327"}}