{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,11]],"date-time":"2025-09-11T21:58:16Z","timestamp":1757627896220,"version":"3.44.0"},"publisher-location":"Cham","reference-count":42,"publisher":"Springer Nature Switzerland","isbn-type":[{"type":"print","value":"9783032020871"},{"type":"electronic","value":"9783032020888"}],"license":[{"start":{"date-parts":[[2025,8,18]],"date-time":"2025-08-18T00:00:00Z","timestamp":1755475200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,8,18]],"date-time":"2025-08-18T00:00:00Z","timestamp":1755475200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-02088-8_3","type":"book-chapter","created":{"date-parts":[[2025,8,23]],"date-time":"2025-08-23T16:13:51Z","timestamp":1755965631000},"page":"34-48","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Deep-RVT: A Residual Vision Transformers for\u00a0Human Action Recognition"],"prefix":"10.1007","author":[{"given":"Sayda","family":"Elmi","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Morris","family":"Bell","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Sai Karthik","family":"Navuluru","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,8,18]]},"reference":[{"key":"3_CR1","doi-asserted-by":"crossref","unstructured":"Ahn, D., Kim, S., Hong, H., Ko, B.C.: Star-transformer: a spatio-temporal cross attention transformer for human action recognition. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, pp. 3330\u20133339 (2023)","DOI":"10.1109\/WACV56688.2023.00333"},{"key":"3_CR2","doi-asserted-by":"crossref","unstructured":"Arnab, A., Dehghani, M., Heigold, G., Sun, C., Lu\u010di\u0107, M., Schmid, C.: Vivit: a video vision transformer. arXiv preprint arXiv:2103.15691 (2021)","DOI":"10.1109\/ICCV48922.2021.00676"},{"key":"3_CR3","unstructured":"Yu, J.,\u00a0et al.: Co-training transformer with videos and images improves action recognition, pp. 1\u201315. arXiv preprint arXiv:2112.07175 (2021)"},{"key":"3_CR4","doi-asserted-by":"crossref","unstructured":"Bandi, C.,\u00a0Thomas, U.: Skeleton-based action recognition for human-robot interaction using self-attention mechanism. In: The International Conference on Automatic Face and Gesture Recognition (FG), pp. 1\u20138 (2021)","DOI":"10.1109\/FG52635.2021.9666948"},{"key":"3_CR5","unstructured":"Bertasius, G., Wang, H., Torresani, L.: Is space-time attention all you need for video understanding? arXiv preprint arXiv:2102.05095 (2021)"},{"key":"3_CR6","doi-asserted-by":"crossref","unstructured":"Caetano, C.,\u00a0Sena, J.,\u00a0Br\u00e9mond, F.,\u00a0Dos, S.J.A., Schwartz, W.R.: Skelemotion: a new representation of skeleton joint sequences based on motion information for 3d action recognition. In: The Conference on Advanced Video and Signal based Surveillance (AVSS), pp. 1\u20138 (2019)","DOI":"10.1109\/AVSS.2019.8909840"},{"key":"3_CR7","doi-asserted-by":"crossref","unstructured":"Cai, J.,\u00a0Jiang, N.,\u00a0Han, X.,\u00a0Jia, K.,\u00a0Lu, J.: Jolo-gcn: mining joint-centered light-weight information for skeleton-based action recognition. In: The Winter Conference on Applications of Computer Vision (WACV), pp. 2735\u20132744 (2021)","DOI":"10.1109\/WACV48630.2021.00278"},{"key":"3_CR8","doi-asserted-by":"crossref","unstructured":"Chen, J., Ho, C.M.: Mm-vit: multi-modal video transformer for compressed video action recognition. In: The Winter Conference on Applications of Computer Vision (WACV), pp. 1910\u20131921 (2022)","DOI":"10.1109\/WACV51458.2022.00086"},{"key":"3_CR9","doi-asserted-by":"crossref","unstructured":"Cheng, K.,\u00a0Zhang, Y.,\u00a0He, X.,\u00a0Chen, W.,\u00a0Cheng, J.,\u00a0Lu, H.: Skeleton-based action recognition with shift graph convolutional network. In: CVPR, pp. 183\u2013192 (2020)","DOI":"10.1109\/CVPR42600.2020.00026"},{"key":"3_CR10","doi-asserted-by":"crossref","unstructured":"Das, S.,\u00a0Sharma, S.,\u00a0Dai, R.,\u00a0Bremond, F.,\u00a0Thonnat, M.: Vpn: learning video-pose embedding for activities of daily living. In: The European Conference on Computer Vision (ECCV), pp. 72\u201390 (2020)","DOI":"10.1007\/978-3-030-58545-7_5"},{"key":"3_CR11","unstructured":"Das, S., et\u00a0al.: Video-pose network: a novel approach for cross-modal action recognition. In: Proceedings of a Conference (2019)"},{"key":"3_CR12","unstructured":"Dosovitskiy, A., et\u00a0al.: An image is worth 16x16 words: transformers for image recognition at scale. arxiv 2020. arXiv preprint arXiv:2010.11929 (2010)"},{"key":"3_CR13","doi-asserted-by":"crossref","unstructured":"Duan, H.,\u00a0Chen, K.,\u00a0Zhao, Y.,\u00a0Lin, D.,\u00a0Dai, B.: Revisiting skeleton-based action recognition. In: CVPR, pp. 2969\u20132978 (2022)","DOI":"10.1109\/CVPR52688.2022.00298"},{"issue":"2","key":"3_CR14","doi-asserted-by":"publisher","first-page":"690","DOI":"10.1007\/s10489-020-01823-z","volume":"51","author":"O Elharrouss","year":"2021","unstructured":"Elharrouss, O., Almaadeed, N., Al-Maadeed, S., Bourida, A., Beghdadi, A.: A combined multiple action recognition and summarization for surveillance video sequences. Appl. Intell. 51(2), 690\u2013712 (2021)","journal-title":"Appl. Intell."},{"key":"3_CR15","doi-asserted-by":"crossref","unstructured":"Elmi, S., Bell, M.: Res-vit: residual vision transformers for image recognition tasks. In: 35th IEEE International Conference on Tools with Artificial Intelligence, ICTAI, pp. 309\u2013316. IEEE (2023)","DOI":"10.1109\/ICTAI59109.2023.00052"},{"key":"3_CR16","unstructured":"Girdhar, R., Carreira, J., Doersch, C., Zisserman, A.: Action transformer: a self-attention model for short-term action understanding. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (2019)"},{"issue":"10","key":"3_CR17","doi-asserted-by":"publisher","first-page":"3343","DOI":"10.1016\/j.patcog.2014.04.018","volume":"47","author":"D Girish","year":"2014","unstructured":"Girish, D., Singh, V., Ralescu, A.: A survey on still image based human action recognition. Pattern Recogn. 47(10), 3343\u20133361 (2014)","journal-title":"Pattern Recogn."},{"key":"3_CR18","doi-asserted-by":"crossref","unstructured":"Girish, D.,\u00a0Singh, V.,\u00a0Ralescu, A.: Understanding action recognition in still images. In: CVPRW, pp. 370\u2013371 (2020)","DOI":"10.1109\/CVPRW50498.2020.00193"},{"issue":"7","key":"3_CR19","doi-asserted-by":"publisher","first-page":"1325","DOI":"10.1109\/TPAMI.2013.248","volume":"36","author":"C Ionescu","year":"2013","unstructured":"Ionescu, C., Papava, D., Olaru, V., Sminchisescu, C.: Human3. 6m: large scale datasets and predictive methods for 3d human sensing in natural environments. IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI) 36(7), 1325\u20131339 (2013)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI)"},{"key":"3_CR20","unstructured":"Kay, W., et al.: The kinetics human action video dataset. arXiv preprint arXiv:1705.0695 (2017)"},{"key":"3_CR21","unstructured":"Kim, S.,\u00a0Nam, J., Ko, B.C.: Vit-net: interpretable vision transformers with neural tree decoder. In: The International Conference on Machine Learning (ICML), pp. 1\u201313 (2022)"},{"key":"3_CR22","unstructured":"Kim, Y.A., et\u00a0al.: Deep residual networks for joint video and skeleton action recognition. In: Proceedings of Some Conference (2017)"},{"key":"3_CR23","doi-asserted-by":"crossref","unstructured":"Liang, Y.,\u00a0Zhou, P.,\u00a0Zimmermann, R.,\u00a0Yan, S.: Dualformer: local-global stratified transformer for efficient video recognition. arXiv preprint arXiv:2112.04674 (2021)","DOI":"10.1007\/978-3-031-19830-4_33"},{"key":"3_CR24","doi-asserted-by":"crossref","unstructured":"Liu, M., Yuan, J.: Recognizing human actions as the evolution of pose estimation maps. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 1159\u20131168 (2018)","DOI":"10.1109\/CVPR.2018.00127"},{"key":"3_CR25","doi-asserted-by":"crossref","unstructured":"Liu, X., Pintea, S.L., Nejadasl, F.K.,\u00a0Booij, O., van Gemart, J.C.: No frame left behind: Full video action recognition. In: CVPR, pp. 14892\u201314901 (2021)","DOI":"10.1109\/CVPR46437.2021.01465"},{"key":"3_CR26","doi-asserted-by":"crossref","unstructured":"Liu, Z., et al.: Swin transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 10012\u201310022 (2021)","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"3_CR27","doi-asserted-by":"crossref","unstructured":"Plizzari, C.,\u00a0Cannici, M.,\u00a0Matteucci, M.: Skeleton-based action recognition via spatial and temporal transformer networks. In: The Computer Vision and Image Understanding (CVIU), vol. 208, p. 103219 (2021)","DOI":"10.1016\/j.cviu.2021.103219"},{"issue":"1","key":"3_CR28","first-page":"1391906","volume":"2022","author":"F Serpush","year":"2022","unstructured":"Serpush, F., Menhaj, M.B., Masoumi, B., Karasfi, B.: Wearable sensor-based human activity recognition in the smart healthcare system. Comput. Intell. Neurosci. 2022(1), 1391906 (2022)","journal-title":"Comput. Intell. Neurosci."},{"key":"3_CR29","doi-asserted-by":"crossref","unstructured":"Shi, L.,\u00a0Zhang, Y.,\u00a0Cheng, J.,\u00a0Lu, H.: Decoupled spatialtemporal attention network for skeleton-based action-gesture recognition. In: The Asian Conference on Computer Vision (ACCV), vol. 208, p. 103219 (2020)","DOI":"10.1007\/978-3-030-69541-5_3"},{"key":"3_CR30","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"53","DOI":"10.1007\/978-3-030-58558-7_4","volume-title":"Computer Vision \u2013 ECCV 2020","author":"JJ Sun","year":"2020","unstructured":"Sun, J.J., Zhao, J., Chen, L.-C., Schroff, F., Adam, H., Liu, T.: View-invariant probabilistic embedding for human pose. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12350, pp. 53\u201370. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58558-7_4"},{"key":"3_CR31","unstructured":"Tong, Z.,\u00a0Song, Y., Wang, J., Wang, L.: Videomae: masked autoencoders are data-efficient learners for self-supervised video pre-training, pp. 183\u2013192. arXiv preprint arXiv:2203.12602 (2022)"},{"key":"3_CR32","unstructured":"Touvron, H., Cord, M., Douze, M., Massa, F., Sablayrolles, A., J\u00e9gou, H.: Training data-efficient image transformers & distillation through attention. In: International Conference on Machine Learning, pp. 10347\u201310357. PMLR (2021)"},{"key":"3_CR33","doi-asserted-by":"crossref","unstructured":"Wang, Z.,\u00a0She, Q.,\u00a0Smolic, A.: Action-net: multipath excitation for action recognition. In: CVPR, pp. 13214\u2013 13223 (2021)","DOI":"10.1109\/CVPR46437.2021.01301"},{"key":"3_CR34","doi-asserted-by":"crossref","unstructured":"Wu, H., et al.: Cvt: introducing convolutions to vision transformers. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 22\u201331 (2021)","DOI":"10.1109\/ICCV48922.2021.00009"},{"key":"3_CR35","doi-asserted-by":"crossref","unstructured":"Yan, X.,\u00a0Tang, H.,\u00a0Ma, H.,\u00a0Sun, S.,\u00a0Kong, D.,\u00a0Xie, X.: After-unet: axial fusion transformer unet for medical image segmentation. In: The Winter Conference on Applications of Computer Vision (WACV), pp. 3971\u20133981 (2022)","DOI":"10.1109\/WACV51458.2022.00333"},{"key":"3_CR36","doi-asserted-by":"crossref","unstructured":"Yang, D., Wang, Y., Dantcheva, A., Garattoni, L., Francesca, G., Bremond, F.F.: Unik: a unified framework for real-world skeleton-based action recognition. In: BMVC 2021-The British Machine Vision Conference (2021)","DOI":"10.5244\/C.35.4"},{"key":"3_CR37","doi-asserted-by":"crossref","unstructured":"Yi, F.,\u00a0Wen, H.,\u00a0Jiang, T.: Asformer: transformer for action segmentation. In: The British Machine Vision Conference (BMVC), pp. 1\u201315 (2021)","DOI":"10.5244\/C.35.49"},{"key":"3_CR38","doi-asserted-by":"crossref","unstructured":"Zeng, F.,\u00a0Dong, B.,\u00a0Wang, T.,\u00a0Zhang, X.,\u00a0Wei, Y.: Motr: end-to-end multiple-object tracking with transformer. arXiv preprint arXiv:2105.03247 (2021)","DOI":"10.1007\/978-3-031-19812-0_38"},{"key":"3_CR39","unstructured":"Zhang, A., et\u00a0al.: Multi-modal mutual learning for joint video and skeleton action recognition. In: Proceedings of Another Conference (2020)"},{"key":"3_CR40","doi-asserted-by":"crossref","unstructured":"Wang, X., et al.: Oadtr: online action detection with transformers. In: ICCV, pp. 7565\u20137575 (2021)","DOI":"10.1109\/ICCV48922.2021.00747"},{"key":"3_CR41","doi-asserted-by":"crossref","unstructured":"Zhang, W., Zhu, M., Derpanis, K.G.: From actemes to action: a strongly-supervised representation for detailed action understanding. In: The International Conference on Computer Vision (ICCV), pp. 2248\u20132255 (2013)","DOI":"10.1109\/ICCV.2013.280"},{"key":"3_CR42","unstructured":"Zolfaghari, S., et\u00a0al.: Multi-modal fusion for video action recognition. In: Proceedings of Yet Another Conference (2018)"}],"container-title":["Lecture Notes in Computer Science","Database and Expert Systems Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-02088-8_3","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,10]],"date-time":"2025-09-10T05:13:34Z","timestamp":1757481214000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-02088-8_3"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,8,18]]},"ISBN":["9783032020871","9783032020888"],"references-count":42,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-02088-8_3","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2025,8,18]]},"assertion":[{"value":"18 August 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"DEXA","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Database and Expert Systems Applications","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Bangkok","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Thailand","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"25 August 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"27 August 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"36","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"dexa2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/www.dexa.org\/2025\/dexa2025.html","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}