{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,8]],"date-time":"2025-12-08T04:45:54Z","timestamp":1765169154722,"version":"3.46.0"},"publisher-location":"Cham","reference-count":34,"publisher":"Springer Nature Switzerland","isbn-type":[{"type":"print","value":"9783032049674"},{"type":"electronic","value":"9783032049681"}],"license":[{"start":{"date-parts":[[2025,9,17]],"date-time":"2025-09-17T00:00:00Z","timestamp":1758067200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,9,17]],"date-time":"2025-09-17T00:00:00Z","timestamp":1758067200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-04968-1_11","type":"book-chapter","created":{"date-parts":[[2025,9,16]],"date-time":"2025-09-16T08:04:21Z","timestamp":1758009861000},"page":"124-135","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["CANpose: A Cross-Attention Framework for\u00a0Human Pose Recognition"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-1111-9520","authenticated-orcid":false,"given":"M. S.","family":"Subodh Raj","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0886-9478","authenticated-orcid":false,"given":"Sudhish N.","family":"George","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9489-5161","authenticated-orcid":false,"given":"Kiran","family":"Raja","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,9,17]]},"reference":[{"issue":"15","key":"11_CR1","doi-asserted-by":"publisher","first-page":"1799","DOI":"10.1016\/j.patrec.2013.01.021","volume":"34","author":"AA Chaaraoui","year":"2013","unstructured":"Chaaraoui, A.A., Climent-P\u00e9rez, P., Fl\u00f3rez-Revuelta, F.: Silhouette-based human action recognition using sequences of key poses. Pattern Recogn. Lett. 34(15), 1799\u20131807 (2013)","journal-title":"Pattern Recogn. Lett."},{"issue":"13","key":"11_CR2","doi-asserted-by":"publisher","first-page":"20547","DOI":"10.1007\/s11042-021-10753-y","volume":"80","author":"S Chakraborty","year":"2021","unstructured":"Chakraborty, S., Mondal, R., Singh, P.K., Sarkar, R., Bhattacharjee, D.: Transfer learning with fine tuning for human action recognition from still images. Multimedia Tools Appl. 80(13), 20547\u201320578 (2021). https:\/\/doi.org\/10.1007\/s11042-021-10753-y","journal-title":"Multimedia Tools Appl."},{"key":"11_CR3","doi-asserted-by":"crossref","unstructured":"Chapariniya, M., Barazande, S.V., Ashrafi, S.S., Shokouhi, S.B.: Attention transfer in self-regulated networks for recognizing human actions from still images. In: 2022 12th International Conference on Computer and Knowledge Engineering (ICCKE), pp. 036\u2013041. IEEE (2022)","DOI":"10.1109\/ICCKE57176.2022.9959992"},{"key":"11_CR4","doi-asserted-by":"crossref","unstructured":"Chen, C., Jafari, R., Kehtarnavaz, N.: UTD-MHAD: a multimodal dataset for human action recognition utilizing a depth camera and a wearable inertial sensor. In: 2015 IEEE International Conference on Image Processing (ICIP), pp. 168\u2013172. IEEE (2015)","DOI":"10.1109\/ICIP.2015.7350781"},{"key":"11_CR5","unstructured":"Dai, Z., Liu, H., Le, Q.V., Tan, M.: CoAtNet: marrying convolution and attention for all data sizes. In: Advances in Neural Information Processing Systems, vol.\u00a034, pp. 3965\u20133977. Curran Associates, Inc. (2021)"},{"key":"11_CR6","doi-asserted-by":"crossref","unstructured":"Delaitre, V., Laptev, I., Sivic, J.: Recognizing human actions in still images: a study of bag-of-features and part-based representations. In: BMVC 2010-21st British Machine Vision Conference (2010)","DOI":"10.5244\/C.24.97"},{"key":"11_CR7","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"233","DOI":"10.1007\/978-3-030-30642-7_21","volume-title":"Image Analysis and Processing \u2013 ICIAP 2019","author":"A D\u2019Eusanio","year":"2019","unstructured":"D\u2019Eusanio, A., Pini, S., Borghi, G., Vezzani, R., Cucchiara, R.: Manual annotations on depth maps for human pose estimation. In: Ricci, E., Rota Bul\u00f2, S., Snoek, C., Lanz, O., Messelodi, S., Sebe, N. (eds.) ICIAP 2019. LNCS, vol. 11751, pp. 233\u2013244. Springer, Cham (2019). https:\/\/doi.org\/10.1007\/978-3-030-30642-7_21"},{"issue":"10","key":"11_CR8","doi-asserted-by":"publisher","first-page":"3343","DOI":"10.1016\/j.patcog.2014.04.018","volume":"47","author":"G Guo","year":"2014","unstructured":"Guo, G., Lai, A.: A survey on still image based human action recognition. Pattern Recogn. 47(10), 3343\u20133361 (2014)","journal-title":"Pattern Recogn."},{"key":"11_CR9","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"11_CR10","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2019.106989","volume":"96","author":"S Herath","year":"2019","unstructured":"Herath, S., Fernando, B., Harandi, M.: Using temporal information for recognizing actions from still images. Pattern Recogn. 96, 106989 (2019)","journal-title":"Pattern Recogn."},{"key":"11_CR11","doi-asserted-by":"crossref","unstructured":"Hosseyni, S.R., Taheri, H., Seyedin, S., Rahmani, A.A.: Human action recognition in still images using ConViT. arXiv preprint arXiv:2307.08994 (2023)","DOI":"10.1109\/ICEE63041.2024.10668316"},{"issue":"9","key":"11_CR12","doi-asserted-by":"publisher","first-page":"1806","DOI":"10.1109\/TSMC.2018.2850149","volume":"49","author":"A Kamel","year":"2018","unstructured":"Kamel, A., Sheng, B., Yang, P., Li, P., Shen, R., Feng, D.D.: Deep convolutional neural networks for human action recognition using depth maps and postures. IEEE Trans. Syst. Man Cybern. Syst. 49(9), 1806\u20131819 (2018)","journal-title":"IEEE Trans. Syst. Man Cybern. Syst."},{"key":"11_CR13","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2020.107462","volume":"106","author":"Y Kim","year":"2020","unstructured":"Kim, Y., Kim, D.: A cnn-based 3d human pose estimation based on projection of depth and ridge data. Pattern Recogn. 106, 107462 (2020)","journal-title":"Pattern Recogn."},{"key":"11_CR14","unstructured":"Kolesnikov, A., et al.: An image is worth 16x16 words: transformers for image recognition at scale. In: The International Conference on Learning Representations (2021)"},{"issue":"5","key":"11_CR15","doi-asserted-by":"publisher","first-page":"1366","DOI":"10.1007\/s11263-022-01594-9","volume":"130","author":"Y Kong","year":"2022","unstructured":"Kong, Y., Fu, Y.: Human action recognition and prediction: a survey. Int. J. Comput. Vision 130(5), 1366\u20131401 (2022)","journal-title":"Int. J. Comput. Vision"},{"key":"11_CR16","doi-asserted-by":"crossref","unstructured":"Li, K., et al.: UniFormer: unifying convolution and self-attention for visual recognition. IEEE Trans. Pattern Anal. Mach. Intell. (2023)","DOI":"10.1109\/TPAMI.2023.3282631"},{"key":"11_CR17","doi-asserted-by":"crossref","unstructured":"Li, W., Zhang, Z., Liu, Z.: Action recognition based on a bag of 3D points. In: 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops, pp. 9\u201314. IEEE (2010)","DOI":"10.1109\/CVPRW.2010.5543273"},{"key":"11_CR18","doi-asserted-by":"crossref","unstructured":"Liu, Z., et al.: Swin transformer: hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 10012\u201310022 (2021)","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"11_CR19","doi-asserted-by":"publisher","first-page":"627","DOI":"10.1016\/j.jvcir.2018.07.010","volume":"55","author":"MJ Marin-Jimenez","year":"2018","unstructured":"Marin-Jimenez, M.J., Romero-Ramirez, F.J., Munoz-Salinas, R., Medina-Carnicer, R.: 3d human pose estimation from depth maps using a deep combination of poses. J. Vis. Commun. Image Represent. 55, 627\u2013639 (2018)","journal-title":"J. Vis. Commun. Image Represent."},{"key":"11_CR20","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2021.108487","volume":"124","author":"V Mazzia","year":"2022","unstructured":"Mazzia, V., Angarano, S., Salvetti, F., Angelini, F., Chiaberge, M.: Action transformer: a self-attention model for short-time pose-based human action recognition. Pattern Recogn. 124, 108487 (2022)","journal-title":"Pattern Recogn."},{"key":"11_CR21","doi-asserted-by":"crossref","unstructured":"Moon, G., Chang, J.Y., Lee, K.M.: V2V-PoseNet: voxel-to-voxel prediction network for accurate 3D hand and human pose estimation from a single depth map. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 5079\u20135088 (2018)","DOI":"10.1109\/CVPR.2018.00533"},{"key":"11_CR22","doi-asserted-by":"crossref","unstructured":"Radosavovic, I., Kosaraju, R.P., Girshick, R., He, K., Doll\u00e1r, P.: Designing network design spaces. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 10428\u201310436 (2020)","DOI":"10.1109\/CVPR42600.2020.01044"},{"key":"11_CR23","doi-asserted-by":"crossref","unstructured":"Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., Chen, L.C.: MobileNetV2: inverted residuals and linear bottlenecks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4510\u20134520 (2018)","DOI":"10.1109\/CVPR.2018.00474"},{"key":"11_CR24","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"263","DOI":"10.1007\/978-3-642-33885-4_27","volume-title":"Computer Vision \u2013 ECCV 2012. Workshops and Demonstrations","author":"F Sener","year":"2012","unstructured":"Sener, F., Bas, C., Ikizler-Cinbis, N.: On recognizing actions in still images via multiple features. In: Fusiello, A., Murino, V., Cucchiara, R. (eds.) ECCV 2012. LNCS, vol. 7585, pp. 263\u2013272. Springer, Heidelberg (2012). https:\/\/doi.org\/10.1007\/978-3-642-33885-4_27"},{"issue":"12","key":"11_CR25","doi-asserted-by":"publisher","first-page":"2821","DOI":"10.1109\/TPAMI.2012.241","volume":"35","author":"J Shotton","year":"2012","unstructured":"Shotton, J., et al.: Efficient human pose estimation from single depth images. IEEE Trans. Pattern Anal. Mach. Intell. 35(12), 2821\u20132840 (2012)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"11_CR26","unstructured":"Tan, M., Le, Q.: EfficientNet: rethinking model scaling for convolutional neural networks. In: International Conference on Machine Learning, pp. 6105\u20136114. PMLR (2019)"},{"key":"11_CR27","doi-asserted-by":"publisher","first-page":"1401","DOI":"10.1007\/s00371-019-01740-4","volume":"36","author":"J Wu","year":"2020","unstructured":"Wu, J., Hu, D., Xiang, F., Yuan, X., Su, J.: 3d human pose estimation by depth map. Vis. Comput. 36, 1401\u20131410 (2020)","journal-title":"Vis. Comput."},{"key":"11_CR28","doi-asserted-by":"crossref","unstructured":"Xia, L., Chen, C., Aggarwal, J.: View invariant human action recognition using histograms of 3D joints. In: 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), pp. 20\u201327. IEEE (2012)","DOI":"10.1109\/CVPRW.2012.6239233"},{"key":"11_CR29","first-page":"30392","volume":"34","author":"T Xiao","year":"2021","unstructured":"Xiao, T., Singh, M., Mintun, E., Darrell, T., Doll\u00e1r, P., Girshick, R.: Early convolutions help transformers see better. Adv. Neural. Inf. Process. Syst. 34, 30392\u201330400 (2021)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"issue":"4","key":"11_CR30","doi-asserted-by":"publisher","first-page":"1116","DOI":"10.1109\/TCDS.2017.2783944","volume":"10","author":"S Yan","year":"2017","unstructured":"Yan, S., Smith, J.S., Lu, W., Zhang, B.: Multibranch attention networks for action recognition in still images. IEEE Trans. Cogn. Dev. Syst. 10(4), 1116\u20131125 (2017)","journal-title":"IEEE Trans. Cogn. Dev. Syst."},{"key":"11_CR31","unstructured":"Yang, J., et al.: Focal attention for long-range interactions in vision transformers. In: Advances in Neural Information Processing Systems, vol.\u00a034, pp. 30008\u201330022. Curran Associates, Inc. (2021)"},{"key":"11_CR32","doi-asserted-by":"crossref","unstructured":"Yuan, K., Guo, S., Liu, Z., Zhou, A., Yu, F., Wu, W.: Incorporating convolution designs into visual transformers. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 579\u2013588 (2021)","DOI":"10.1109\/ICCV48922.2021.00062"},{"key":"11_CR33","doi-asserted-by":"publisher","first-page":"383","DOI":"10.1016\/j.neucom.2020.07.016","volume":"413","author":"Y Zheng","year":"2020","unstructured":"Zheng, Y., Zheng, X., Lu, X., Wu, S.: Spatial attention based visual semantic learning for action recognition in still images. Neurocomputing 413, 383\u2013396 (2020)","journal-title":"Neurocomputing"},{"key":"11_CR34","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"67","DOI":"10.1007\/978-3-030-00764-5_7","volume-title":"Advances in Multimedia Information Processing \u2013 PCM 2018","author":"H Zhu","year":"2018","unstructured":"Zhu, H., Hu, J.-F., Zheng, W.-S.: Learning hierarchical context for action recognition in still images. In: Hong, R., Cheng, W.-H., Yamasaki, T., Wang, M., Ngo, C.-W. (eds.) PCM 2018. LNCS, vol. 11166, pp. 67\u201377. Springer, Cham (2018). https:\/\/doi.org\/10.1007\/978-3-030-00764-5_7"}],"container-title":["Lecture Notes in Computer Science","Computer Analysis of Images and Patterns"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-04968-1_11","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,8]],"date-time":"2025-12-08T04:42:43Z","timestamp":1765168963000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-04968-1_11"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,9,17]]},"ISBN":["9783032049674","9783032049681"],"references-count":34,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-04968-1_11","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2025,9,17]]},"assertion":[{"value":"17 September 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"CAIP","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Computer Analysis of Images and Patterns","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Las Palmas de Gran Canaria","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Spain","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"22 September 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"25 September 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"21","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"caip2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/caip2025.com","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}