{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,6]],"date-time":"2026-05-06T15:59:02Z","timestamp":1778083142650,"version":"3.51.4"},"reference-count":49,"publisher":"Springer Science and Business Media LLC","issue":"6","license":[{"start":{"date-parts":[[2022,10,10]],"date-time":"2022-10-10T00:00:00Z","timestamp":1665360000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2022,10,10]],"date-time":"2022-10-10T00:00:00Z","timestamp":1665360000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"funder":[{"DOI":"10.13039\/501100001215","name":"La Trobe University","doi-asserted-by":"crossref","id":[{"id":"10.13039\/501100001215","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Machine Vision and Applications"],"published-print":{"date-parts":[[2022,11]]},"abstract":"<jats:title>Abstract<\/jats:title><jats:p>We introduce a novel deep learning-based group activity recognition approach called the Pose Only Group Activity Recognition System (POGARS), designed to use only tracked poses of people to predict the performed group activity. In contrast to existing approaches for group activity recognition, POGARS uses 1D CNNs to learn spatiotemporal dynamics of individuals involved in a group activity and forgo learning features from pixel data. The proposed model uses a spatial and temporal attention mechanism to infer person-wise importance and multi-task learning for simultaneously performing group and individual action classification. Experimental results confirm that POGARS achieves highly competitive results compared to state-of-the-art methods on a widely used public volleyball dataset despite only using tracked pose as input. Further, our experiments show by using pose only as input, POGARS has better generalization capabilities compared to methods that use RGB as input.<\/jats:p>","DOI":"10.1007\/s00138-022-01346-2","type":"journal-article","created":{"date-parts":[[2022,10,10]],"date-time":"2022-10-10T16:02:49Z","timestamp":1665417769000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":23,"title":["Pose is all you need: the pose only group activity recognition system (POGARS)"],"prefix":"10.1007","volume":"33","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-1407-8231","authenticated-orcid":false,"given":"Haritha","family":"Thilakarathne","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Aiden","family":"Nibali","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhen","family":"He","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Stuart","family":"Morgan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2022,10,10]]},"reference":[{"key":"1346_CR1","doi-asserted-by":"publisher","unstructured":"Ibrahim, M.S., Muralidharan, S., Deng, Z., Vahdat, A., Mori, G.: A hierarchical deep temporal model for group activity recognition. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2016). https:\/\/doi.org\/10.1109\/cvpr.2016.217","DOI":"10.1109\/cvpr.2016.217"},{"key":"1346_CR2","doi-asserted-by":"publisher","unstructured":"Ramanathan, V., Huang, J., Abu-El-Haija, S., Gorban, A., Murphy, K., Fei-Fei, L.: Detecting events and key actors in multi-person videos. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2016). https:\/\/doi.org\/10.1109\/cvpr.2016.332","DOI":"10.1109\/cvpr.2016.332"},{"key":"1346_CR3","doi-asserted-by":"publisher","first-page":"162","DOI":"10.1016\/j.image.2019.02.012","volume":"74","author":"L Lu","year":"2019","unstructured":"Lu, L., Di, H., Lu, Y., Zhang, L., Wang, S.: Spatio-temporal attention mechanisms based model for collective activity recognition. Signal Process. Image Commun. 74, 162\u2013174 (2019)","journal-title":"Signal Process. Image Commun."},{"key":"1346_CR4","doi-asserted-by":"publisher","unstructured":"Bagautdinov, T., Alahi, A., Fleuret, F., Fua, P., Savarese, S.: Social scene understanding: End-to-end multi-person action localization and collective activity recognition. 2017 IEEE Conference on computer vision and pattern recognition (CVPR) (2017). https:\/\/doi.org\/10.1109\/cvpr.2017.365","DOI":"10.1109\/cvpr.2017.365"},{"key":"1346_CR5","doi-asserted-by":"crossref","unstructured":"Azar, S.M., Atigh, M.G., Nickabadi, A.: A multi-stream convolutional neural network framework for group activity recognition. arXiv:1812.10328 (2018)","DOI":"10.1109\/CVPR.2019.00808"},{"key":"1346_CR6","doi-asserted-by":"crossref","unstructured":"Azar, S.M., Atigh, M.G., Nickabadi, A., Alahi, A.: Convolutional relational machine for group activity recognition. arXiv:1904.03308 (2019)","DOI":"10.1109\/CVPR.2019.00808"},{"key":"1346_CR7","doi-asserted-by":"crossref","unstructured":"Gavrilyuk, K., Sanford, R., Javan, M., Snoek, C.G.: Actor-transformers for group activity recognition. In: Proceedings of the IEEE\/CVF Conference on computer vision and pattern recognition, pp. 839\u2013848 (2020)","DOI":"10.1109\/CVPR42600.2020.00092"},{"key":"1346_CR8","unstructured":"Baradel, F., Wolf, C., Mille, J.: Pose-conditioned spatio-temporal attention for human action recognition. arXiv:1703.10106 (2017)"},{"key":"1346_CR9","doi-asserted-by":"publisher","unstructured":"Carreira, J., Zisserman, A.: Quo vadis, action recognition? a new model and the kinetics dataset. 2017 IEEE Conference on computer vision and pattern recognition (CVPR) (2017). https:\/\/doi.org\/10.1109\/cvpr.2017.502","DOI":"10.1109\/cvpr.2017.502"},{"key":"1346_CR10","unstructured":"Mehrasa, N., Zhong, Y., Tung, F., Bornn, L., Mori, G.: Learning person trajectory representations for team activity analysis. arXiv:1706.00893 (2017)"},{"key":"1346_CR11","unstructured":"Zhu, J., Zou, W., Xu, L., Hu, Y., Zhu, Z., Chang, M., Huang, J., Huang, G., Du, D.: Action machine: rethinking action recognition in trimmed videos. arXiv:1812.05770 (2018)"},{"key":"1346_CR12","unstructured":"Perez, M., Liu, J., Kot, A.C.: Skeleton-based relational reasoning for group activity analysis (2020)"},{"key":"1346_CR13","doi-asserted-by":"crossref","unstructured":"Ibrahim, M.S., Muralidharan, S., Deng, Z., Vahdat, A., Mori, G.: A hierarchical deep temporal model for group activity recognition. arXiv:1511.06040 (2015)","DOI":"10.1109\/CVPR.2016.217"},{"issue":"8","key":"1346_CR14","doi-asserted-by":"publisher","first-page":"1549","DOI":"10.1109\/TPAMI.2011.228","volume":"34","author":"T Lan","year":"2012","unstructured":"Lan, T., Wang, Y., Yang, W., Robinovitch, S.N., Mori, G.: Discriminative latent models for recognizing contextual group activities. IEEE Trans. Pattern Anal. Mach. Intell. 34(8), 1549\u20131562 (2012). https:\/\/doi.org\/10.1109\/TPAMI.2011.228","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"1346_CR15","doi-asserted-by":"crossref","unstructured":"Amer, M.R., Lei, P., Todorovic, S.: Hirf: Hierarchical random field for collective activity recognition in videos. In: European Conference on computer vision, pp. 572\u2013585 (2014). Springer","DOI":"10.1007\/978-3-319-10599-4_37"},{"key":"1346_CR16","doi-asserted-by":"publisher","unstructured":"Zhu, Y., Nayak, N.M., Roy-Chowdhury, A.K.: Context-aware modeling and recognition of activities in video. In: 2013 IEEE conference on computer vision and pattern recognition, pp. 2491\u20132498 (2013). https:\/\/doi.org\/10.1109\/CVPR.2013.322","DOI":"10.1109\/CVPR.2013.322"},{"key":"1346_CR17","unstructured":"Choi, W., Shahid, K., Savarese, S.: What are they doing? : Collective activity classification using spatio-temporal relationship among people. 2009 IEEE 12th International Conference on computer vision workshops, ICCV Workshops, 1282\u20131289 (2009)"},{"key":"1346_CR18","doi-asserted-by":"publisher","DOI":"10.1109\/34.993558","author":"S Belongie","year":"2002","unstructured":"Belongie, S., Malik, J., Puzicha, J.: Shape matching and object recognition using shape contexts. IEEE Trans. Pattern Anal. Mach. Intell. (2002). https:\/\/doi.org\/10.1109\/34.993558","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"1346_CR19","doi-asserted-by":"publisher","unstructured":"Wu, D., Sharma, N., Blumenstein, M.: Recent advances in video-based human action recognition using deep learning: A review. In: 2017 International joint conference on neural networks (IJCNN), pp. 2865\u20132872 (2017). https:\/\/doi.org\/10.1109\/IJCNN.2017.7966210","DOI":"10.1109\/IJCNN.2017.7966210"},{"key":"1346_CR20","doi-asserted-by":"publisher","unstructured":"Deng, Z., Vahdat, A., Hu, H., Mori, G.: Structure inference machines: Recurrent neural networks for analyzing relations in group activity recognition. 2016 IEEE Conference on computer vision and pattern recognition (CVPR) (2016). https:\/\/doi.org\/10.1109\/cvpr.2016.516","DOI":"10.1109\/cvpr.2016.516"},{"key":"1346_CR21","doi-asserted-by":"publisher","unstructured":"Tsunoda, T., Komori, Y., Matsugu, M., Harada, T.: Football action recognition using hierarchical lstm, pp. 155\u2013163 (2017). https:\/\/doi.org\/10.1109\/CVPRW.2017.25","DOI":"10.1109\/CVPRW.2017.25"},{"key":"1346_CR22","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1109\/TCSVT.2019.2894161","volume":"PP","author":"M Qi","year":"2019","unstructured":"Qi, M., Wang, Y., Qin, J., Li, A., Luo, J., Van Gool, L.: stagnet: an attentive semantic rnn for group activity and individual action recognition. IEEE Trans. Circ. Syst. Video Technol. PP, 1\u20131 (2019). https:\/\/doi.org\/10.1109\/TCSVT.2019.2894161","journal-title":"IEEE Trans. Circ. Syst. Video Technol."},{"key":"1346_CR23","doi-asserted-by":"crossref","unstructured":"Wu, J., Wang, L., Wang, L., Guo, J., Wu, G.: Learning actor relation graphs for group activity recognition. In: Proceedings of the IEEE\/CVF Conference on computer vision and pattern recognition, pp. 9964\u20139974 (2019)","DOI":"10.1109\/CVPR.2019.01020"},{"key":"1346_CR24","doi-asserted-by":"crossref","unstructured":"Liu, J., Shahroudy, A., Xu, D., Wang, G.: Spatio-temporal lstm with trust gates for 3d human action recognition. arXiv:1607.07043 (2016)","DOI":"10.1007\/978-3-319-46487-9_50"},{"key":"1346_CR25","doi-asserted-by":"crossref","unstructured":"Wang, H., Wang, L.: Modeling temporal dynamics and spatial configurations of actions using two-stream recurrent neural networks. arXiv:1704.02581 (2017)","DOI":"10.1109\/CVPR.2017.387"},{"key":"1346_CR26","unstructured":"Mnih, V., Heess, N., Graves, A., Kavukcuoglu, K.: Recurrent models of visual attention. arXiv:1406.6247 (2014)"},{"key":"1346_CR27","unstructured":"Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A.C., Salakhutdinov, R., Zemel, R.S., Bengio, Y.: Show, attend and tell: Neural image caption generation with visual attention. arXiv:1502.03044 (2015)"},{"key":"1346_CR28","doi-asserted-by":"publisher","unstructured":"Tang, Y., Zhang, P., Hu, J., Zheng, W.: Latent embeddings for collective activity recognition. In: 2017 14th IEEE International Conference on advanced video and signal based surveillance (AVSS), pp. 1\u20136 (2017). https:\/\/doi.org\/10.1109\/AVSS.2017.8078522","DOI":"10.1109\/AVSS.2017.8078522"},{"key":"1346_CR29","doi-asserted-by":"crossref","unstructured":"Varona, X., Gonz\u00e0lez, J., Roca, F.X., Villanueva, J.J.: Automatic selection of keyframes for activity recognition. In: International Conference on articulated motion and deformable objects, pp. 173\u2013181 (2000). Springer","DOI":"10.1007\/10722604_15"},{"key":"1346_CR30","doi-asserted-by":"publisher","unstructured":"Raptis, M., Sigal, L.: Poselet key-framing: A model for human activity recognition. In: 2013 IEEE Conference on computer vision and pattern recognition, pp. 2650\u20132657 (2013). https:\/\/doi.org\/10.1109\/CVPR.2013.342","DOI":"10.1109\/CVPR.2013.342"},{"key":"1346_CR31","doi-asserted-by":"publisher","unstructured":"Sendo, K., Ukita, N.: Heatmapping of people involved in group activities. In: 2019 16th International Conference on machine vision applications (MVA), pp. 1\u20136 (2019). https:\/\/doi.org\/10.23919\/MVA.2019.8757971","DOI":"10.23919\/MVA.2019.8757971"},{"key":"1346_CR32","doi-asserted-by":"crossref","unstructured":"Newell, A., Yang, K., Deng, J.: Stacked hourglass networks for human pose estimation. Lecture Notes in Computer Science, 483\u2013499 (2016)","DOI":"10.1007\/978-3-319-46484-8_29"},{"key":"1346_CR33","doi-asserted-by":"publisher","unstructured":"Shotton, J., Fitzgibbon, A., Cook, M., Sharp, T., Finocchio, M., Moore, R., Kipman, A., Blake, A.: Real-time human pose recognition in parts from single depth images. In: CVPR 2011, pp. 1297\u20131304 (2011). https:\/\/doi.org\/10.1109\/CVPR.2011.5995316","DOI":"10.1109\/CVPR.2011.5995316"},{"key":"1346_CR34","doi-asserted-by":"crossref","unstructured":"Cao, Z., Simon, T., Wei, S., Sheikh, Y.: Realtime multi-person 2d pose estimation using part affinity fields. arXiv:1611.08050 (2016)","DOI":"10.1109\/CVPR.2017.143"},{"key":"1346_CR35","doi-asserted-by":"crossref","unstructured":"He, K., Gkioxari, G., Dollar, P., Girshick, R.: Mask r-cnn. In: Proceedings of the IEEE International Conference on computer vision (ICCV) (2017)","DOI":"10.1109\/ICCV.2017.322"},{"key":"1346_CR36","doi-asserted-by":"crossref","unstructured":"Danelljan, M., H\u00e4ger, G., Khan, F.: Accurate scale estimation for robust visual tracking. British machine vision conference, 1\u201311 (2014)","DOI":"10.5244\/C.28.65"},{"key":"1346_CR37","unstructured":"Yan, X., Gilani, S.Z., Qin, H., Feng, M., Zhang, L., Mian, A.S.: Deep keyframe detection in human action videos. arXiv:1804.10021 (2018)"},{"key":"1346_CR38","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A.N., Kaiser, L., Polosukhin, I.: Attention is all you need. arXiv:1706.03762 (2017)"},{"key":"1346_CR39","doi-asserted-by":"publisher","unstructured":"Andriluka, M., Pishchulin, L., Gehler, P., Schiele, B.: 2d human pose estimation: New benchmark and state of the art analysis. In: 2014 IEEE Conference on computer vision and pattern recognition, pp. 3686\u20133693 (2014). https:\/\/doi.org\/10.1109\/CVPR.2014.471","DOI":"10.1109\/CVPR.2014.471"},{"key":"1346_CR40","unstructured":"Kingma, D., Ba, J.: Adam: A method for stochastic optimization. International Conference on learning representations (2014)"},{"key":"1346_CR41","unstructured":"Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein, N., Antiga, L., et al.: Pytorch: An imperative style, high-performance deep learning library. In: Advances in Neural Information Processing Systems, pp. 8024\u20138035 (2019)"},{"key":"1346_CR42","doi-asserted-by":"publisher","unstructured":"Tran, D., Bourdev, L., Fergus, R., Torresani, L., Paluri, M.: Learning spatiotemporal features with 3d convolutional networks. 2015 IEEE International Conference on Computer Vision (ICCV) (2015). https:\/\/doi.org\/10.1109\/iccv.2015.510","DOI":"10.1109\/iccv.2015.510"},{"key":"1346_CR43","unstructured":"Simonyan, K., Zisserman, A.: Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556 (2014)"},{"key":"1346_CR44","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2021.3124981","author":"S Kreiss","year":"2021","unstructured":"Kreiss, S., Bertoni, L., Alahi, A.: Openpifpaf: composite fields for semantic keypoint detection and spatio-temporal association. IEEE Trans. Intell. Transp. Syst. (2021). https:\/\/doi.org\/10.1109\/TITS.2021.3124981","journal-title":"IEEE Trans. Intell. Transp. Syst."},{"key":"1346_CR45","doi-asserted-by":"publisher","unstructured":"Shu, T., Todorovic, S., Zhu, S.-C.: Cern: Confidence-energy recurrent network for group activity recognition. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2017). https:\/\/doi.org\/10.1109\/cvpr.2017.453","DOI":"10.1109\/cvpr.2017.453"},{"key":"1346_CR46","doi-asserted-by":"crossref","unstructured":"Wu, J., Wang, L., Wang, L., Guo, J., Wu, G.: Learning actor relation graphs for group activity recognition. In: Proceedings of the IEEE\/CVF Conference on computer vision and pattern recognition, pp. 9964\u20139974 (2019)","DOI":"10.1109\/CVPR.2019.01020"},{"key":"1346_CR47","unstructured":"Ehsanpour, M., Abedin, A., Saleh, F., Shi, J.: Joint learning of social groups, individuals action and sub-group activities in videos"},{"key":"1346_CR48","doi-asserted-by":"publisher","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. 2016 IEEE Conference on computer vision and pattern recognition (CVPR) (2016). https:\/\/doi.org\/10.1109\/cvpr.2016.90","DOI":"10.1109\/cvpr.2016.90"},{"key":"1346_CR49","unstructured":"Yosinski, J., Clune, J., Bengio, Y., Lipson, H.: How transferable are features in deep neural networks? arXiv:1411.1792 (2014)"}],"container-title":["Machine Vision and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00138-022-01346-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00138-022-01346-2\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00138-022-01346-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,11,7]],"date-time":"2022-11-07T04:16:25Z","timestamp":1667794585000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00138-022-01346-2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,10,10]]},"references-count":49,"journal-issue":{"issue":"6","published-print":{"date-parts":[[2022,11]]}},"alternative-id":["1346"],"URL":"https:\/\/doi.org\/10.1007\/s00138-022-01346-2","relation":{},"ISSN":["0932-8092","1432-1769"],"issn-type":[{"value":"0932-8092","type":"print"},{"value":"1432-1769","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022,10,10]]},"assertion":[{"value":"11 February 2021","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"29 June 2022","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"16 September 2022","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"10 October 2022","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}],"article-number":"95"}}