{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,5]],"date-time":"2025-11-05T21:10:12Z","timestamp":1762377012279,"version":"3.37.3"},"reference-count":57,"publisher":"Springer Science and Business Media LLC","issue":"15","license":[{"start":{"date-parts":[[2021,10,7]],"date-time":"2021-10-07T00:00:00Z","timestamp":1633564800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2021,10,7]],"date-time":"2021-10-07T00:00:00Z","timestamp":1633564800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100001809","name":"national natural science foundation of china","doi-asserted-by":"publisher","award":["61806073"],"award-info":[{"award-number":["61806073"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100011447","name":"science and technology department of henan province","doi-asserted-by":"publisher","award":["192102210097","192102210126"],"award-info":[{"award-number":["192102210097","192102210126"]}],"id":[{"id":"10.13039\/501100011447","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100013082","name":"open project foundation of information technology research base of civil aviation administration of china","doi-asserted-by":"publisher","award":["CAAC-ITRB-201607"],"award-info":[{"award-number":["CAAC-ITRB-201607"]}],"id":[{"id":"10.13039\/501100013082","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Neural Comput &amp; Applic"],"published-print":{"date-parts":[[2022,8]]},"DOI":"10.1007\/s00521-021-06585-4","type":"journal-article","created":{"date-parts":[[2021,10,8]],"date-time":"2021-10-08T07:15:10Z","timestamp":1633677310000},"page":"12415-12425","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":4,"title":["A progressive hierarchical analysis model for collective activity recognition"],"prefix":"10.1007","volume":"34","author":[{"given":"Lishen","family":"Pei","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9523-9679","authenticated-orcid":false,"given":"Xuezhuan","family":"Zhao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tao","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zheng","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2021,10,7]]},"reference":[{"issue":"12","key":"6585_CR1","first-page":"1","volume":"103","author":"A Ullah","year":"2021","unstructured":"Ullah A, Muhammad K, Ding W, Palade V, Haq IU, Baik SW (2021) Efficient activity recognition using lightweight cnn and ds-gru network for surveillance applications. Appl Soft Comput 103(12):1\u201313","journal-title":"Appl Soft Comput"},{"key":"6585_CR2","doi-asserted-by":"crossref","unstructured":"Antic B, Ommer B (2014) Learning latent constituents for recognition of group activities in video. In: Proceedings of the European conference on computer vision, pp 33\u201347","DOI":"10.1007\/978-3-319-10590-1_3"},{"key":"6585_CR3","doi-asserted-by":"crossref","unstructured":"Bagautdinov T, Alahi A, Fua FFP, Savarese S (2017) Social scene understanding: End-to-end multi-person action localization and collective activity recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1\u201310","DOI":"10.1109\/CVPR.2017.365"},{"key":"6585_CR4","doi-asserted-by":"crossref","unstructured":"Blank M, Gorelick L, Shechtman E, Irani M, Basri R (2005) Actions as space-time shapes. In: IEEE international conference on computer vision. pp 1395\u20131402","DOI":"10.1109\/ICCV.2005.28"},{"key":"6585_CR5","doi-asserted-by":"crossref","unstructured":"Borja-Borja LF, Azorin-Lopez J, Saval-Calvo M, Fuster-Guillo A (2020) Deep learning architecture for group activity recognition using description of local motions. In: Proceedings of the international joint conference on neural networks, pp 1\u20138","DOI":"10.1109\/IJCNN48605.2020.9207366"},{"key":"6585_CR6","doi-asserted-by":"crossref","unstructured":"Carreira J, Zisserman A (2017) Quo vadis, action recognition? a new model and the kinetics datase. In: IEEE conference on computer vision and pattern recognition, pp 1\u201310","DOI":"10.1109\/CVPR.2017.502"},{"key":"6585_CR7","unstructured":"Chen B, Ting J.A, Marlin B, de Freitas N (2010) Deep learning of invariant spatio-temporal features from video. In: Workshop of neural information processing systems"},{"issue":"6","key":"6585_CR8","doi-asserted-by":"publisher","first-page":"1242","DOI":"10.1109\/TPAMI.2013.220","volume":"36","author":"W Choi","year":"2014","unstructured":"Choi W, Savarese S (2014) Understanding collective activities of people from videos. IEEE Trans Pattern Anal Mach Intell 36(6):1242\u20131257","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"6585_CR9","unstructured":"Choi W, Shahid K, Savarese S (2009) What are they doing? : collective activity classification using spatio-temporal relationship among people. In: IEEE international conference on computer vision workshops, pp 1282\u20131289"},{"key":"6585_CR10","doi-asserted-by":"crossref","unstructured":"Dalal N, Triggs B (2005) Histograms of oriented gradients for human detection. In: IEEE conference on computer vision and pattern recognition pp 886\u2013893","DOI":"10.1109\/CVPR.2005.177"},{"key":"6585_CR11","doi-asserted-by":"publisher","unstructured":"Dawn DD, Shaikh SH (2015) A comprehensive survey of human action recognition with spatio-temporal interest point (STIP) detector. The Visual Computer. https:\/\/doi.org\/10.1007\/s00371-015-1066-2","DOI":"10.1007\/s00371-015-1066-2"},{"key":"6585_CR12","doi-asserted-by":"crossref","unstructured":"Deng Z, Vahdat A, Hu H, Mori G (2016) Structure inference machines: recurrent neural networks for analyzing relations in group activity recognition. In: IEEE conference on computer vision and pattern recognition, pp 4772\u20134781","DOI":"10.1109\/CVPR.2016.516"},{"key":"6585_CR13","doi-asserted-by":"crossref","unstructured":"Dixon S, Hansen R, Deneke W (2019) Probabilistic grammar induction for long term human activity parsing. In: Proceedings of the international conference on computational science and computational intelligence, pp 306\u2013311","DOI":"10.1109\/CSCI49370.2019.00061"},{"key":"6585_CR14","doi-asserted-by":"crossref","unstructured":"Donahue J, Hendricks LA, Guadarrama S, Rohrbach M, Venugopalany S, Saenkoz K, Darrell T (2015) Long-term recurrent convolutional networks for visual recognition and description. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1\u201313","DOI":"10.1109\/CVPR.2015.7298878"},{"issue":"4","key":"6585_CR15","doi-asserted-by":"publisher","first-page":"677","DOI":"10.1109\/TPAMI.2016.2599174","volume":"39","author":"J Donahue","year":"2017","unstructured":"Donahue J, Hendricks LA, Rohrbach M, Venugopalan S, Guadarrama S, Saenko K, Darrell T (2017) Long-term recurrent convolutional networks for visual recognition and description. IEEE Trans Pattern Anal Mach Intell 39(4):677\u2013691","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"6585_CR16","doi-asserted-by":"crossref","unstructured":"Feichtenhofer C, Pinz A, Zisserman A (2016) Convolutional two-stream network fusion for video action recognition. In: IEEE conference on computer vision and pattern recognition, pp 1933\u20131941","DOI":"10.1109\/CVPR.2016.213"},{"key":"6585_CR17","doi-asserted-by":"crossref","unstructured":"Gavrilyuk K, Sanford R, Javan M, Snoek CGM (2020) Actor-transformers for group activity recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 836\u2013845","DOI":"10.1109\/CVPR42600.2020.00092"},{"issue":"9","key":"6585_CR18","doi-asserted-by":"publisher","first-page":"1839","DOI":"10.1109\/TPAMI.2016.2613865","volume":"39","author":"H Hajimirsadeghi","year":"2017","unstructured":"Hajimirsadeghi H, Mori G (2017) Multi-instance classification by maxmargin training of cardinality-based markov networks. IEEE Trans Pattern Anal Mach Intell 39(9):1839\u20131852","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"6585_CR19","doi-asserted-by":"crossref","unstructured":"Hu G, Cui B, He Y, Yu S (2020) Progressive relation learning for group activity recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 977\u2013986","DOI":"10.1109\/CVPR42600.2020.00106"},{"key":"6585_CR20","doi-asserted-by":"crossref","unstructured":"Ibrahim M, Muralidharan S, Deng Z, Vahdat A, Mori G (2016) A hierarchical deep temporal model for group activity recognition. In: IEEE international conference on on computer vision and pattern recognition, pp 1\u201310","DOI":"10.1109\/CVPR.2016.217"},{"key":"6585_CR21","doi-asserted-by":"crossref","unstructured":"Ibrahim MS, Mori G (2018) Hierarchical relational networks for group activity recognition and retrieval. In: Proceedings of the european conference on computer vision, pp 721\u2013736","DOI":"10.1007\/978-3-030-01219-9_44"},{"key":"6585_CR22","doi-asserted-by":"crossref","unstructured":"Ibrahim MS, Muralidharan S, Deng Z, Vahdat A, Mori G (2016) A hierarchical deep temporal model for group activity recognition. In: IEEE conference on computer vision and pattern recognition, pp 1\u201310","DOI":"10.1109\/CVPR.2016.217"},{"key":"6585_CR23","doi-asserted-by":"crossref","unstructured":"Ibrahim MS, Muralidharan S, Deng Z, Vahdat A, Mori G (2016) Hierarchical deep temporal models for group activity recognition. pp 1\u20137. arXiv preprint, arXiv:1607.02643","DOI":"10.1109\/CVPR.2016.217"},{"key":"6585_CR24","unstructured":"Ji S, Xu W, Yang M, Yu K (2012) 3D convolutional neural networks for human action recognition. In: IEEE international conference on machine learning, pp 3212\u20133220"},{"key":"6585_CR25","doi-asserted-by":"crossref","unstructured":"Jia Y (2013) Caffe: An open source convolutional architecture or fast feature embedding. http:\/\/caffe.berkeleyvision.org\/","DOI":"10.1145\/2647868.2654889"},{"key":"6585_CR26","doi-asserted-by":"crossref","unstructured":"Karpathy A, Toderici G, Shetty S, Leung T, Sukthankar R, Fei-Fei L (2014) Large-scale video classification with convolutional neural networks. In: IEEE conference on computer vision and pattern recognition","DOI":"10.1109\/CVPR.2014.223"},{"key":"6585_CR27","doi-asserted-by":"crossref","unstructured":"Kl\u00e4ser A, Marszalek M, Schmid C (2008) A spatio-temporal descriptor based on 3D gradients. In: British machine vision conference","DOI":"10.5244\/C.22.99"},{"key":"6585_CR28","doi-asserted-by":"crossref","unstructured":"Krizhevsky A, Sutskever I, Hinton GE (2018) Imagenet classification with deep convolutional neural networks. Communications of the ACM pp. 84\u201390 (2017) bibitem2018SRN K\u0131vrak, H., K\u00f6se, H.: Social robot navigation in human-robot interactive environments: Social force model approach. In: Proceedings of the signal processing and communications applications conference, pp 1\u20134","DOI":"10.1145\/3065386"},{"issue":"8","key":"6585_CR29","doi-asserted-by":"publisher","first-page":"1549","DOI":"10.1109\/TPAMI.2011.228","volume":"34","author":"T Lan","year":"2012","unstructured":"Lan T, Wang Y, Yang W, Robinovitch SN, Mori G (2012) Discriminative latent models for recognizing contextual group activities. IEEE Trans Pattern Anal Mach Intell 34(8):1549\u20131562","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"6585_CR30","doi-asserted-by":"publisher","first-page":"107","DOI":"10.1007\/s11263-005-1838-7","volume":"64","author":"I Laptev","year":"2005","unstructured":"Laptev I (2005) On space-time interest points. IEEE Int J Comput Vis 64:107\u2013123","journal-title":"IEEE Int J Comput Vis"},{"key":"6585_CR31","doi-asserted-by":"crossref","unstructured":"Laptev I, Marszalek M, Schmid C, Rozenfeld B (2008) Learning realistic human actions from movies. In: IEEE conference on computer vision and pattern recognition. pp 1\u20138","DOI":"10.1109\/CVPR.2008.4587756"},{"key":"6585_CR32","doi-asserted-by":"crossref","unstructured":"Le QV, Zou WY, Yeung SY, Ng AY (2011) Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis. In: IEEE conference on computer vision and pattern recognition. pp 3361\u20133368","DOI":"10.1109\/CVPR.2011.5995496"},{"key":"6585_CR33","doi-asserted-by":"crossref","unstructured":"Li X, Chuah MC (2017) Sbgar: semantics based group activity recognition. In: Proceedings of the IEEE international conference on computer vision, pp 2895\u20132904","DOI":"10.1109\/ICCV.2017.313"},{"key":"6585_CR34","doi-asserted-by":"publisher","first-page":"41","DOI":"10.1016\/j.cviu.2017.10.011","volume":"166","author":"Z Li","year":"2018","unstructured":"Li Z, Gavrilyuk K, Gavves E, Jain M, Snoek CG (2018) Videolstm convolves, attends and flows for action recognition. Comput Vis Image Understand 166:41\u201350","journal-title":"Comput Vis Image Understand"},{"key":"6585_CR35","doi-asserted-by":"publisher","DOI":"10.1145\/2502081.2502089","volume-title":"Learning latent spatio-temporal compositional model for human action recognition","author":"X Liang","year":"2013","unstructured":"Liang X, Lin L, Cao L (2013) Learning latent spatio-temporal compositional model for human action recognition. ACM Multimedia, Chengdu"},{"key":"6585_CR36","doi-asserted-by":"crossref","unstructured":"Azar SM, Atigh MG, Nickabadi A, Alahi A (2020) Convolutional relational machine for group activity recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 7884\u20137893","DOI":"10.1109\/CVPR.2019.00808"},{"key":"6585_CR37","doi-asserted-by":"crossref","unstructured":"Amer MR, Lei P, Todorovic S (2014) Hirf: Hierarchical random field for collective activity recognition in videos. In: European conference on computer vision. vol 2, pp 571\u2013585","DOI":"10.1007\/978-3-319-10599-4_37"},{"key":"6585_CR38","doi-asserted-by":"crossref","unstructured":"Ni B, Yang X, Gao S (2016) Progressively parsing interactional objects for fine grained action detection. In: IEEE international conference on on computer vision and pattern recognition, pp 1\u201310","DOI":"10.1109\/CVPR.2016.116"},{"key":"6585_CR39","doi-asserted-by":"publisher","unstructured":"Pei L, Ye M, Xu P, Li T (2014) Fast multi-class action recognition by querying inverted index tables. Multimedia tools and applications. https:\/\/doi.org\/10.1007\/s11042-014-2207-8","DOI":"10.1007\/s11042-014-2207-8"},{"issue":"2","key":"6585_CR40","doi-asserted-by":"publisher","first-page":"1751","DOI":"10.1007\/s11042-013-1478-9","volume":"72","author":"L Pei","year":"2014","unstructured":"Pei L, Ye M, Xu P, Zhao X, Guo G (2014) One example based action detection in hough space. Multimed Tools Appl 72(2):1751\u20131772","journal-title":"Multimed Tools Appl"},{"issue":"2","key":"6585_CR41","doi-asserted-by":"publisher","first-page":"549","DOI":"10.1109\/TCSVT.2019.2894161","volume":"30","author":"M Qi","year":"2020","unstructured":"Qi M, Wang Y, Qin J, Li A, Luo J, Gool LV (2020) stagnet: an attentive semantic rnn for group activity and individual action recognition. IEEE Trans Circuits Syst Video Technol 30(2):549\u2013565","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"6585_CR42","doi-asserted-by":"crossref","unstructured":"Shu T, Todorovic S, Zhu SC (2017) Cern: Confidence-energy recurrent network for group activity recognition. In: IEEE conference on computer vision and pattern recognition, pp 1\u201310","DOI":"10.1109\/CVPR.2017.453"},{"key":"6585_CR43","unstructured":"Shu T, Xie D, Rothrock B, Todorovic S, Zhu SC (2015) Joint inference of groups, events and human roles in aerial videos. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4576\u20134584"},{"key":"6585_CR44","first-page":"1","volume":"99","author":"X Shu","year":"2020","unstructured":"Shu X, Zhang L, Sun Y, Tang J (2020) Host-parasite: graph lstm-in-lstm for group activity recognition. IEEE Trans Neural Netw Learn Syst 99:1\u201312","journal-title":"IEEE Trans Neural Netw Learn Syst"},{"key":"6585_CR45","unstructured":"Simonyan K, Zisserman A (2014) Two-stream convolutional networks for action recognition in videos. In: In advances in neural information processing systems, pp 568\u2013576"},{"key":"6585_CR46","doi-asserted-by":"crossref","unstructured":"Singh S, Arora C, Jawahar CV (2016) First person action recognition using deep learned descriptors. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2620\u20132628","DOI":"10.1109\/CVPR.2016.287"},{"key":"6585_CR47","doi-asserted-by":"crossref","unstructured":"Szegedy C, Liu W, Jia Y, Sermanet P, Reed S, Anguelov D, Erhan D, Vanhoucke V, Rabinovich A (2015) Going deeper with convolutions. In: IEEE conference on computer vision and pattern recognition. pp 1\u201310","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"6585_CR48","doi-asserted-by":"crossref","unstructured":"Taylor GW, Fergus R, LeCun Y, Bregler C (2010) Convolutional learning of spatio-temporal features. In: European conference on computer vision. pp 140\u2013153","DOI":"10.1007\/978-3-642-15567-3_11"},{"key":"6585_CR49","doi-asserted-by":"crossref","unstructured":"Tran D, Bourdev L, Fergus R, Torresani L, Paluri M (2015) Learning spatiotemporal features with 3d convolutional networks. In: IEEE international conference on computer vision, pp 4489\u20134497","DOI":"10.1109\/ICCV.2015.510"},{"key":"6585_CR50","doi-asserted-by":"crossref","unstructured":"Wang H, Ullah M.M, Kl\u00e4ser A, Laptev L, Schmid C (2010) Evaluation of local spatio-temporal features for action recognition. In: British machine vision conference","DOI":"10.5244\/C.23.124"},{"key":"6585_CR51","doi-asserted-by":"crossref","unstructured":"Wang K, Wang X, Lin L, Wang M, Zuo W (2014) 3D human activity recognition with reconfigurable convolutional neural networks. ACM multimedia","DOI":"10.1145\/2647868.2654912"},{"key":"6585_CR52","doi-asserted-by":"crossref","unstructured":"Wang L, Qiao Y, Tang X (2015) Action recognition with trajectory-pooled deep-convolutional descriptors. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 4305\u20134314","DOI":"10.1109\/CVPR.2015.7299059"},{"key":"6585_CR53","doi-asserted-by":"crossref","unstructured":"Wang M, Ni B, Yang X (2017) Recurrent modeling of interaction context for collective activity recognition. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 3048\u20133056","DOI":"10.1109\/CVPR.2017.783"},{"key":"6585_CR54","doi-asserted-by":"crossref","unstructured":"Xue C, Liu P, Liu W (2019) Studies on a video surveillance system designed for deep learning. In: Proceedings of the IEEE conference on imaging systems and techniques, pp 1\u20135","DOI":"10.1109\/IST48021.2019.9010234"},{"key":"6585_CR55","doi-asserted-by":"crossref","unstructured":"Zhang S, Benenson R, Schiele B (2015) Filtered feature channels for pedestrian detection. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1751\u20131760","DOI":"10.1109\/CVPR.2015.7298784"},{"key":"6585_CR56","unstructured":"Zhou I, Li K, He X, Li M (2016) A generative model for recognizing mixed group activities in still images. In: Proceedings of the twenty-fifth international joint conference on artificial intelligence. July, pp 3654\u20133660"},{"key":"6585_CR57","unstructured":"Zou WY, Zhu S, Ng AY, Yu K (2012) Deep learning of invariant features via simulated fixations in video. In: IEEE conference on neural information processing systems. pp 3212\u20133220"}],"container-title":["Neural Computing and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00521-021-06585-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00521-021-06585-4\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00521-021-06585-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,7,23]],"date-time":"2022-07-23T10:07:31Z","timestamp":1658570851000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00521-021-06585-4"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,10,7]]},"references-count":57,"journal-issue":{"issue":"15","published-print":{"date-parts":[[2022,8]]}},"alternative-id":["6585"],"URL":"https:\/\/doi.org\/10.1007\/s00521-021-06585-4","relation":{},"ISSN":["0941-0643","1433-3058"],"issn-type":[{"type":"print","value":"0941-0643"},{"type":"electronic","value":"1433-3058"}],"subject":[],"published":{"date-parts":[[2021,10,7]]},"assertion":[{"value":"15 July 2021","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 September 2021","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"7 October 2021","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors have no conflicts of interest to declare that are relevant to the content of this article.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}