{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,30]],"date-time":"2026-04-30T16:44:21Z","timestamp":1777567461853,"version":"3.51.4"},"publisher-location":"Cham","reference-count":59,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031729690","type":"print"},{"value":"9783031729706","type":"electronic"}],"license":[{"start":{"date-parts":[[2024,11,23]],"date-time":"2024-11-23T00:00:00Z","timestamp":1732320000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,11,23]],"date-time":"2024-11-23T00:00:00Z","timestamp":1732320000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-72970-6_14","type":"book-chapter","created":{"date-parts":[[2024,11,22]],"date-time":"2024-11-22T10:51:05Z","timestamp":1732272665000},"page":"240-258","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":5,"title":["Towards More Practical Group Activity Detection: A New Benchmark and\u00a0Model"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-6093-126X","authenticated-orcid":false,"given":"Dongkeun","family":"Kim","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-9565-2102","authenticated-orcid":false,"given":"Youngkil","family":"Song","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7030-1958","authenticated-orcid":false,"given":"Minsu","family":"Cho","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4567-9091","authenticated-orcid":false,"given":"Suha","family":"Kwak","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2024,11,23]]},"reference":[{"key":"14_CR1","doi-asserted-by":"crossref","unstructured":"Artacho, B., Savakis, A.: UniPose: unified human pose estimation in single images and videos. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 7035\u20137044 (2020)","DOI":"10.1109\/CVPR42600.2020.00706"},{"key":"14_CR2","doi-asserted-by":"crossref","unstructured":"Azar, S.M., Atigh, M.G., Nickabadi, A., Alahi, A.: Convolutional relational machine for group activity recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 7892\u20137901 (2019)","DOI":"10.1109\/CVPR.2019.00808"},{"key":"14_CR3","doi-asserted-by":"crossref","unstructured":"Bagautdinov, T., Alahi, A., Fleuret, F., Fua, P., Savarese, S.: Social scene understanding: End-to-end multi-person action localization and collective activity recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4315\u20134324 (2017)","DOI":"10.1109\/CVPR.2017.365"},{"key":"14_CR4","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"213","DOI":"10.1007\/978-3-030-58452-8_13","volume-title":"Computer Vision \u2013 ECCV 2020","author":"N Carion","year":"2020","unstructured":"Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., Zagoruyko, S.: End-to-end object detection with transformers. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12346, pp. 213\u2013229. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58452-8_13"},{"key":"14_CR5","doi-asserted-by":"crossref","unstructured":"Carreira, J., Zisserman, A.: Quo vadis, action recognition? A new model and the kinetics dataset. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2017)","DOI":"10.1109\/CVPR.2017.502"},{"key":"14_CR6","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"417","DOI":"10.1007\/978-3-319-10593-2_28","volume-title":"Computer Vision \u2013 ECCV 2014","author":"W Choi","year":"2014","unstructured":"Choi, W., Chao, Y.-W., Pantofaru, C., Savarese, S.: Discovering groups of people in images. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds.) ECCV 2014. LNCS, vol. 8692, pp. 417\u2013433. Springer, Cham (2014). https:\/\/doi.org\/10.1007\/978-3-319-10593-2_28"},{"key":"14_CR7","doi-asserted-by":"crossref","unstructured":"Choi, W., Shahid, K., Savarese, S.: What are they doing?: collective activity classification using spatio-temporal relationship among people. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV) Workshops, pp. 1282\u20131289. IEEE (2009)","DOI":"10.1109\/ICCVW.2009.5457461"},{"issue":"4","key":"14_CR8","doi-asserted-by":"publisher","first-page":"845","DOI":"10.1007\/s11263-020-01393-0","volume":"129","author":"P Dendorfer","year":"2021","unstructured":"Dendorfer, P., et al.: MotChallenge: a benchmark for single-camera multiple target tracking. Int. J. Comput. Vision (IJCV) 129(4), 845\u2013881 (2021)","journal-title":"Int. J. Comput. Vision (IJCV)"},{"key":"14_CR9","doi-asserted-by":"publisher","unstructured":"Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: ImageNet: a large-scale hierarchical image database. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 248\u2013255 (2009). https:\/\/doi.org\/10.1109\/CVPR.2009.5206848","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"14_CR10","doi-asserted-by":"crossref","unstructured":"Deng, Z., Vahdat, A., Hu, H., Mori, G.: Structure inference machines: recurrent neural networks for analyzing relations in group activity recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4772\u20134781 (2016)","DOI":"10.1109\/CVPR.2016.516"},{"key":"14_CR11","unstructured":"Dosovitskiy, A., et al.: An image is worth 16$$\\times $$16 words: transformers for image recognition at scale. In: Proceedings of the International Conference on Learning Representations (ICLR) (2021). https:\/\/openreview.net\/forum?id=YicbFdNTTy"},{"key":"14_CR12","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"177","DOI":"10.1007\/978-3-030-58545-7_11","volume-title":"Computer Vision \u2013 ECCV 2020","author":"M Ehsanpour","year":"2020","unstructured":"Ehsanpour, M., Abedin, A., Saleh, F., Shi, J., Reid, I., Rezatofighi, H.: Joint learning of social groups, individuals action and sub-group activities in videos. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12354, pp. 177\u2013195. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58545-7_11"},{"key":"14_CR13","doi-asserted-by":"crossref","unstructured":"Ehsanpour, M., Saleh, F., Savarese, S., Reid, I., Rezatofighi, H.: JRDB-act: a large-scale dataset for spatio-temporal action, social group and activity detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 20983\u201320992 (2022)","DOI":"10.1109\/CVPR52688.2022.02031"},{"key":"14_CR14","doi-asserted-by":"crossref","unstructured":"Ess, A., Leibe, B., Schindler, K., Van\u00a0Gool, L.: A mobile vision system for robust multi-person tracking. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp.\u00a01\u20138. IEEE (2008)","DOI":"10.1109\/CVPR.2008.4587581"},{"key":"14_CR15","doi-asserted-by":"publisher","first-page":"98","DOI":"10.1007\/s11263-014-0733-5","volume":"111","author":"M Everingham","year":"2015","unstructured":"Everingham, M., Eslami, S.A., Van Gool, L., Williams, C.K., Winn, J., Zisserman, A.: The pascal visual object classes challenge: a retrospective. Int. J. Comput. Vision (IJCV) 111, 98\u2013136 (2015)","journal-title":"Int. J. Comput. Vision (IJCV)"},{"key":"14_CR16","doi-asserted-by":"crossref","unstructured":"Gavrilyuk, K., Sanford, R., Javan, M., Snoek, C.G.: Actor-transformers for group activity recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 839\u2013848 (2020)","DOI":"10.1109\/CVPR42600.2020.00092"},{"key":"14_CR17","unstructured":"Ge, Z., Liu, S., Wang, F., Li, Z., Sun, J.: YOLOx: exceeding yolo series in 2021. arXiv preprint arXiv:2107.08430 (2021)"},{"key":"14_CR18","doi-asserted-by":"crossref","unstructured":"Han, M., et al.: Dual-AI: dual-path actor interaction learning for group activity recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 2990\u20132999 (2022)","DOI":"10.1109\/CVPR52688.2022.00300"},{"key":"14_CR19","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"244","DOI":"10.1007\/978-3-031-19772-7_15","volume-title":"Computer Vision \u2013 ECCV 2022","author":"R Han","year":"2022","unstructured":"Han, R., Yan, H., Li, J., Wang, S., Feng, W., Wang, S.: Panoramic human activity recognition. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13664, pp. 244\u2013261. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19772-7_15"},{"key":"14_CR20","doi-asserted-by":"crossref","unstructured":"He, K., Gkioxari, G., Doll\u00e1r, P., Girshick, R.: Mask R-CNN. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV), pp. 2961\u20132969 (2017)","DOI":"10.1109\/ICCV.2017.322"},{"key":"14_CR21","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"14_CR22","doi-asserted-by":"crossref","unstructured":"Hu, G., Cui, B., He, Y., Yu, S.: Progressive relation learning for group activity recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 980\u2013989 (2020)","DOI":"10.1109\/CVPR42600.2020.00106"},{"key":"14_CR23","doi-asserted-by":"crossref","unstructured":"Ibrahim, M.S., Mori, G.: Hierarchical relational networks for group activity recognition and retrieval. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 721\u2013736 (2018)","DOI":"10.1007\/978-3-030-01219-9_44"},{"key":"14_CR24","doi-asserted-by":"crossref","unstructured":"Ibrahim, M.S., Muralidharan, S., Deng, Z., Vahdat, A., Mori, G.: A hierarchical deep temporal model for group activity recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1971\u20131980 (2016)","DOI":"10.1109\/CVPR.2016.217"},{"key":"14_CR25","doi-asserted-by":"crossref","unstructured":"Kim, D., Lee, J., Cho, M., Kwak, S.: Detector-free weakly supervised group activity recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 20083\u201320093 (2022)","DOI":"10.1109\/CVPR52688.2022.01945"},{"key":"14_CR26","unstructured":"Kingma, D.P., Ba, J.: Adam: a method for stochastic optimization. In: Proceedings of the International Conference on Learning Representations (ICLR) (2015)"},{"key":"14_CR27","unstructured":"Kipf, T.N., Welling, M.: Semi-supervised classification with graph convolutional networks. In: Proceedings of the International Conference on Learning Representations (ICLR) (2017)"},{"issue":"1\u20132","key":"14_CR28","doi-asserted-by":"publisher","first-page":"83","DOI":"10.1002\/nav.3800020109","volume":"2","author":"HW Kuhn","year":"1955","unstructured":"Kuhn, H.W.: The Hungarian method for the assignment problem. Naval Res. Logist. Q. 2(1\u20132), 83\u201397 (1955)","journal-title":"Naval Res. Logist. Q."},{"key":"14_CR29","doi-asserted-by":"crossref","unstructured":"Li, F., Zhang, H., Liu, S., Guo, J., Ni, L.M., Zhang, L.: DN-DETR: accelerate DETR training by introducing query denoising. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 13619\u201313627 (2022)","DOI":"10.1109\/CVPR52688.2022.01325"},{"key":"14_CR30","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"142","DOI":"10.1007\/978-3-031-19833-5_9","volume-title":"Computer Vision \u2013 ECCV 2022","author":"J Li","year":"2022","unstructured":"Li, J., Han, R., Yan, H., Qian, Z., Feng, W., Wang, S.: Self-supervised social relation representation for human group detection. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13695, pp. 142\u2013159. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19833-5_9"},{"key":"14_CR31","doi-asserted-by":"crossref","unstructured":"Li, S., et al.: GroupFormer: group activity recognition with clustered spatial-temporal transformer. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV), pp. 13668\u201313677 (2021)","DOI":"10.1109\/ICCV48922.2021.01341"},{"key":"14_CR32","doi-asserted-by":"crossref","unstructured":"Li, W., Yang, T., Wu, X., Du, X.J., Qiao, J.J.: Learning action-guided spatio-temporal transformer for group activity recognition. In: Proceedings of the ACM Multimedia Conference (ACMMM), pp. 2051\u20132060 (2022)","DOI":"10.1145\/3503161.3547825"},{"key":"14_CR33","doi-asserted-by":"crossref","unstructured":"Li, X., Choo\u00a0Chuah, M.: SBGAR: semantics based group activity recognition. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV), pp. 2876\u20132885 (2017)","DOI":"10.1109\/ICCV.2017.313"},{"key":"14_CR34","unstructured":"Martin-Martin, R., et al.: JRDB: a dataset and benchmark of egocentric robot visual perception of humans in built environments. IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI) (2021)"},{"key":"14_CR35","unstructured":"Ng, A., Jordan, M., Weiss, Y.: On spectral clustering: analysis and an algorithm. In: Proceedings of the Neural Information Processing Systems (NeurIPS), vol. 14 (2001)"},{"key":"14_CR36","unstructured":"Oord, A.V.D., Li, Y., Vinyals, O.: Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748 (2018)"},{"key":"14_CR37","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"71","DOI":"10.1007\/978-3-030-58452-8_5","volume-title":"Computer Vision \u2013 ECCV 2020","author":"RRA Pramono","year":"2020","unstructured":"Pramono, R.R.A., Chen, Y.T., Fang, W.H.: Empowering relational network by self-attention augmented conditional random fields for group activity recognition. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12346, pp. 71\u201390. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58452-8_5"},{"key":"14_CR38","doi-asserted-by":"crossref","unstructured":"Qi, M., Qin, J., Li, A., Wang, Y., Luo, J., Van\u00a0Gool, L.: stagNet: an attentive semantic RNN for group activity recognition. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 101\u2013117 (2018)","DOI":"10.1007\/978-3-030-01249-6_7"},{"key":"14_CR39","doi-asserted-by":"crossref","unstructured":"Qing, L., et\u00a0al.: Public life in public space (PLPS): a multi-task, multi-group video dataset for public life research. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV) Workshops, pp. 3618\u20133627 (2021)","DOI":"10.1109\/ICCVW54120.2021.00404"},{"key":"14_CR40","unstructured":"Shao, S., et al.: CrowdHuman: a benchmark for detecting human in a crowd. arXiv preprint arXiv:1805.00123 (2018)"},{"key":"14_CR41","doi-asserted-by":"crossref","unstructured":"Shu, T., Todorovic, S., Zhu, S.C.: CERN: confidence-energy recurrent network for group activity recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5523\u20135531 (2017)","DOI":"10.1109\/CVPR.2017.453"},{"key":"14_CR42","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., Wojna, Z.: Rethinking the inception architecture for computer vision. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2818\u20132826 (2016)","DOI":"10.1109\/CVPR.2016.308"},{"key":"14_CR43","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"19","DOI":"10.1007\/978-3-031-19772-7_2","volume-title":"Computer Vision \u2013 ECCV 2022","author":"M Tamura","year":"2022","unstructured":"Tamura, M., Vishwakarma, R., Vennelakanti, R.: Hunting group clues with transformers for social group activity recognition. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13664, pp. 19\u201335. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19772-7_2"},{"key":"14_CR44","unstructured":"Vaswani, A., et al.: Attention is all you need. In: Proceedings of the Neural Information Processing Systems (NeurIPS), pp. 5998\u20136008 (2017)"},{"key":"14_CR45","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"20","DOI":"10.1007\/978-3-319-46484-8_2","volume-title":"Computer Vision \u2013 ECCV 2016","author":"L Wang","year":"2016","unstructured":"Wang, L., Xiong, Y., Wang, Z., Qiao, Yu., Lin, D., Tang, X., Van Gool, L.: Temporal segment networks: towards good practices for deep action recognition. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9912, pp. 20\u201336. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46484-8_2"},{"key":"14_CR46","doi-asserted-by":"crossref","unstructured":"Wang, M., Ni, B., Yang, X.: Recurrent modeling of interaction context for collective activity recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3048\u20133056 (2017)","DOI":"10.1109\/CVPR.2017.783"},{"key":"14_CR47","doi-asserted-by":"crossref","unstructured":"Wu, J., Wang, L., Wang, L., Guo, J., Wu, G.: Learning actor relation graphs for group activity recognition. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9964\u20139974 (2019)","DOI":"10.1109\/CVPR.2019.01020"},{"key":"14_CR48","doi-asserted-by":"crossref","unstructured":"Xie, Z., Gao, T., Wu, K., Chang, J.: An actor-centric causality graph for asynchronous temporal inference in group activity. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 6652\u20136661 (2023)","DOI":"10.1109\/CVPR52729.2023.00643"},{"key":"14_CR49","doi-asserted-by":"crossref","unstructured":"Yan, R., Tang, J., Shu, X., Li, Z., Tian, Q.: Participation-contributed temporal dynamic model for group activity recognition. In: Proceedings of the ACM Multimedia Conference (ACMMM), pp. 1292\u20131300 (2018)","DOI":"10.1145\/3240508.3240572"},{"key":"14_CR50","unstructured":"Yan, R., Xie, L., Tang, J., Shu, X., Tian, Q.: HiGCIN: hierarchical graph-based cross inference network for group activity recognition. IEEE Trans. Pattern Anal. Mach. Intell. (TPAMI) (2020)"},{"key":"14_CR51","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"208","DOI":"10.1007\/978-3-030-58598-3_13","volume-title":"Computer Vision \u2013 ECCV 2020","author":"R Yan","year":"2020","unstructured":"Yan, R., Xie, L., Tang, J., Shu, X., Tian, Q.: Social adaptive module for\u00a0weakly-supervised group activity recognition. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12353, pp. 208\u2013224. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58598-3_13"},{"key":"14_CR52","doi-asserted-by":"crossref","unstructured":"Yuan, H., Ni, D.: Learning visual context for group activity recognition. In: Proceedings of the AAAI Conference on Artificial Intelligence (AAAI), vol.\u00a035, pp. 3261\u20133269 (2021)","DOI":"10.1609\/aaai.v35i4.16437"},{"key":"14_CR53","doi-asserted-by":"crossref","unstructured":"Yuan, H., Ni, D., Wang, M.: Spatio-temporal dynamic inference network for group activity recognition. In: Proceedings of the IEEE International Conference on Computer Vision (ICCV), pp. 7476\u20137485 (2021)","DOI":"10.1109\/ICCV48922.2021.00738"},{"key":"14_CR54","unstructured":"Zelnik-Manor, L., Perona, P.: Self-tuning spectral clustering. In: Proceedings of theI Neural Information Processing Systems (NeurIPS), vol. 17 (2004)"},{"key":"14_CR55","doi-asserted-by":"crossref","unstructured":"Zhang, S., Benenson, R., Schiele, B.: CityperSons: a diverse dataset for pedestrian detection. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 3213\u20133221 (2017)","DOI":"10.1109\/CVPR.2017.474"},{"key":"14_CR56","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/978-3-031-20047-2_1","volume-title":"Computer Vision \u2013 ECCV 2022","author":"Y Zhang","year":"2022","unstructured":"Zhang, Y., et al.: ByteTrack: multi-object tracking by associating every detection box. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13682, pp. 1\u201321. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-20047-2_1"},{"key":"14_CR57","doi-asserted-by":"crossref","unstructured":"Zhang, Y., Liu, W., Xu, D., Zhou, Z., Wang, Z.: Bi-causal: group activity recognition via bidirectional causality. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 1450\u20131459 (2024)","DOI":"10.1109\/CVPR52733.2024.00144"},{"key":"14_CR58","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"249","DOI":"10.1007\/978-3-031-19833-5_15","volume-title":"Computer Vision \u2013 ECCV 2022","author":"H Zhou","year":"2022","unstructured":"Zhou, H., et al.: COMPOSER: compositional learning of group activity in videos. In: Avidan, S., Brostow, G., Ciss\u00e9, M., Farinella, G.M., Hassner, T. (eds.) ECCV 2022. LNCS, vol. 13695, pp. 249\u2013266. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19833-5_15"},{"key":"14_CR59","unstructured":"Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.: Deformable DETR: deformable transformers for end-to-end object detection. In: Proceedings of the International Conference on Learning Representations (ICLR) (2021)"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-72970-6_14","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,11,22]],"date-time":"2024-11-22T11:16:12Z","timestamp":1732274172000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-72970-6_14"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,11,23]]},"ISBN":["9783031729690","9783031729706"],"references-count":59,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-72970-6_14","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,11,23]]},"assertion":[{"value":"23 November 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Milan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Italy","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 September 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2024.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}