{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,4]],"date-time":"2025-12-04T06:22:28Z","timestamp":1764829348081,"version":"3.45.0"},"reference-count":191,"publisher":"Springer Science and Business Media LLC","issue":"11","license":[{"start":{"date-parts":[[2025,8,7]],"date-time":"2025-08-07T00:00:00Z","timestamp":1754524800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2025,8,7]],"date-time":"2025-08-07T00:00:00Z","timestamp":1754524800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"funder":[{"DOI":"10.13039\/501100001791","name":"Griffith University","doi-asserted-by":"crossref","id":[{"id":"10.13039\/501100001791","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2025,11]]},"abstract":"<jats:title>Abstract<\/jats:title>\n                  <jats:p>\n                    Understanding human actions in videos requires more than raw pixel analysis; it relies on high-level semantic reasoning and effective integration of multimodal features. We propose a deep translational action recognition framework that enhances recognition accuracy by jointly predicting action concepts and auxiliary features from RGB video frames. At test time, hallucination streams infer missing cues, enriching feature representations without increasing computational overhead. To focus on action-relevant regions beyond raw pixels, we introduce two novel domain-specific descriptors.\n                    <jats:italic>Object Detection Features<\/jats:italic>\n                    (ODF) aggregate outputs from multiple object detectors to capture contextual cues, while\n                    <jats:italic>Saliency Detection Features<\/jats:italic>\n                    (SDF) highlight spatial and intensity patterns crucial for action recognition. Our framework seamlessly integrates these descriptors with auxiliary modalities such as optical flow, Improved Dense Trajectories, skeleton data, and audio cues. It remains compatible with state-of-the-art architectures, including I3D, AssembleNet, Video Transformer Network, FASTER, and recent models like VideoMAE V2 and InternVideo2. To handle uncertainty in auxiliary features, we incorporate aleatoric uncertainty modeling in the hallucination step and introduce a robust loss function to mitigate feature noise. Our multimodal self-supervised action recognition framework achieves state-of-the-art performance on multiple benchmarks, including Kinetics-400, Kinetics-600, and Something-Something V2, demonstrating its effectiveness in capturing fine-grained action dynamics.\n                  <\/jats:p>","DOI":"10.1007\/s11263-025-02513-4","type":"journal-article","created":{"date-parts":[[2025,8,7]],"date-time":"2025-08-07T16:01:13Z","timestamp":1754582473000},"page":"7612-7646","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Feature Hallucination for Self-supervised Action Recognition"],"prefix":"10.1007","volume":"133","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-8600-7099","authenticated-orcid":false,"given":"Lei","family":"Wang","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6340-5289","authenticated-orcid":false,"given":"Piotr","family":"Koniusz","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,8,7]]},"reference":[{"key":"2513_CR1","doi-asserted-by":"publisher","unstructured":"Abdullah, L.N., & Noah, S.A.M. (2008). Integrating audio visual data for human action detection. In: 2008 Fifth International Conference on Computer Graphics, Imaging and Visualisation, pp. 242\u2013246. https:\/\/doi.org\/10.1109\/CGIV.2008.65","DOI":"10.1109\/CGIV.2008.65"},{"issue":"2","key":"2513_CR2","doi-asserted-by":"publisher","first-page":"128","DOI":"10.1109\/TAI.2021.3076974","volume":"2","author":"T Ahmad","year":"2021","unstructured":"Ahmad, T., Jin, L., Zhang, X., Lai, S., Tang, G., & Lin, L. (2021). Graph convolutional neural network for human action recognition: A comprehensive survey. IEEE Transactions on Artificial Intelligence, 2(2), 128\u2013145. https:\/\/doi.org\/10.1109\/TAI.2021.3076974","journal-title":"IEEE Transactions on Artificial Intelligence"},{"key":"2513_CR3","doi-asserted-by":"publisher","unstructured":"Akbari, A., & Jafari, R. (2019). A deep learning assisted method for measuring uncertainty in activity recognition with wearable sensors. In: 2019 IEEE EMBS International Conference on Biomedical Health Informatics (BHI), pp. 1\u20135. https:\/\/doi.org\/10.1109\/BHI.2019.8834505","DOI":"10.1109\/BHI.2019.8834505"},{"key":"2513_CR4","unstructured":"Alwassel, H., Mahajan, D., Korbar, B., Torresani, L., Ghanem, B., & Tran, D. (2020). Self-supervised learning by cross-modal audio-video clustering. In: Advances in Neural Information Processing Systems (NeurIPS)"},{"key":"2513_CR5","doi-asserted-by":"crossref","unstructured":"Arnab, A., Dehghani, M., Heigold, G., Sun, C., Lu\u010di\u0107, M., & Schmid, C. (2021). Vivit: A video vision transformer. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 6836\u20136846","DOI":"10.1109\/ICCV48922.2021.00676"},{"key":"2513_CR6","unstructured":"Aytar, Y., Vondrick, C., & Torralba, A. (2016). Soundnet: Learning sound representations from unlabeled video. In: Proceedings of the 30th International Conference on Neural Information Processing Systems, NIPS\u201916, p. 892-900. Curran Associates Inc., Red Hook, NY, USA"},{"key":"2513_CR7","first-page":"1","volume-title":"ECCV","author":"F Baradel","year":"2018","unstructured":"Baradel, F., Neverova, N., Wolf, C., Mille, J., & Mori, G. (2018). Object level visual reasoning in videos. ECCV (pp. 1\u201316). Munich, Germany: Springer Science+Business Media."},{"issue":"12","key":"2513_CR8","doi-asserted-by":"publisher","first-page":"5706","DOI":"10.1109\/TIP.2015.2487833","volume":"24","author":"A Borji","year":"2015","unstructured":"Borji, A., Cheng, M. M., Jiang, H., & Li, J. (2015). Salient object detection: A benchmark. TIP, 24(12), 5706\u20135722. https:\/\/doi.org\/10.1109\/TIP.2015.2487833","journal-title":"Salient object detection: A benchmark. TIP"},{"key":"2513_CR9","first-page":"185","volume-title":"ICCV","author":"J Braux-Zin","year":"2013","unstructured":"Braux-Zin, J., Dupont, R., & Bartoli, A. (2013). A general dense image matching framework combining direct and feature-based costs. ICCV (pp. 185\u2013192). Sydney, NSW, Australia: IEEE."},{"issue":"3","key":"2513_CR10","doi-asserted-by":"publisher","first-page":"500","DOI":"10.1109\/TPAMI.2010.143","volume":"33","author":"T Brox","year":"2011","unstructured":"Brox, T., & Malik, J. (2011). Large displacement optical flow: Descriptor matching in variational motion estimation. TPAMI, 33(3), 500\u2013513. https:\/\/doi.org\/10.1109\/TPAMI.2010.143","journal-title":"TPAMI"},{"key":"2513_CR11","unstructured":"Bulat, A., Perez-Rua, J.M., Sudhakaran, S., Martinez, B., & Tzimiropoulos, G. (2021). Space-time mixing attention for video transformer. In: A.\u00a0Beygelzimer, Y.\u00a0Dauphin, P.\u00a0Liang, J.W. Vaughan (eds.) Advances in Neural Information Processing Systems. https:\/\/openreview.net\/forum?id=QgX15Mdi1E_"},{"key":"2513_CR12","unstructured":"Burda, Y., Grosse, R.B., & Salakhutdinov, R. (2016). Importance weighted autoencoders. In: Y.\u00a0Bengio, Y.\u00a0LeCun (eds.) 4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2-4, 2016, Conference Track Proceedings. http:\/\/arxiv.org\/abs\/1509.00519"},{"key":"2513_CR13","doi-asserted-by":"crossref","unstructured":"Cao, Z., Simon, T., Wei, S.E., & Sheikh, Y. (2017) Realtime multi-person 2d pose estimation using part affinity fields. In: The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)","DOI":"10.1109\/CVPR.2017.143"},{"key":"2513_CR14","unstructured":"Carreira, J., Noland, E., Banki-Horvath, A., Hillier, C., Zisserman, & A. (2018). A short note about kinetics-600. arXiv preprint arXiv:1808.01340"},{"key":"2513_CR15","first-page":"1","volume-title":"CVPR","author":"J Carreira","year":"2018","unstructured":"Carreira, J., & Zisserman, A. (2018). Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. CVPR (pp. 1\u201310). Honolulu, HI, USA: IEEE."},{"issue":"3","key":"2513_CR16","first-page":"396","volume":"116","author":"B Chakraborty","year":"2012","unstructured":"Chakraborty, B., Holte, M. B., Moeslund, T. B., & Gonz\u00e0lez, J. (2012). Selective spatio-temporal interest points. CVIU, 116(3), 396\u2013410.","journal-title":"Selective spatio-temporal interest points. CVIU"},{"key":"2513_CR17","doi-asserted-by":"crossref","unstructured":"Chen, C., Fu, Z., Chen, Z., Jin, S., Cheng, Z., Jin, X., & Hua, X.S. (2020) Homm: Higher-order moment matching for unsupervised domain adaptation. In: Proceedings of the AAAI conference on artificial intelligence, pp. 3422\u20133429","DOI":"10.1609\/aaai.v34i04.5745"},{"key":"2513_CR18","unstructured":"Chen, Q., Wang, L., Koniusz, P., & Gedeon, T. (2024) Motion meets attention: Video motion prompts. In: The 16th Asian Conference on Machine Learning (Conference Track)"},{"issue":"2","key":"2513_CR19","doi-asserted-by":"crossref","first-page":"1113","DOI":"10.1609\/aaai.v35i2.16197","volume":"35","author":"Z Chen","year":"2021","unstructured":"Chen, Z., Li, S., Yang, B., Li, Q., & Liu, H. (2021). Multi-scale spatial temporal graph convolutional network for skeleton-based action recognition. Proceedings of the AAAI Conference on Artificial Intelligence, 35(2), 1113\u20131122.","journal-title":"Proceedings of the AAAI Conference on Artificial Intelligence"},{"key":"2513_CR20","doi-asserted-by":"crossref","unstructured":"Cheng, K., Zhang, Y., He, X., Chen, W., Cheng, J., & Lu, H. (2020) Skeleton-based action recognition with shift graph convolutional network. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","DOI":"10.1109\/CVPR42600.2020.00026"},{"key":"2513_CR21","doi-asserted-by":"publisher","unstructured":"Cheng, K., Zhang, Y., He, X., Chen, W., Cheng, J., & Lu, H. (2020) Skeleton-based action recognition with shift graph convolutional network. In: 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 180\u2013189. https:\/\/doi.org\/10.1109\/CVPR42600.2020.00026","DOI":"10.1109\/CVPR42600.2020.00026"},{"key":"2513_CR22","first-page":"3222","volume-title":"CVPR","author":"A Cherian","year":"2017","unstructured":"Cherian, A., Fernando, B., Harandi, M., & Gould, S. (2017). Generalized rank pooling for action recognition. CVPR (pp. 3222\u20133231). Honolulu, HI, USA: IEEE."},{"key":"2513_CR23","doi-asserted-by":"publisher","unstructured":"Cherian, A., Koniusz, P., & Gould, S. (2017) Higher-order pooling of CNN features via kernel linearization for action recognition. In: WACV, pp. 130\u2013138. IEEE, Santa Rosa, CA, USA. https:\/\/doi.org\/10.1109\/WACV.2017.22","DOI":"10.1109\/WACV.2017.22"},{"key":"2513_CR24","doi-asserted-by":"publisher","unstructured":"Cherian, A., Sra, S., Gould, S., & Hartley, R. (2018) Non-linear temporal subspace representations for activity recognition. In: CVPR, pp. 2197\u20132206. IEEE, Salt Lake City, UT, USA. https:\/\/doi.org\/10.1109\/CVPR.2018.00234","DOI":"10.1109\/CVPR.2018.00234"},{"key":"2513_CR25","doi-asserted-by":"crossref","unstructured":"Choi, J., Chun, D., Kim, H., & Lee, H.J. (2019) Gaussian yolov3: An accurate and fast object detector using localization uncertainty for autonomous driving. In: The IEEE International Conference on Computer Vision (ICCV)","DOI":"10.1109\/ICCV.2019.00059"},{"key":"2513_CR26","doi-asserted-by":"crossref","unstructured":"Chollet, F. (2017) Xception: Deep learning with depthwise separable convolutions. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)","DOI":"10.1109\/CVPR.2017.195"},{"key":"2513_CR27","first-page":"7024","volume-title":"CVPR","author":"V Choutas","year":"2018","unstructured":"Choutas, V., Weinzaepfel, P., Revaud, J., & Schmid, C. (2018). PoTion: Pose motion representation for action recognition. CVPR (pp. 7024\u20137033). Salt Lake City, UT, USA: IEEE."},{"issue":"2","key":"2513_CR28","doi-asserted-by":"publisher","first-page":"1530","DOI":"10.14778\/1454159.1454225","volume":"1","author":"G Cormode","year":"2008","unstructured":"Cormode, G., & Hadjieleftheriou, M. (2008). Finding frequent items in data streams. Proc. VLDB Endow., 1(2), 1530\u20131541. https:\/\/doi.org\/10.14778\/1454159.1454225","journal-title":"Proc. VLDB Endow."},{"key":"2513_CR29","first-page":"1","volume-title":"ECCV Workshop","author":"G Csurka","year":"2004","unstructured":"Csurka, G., Dance, C. R., Fan, L., Willamowski, J., & Bray, C. (2004). Visual categorization with bags of keypoints. ECCV Workshop (pp. 1\u201322). Springer Science+Business Media: Prague, Czech Republic."},{"key":"2513_CR30","first-page":"428","volume-title":"ECCV","author":"N Dalal","year":"2006","unstructured":"Dalal, N., Triggs, B., & Schmid, C. (2006). Human Detection Using Oriented Histogram of Flow and Appearance. ECCV (pp. 428\u2013441). Graz, Austria: Springer Science+Business Media."},{"key":"2513_CR31","first-page":"1","volume-title":"ECCV","author":"D Damen","year":"2018","unstructured":"Damen, D., Doughty, H., Farinella, G. M., Fidler, S., Furnari, A., Kazakos, E., Moltisanti, D., Munro, J., Perrett, T., Price, W., & Wray, M. (2018). Scaling egocentric vision: The epic-kitchens dataset. ECCV (pp. 1\u201317). Munich, Germany: Springer Science+Business Media."},{"key":"2513_CR32","doi-asserted-by":"crossref","unstructured":"Das, S., Dai, R., Koperski, M., Minciullo, L., Garattoni, L., Bremond, F., & Francesca, G. (2019) Toyota smarthome: Real-world activities of daily living. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV)","DOI":"10.1109\/ICCV.2019.00092"},{"key":"2513_CR33","doi-asserted-by":"crossref","unstructured":"Das, S., Sharma, S., Dai, R., Bremond, F., & Thonnat, M. (2020) Vpn: Learning video-pose embedding for activities of daily living","DOI":"10.1007\/978-3-030-58545-7_5"},{"key":"2513_CR34","doi-asserted-by":"publisher","unstructured":"Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., & Fei-Fei, L. (2009) Imagenet: A large-scale hierarchical image database. In: 2009 IEEE Conference on Computer Vision and Pattern Recognition, pp. 248\u2013255 . https:\/\/doi.org\/10.1109\/CVPR.2009.5206848","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"2513_CR35","unstructured":"Ding, D., Wang, L., Zhu, L., Gedeon, T., & Koniusz, P. (2025) Learnable expansion of graph operators for multi-modal feature fusion. In: The Thirteenth International Conference on Learning Representations . https:\/\/openreview.net\/forum?id=SMZqIOSdlN"},{"key":"2513_CR36","doi-asserted-by":"publisher","DOI":"10.1145\/3701716.3717744","author":"X Ding","year":"2025","unstructured":"Ding, X., & Wang, L. (2025). Do language models understand time? WWW \u201925 Companion. Association for Computing Machinery, New York, NY, USA. https:\/\/doi.org\/10.1145\/3701716.3717744","journal-title":"Association for Computing Machinery, New York, NY, USA"},{"key":"2513_CR37","doi-asserted-by":"publisher","unstructured":"Ding, X., & Wang, L. (2025) The journey of action recognition. In: Companion Proceedings of the ACM Web Conference 2025, WWW \u201925 Companion. Association for Computing Machinery, New York, NY, USA. https:\/\/doi.org\/10.1145\/3701716.3717746.","DOI":"10.1145\/3701716.3717746"},{"key":"2513_CR38","doi-asserted-by":"crossref","unstructured":"Doll\u00e1r, P., Rabaud, V., Cottrell, G., & Belongie, S. (2005) Behavior recognition via sparse spatio-temporal features. In: ICCCN, pp. 65\u201372. IEEE, Honolulu, HI, USA. http:\/\/dl.acm.org\/citation.cfm?id=1259587.1259830","DOI":"10.1109\/VSPETS.2005.1570899"},{"key":"2513_CR39","first-page":"2625","volume-title":"CVPR","author":"J Donahue","year":"2015","unstructured":"Donahue, J., Hendricks, L. A., Guadarrama, S., Rohrbach, M., Venugopalan, S., Darrell, T., & Saenko, K. (2015). Long-term recurrent convolutional networks for visual recognition and description. CVPR (pp. 2625\u20132634). Boston, MA, USA: IEEE."},{"key":"2513_CR40","doi-asserted-by":"publisher","unstructured":"Dorta, G., Vicente, S., Agapito, L., Campbell, N.D.F., & Simpson, I. (2018) Structured uncertainty prediction networks. In: 2018 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 5477\u20135485. https:\/\/doi.org\/10.1109\/CVPR.2018.00574","DOI":"10.1109\/CVPR.2018.00574"},{"key":"2513_CR41","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., & Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In: International Conference on Learning Representations. https:\/\/openreview.net\/forum?id=YicbFdNTTy"},{"key":"2513_CR42","first-page":"8030","volume-title":"ICCV","author":"P Fang","year":"2019","unstructured":"Fang, P., Zhou, J., Kumar Roy, S., Petersson, L., & Harandi, M. (2019). Bilinear attention networks for person retrieval. ICCV (pp. 8030\u20138039). Seoul, Korea: IEEE."},{"key":"2513_CR43","first-page":"6202","volume-title":"ICCV","author":"C Feichtenhofer","year":"2019","unstructured":"Feichtenhofer, C., Fan, H., Malik, J., & He, K. (2019). Slowfast networks for video recognition. ICCV (pp. 6202\u20136211). Seoul, Korea: IEEE."},{"key":"2513_CR44","first-page":"3468","volume-title":"NIPS","author":"C Feichtenhofer","year":"2016","unstructured":"Feichtenhofer, C., Pinz, A., & Wildes, R. P. (2016). Spatiotemporal residual networks for video action recognition. NIPS (pp. 3468\u20133476). Barcelona, Spain: MIT Press."},{"key":"2513_CR45","first-page":"4728","volume-title":"CVPR","author":"C Feichtenhofer","year":"2017","unstructured":"Feichtenhofer, C., Pinz, A., & Wildes, R. P. (2017). Temporal residual networks for dynamic scene recognition. CVPR (pp. 4728\u20134737). Honolulu, HI, USA: IEEE."},{"key":"2513_CR46","doi-asserted-by":"crossref","unstructured":"Fernando, B., Gavves, E., M., J.O., Ghodrati, A., & Tuytelaars, T. (2015). Modeling video evolution for action recognition. CVPR (pp. 5378\u20135387). Boston, MA, USA: IEEE.","DOI":"10.1109\/CVPR.2015.7299176"},{"key":"2513_CR47","first-page":"1187","volume-title":"ICML","author":"B Fernando","year":"2016","unstructured":"Fernando, B., & Gould, S. (2016). Learning end-to-end video classification with rank-pooling. ICML (Vol. 48, pp. 1187\u20131196). New York City, NY, USA: ACM."},{"key":"2513_CR48","unstructured":"Freeman, W.T., & Roth, M. (1994) Orientation histograms for hand gesture recognition. Tech. Rep. TR94-03, MERL - Mitsubishi Electric Research Laboratories, Cambridge, MA 02139. http:\/\/www.merl.com\/publications\/TR94-03\/"},{"key":"2513_CR49","doi-asserted-by":"crossref","unstructured":"Gao, R., Oh, T.H., Grauman, K., & Torresani, L. (2020) Listen to look: Action recognition by previewing audio. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","DOI":"10.1109\/CVPR42600.2020.01047"},{"issue":"7","key":"2513_CR50","doi-asserted-by":"publisher","first-page":"1271","DOI":"10.1109\/TPAMI.2009.132","volume":"32","author":"JC van Gemert","year":"2010","unstructured":"van Gemert, J. C., Veenman, C. J., Smeulders, A. W. M., & Geusebroek, J. M. (2010). Visual word ambiguity. TPAMI, 32(7), 1271\u20131283. https:\/\/doi.org\/10.1109\/TPAMI.2009.132","journal-title":"Visual word ambiguity. TPAMI"},{"key":"2513_CR51","first-page":"12046","volume-title":"CVPR","author":"D Ghadiyaram","year":"2019","unstructured":"Ghadiyaram, D., Tran, D., & Mahajan, D. (2019). Large-scale weakly-supervised pre-training for video action recognition. CVPR (pp. 12046\u201312055). Long Beach, California, USA: IEEE."},{"key":"2513_CR52","doi-asserted-by":"crossref","unstructured":"Girdhar, R., El-Nouby, A., Singh, M., Alwala, K.V., Joulin, A., & Misra, I. (2023) Omnimae: Single model masked pretraining on images and videos. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 10406\u201310417","DOI":"10.1109\/CVPR52729.2023.01003"},{"key":"2513_CR53","first-page":"1440","volume-title":"ICCV","author":"R Girshick","year":"2015","unstructured":"Girshick, R. (2015). Fast r-cnn. ICCV (pp. 1440\u20131448). Santiago, Chile: IEEE."},{"issue":"1","key":"2513_CR54","doi-asserted-by":"crossref","first-page":"142","DOI":"10.1109\/TPAMI.2015.2437384","volume":"38","author":"R Girshick","year":"2016","unstructured":"Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2016). Region-based convolutional networks for accurate object detection and segmentation. TPAMI, 38(1), 142\u2013158.","journal-title":"TPAMI"},{"key":"2513_CR55","doi-asserted-by":"crossref","unstructured":"Goyal, R., Ebrahimi\u00a0Kahou, S., Michalski, V., Materzynska, J., Westphal, S., Kim, H., Haenel, V., Fruend, I., Yianilos, P., Mueller-Freitag, M., et\u00a0al. (2017) The\" something something\" video database for learning and evaluating visual common sense. In: Proceedings of the IEEE international conference on computer vision, pp. 5842\u20135850","DOI":"10.1109\/ICCV.2017.622"},{"key":"2513_CR56","first-page":"6047","volume-title":"CVPR","author":"C Gu","year":"2018","unstructured":"Gu, C., Sun, C., Ross, D. A., Vondrick, C., Pantofaru, C., Li, Y., Vijayanarasimhan, S., Toderici, G., Ricco, S., Sukthankar, R., Schmid, C., & Malik, J. (2018). Ava: A video dataset of spatio-temporally localized atomic visual actions. CVPR (pp. 6047\u20136056). Salt Lake City, UT, USA: IEEE."},{"key":"2513_CR57","doi-asserted-by":"crossref","unstructured":"Hadji, I., & Wildes, R.P. (2018) A new large scale dynamic texture dataset with application to ConvNet understanding. In: ECCV. Springer Science+Business Media, Munich, Germany","DOI":"10.1007\/978-3-030-01264-9_20"},{"key":"2513_CR58","first-page":"2980","volume-title":"ICCV","author":"K He","year":"2017","unstructured":"He, K., Gkioxari, G., Doll\u00e1r, P., & Girshick, R. B. (2017). Mask r-cnn. ICCV (pp. 2980\u20132988). Venice, Italy: IEEE."},{"key":"2513_CR59","first-page":"1","volume-title":"CVPR","author":"K He","year":"2016","unstructured":"He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. CVPR (pp. 1\u201312). Las Vegas, NV, USA: IEEE."},{"key":"2513_CR60","doi-asserted-by":"publisher","unstructured":"He, K., Zhang, X., Ren, S., & Sun, J. (2016) Deep residual learning for image recognition. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pp. 770\u2013778. https:\/\/doi.org\/10.1109\/CVPR.2016.90","DOI":"10.1109\/CVPR.2016.90"},{"key":"2513_CR61","doi-asserted-by":"crossref","unstructured":"He, Y., Zhu, C., Wang, J., Savvides, M., & Zhang, X. (2019) Bounding box regression with uncertainty for accurate object detection. In: The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)","DOI":"10.1109\/CVPR.2019.00300"},{"key":"2513_CR62","doi-asserted-by":"crossref","first-page":"185","DOI":"10.1016\/0004-3702(81)90024-2","volume":"17","author":"BKP Horn","year":"1981","unstructured":"Horn, B. K. P., & Schunck, B. G. (1981). Determining optical flow. Artificial Intelligence, 17, 185\u2013203.","journal-title":"Artificial Intelligence"},{"key":"2513_CR63","doi-asserted-by":"crossref","unstructured":"Hou, Q., Cheng, M.M., Hu, X., Borji, A., Tu, Z., & Torr, P.H.S. (2017) Deeply supervised salient object detection with short connections. In: Proc. IEEE Conf. Comp. Vis. Patt. Recogn., pp. 3203\u20133212. IEEE, Honolulu, HI, USA","DOI":"10.1109\/CVPR.2017.563"},{"key":"2513_CR64","doi-asserted-by":"publisher","unstructured":"Howard, A., Sandler, M., Chen, B., Wang, W., Chen, L., Tan, M., Chu, G., Vasudevan, V., Zhu, Y., Pang, R., Adam, H., & Le, Q. (2019) Searching for mobilenetv3. In: 2019 IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 1314\u20131324. IEEE Computer Society, Los Alamitos, CA, USA . https:\/\/doi.org\/10.1109\/ICCV.2019.00140.","DOI":"10.1109\/ICCV.2019.00140"},{"issue":"07","key":"2513_CR65","doi-asserted-by":"publisher","first-page":"11045","DOI":"10.1609\/aaai.v34i07.6759","volume":"34","author":"L Huang","year":"2020","unstructured":"Huang, L., Huang, Y., Ouyang, W., & Wang, L. (2020). Part-level graph convolutional network for skeleton-based action recognition. Proceedings of the AAAI Conference on Artificial Intelligence, 34(07), 11045\u201311052. https:\/\/doi.org\/10.1609\/aaai.v34i07.6759","journal-title":"Proceedings of the AAAI Conference on Artificial Intelligence"},{"issue":"3","key":"2513_CR66","doi-asserted-by":"publisher","first-page":"457","DOI":"10.1007\/s10994-021-05946-3","volume":"110","author":"E H\u00fcllermeier","year":"2021","unstructured":"H\u00fcllermeier, E., & Waegeman, W. (2021). Aleatoric and epistemic uncertainty in machine learning: an introduction to concepts and methods. Mach. Learn., 110(3), 457\u2013506. https:\/\/doi.org\/10.1007\/s10994-021-05946-3","journal-title":"Mach. Learn."},{"key":"2513_CR67","unstructured":"Huo, Z., Pakbin, A., Chen, X., Hurley, N.C., Yuan, Y., Qian, X., Wang, Z., Huang, S., & Mortazavi, B. (2020) Uncertainty quantification for deep context-aware mobile activity recognition and unknown context discovery. In: AISTATS, pp. 3894\u20133904 . http:\/\/proceedings.mlr.press\/v108\/huo20a.html"},{"key":"2513_CR68","unstructured":"Iandola, F.N., Moskewicz, M.W., Ashraf, K., Han, S., Dally, W.J., & Keutzer, K. (2016). Squeezenet: Alexnet-level accuracy with 50x fewer parameters and $$<$$1mb model size. CoRR arXiv:abs\/1602.07360 ."},{"key":"2513_CR69","unstructured":"Indrayan, A. (2008). Medical biostatistics, 2nd ed. edn. Chapman & Hall\/CRC,, Boca Raton :. http:\/\/www.loc.gov\/catdir\/toc\/ecip0723\/2007030353.html"},{"key":"2513_CR70","first-page":"819","volume":"5","author":"T Jebara","year":"2004","unstructured":"Jebara, T., Kondor, R., & Howard, A. (2004). Probability product kernels. JMLR, 5, 819\u2013844.","journal-title":"Probability product kernels. JMLR"},{"key":"2513_CR71","doi-asserted-by":"crossref","unstructured":"J\u00e9gou, H., Douze, M., & Schmid, C. (2009). On the Burstiness of Visual Elements. In: CVPR, pp. 1169\u20131176. IEEE, Long Beach,alifornia, USA","DOI":"10.1109\/CVPRW.2009.5206609"},{"key":"2513_CR72","doi-asserted-by":"crossref","first-page":"221","DOI":"10.1109\/TPAMI.2012.59","volume":"35","author":"S Ji","year":"2010","unstructured":"Ji, S., Xu, W., Yang, M., & Yu, K. (2010). 3D convolutional neural networks for human action recognition. TPAMI, 35, 221\u2013231.","journal-title":"TPAMI"},{"key":"2513_CR73","doi-asserted-by":"publisher","unstructured":"Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., & Fei-Fei, L. (2014) Large-scale video classification with convolutional neural networks. In: CVPR, pp. 1725\u20131732. IEEE, Columbus, OH, USA . https:\/\/doi.org\/10.1109\/CVPR.2014.223.","DOI":"10.1109\/CVPR.2014.223"},{"key":"2513_CR74","unstructured":"Kay, W., Carreira, J., Simonyan, K., Zhang, B., Hillier, C., Vijayanarasimhan, S., Viola, F., Green, T., Back, T., Natsev, P., et\u00a0al. (2017) The kinetics human action video dataset. arXiv preprint arXiv:1705.06950"},{"key":"2513_CR75","unstructured":"Kendall, A., & Gal, Y. (2017) What uncertainties do we need in bayesian deep learning for computer vision? In: I.\u00a0Guyon, U.V. Luxburg, S.\u00a0Bengio, H.\u00a0Wallach, R.\u00a0Fergus, S.\u00a0Vishwanathan, R.\u00a0Garnett (eds.) Advances in Neural Information Processing Systems, vol.\u00a030. Curran Associates, Inc. . https:\/\/proceedings.neurips.cc\/paper\/2017\/file\/2650d6089a6d640c5e85b2b88265dc2b-Paper.pdf"},{"key":"2513_CR76","unstructured":"Kendall, A., Gal, Y., & Cipolla, R. (2018) Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR)"},{"key":"2513_CR77","unstructured":"Kingma, D.P., & Welling, M. (2014) Auto-encoding variational bayes. In: Y.\u00a0Bengio, Y.\u00a0LeCun (eds.) 2nd International Conference on Learning Representations, ICLR 2014, Banff, AB, Canada, April 14-16, 2014, Conference Track Proceedings. http:\/\/arxiv.org\/abs\/1312.6114"},{"key":"2513_CR78","unstructured":"Kipf, T.N., & Welling, M. (2017) Semi-supervised classification with graph convolutional networks. In: International Conference on Learning Representations (ICLR)"},{"key":"2513_CR79","doi-asserted-by":"publisher","unstructured":"Kiureghian, A.D., & Ditlevsen, O. (2009) Aleatory or epistemic? does it matter? Structural Safety 31(2), 105\u2013112. https:\/\/doi.org\/10.1016\/j.strusafe.2008.06.020. https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0167473008000556. Risk Acceptance and Risk Communication","DOI":"10.1016\/j.strusafe.2008.06.020"},{"key":"2513_CR80","first-page":"1","volume-title":"BMCV","author":"A Kl\u00e4ser","year":"2008","unstructured":"Kl\u00e4ser, A., Marszalek, M., & Schmid, C. (2008). A Spatio-Temporal Descriptor Based on 3D-Gradients. BMCV (pp. 1\u201310). Leeds, UK: BMVA."},{"key":"2513_CR81","doi-asserted-by":"crossref","unstructured":"Kondratyuk, D., Yuan, L., Li, Y., Zhang, L., Tan, M., Brown, M., & Gong, B. (2021) Movinets: Mobile video networks for efficient video recognition. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 16020\u201316030","DOI":"10.1109\/CVPR46437.2021.01576"},{"key":"2513_CR82","first-page":"1","volume-title":"ECCV","author":"P Koniusz","year":"2016","unstructured":"Koniusz, P., Cherian, A., & Porikli, F. (2016). Tensor representations via kernel linearization for action recognition from 3D skeletons. ECCV (pp. 1\u201314). Amsterdam, The Netherlands: Springer Science+Business Media."},{"key":"2513_CR83","first-page":"2461","volume-title":"ICIP","author":"P Koniusz","year":"2011","unstructured":"Koniusz, P., & Mikolajczyk, K. (2011). Soft Assignment of Visual Words as Linear Coordinate Coding and Optimisation of its Reconstruction Error. ICIP (pp. 2461\u20132464). Brussels, Belgium: IEEE."},{"key":"2513_CR84","unstructured":"Koniusz, P., Wang, L., & Cherian, A. (2020) Tensor representations for action recognition. In: IEEE Transactions on Pattern Analysis and Machine Intelligence. IEEE"},{"issue":"1","key":"2513_CR85","first-page":"1","volume":"1","author":"P Koniusz","year":"2013","unstructured":"Koniusz, P., Yan, F., Gosselin, P. H., & Mikolajczyk, K. (2013). Higher-order Occurrence Pooling on Mid- and Low-level Features: Visual Concept Detection. Technical Report, 1(1), 1\u201320.","journal-title":"Technical Report"},{"issue":"2","key":"2513_CR86","doi-asserted-by":"crossref","first-page":"313","DOI":"10.1109\/TPAMI.2016.2545667","volume":"39","author":"P Koniusz","year":"2017","unstructured":"Koniusz, P., Yan, F., Gosselin, P. H., & Mikolajczyk, K. (2017). Higher-order occurrence pooling for bags-of-words: Visual concept detection. TPAMI, 39(2), 313\u2013326.","journal-title":"TPAMI"},{"key":"2513_CR87","doi-asserted-by":"publisher","first-page":"479","DOI":"10.1016\/j.cviu.2012.10.010","volume":"117","author":"P Koniusz","year":"2012","unstructured":"Koniusz, P., Yan, F., & Mikolajczyk, K. (2012). Comparison of Mid-Level Feature Coding Approaches And Pooling Strategies in Visual Concept Detection. CVIU, 117, 479\u2013492. https:\/\/doi.org\/10.1016\/j.cviu.2012.10.010","journal-title":"CVIU"},{"key":"2513_CR88","unstructured":"Koniusz, P., & Zhang, H. (2020) Power normalizations in fine-grained image, few-shot image and graph classification. In: IEEE Transactions on Pattern Analysis and Machine Intelligence. IEEE"},{"key":"2513_CR89","first-page":"5774","volume-title":"CVPR","author":"P Koniusz","year":"2018","unstructured":"Koniusz, P., Zhang, H., & Porikli, F. (2018). A deeper look at power normalizations. CVPR (pp. 5774\u20135783). Salt Lake City, UT, USA: IEEE."},{"key":"2513_CR90","doi-asserted-by":"crossref","first-page":"761","DOI":"10.1007\/978-3-030-58565-5_45","volume-title":"Computer Vision - ECCV 2020","author":"M Korban","year":"2020","unstructured":"Korban, M., & Li, X. (2020). Ddgcn: A dynamic directed graph convolutional network for action recognition. In A. Vedaldi, H. Bischof, T. Brox, & J. M. Frahm (Eds.), Computer Vision - ECCV 2020 (pp. 761\u2013776). Cham: Springer International Publishing."},{"key":"2513_CR91","doi-asserted-by":"publisher","unstructured":"Kozlov, A., Andronov, V., & Gritsenko, Y. (2020). Lightweight Network Architecture for Real-Time Action Recognition, p. 2074-2080. Association for Computing Machinery, New York, NY, USA. https:\/\/doi.org\/10.1145\/3341105.3373906","DOI":"10.1145\/3341105.3373906"},{"key":"2513_CR92","first-page":"2556","volume-title":"ICCV","author":"H Kuehne","year":"2011","unstructured":"Kuehne, H., Jhuang, H., Garrote, E., Poggio, T., & Serre, T. (2011). HMDB: A large video database for human motion recognition. ICCV (pp. 2556\u20132563). Barcelona, Spain: IEEE."},{"key":"2513_CR93","doi-asserted-by":"publisher","unstructured":"Kumar, D., Kumar, C., Seah, C., Xia, S., & Shao, M. (2020) Finding achilles\u2019 heel: Adversarial attack on multi-modal action recognition. In: C.W. Chen, R.\u00a0Cucchiara, X.\u00a0Hua, G.\u00a0Qi, E.\u00a0Ricci, Z.\u00a0Zhang, R.\u00a0Zimmermann (eds.) MM, pp. 3829\u20133837. ACM, Seattle, United States. https:\/\/doi.org\/10.1145\/3394171.3413531.","DOI":"10.1145\/3394171.3413531"},{"issue":"2\u20133","key":"2513_CR94","doi-asserted-by":"publisher","first-page":"107","DOI":"10.1007\/s11263-005-1838-7","volume":"64","author":"I Laptev","year":"2005","unstructured":"Laptev, I. (2005). On space-time interest points. IJCV, 64(2\u20133), 107\u2013123. https:\/\/doi.org\/10.1007\/s11263-005-1838-7","journal-title":"On space-time interest points. IJCV"},{"key":"2513_CR95","first-page":"295","volume":"30","author":"C Li","year":"2014","unstructured":"Li, C., Su, B., Wang, J., & Zhang, Q. (2014). Human action recognition using multi-velocity STIPs and motion energy orientation histogram. J. Inf. Sci. Eng., 30, 295\u2013312.","journal-title":"J. Inf. Sci. Eng."},{"key":"2513_CR96","first-page":"2039","volume-title":"MM","author":"J Li","year":"2020","unstructured":"Li, J., Wei, P., Zhang, Y., & Zheng, N. (2020). A slow-i-fast-p architecture for compressed video action recognition. MM (pp. 2039\u20132047). Seattle, United States: ACM."},{"key":"2513_CR97","doi-asserted-by":"crossref","unstructured":"Li, M., Chen, S., Chen, X., Zhang, Y., Wang, Y., & Tian, Q. (2019). Actional-structural graph convolutional networks for skeleton-based action recognition. In: The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)","DOI":"10.1109\/CVPR.2019.00371"},{"key":"2513_CR98","doi-asserted-by":"crossref","first-page":"740","DOI":"10.1007\/978-3-319-10602-1_48","volume-title":"Computer Vision - ECCV 2014","author":"TY Lin","year":"2014","unstructured":"Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Doll\u00e1r, P., & Zitnick, C. L. (2014). Microsoft coco: Common objects in context. In D. Fleet, T. Pajdla, B. Schiele, & T. Tuytelaars (Eds.), Computer Vision - ECCV 2014 (pp. 740\u2013755). Cham: Springer International Publishing."},{"key":"2513_CR99","first-page":"2486","volume-title":"ICCV","author":"L Lingqiao","year":"2011","unstructured":"Lingqiao, L., Wang, L., & Liu, X. (2011). In Defence of Soft-assignment Coding. ICCV (pp. 2486\u20132493). Barcelona, Spain: IEEE."},{"key":"2513_CR100","doi-asserted-by":"publisher","unstructured":"Liu, Z., Gao, G., Qin, A.K., Wu, T., & Liu, C.H. (2019) Action recognition with bootstrapping based long-range temporal context attention. In: L.\u00a0Amsaleg, B.\u00a0Huet, M.A. Larson, G.\u00a0Gravier, H.\u00a0Hung, C.\u00a0Ngo, W.T. Ooi (eds.) MM, pp. 583\u2013591. ACM, Nice, France. https:\/\/doi.org\/10.1145\/3343031.3350916.","DOI":"10.1145\/3343031.3350916"},{"key":"2513_CR101","doi-asserted-by":"crossref","unstructured":"Liu, Z., Ning, J., Cao, Y., Wei, Y., Zhang, Z., Lin, S., & Hu, H. (2021) Video swin transformer. arXiv preprint arXiv:2106.13230","DOI":"10.1109\/CVPR52688.2022.00320"},{"key":"2513_CR102","unstructured":"Lu, C., & Koniusz, P. (2021) Few-shot keypoint detection with uncertainty learning for unseen species. CoRR abs\/2112.06183 . https:\/\/arxiv.org\/abs\/2112.06183"},{"key":"2513_CR103","doi-asserted-by":"crossref","unstructured":"Ma, N., Zhang, X., Zheng, H.T., & Sun, J.(2018) Shufflenet v2: Practical guidelines for efficient cnn architecture design. In: Proceedings of the European Conference on Computer Vision (ECCV)","DOI":"10.1007\/978-3-030-01264-9_8"},{"key":"2513_CR104","first-page":"1","volume-title":"NIPS","author":"J Mairal","year":"2014","unstructured":"Mairal, J., Koniusz, P., Harchaoui, Z., & Schmid, C. (2014). Convolutional kernel networks. NIPS (pp. 1\u20139). Montreal, Quebec, Canada: MIT Press."},{"key":"2513_CR105","doi-asserted-by":"crossref","first-page":"105","DOI":"10.1007\/978-1-4020-5656-7_4","volume-title":"Extreme Man-Made and Natural Hazards in Dynamics of Structures","author":"HG Matthies","year":"2007","unstructured":"Matthies, H. G. (2007). Quantifying uncertainty: Modern computational representation of probability and applications. In A. Ibrahimbegovic & I. Kozar (Eds.), Extreme Man-Made and Natural Hazards in Dynamics of Structures (pp. 105\u2013135). Netherlands, Dordrecht: Springer."},{"issue":"29","key":"2513_CR106","doi-asserted-by":"crossref","first-page":"861","DOI":"10.21105\/joss.00861","volume":"3","author":"L McInnes","year":"2018","unstructured":"McInnes, L., Healy, J., Saul, N., & Grossberger, L. (2018). Umap: Uniform manifold approximation and projection. The Journal of Open Source Software, 3(29), 861.","journal-title":"The Journal of Open Source Software"},{"key":"2513_CR107","doi-asserted-by":"publisher","unstructured":"Neimark, D., Bar, O., Zohar, M., & Asselmann, D. (2021) Video transformer network. In: 2021 IEEE\/CVF International Conference on Computer Vision Workshops (ICCVW), pp. 3156\u20133165 . https:\/\/doi.org\/10.1109\/ICCVW54120.2021.00355","DOI":"10.1109\/ICCVW54120.2021.00355"},{"key":"2513_CR108","doi-asserted-by":"crossref","unstructured":"Owens, A., & Efros, A.A. (2018) Audio-visual scene analysis with self-supervised multisensory features. arXiv preprint arXiv:1804.03641","DOI":"10.1007\/978-3-030-01231-1_39"},{"key":"2513_CR109","doi-asserted-by":"crossref","unstructured":"Paoletti, G., Cavazza, J., Beyan, C., & Del\u00a0Bue, A. (2021) Unsupervised Human Action Recognition with Skeletal Graph Laplacian and Self-Supervised Viewpoints Invariance. In: The 32nd British Machine Vision Conference (BMVC)","DOI":"10.5244\/C.35.246"},{"key":"2513_CR110","doi-asserted-by":"crossref","first-page":"141","DOI":"10.1007\/s11263-005-3960-y","volume":"67","author":"N Papenberg","year":"2006","unstructured":"Papenberg, N., Bruhn, A., Brox, T., Didas, S., & Weickert, J. (2006). Highly accurate optic flow computation with theoretically justified warping. IJCV, 67, 141\u2013158.","journal-title":"IJCV"},{"key":"2513_CR111","first-page":"12493","volume":"34","author":"M Patrick","year":"2021","unstructured":"Patrick, M., Campbell, D., Asano, Y., Misra, I., Metze, F., Feichtenhofer, C., Vedaldi, A., & Henriques, J. F. (2021). Keeping your eye on the ball: Trajectory attention in video transformers. Advances in neural information processing systems, 34, 12493\u201312506.","journal-title":"Advances in neural information processing systems"},{"key":"2513_CR112","first-page":"1","volume-title":"CVPR","author":"F Perronnin","year":"2007","unstructured":"Perronnin, F., & Dance, C. (2007). Fisher kernels on visual vocabularies for image categorization. CVPR (pp. 1\u20138). Minneapolis, Minnesota, USA: IEEE."},{"key":"2513_CR113","first-page":"143","volume-title":"ECCV","author":"F Perronnin","year":"2010","unstructured":"Perronnin, F., S\u00e1nchez, J., & Mensink, T. (2010). Improving the Fisher Kernel for Large-Scale Image Classification. ECCV (pp. 143\u2013156). Heraklion, Crete: Springer Science+Business Media."},{"key":"2513_CR114","doi-asserted-by":"publisher","unstructured":"Pham, N., & Pagh, R. (2013) Fast and scalable polynomial kernels via explicit feature maps. In: ACM SIGKDD, pp. 239\u2013247. ACM, Chicago, USA. https:\/\/doi.org\/10.1145\/2487575.2487591.","DOI":"10.1145\/2487575.2487591"},{"key":"2513_CR115","first-page":"1793","volume-title":"ICCV","author":"A Piergiovanni","year":"2019","unstructured":"Piergiovanni, A., Angelova, A., Toshev, A., & Ryoo, M. S. (2019). Evolving space-time neural architectures for videos. ICCV (pp. 1793\u20131802). Seoul, Korea: IEEE."},{"key":"2513_CR116","doi-asserted-by":"crossref","unstructured":"Piergiovanni, A., Kuo, W., & Angelova, A. (2023) Rethinking video vits: Sparse video tubes for joint image and video learning. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 2214\u20132224","DOI":"10.1109\/CVPR52729.2023.00220"},{"key":"2513_CR117","doi-asserted-by":"crossref","unstructured":"Piergiovanni, A., & Ryoo, M.S. (2021) Recognizing actions in videos from unseen viewpoints. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 4124\u20134132","DOI":"10.1109\/CVPR46437.2021.00411"},{"issue":"4","key":"2513_CR118","doi-asserted-by":"publisher","first-page":"4783","DOI":"10.1109\/TNNLS.2022.3201518","volume":"35","author":"Z Qin","year":"2024","unstructured":"Qin, Z., Liu, Y., Ji, P., Kim, D., Wang, L., McKay, R. I., Anwar, S., & Gedeon, T. (2024). Fusing higher-order features in graph neural networks for skeleton-based action recognition. IEEE Transactions on Neural Networks and Learning Systems, 35(4), 4783\u20134797. https:\/\/doi.org\/10.1109\/TNNLS.2022.3201518","journal-title":"IEEE Transactions on Neural Networks and Learning Systems"},{"key":"2513_CR119","first-page":"779","volume-title":"CVPR","author":"J Redmon","year":"2015","unstructured":"Redmon, J., Divvala, S., Girshick, R., & Farhadi, A. (2015). You only look once: Unified, real-time object detection. CVPR (pp. 779\u2013788). Boston, MA, USA: IEEE."},{"key":"2513_CR120","first-page":"91","volume-title":"NIPS","author":"S Ren","year":"2015","unstructured":"Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards real-time object detection with region proposal networks. NIPS (pp. 91\u201399). Montreal, Canada: MIT Press."},{"key":"2513_CR121","first-page":"1164","volume-title":"CVPR","author":"J Revaud","year":"2015","unstructured":"Revaud, J., Weinzaepfel, P., Harchaoui, Z., & Schmid, C. (2015). EpicFlow: Edge-Preserving Interpolation of Correspondences for Optical Flow. CVPR (pp. 1164\u20131172). Boston, MA, USA: IEEE."},{"key":"2513_CR122","first-page":"1194","volume-title":"CVPR","author":"M Rohrbach","year":"2012","unstructured":"Rohrbach, M., Amin, S., Andriluka, M., & Schiele, B. (2012). A database for fine grained activity detection of cooking activities. CVPR (pp. 1194\u20131201). Providence, Rhode Island: IEEE."},{"issue":"3","key":"2513_CR123","doi-asserted-by":"publisher","first-page":"211","DOI":"10.1007\/s11263-015-0816-y","volume":"115","author":"O Russakovsky","year":"2015","unstructured":"Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., Berg, A. C., & Fei-Fei, L. (2015). ImageNet large scale visual recognition challenge. IJCV, 115(3), 211\u2013252. https:\/\/doi.org\/10.1007\/s11263-015-0816-y","journal-title":"IJCV"},{"key":"2513_CR124","first-page":"1","volume-title":"ECCV","author":"MS Ryoo","year":"2020","unstructured":"Ryoo, M. S., Piergiovanni, A., Kangaspunta, J., & Angelova, A. (2020). Assemblenet++: Assembling modality representations via attention connections. ECCV (pp. 1\u201319). Glasgow, UK: Springer Science+Business Media."},{"key":"2513_CR125","first-page":"1","volume-title":"ICLR","author":"MS Ryoo","year":"2020","unstructured":"Ryoo, M. S., Piergiovanni, A., Tan, M., & Angelova, A. (2020). Assemblenet: Searching for multi-stream neural connectivity in video architectures. ICLR (pp. 1\u201315). Addis Ababa, Ethiopia: ICLR."},{"key":"2513_CR126","doi-asserted-by":"crossref","unstructured":"Sandler, M., Howard, A., Zhu, M., Zhmoginov, A., & Chen, L.C. (2018) Mobilenetv2: Inverted residuals and linear bottlenecks. In: The IEEE Conference on Computer Vision and Pattern Recognition (CVPR)","DOI":"10.1109\/CVPR.2018.00474"},{"key":"2513_CR127","doi-asserted-by":"crossref","unstructured":"Scovanner, P., Ali, S., & v Shah, M. (2007). A 3-Dimentional SIFT Descriptor and its Application to Action Recognition. MM (pp. 357\u2013356). Augsburg, Germany: ACM.","DOI":"10.1145\/1291233.1291311"},{"key":"2513_CR128","doi-asserted-by":"publisher","unstructured":"Seo, Y.M., & Choi, Y.S. (2021) Graph Convolutional Networks for Skeleton-Based Action Recognition with LSTM Using Tool-Information, p. 986-993. Association for Computing Machinery, New York, NY, USA . https:\/\/doi.org\/10.1145\/3412841.3441974","DOI":"10.1145\/3412841.3441974"},{"key":"2513_CR129","doi-asserted-by":"publisher","unstructured":"Shi, L., Zhang, Y., Cheng, J., & Lu, H. (2019) Two-stream adaptive graph convolutional networks for skeleton-based action recognition. In: 2019 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 12018\u201312027. https:\/\/doi.org\/10.1109\/CVPR.2019.01230","DOI":"10.1109\/CVPR.2019.01230"},{"key":"2513_CR130","doi-asserted-by":"crossref","unstructured":"Shi, L., Zhang, Y., Cheng, J., & Lu, H. (2019) Two-stream adaptive graph convolutional networks for skeleton-based action recognition. In: CVPR","DOI":"10.1109\/CVPR.2019.01230"},{"key":"2513_CR131","doi-asserted-by":"crossref","unstructured":"Shotton, J., Fitzgibbon, A., Cook, M., Sharp, T., Finocchio, M., Moore, R., Kipman, A., & Blake, A. (2011) Real-Time Human Pose Recognition in Parts from Single Depth Images. In: CVPR, pp. 1297\u20131304","DOI":"10.1109\/CVPR.2011.5995316"},{"key":"2513_CR132","first-page":"1","volume-title":"ECCV","author":"GA Sigurdsson","year":"2016","unstructured":"Sigurdsson, G. A., Varol, G., Wang, X., Farhadi, A., Laptev, I., & Gupta, A. (2016). Hollywood in homes: Crowdsourcing data collection for activity understanding. ECCV (pp. 1\u201317). Amsterdam, The Netherlands: Springer Science+Business Media."},{"key":"2513_CR133","first-page":"568","volume-title":"NIPS","author":"K Simonyan","year":"2014","unstructured":"Simonyan, K., & Zisserman, A. (2014). Two-stream convolutional networks for action recognition in videos. NIPS (pp. 568\u2013576). Montreal, Quebec, Canada: MIT Press."},{"key":"2513_CR134","first-page":"1470","volume":"2","author":"J Sivic","year":"2003","unstructured":"Sivic, J., & Zisserman, A. (2003). Video Google: A text retrieval approach to object matching in videos. ICCV, 2, 1470\u20131477.","journal-title":"ICCV"},{"key":"2513_CR135","doi-asserted-by":"publisher","unstructured":"Srivastava, S., & Sharma, G. (2024) Omnivec2 - a novel transformer based network for large scale multimodal and multitask learning. In: 2024 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 27402\u201327414. IEEE Computer Society, Los Alamitos, CA, USA. https:\/\/doi.org\/10.1109\/CVPR52733.2024.02588.","DOI":"10.1109\/CVPR52733.2024.02588"},{"key":"2513_CR136","doi-asserted-by":"publisher","unstructured":"Stork, J.A., Spinello, L., Silva, J., & Arras, K.O. (2012) Audio-based human activity recognition using non-markovian ensemble voting. In: 2012 IEEE RO-MAN: The 21st IEEE International Symposium on Robot and Human Interactive Communication, pp. 509\u2013514. https:\/\/doi.org\/10.1109\/ROMAN.2012.6343802","DOI":"10.1109\/ROMAN.2012.6343802"},{"key":"2513_CR137","doi-asserted-by":"crossref","unstructured":"Subedar, M., Krishnan, R., Meyer, P.L., Tickoo, O., & Huang, J. (2019) Uncertainty-aware audiovisual activity recognition using deep bayesian variational inference. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV)","DOI":"10.1109\/ICCV.2019.00640"},{"key":"2513_CR138","doi-asserted-by":"crossref","unstructured":"Szegedy, C., Ioffe, S., Vanhoucke, V., & Alemi, A.A. (2017) Inception-v4, inception-resnet and the impact of residual connections on learning. In: AAAI, pp. 4278\u20134284. AAAI Press, San Francisco,CA,USA. http:\/\/dl.acm.org\/citation.cfm?id=3298023.3298188","DOI":"10.1609\/aaai.v31i1.11231"},{"key":"2513_CR139","first-page":"2818","volume-title":"CVPR","author":"C Szegedy","year":"2016","unstructured":"Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., & Wojna, Z. (2016). Rethinking the inception architecture for computer vision. CVPR (pp. 2818\u20132826). Las Vegas, NV, USA: IEEE."},{"key":"2513_CR140","unstructured":"Tan, M., & Le, Q. (2019) EfficientNet: Rethinking model scaling for convolutional neural networks. In: K.\u00a0Chaudhuri, R.\u00a0Salakhutdinov (eds.) Proceedings of the 36th International Conference on Machine Learning, Proceedings of Machine Learning Research, vol.\u00a097, pp. 6105\u20136114. PMLR . https:\/\/proceedings.mlr.press\/v97\/tan19a.html"},{"key":"2513_CR141","first-page":"926","volume-title":"IJCAI","author":"Y Tang","year":"2019","unstructured":"Tang, Y., Ma, L., & Zhou, L. (2019). Hallucinating optical flow features for video classification. IJCAI (pp. 926\u2013932). Macao, China: IJCAI."},{"key":"2513_CR142","first-page":"10","volume":"146","author":"S Tomar","year":"2006","unstructured":"Tomar, S. (2006). (2006) Converting video formats with ffmpeg. Linux Journal, 146, 10.","journal-title":"Linux Journal"},{"key":"2513_CR143","first-page":"10078","volume":"35","author":"Z Tong","year":"2022","unstructured":"Tong, Z., Song, Y., Wang, J., & Wang, L. (2022). Videomae: Masked autoencoders are data-efficient learners for self-supervised video pre-training. Advances in neural information processing systems, 35, 10078\u201310093.","journal-title":"Advances in neural information processing systems"},{"key":"2513_CR144","first-page":"4489","volume-title":"ICCV","author":"D Tran","year":"2015","unstructured":"Tran, D., Bourdev, L., Fergus, R., Torresani, L., & Paluri, M. (2015). Learning Spatiotemporal Features with 3D Convolutional Networks. ICCV (pp. 4489\u20134497). Santiago, Chile: IEEE."},{"key":"2513_CR145","doi-asserted-by":"crossref","unstructured":"Tran, D., Wang, H., Torresani, L., Ray, J., LeCun, Y., & Paluri, M. (2018) A closer look at spatiotemporal convolutions for action recognition. In: Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, pp. 6450\u20136459","DOI":"10.1109\/CVPR.2018.00675"},{"key":"2513_CR146","first-page":"145","volume-title":"ICMR","author":"JR Uijlings","year":"2014","unstructured":"Uijlings, J. R., Duta, I. C., Rostamzadeh, N., & Sebe, N. (2014). Realtime Video Classification using Dense HOF\/HOG. ICMR (pp. 145\u2013152). New York, NY, USA: ACM."},{"issue":"6","key":"2513_CR147","doi-asserted-by":"crossref","first-page":"1510","DOI":"10.1109\/TPAMI.2017.2712608","volume":"40","author":"G Varol","year":"2018","unstructured":"Varol, G., Laptev, I., & Schmid, C. (2018). Long-term temporal convolutions for action recognition. TPAMI, 40(6), 1510\u20131517.","journal-title":"TPAMI"},{"key":"2513_CR148","first-page":"3169","volume-title":"CVPR","author":"H Wang","year":"2011","unstructured":"Wang, H., Kl\u00e4ser, A., Schmid, C., & Cheng-Lin, L. (2011). Action Recognition by Dense Trajectories. CVPR (pp. 3169\u20133176). Colorado Springs, CO, USA: IEEE."},{"key":"2513_CR149","doi-asserted-by":"crossref","first-page":"60","DOI":"10.1007\/s11263-012-0594-8","volume":"103","author":"H Wang","year":"2013","unstructured":"Wang, H., Kl\u00e4ser, A., Schmid, C., & Liu, C. L. (2013). Dense Trajectories and Motion Boundary Descriptors for Action Recognition. IJCV, 103, 60\u201379.","journal-title":"IJCV"},{"key":"2513_CR150","first-page":"3551","volume-title":"ICCV","author":"H Wang","year":"2013","unstructured":"Wang, H., & Schmid, C. (2013). Action Recognition with Improved Trajectories. ICCV (pp. 3551\u20133558). Sydney, Australia: IEEE."},{"key":"2513_CR151","doi-asserted-by":"publisher","unstructured":"Wang, J., & Cherian, A. (2018) Learning discriminative video representations using adversarial perturbations. In: ECCV, pp. 716\u2013733. Springer Science+Business Media, Munich, Germany. https:\/\/doi.org\/10.1007\/978-3-030-01225-0_42.","DOI":"10.1007\/978-3-030-01225-0_42"},{"key":"2513_CR152","unstructured":"Wang, L. (2017) Analysis and evaluation of Kinect-based action recognition algorithms. Master\u2019s thesis, School of the Computer Science and Software Engineering, The University of Western Australia"},{"key":"2513_CR153","unstructured":"Wang, L. (2023) Robust human action modelling. Ph.D. thesis, The Australian National University (Australia)"},{"key":"2513_CR154","doi-asserted-by":"crossref","unstructured":"Wang, L., Huang, B., Zhao, Z., Tong, Z., He, Y., Wang, Y., Wang, Y., & Qiao, Y. (2023) Videomae v2: Scaling video masked autoencoders with dual masking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 14549\u201314560","DOI":"10.1109\/CVPR52729.2023.01398"},{"issue":"1","key":"2513_CR155","doi-asserted-by":"publisher","first-page":"15","DOI":"10.1109\/TIP.2019.2925285","volume":"29","author":"L Wang","year":"2019","unstructured":"Wang, L., Huynh, D. Q., & Koniusz, P. (2019). A comparative review of recent kinect-based action recognition algorithms. TIP, 29(1), 15\u201328. https:\/\/doi.org\/10.1109\/TIP.2019.2925285","journal-title":"TIP"},{"key":"2513_CR156","doi-asserted-by":"publisher","unstructured":"Wang, L., Huynh, D.Q., & Mansour, M.R. (2019) Loss switching fusion with similarity search for video classification. In: IEEE ICIP, pp. 974\u2013978. https:\/\/doi.org\/10.1109\/ICIP.2019.8803051","DOI":"10.1109\/ICIP.2019.8803051"},{"key":"2513_CR157","doi-asserted-by":"publisher","unstructured":"Wang, L., Koniusz, P. (2021) Self-Supervising Action Recognition by Statistical Moment and Subspace Descriptors, p. 4324-4333. Association for Computing Machinery, New York, NY, USA. https:\/\/doi.org\/10.1145\/3474085.3475572","DOI":"10.1145\/3474085.3475572"},{"key":"2513_CR158","doi-asserted-by":"crossref","unstructured":"Wang, L., & Koniusz, P. (2022) Temporal-viewpoint transportation plan for skeletal few-shot action recognition. In: Proceedings of the Asian Conference on Computer Vision, pp. 4176\u20134193","DOI":"10.1007\/978-3-031-26316-3_19"},{"key":"2513_CR159","doi-asserted-by":"crossref","unstructured":"Wang, L., Koniusz, P. (2022) Uncertainty-dtw for time series and sequences. In: European Conference on Computer Vision, pp. 176\u2013195. Springer","DOI":"10.1007\/978-3-031-19803-8_11"},{"key":"2513_CR160","doi-asserted-by":"crossref","unstructured":"Wang, L., & Koniusz, P. (2023) 3mformer: Multi-order multi-mode transformer for skeletal action recognition. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 5620\u20135631","DOI":"10.1109\/CVPR52729.2023.00544"},{"key":"2513_CR161","doi-asserted-by":"crossref","unstructured":"Wang, L., & Koniusz, P. (2024) Flow dynamics correction for action recognition. In: ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 3795\u20133799. IEEE","DOI":"10.1109\/ICASSP48485.2024.10446223"},{"key":"2513_CR162","first-page":"8697","volume-title":"ICCV","author":"L Wang","year":"2019","unstructured":"Wang, L., Koniusz, P., & Huynh, D. Q. (2019). Hallucinating IDT descriptors and I3D optical flow features for action recognition with cnns. ICCV (pp. 8697\u20138707). Seoul, Korea: IEEE."},{"key":"2513_CR163","unstructured":"Wang, L., Liu, J., & Koniusz, P. (2021) 3d skeleton-based few-shot action recognition with jeanie is not so na\u00efve. arXiv preprint arXiv:2112.12668"},{"key":"2513_CR164","doi-asserted-by":"crossref","unstructured":"Wang, L., Liu, J., Zheng, L., Gedeon, T., Koniusz, P. (2024) Meet jeanie: a similarity measure for 3d skeleton sequences via temporal-viewpoint alignment. International Journal of Computer Vision pp. 1\u201332","DOI":"10.1007\/s11263-024-02070-2"},{"key":"2513_CR165","doi-asserted-by":"crossref","unstructured":"Wang, L., Sun, K., & Koniusz, P. (2024) High-order tensor pooling with attention for action recognition. In: ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 3885\u20133889. IEEE","DOI":"10.1109\/ICASSP48485.2024.10446900"},{"key":"2513_CR166","doi-asserted-by":"publisher","unstructured":"Wang, L., Wang, L., Lu, H., Zhang, P., & Ruan, X. (2016) Saliency detection with recurrent fully convolutional networks. In: ECCV, pp. 825\u2013841. Springer Science+Business Media, Amsterdam, The Netherlands. https:\/\/doi.org\/10.1007\/978-3-319-46493-0_50","DOI":"10.1007\/978-3-319-46493-0_50"},{"key":"2513_CR167","unstructured":"Wang, L., Yuan, X., Gedeon, T., & Zheng, L. (2024) Taylor videos for action recognition. In: Forty-first International Conference on Machine Learning"},{"key":"2513_CR168","unstructured":"Wang, M., Xing, J., & Liu, Y. (2021) Actionclip: A new paradigm for video action recognition. CoRR arxiv:2109.08472."},{"key":"2513_CR169","doi-asserted-by":"publisher","unstructured":"Wang, W., Seraj, F., & Havinga, P.J.M. (2020) A sound-based crowd activity recognition with neural network based regression models. In: Proceedings of the 13th ACM International Conference on PErvasive Technologies Related to Assistive Environments, PETRA \u201920. Association for Computing Machinery, New York, NY, USA. https:\/\/doi.org\/10.1145\/3389189.3389196.","DOI":"10.1145\/3389189.3389196"},{"key":"2513_CR170","doi-asserted-by":"crossref","unstructured":"Wang, Y., Li, K., Li, X., Yu, J., He, Y., Chen, G., Pei, B., Zheng, R., Xu, J., Wang, Z., et\u00a0al. (2024) Internvideo2: Scaling video foundation models for multimodal video understanding. ECCV","DOI":"10.1007\/978-3-031-73013-9_23"},{"key":"2513_CR171","doi-asserted-by":"publisher","unstructured":"Weinberger, K., Dasgupta, A., Langford, J., Smola, A., & Attenberg, J. (2009) Feature hashing for large scale multitask learning. In: ICML, pp. 1113\u20131120. ACM, Montreal, Canada. https:\/\/doi.org\/10.1145\/1553374.1553516.","DOI":"10.1145\/1553374.1553516"},{"key":"2513_CR172","doi-asserted-by":"crossref","unstructured":"Weinzaepfel, P., Revaud, J., Harchaoui, Z., & Schmid, C. (2013) DeepFlow: Large displacement optical flow with deep matching. In: ICCV, pp. 1\u20138. IEEE, Sydney, NSW, Australia. http:\/\/hal.inria.fr\/hal-00873592","DOI":"10.1109\/ICCV.2013.175"},{"key":"2513_CR173","doi-asserted-by":"publisher","unstructured":"Willems, G., Tuytelaars, T., & Gool, L.V. (2008) An efficient dense and scale-invariant spatio-temporal interest point detector. In: ECCV, pp. 650\u2013663. Springer Science+Business Media, Marseille, France. https:\/\/doi.org\/10.1007\/978-3-540-88688-4_48.","DOI":"10.1007\/978-3-540-88688-4_48"},{"key":"2513_CR174","first-page":"284","volume-title":"CVPR","author":"CY Wu","year":"2019","unstructured":"Wu, C. Y., Feichtenhofer, C., Fan, H., He, K., Krahenbuhl, P., & Girshick, R. (2019). Long-term feature banks for detailed video understanding. CVPR (pp. 284\u2013293). Long Beach, California, USA: IEEE."},{"key":"2513_CR175","doi-asserted-by":"publisher","unstructured":"Wu, Q., Wang, Z., Deng, F., & Feng, D.D. (2010) Realistic human action recognition with audio context. In: 2010 International Conference on Digital Image Computing: Techniques and Applications, pp. 288\u2013293. https:\/\/doi.org\/10.1109\/DICTA.2010.57","DOI":"10.1109\/DICTA.2010.57"},{"key":"2513_CR176","doi-asserted-by":"crossref","unstructured":"Xie, S., Sun, C., Huang, J., Tu, Z., & Murphy, K. (2018) Rethinking spatiotemporal feature learning: Speed-accuracy trade-offs in video classification. In: Proceedings of the European Conference on Computer Vision (ECCV)","DOI":"10.1007\/978-3-030-01267-0_19"},{"key":"2513_CR177","first-page":"7922","volume-title":"CVPR","author":"A Yan","year":"2019","unstructured":"Yan, A., Wang, Y., Li, Z., & Qiao, Y. (2019). PA3D: Pose-action 3D machine for video recognition. CVPR (pp. 7922\u20137931). Long Beach, California, USA: IEEE."},{"key":"2513_CR178","doi-asserted-by":"crossref","unstructured":"Yan, S., Xiong, X., Arnab, A., Lu, Z., Zhang, M., Sun, C., & Schmid, C. (2022) Multiview transformers for video recognition. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp. 3333\u20133343","DOI":"10.1109\/CVPR52688.2022.00333"},{"key":"2513_CR179","doi-asserted-by":"crossref","unstructured":"Yan, S., Xiong, Y., & Lin, D. (2018) Spatial Temporal Graph Convolutional Networks for Skeleton-Based Action Recognition. In: AAAI","DOI":"10.1609\/aaai.v32i1.12328"},{"key":"2513_CR180","doi-asserted-by":"crossref","unstructured":"Yang, D., Wang, Y., Dantcheva, A., Garattoni, L., Francesca, G., & Bremond, F. (2021) Unik: A unified framework for real-world skeleton-based action recognition. BMVC","DOI":"10.5244\/C.35.4"},{"key":"2513_CR181","unstructured":"Yao, H., Wu, W., & Li, Z. (2023) Side4video: Spatial-temporal side network for memory-efficient image-to-video transfer learning. arXiv preprint arXiv:2311.15769"},{"key":"2513_CR182","first-page":"492","volume-title":"ICCV","author":"L Yeffet","year":"2009","unstructured":"Yeffet, L., & Wolf, L. (2009). Local trinary patterns for human action recognition. ICCV (pp. 492\u2013497). Seoul, Korea: IEEE."},{"key":"2513_CR183","doi-asserted-by":"publisher","unstructured":"Zhang, C., Zou, Y., Chen, G., & Gan, L. (2019) PAN: persistent appearance network with an efficient motion cue for fast action recognition. In: L.\u00a0Amsaleg, B.\u00a0Huet, M.A. Larson, G.\u00a0Gravier, H.\u00a0Hung, C.\u00a0Ngo, W.T. Ooi (eds.) MM, pp. 500\u2013509. ACM, Nice, France. https:\/\/doi.org\/10.1145\/3343031.3350876.","DOI":"10.1145\/3343031.3350876"},{"key":"2513_CR184","first-page":"2770","volume-title":"CVPR","author":"H Zhang","year":"2019","unstructured":"Zhang, H., Zhang, J., & Koniusz, P. (2019). Few-shot learning via saliency-guided hallucination of samples. CVPR (pp. 2770\u20132779). Long Beach California: IEEE."},{"key":"2513_CR185","first-page":"1","volume-title":"CVPR","author":"J Zhang","year":"2018","unstructured":"Zhang, J., Zhang, T., Dai, Y., Harandi, M., & Hartley, R. (2018). Deep unsupervised saliency detection: A multiple noisy labeling perspective. CVPR (pp. 1\u201310). Salt Lake City, UT, USA: IEEE."},{"key":"2513_CR186","doi-asserted-by":"publisher","unstructured":"Zhang, X., Xu, C., & Tao, D. (2020) Context aware graph convolution for skeleton-based action recognition. In: 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 14321\u201314330. https:\/\/doi.org\/10.1109\/CVPR42600.2020.01434","DOI":"10.1109\/CVPR42600.2020.01434"},{"key":"2513_CR187","doi-asserted-by":"crossref","unstructured":"Zhang, Y., Li, X., Liu, C., Shuai, B., Zhu, Y., Brattoli, B., Chen, H., Marsic, I., & Tighe, J. (2021) Vidtr: Video transformer without convolutions. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 13577\u201313587","DOI":"10.1109\/ICCV48922.2021.01332"},{"key":"2513_CR188","unstructured":"Zhu, L., Sevilla-Lara, L., Tran, D., Feiszli, M., Yang, Y., & Wang, H. (2019) FASTER recurrent networks for video classification. CoRR abs\/1906.04226. http:\/\/arxiv.org\/abs\/1906.04226"},{"key":"2513_CR189","unstructured":"Zhu, L., Wang, L., Raj, A., Gedeon, T., & Chen, C. (2024) Advancing video anomaly detection: A concise review and a new dataset. In: The Thirty-eight Conference on Neural Information Processing Systems Datasets and Benchmarks Track"},{"key":"2513_CR190","doi-asserted-by":"publisher","unstructured":"Zhu, W., Liang, S., Wei, Y., & Sun, J. (2014) Saliency optimization from robust background detection. In: CVPR, pp. 2814\u20132821. IEEE, Columbus, OH, USA. https:\/\/doi.org\/10.1109\/CVPR.2014.360","DOI":"10.1109\/CVPR.2014.360"},{"key":"2513_CR191","first-page":"1","volume-title":"CVPR","author":"B Zoph","year":"2018","unstructured":"Zoph, B., Vasudevan, V., Shlens, J., & Le, Q. V. (2018). Learning transferable architectures for scalable image recognition. CVPR (pp. 1\u201314). Salt Lake City, UT, USA: IEEE."}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-025-02513-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11263-025-02513-4\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-025-02513-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,12]],"date-time":"2025-11-12T06:27:59Z","timestamp":1762928879000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11263-025-02513-4"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,8,7]]},"references-count":191,"journal-issue":{"issue":"11","published-print":{"date-parts":[[2025,11]]}},"alternative-id":["2513"],"URL":"https:\/\/doi.org\/10.1007\/s11263-025-02513-4","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"type":"print","value":"0920-5691"},{"type":"electronic","value":"1573-1405"}],"subject":[],"published":{"date-parts":[[2025,8,7]]},"assertion":[{"value":"16 June 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"25 June 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"7 August 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"14 August 2025","order":5,"name":"change_date","label":"Change Date","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"Update","order":6,"name":"change_type","label":"Change Type","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"The corresponding author\u2019s email address has been corrected.","order":7,"name":"change_details","label":"Change Details","group":{"name":"ArticleHistory","label":"Article History"}}]}}