{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,10]],"date-time":"2026-03-10T18:49:47Z","timestamp":1773168587583,"version":"3.50.1"},"reference-count":76,"publisher":"Springer Science and Business Media LLC","issue":"4","license":[{"start":{"date-parts":[[2026,3,10]],"date-time":"2026-03-10T00:00:00Z","timestamp":1773100800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,3,10]],"date-time":"2026-03-10T00:00:00Z","timestamp":1773100800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100012166","name":"National Key R&D Program of China","doi-asserted-by":"crossref","award":["2022ZD0160900"],"award-info":[{"award-number":["2022ZD0160900"]}],"id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"crossref"}]},{"DOI":"10.13039\/501100004608","name":"Natural Science Foundation of Jiangsu Province","doi-asserted-by":"publisher","award":["BK20250009"],"award-info":[{"award-number":["BK20250009"]}],"id":[{"id":"10.13039\/501100004608","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2026,4]]},"DOI":"10.1007\/s11263-026-02787-2","type":"journal-article","created":{"date-parts":[[2026,3,10]],"date-time":"2026-03-10T01:10:21Z","timestamp":1773105021000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["CompViT: Real-Time Compressed Video Action Recognition with Asymmetric Transformer Networks"],"prefix":"10.1007","volume":"134","author":[{"given":"Tao","family":"Wu","sequence":"first","affiliation":[]},{"given":"Shaowei","family":"Cen","sequence":"additional","affiliation":[]},{"given":"Liang","family":"Mi","sequence":"additional","affiliation":[]},{"given":"Weijun","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Haipeng","family":"Dai","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3674-7718","authenticated-orcid":false,"given":"Limin","family":"Wang","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2026,3,10]]},"reference":[{"key":"2787_CR1","doi-asserted-by":"crossref","unstructured":"Arnab, A., Dehghani, M., Heigold, G., Sun, C., Lucic, M., & Schmid, C. (2021). Vivit: A video vision transformer. In: ICCV, pp. 6816\u20136826.","DOI":"10.1109\/ICCV48922.2021.00676"},{"key":"2787_CR2","doi-asserted-by":"crossref","unstructured":"Battash, B., Barad, H., Tang, H., & Bleiweiss, A. (2020). Mimic the raw domain: Accelerating action recognition in the compressed domain. In: CVPRW, pp. 2926\u20132934.","DOI":"10.1109\/CVPRW50498.2020.00350"},{"key":"2787_CR3","unstructured":"Bertasius, G., Wang, H., & Torresani, L. (2021). Is space-time attention all you need for video understanding? In: ICML. Proceedings of Machine Learning Research, vol. 139, pp. 813\u2013824."},{"key":"2787_CR4","unstructured":"Bulat, A., P\u00e9rez-R\u00faa, J., Sudhakaran, S., Mart\u00ednez, B., & Tzimiropoulos, G. (2021). Space-time mixing attention for video transformer. In: NeurIPS, pp. 19594\u201319607."},{"key":"2787_CR5","unstructured":"Cao, H., Yu, S., & Feng, J. (2019). Compressed video action recognition with refined motion vector. arXiv preprint arXiv:1910.02533."},{"key":"2787_CR6","doi-asserted-by":"crossref","unstructured":"Carreira, J., Zisserman, A. (2017). Quo vadis, action recognition? a new model and the kinetics dataset. In: CVPR, pp. 6299\u20136308.","DOI":"10.1109\/CVPR.2017.502"},{"key":"2787_CR7","doi-asserted-by":"crossref","unstructured":"Chen, J., & Ho, C.M. (2022). Mm-vit: Multi-modal video transformer for compressed video action recognition. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision (WACV), pp. 1910\u20131921.","DOI":"10.1109\/WACV51458.2022.00086"},{"key":"2787_CR8","doi-asserted-by":"crossref","unstructured":"Diba, A., Fayyaz, M., Sharma, V., Arzani, M.M., Yousefzadeh, R., Gall, J., & Gool, L.V. (2018). Spatio-temporal channel correlation networks for action classification. In: ECCV (4). Lecture Notes in Computer Science, vol. 11208, pp. 299\u2013315.","DOI":"10.1007\/978-3-030-01225-0_18"},{"key":"2787_CR9","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In: ICLR."},{"key":"2787_CR10","doi-asserted-by":"crossref","unstructured":"Fan, H., Xiong, B., Mangalam, K., Li, Y., Yan, Z., Malik, J., & Feichtenhofer, C. (2021). Multiscale vision transformers. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 6824\u20136835.","DOI":"10.1109\/ICCV48922.2021.00675"},{"key":"2787_CR11","doi-asserted-by":"crossref","unstructured":"Fang, X., Liu, D., Zhou, P., & Nan, G. (2023). You can ground earlier than see: An effective and efficient pipeline for temporal sentence grounding in compressed videos. In: CVPR, pp. 2448\u20132460.","DOI":"10.1109\/CVPR52729.2023.00242"},{"key":"2787_CR12","doi-asserted-by":"crossref","unstructured":"Feichtenhofer, C. (2020). X3d: Expanding architectures for efficient video recognition. In: CVPR, pp. 203\u2013213.","DOI":"10.1109\/CVPR42600.2020.00028"},{"key":"2787_CR13","doi-asserted-by":"crossref","unstructured":"Feichtenhofer, C., Fan, H., Malik, J., & He, K. (2019). Slowfast networks for video recognition. In: ICCV, pp. 6201\u20136210.","DOI":"10.1109\/ICCV.2019.00630"},{"key":"2787_CR14","doi-asserted-by":"crossref","unstructured":"Guo, J., Zhang, J., Li, S., Zhang, X., & Ma, M. (2023). Mtfd: Multi-teacher fusion distillation for compressed video action recognition. In: ICASSP.","DOI":"10.1109\/ICASSP49357.2023.10097123"},{"key":"2787_CR15","unstructured":"Havasi, M., Jenatton, R., Fort, S., Liu, J.Z., Snoek, J., Lakshminarayanan, B., Dai, A.M., & Tran, D. (2020). Training independent subnetworks for robust prediction. arXiv preprint arXiv:2010.06610."},{"issue":"15","key":"2787_CR16","doi-asserted-by":"publisher","first-page":"13965","DOI":"10.1109\/JIOT.2022.3142759","volume":"9","author":"L He","year":"2022","unstructured":"He, L., Zhang, M., Zhang, S., Wang, L., & Li, F. (2022). MTRFN: multiscale temporal receptive field network for compressed video action recognition at edge servers. IEEE Internet Things J., 9(15), 13965\u201313977.","journal-title":"IEEE Internet Things J."},{"key":"2787_CR17","doi-asserted-by":"crossref","unstructured":"Hu, Y., He, Y., Li, Y., Li, J., Han, Y., Wen, J., & Liu, Y. (2023). Efficient semantic segmentation by altering resolutions for compressed videos. In: CVPR, pp. 22627\u201322637.","DOI":"10.1109\/CVPR52729.2023.02167"},{"key":"2787_CR18","unstructured":"Huang, S., Lin, X., Karaman, S., & Chang, S.-F. (2019). Flow-distilled ip two-stream networks for compressed video action recognition. arXiv preprint arXiv:1912.04462."},{"key":"2787_CR19","unstructured":"Huo, Y., Ding, M., Lu, H., Fei, N., Lu, Z., Wen, J.-R., & Luo, P. (2021). Compressed video contrastive learning. In: NIPS, pp. 14176\u201314187."},{"key":"2787_CR20","doi-asserted-by":"crossref","unstructured":"Huo, Y., Xu, X., Lu, Y., Niu, Y., Ding, M., Lu, Z., Xiang, T., & Wen, J.-r. (2020). Lightweight action recognition in compressed videos. In: ECCV, pp. 337\u2013352.","DOI":"10.1007\/978-3-030-66096-3_24"},{"key":"2787_CR21","unstructured":"Huo, Y., Xu, X., Lu, Y., Niu, Y., Lu, Z., & Wen, J.-R. (2019). Mobile video action recognition. arXiv preprint arXiv:1908.10155."},{"key":"2787_CR22","unstructured":"Hwang, J., Kim, M., Kim, D., Nam, S., Kim, Y., Kim, D., Sharma, H., & Park, J. (2022). Cova: Exploiting compressed-domain analysis to accelerate video analytics. In: USENIX Annual Technical Conference (USENIX ATC), pp. 707\u2013721."},{"key":"2787_CR23","doi-asserted-by":"crossref","unstructured":"Jiang, B., Wang, M., Gan, W., Wu, W., & Yan, J. (2019). Stm: Spatiotemporal and motion encoding for action recognition. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 2000\u20132009.","DOI":"10.1109\/ICCV.2019.00209"},{"key":"2787_CR24","unstructured":"Kay, W., Carreira, J., Simonyan, K., Zhang, B., Hillier, C., Vijayanarasimhan, S., & Viola, F. (2017). The kinetics human action video dataset. arXiv preprint arXiv:1705.06950."},{"key":"2787_CR25","doi-asserted-by":"crossref","unstructured":"Kuehne, H., Jhuang, H., Garrote, E., Poggio, T., & Serre, T. (2011). Hmdb: a large video database for human motion recognition. In: ICCV, pp. 2556\u20132563.","DOI":"10.1109\/ICCV.2011.6126543"},{"key":"2787_CR26","doi-asserted-by":"crossref","unstructured":"Kwon, H., Kim, M., Kwak, S., & Cho, M. (2020). Motionsqueeze: Neural motion feature learning for video understanding. In: Computer Vision-ECCV 2020: 16th European Conference, Glasgow, UK, August 23\u201328, 2020, Proceedings, Part XVI 16, pp. 345\u2013362. Springer.","DOI":"10.1007\/978-3-030-58517-4_21"},{"key":"2787_CR27","doi-asserted-by":"crossref","unstructured":"Li, B., Chen, J., Bao, X., & Huang, D. (2023) Compressed video prompt tuning. In: NIPS, pp. 31895\u201331907.","DOI":"10.52202\/075280-1384"},{"key":"2787_CR28","doi-asserted-by":"crossref","unstructured":"Li, B., Chen, J., Li, G., Zhang, D., Bao, X., & Huang, D. (2025). Cross-modal contrastive masked autoencoder for compressed video pre-training. IEEE Transactions on Image Processing.","DOI":"10.1109\/TIP.2025.3583168"},{"key":"2787_CR29","doi-asserted-by":"crossref","unstructured":"Li, B., Chen, J., Zhang, D., Bao, X., & Huang, D. (2022). Representation learning for compressed video action recognition via attentive cross-modal interaction with motion enhancement. In: IJCAI, pp. 1060\u20131066.","DOI":"10.24963\/ijcai.2022\/148"},{"key":"2787_CR30","doi-asserted-by":"crossref","unstructured":"Li, Y., Ji, B., Shi, X., Zhang, J., Kang, B., & Wang, L. (2020). Tea: Temporal excitation and aggregation for action recognition. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 909\u2013918.","DOI":"10.1109\/CVPR42600.2020.00099"},{"key":"2787_CR31","doi-asserted-by":"crossref","unstructured":"Li, B., Kong, L., Zhang, D., Bao, X., Huang, D., & Wang, Y. (2020). Towards practical compressed video action recognition: A temporal enhanced multi-stream network. In: ICPR, pp. 3744\u20133750.","DOI":"10.1109\/ICPR48806.2021.9412213"},{"key":"2787_CR32","unstructured":"Li, K., Wang, Y., Gao, P., Song, G., Liu, Y., Li, H., & Qiao, Y. (2022). Uniformer: Unified transformer for efficient spatial-temporal representation learning. In: ICLR."},{"key":"2787_CR33","doi-asserted-by":"crossref","unstructured":"Li, C., Wang, X., Wen, L., Hong, D., Luo, T., & Zhang, L. (2022). End-to-end compressed video representation learning for generic event boundary detection. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 13967\u201313976.","DOI":"10.1109\/CVPR52688.2022.01358"},{"key":"2787_CR34","doi-asserted-by":"crossref","unstructured":"Li, J., Wei, P., Zhang, Y., & Zheng, N. (2020). A slow-i-fast-p architecture for compressed video action recognition. In: ACMMM, pp. 2039\u20132047.","DOI":"10.1145\/3394171.3413641"},{"key":"2787_CR35","doi-asserted-by":"publisher","first-page":"7926","DOI":"10.1109\/TIP.2021.3112008","volume":"30","author":"H Li","year":"2021","unstructured":"Li, H., Jiang, X., Guan, B., Tan, R. R. M., Wang, R., & Thalmann, N. M. (2021). Joint feature optimization and fusion for compressed action recognition. IEEE Transactions on Image Processing, 30, 7926\u20137937.","journal-title":"IEEE Transactions on Image Processing"},{"key":"2787_CR36","doi-asserted-by":"crossref","unstructured":"Li X, Li S, Ma M (2025) Interactive and balanced multimodal learning via cross attention and gradient modulation for compressed video action recognition. In: ICASSP 2025\u20132025 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 1\u20135. IEEE.","DOI":"10.1109\/ICASSP49660.2025.10888127"},{"key":"2787_CR37","doi-asserted-by":"crossref","unstructured":"Lin, J., Gan, C., & Han, S. (2019). Tsm: Temporal shift module for efficient video understanding. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 7083\u20137093.","DOI":"10.1109\/ICCV.2019.00718"},{"key":"2787_CR38","doi-asserted-by":"crossref","unstructured":"Liu, Z., Luo, D., Wang, Y., Wang, L., Tai, Y., Wang, C., Li, J., Huang, F., & Lu, T. (2020). Teinet: Towards an efficient architecture for video recognition. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 34, pp. 11669\u201311676.","DOI":"10.1609\/aaai.v34i07.6836"},{"key":"2787_CR39","doi-asserted-by":"crossref","unstructured":"Liu, Z., Ning, J., Cao, Y., Wei, Y., Zhang, Z., Lin, S., & Hu, H. (2022). Video swin transformer. In: CVPR, pp. 3192\u20133201.","DOI":"10.1109\/CVPR52688.2022.00320"},{"key":"2787_CR40","doi-asserted-by":"crossref","unstructured":"Liu, Z., Wang, L., Wu, W., Qian, C., & Lu, T. (2021). Tam: Temporal adaptive module for video recognition. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 13708\u201313718.","DOI":"10.1109\/ICCV48922.2021.01345"},{"key":"2787_CR41","doi-asserted-by":"crossref","unstructured":"Luo, C., & Yuille, A.L. (2019). Grouped spatial-temporal aggregation for efficient action recognition. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 5512\u20135521.","DOI":"10.1109\/ICCV.2019.00561"},{"issue":"5","key":"2787_CR42","doi-asserted-by":"publisher","first-page":"3299","DOI":"10.1109\/TCSVT.2023.3319140","volume":"34","author":"Y Mou","year":"2024","unstructured":"Mou, Y., Jiang, X., Xu, K., Sun, T., & Wang, Z. (2024). Compressed video action recognition with dual-stream and dual-modal transformer. IEEE Trans. Circuits Syst. Video Technol., 34(5), 3299\u20133312.","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"2787_CR43","doi-asserted-by":"crossref","unstructured":"Neimark, D., Bar, O., Zohar, M., & Asselmann, D. (2021). Video transformer network. In: ICCVW, pp. 3156\u20133165.","DOI":"10.1109\/ICCVW54120.2021.00355"},{"key":"2787_CR44","unstructured":"Patrick, M., Campbell, D., Asano, Y.M., Misra, I., Metze, F., Feichtenhofer, C., Vedaldi, A., & Henriques, J.F. (2021). Keeping your eye on the ball: Trajectory attention in video transformers. In: NeurIPS, pp. 12493\u201312506."},{"issue":"1","key":"2787_CR45","doi-asserted-by":"publisher","first-page":"2","DOI":"10.1109\/TCSVT.2009.2020253","volume":"20","author":"FM Porikli","year":"2010","unstructured":"Porikli, F. M., Bashir, F. I., & Sun, H. (2010). Compressed domain video object segmentation. IEEE Trans. Circuits Syst. Video Technol., 20(1), 2\u201314.","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"2787_CR46","doi-asserted-by":"crossref","unstructured":"Qiu, Z., Yao, T., & Mei, T. (2017). Learning spatio-temporal representation with pseudo-3d residual networks. In: ICCV, pp. 5534\u20135542.","DOI":"10.1109\/ICCV.2017.590"},{"key":"2787_CR47","unstructured":"Radford, A., Kim, J.W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., Krueger, G., & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning, pp. 8748\u20138763."},{"key":"2787_CR48","unstructured":"Sharir, G., Noy, A., & Zelnik-Manor, L. (2021). An image is worth 16x16 words, what is a video worth? CoRR abs\/2103.13915."},{"key":"2787_CR49","doi-asserted-by":"crossref","unstructured":"Shen, Y., Gu, X., Xu, K., Fan, H., Wen, L., & Zhang, L. (2023). Accurate and fast compressed video captioning. In: ICCV, pp. 15512\u201315521.","DOI":"10.1109\/ICCV51070.2023.01426"},{"key":"2787_CR50","doi-asserted-by":"crossref","unstructured":"Shou, Z., Lin, X., Kalantidis, Y., Sevilla-Lara, L., Rohrbach, M., Chang, S.-F., & Yan, Z. (2019). Dmc-net: Generating discriminative motion cues for fast compressed video action recognition. In: CVPR, pp. 1268\u20131277.","DOI":"10.1109\/CVPR.2019.00136"},{"key":"2787_CR51","unstructured":"Simonyan, K., & Zisserman, A. (2014). Two-stream convolutional networks for action recognition in videos. In: NIPS, pp. 568\u2013576."},{"key":"2787_CR52","unstructured":"Soomro, K., Zamir, A.R., & Shah, M. (2012). UCF101: A dataset of 101 human actions classes from videos in the wild. CoRR abs\/1212.0402."},{"issue":"1","key":"2787_CR53","doi-asserted-by":"publisher","first-page":"175","DOI":"10.1109\/TCSVT.2020.2971641","volume":"31","author":"Z Tan","year":"2021","unstructured":"Tan, Z., Liu, B., Chu, Q., Zhong, H., Wu, Y., Li, W., & Yu, N. (2021). Real time video object segmentation in compressed domain. IEEE Trans. Circuits Syst. Video Technol., 31(1), 175\u2013188.","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"2787_CR54","doi-asserted-by":"crossref","unstructured":"Terao, H., Noguchi, W., Iizuka, H., & Yamamoto, M. (2023). Efficient compressed video action recognition via late fusion with a single network. In: ICASSP 2023\u20132023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 1\u20135. IEEE.","DOI":"10.1109\/ICASSP49357.2023.10096477"},{"key":"2787_CR55","doi-asserted-by":"crossref","unstructured":"Tong, Z., Song, Y., & Wang, J.W.L. (2022). Videomae: Masked autoencoders are data-efficient learners for self-supervised video pre-training. In: NIPS, pp. 10078\u201310093.","DOI":"10.52202\/068431-0732"},{"key":"2787_CR56","doi-asserted-by":"crossref","unstructured":"Tran, D., Bourdev, L., Fergus, R., Torresani, L., & Paluri, M. (2015). Learning spatiotemporal features with 3d convolutional networks. In: ICCV, pp. 4489\u20134497.","DOI":"10.1109\/ICCV.2015.510"},{"key":"2787_CR57","doi-asserted-by":"crossref","unstructured":"Tran, D., Wang, H., Feiszli, M., & Torresani, L. (2019). Video classification with channel-separated convolutional networks. In: ICCV, pp. 5551\u20135560.","DOI":"10.1109\/ICCV.2019.00565"},{"key":"2787_CR58","doi-asserted-by":"crossref","unstructured":"Tran, D., Wang, H., Torresani, L., Ray, J., LeCun, Y., & Paluri, M. (2018). A closer look at spatiotemporal convolutions for action recognition. In: CVPR, pp. 6450\u20136459.","DOI":"10.1109\/CVPR.2018.00675"},{"key":"2787_CR59","doi-asserted-by":"crossref","unstructured":"Wang, L., Li, W., Li, W., & Gool, L.V. (2018). Appearance-and-relation networks for video classification. In: CVPR, pp. 1430\u20131439.","DOI":"10.1109\/CVPR.2018.00155"},{"key":"2787_CR60","doi-asserted-by":"crossref","unstructured":"Wang, S., Lu, H., & Deng, Z. (2019). Fast object detection in compressed video. In: ICCV, pp. 7103\u20137112.","DOI":"10.1109\/ICCV.2019.00720"},{"key":"2787_CR61","doi-asserted-by":"crossref","unstructured":"Wang, Z., She, Q., & Smolic, A. (2021). Team-net: Multi-modal learning for video action recognition with partial decoding. In: BMVC.","DOI":"10.5244\/C.35.138"},{"key":"2787_CR62","doi-asserted-by":"crossref","unstructured":"Wang, L., Tong, Z., Ji, B., & Wu, G. (2021). Tdn: Temporal difference networks for efficient action recognition. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 1895\u20131904.","DOI":"10.1109\/CVPR46437.2021.00193"},{"key":"2787_CR63","doi-asserted-by":"crossref","unstructured":"Wang, H., Tran, D., Torresani, L., & Feiszli, M. (2020). Video modeling with correlation networks. In: CVPR, pp. 349\u2013358.","DOI":"10.1109\/CVPR42600.2020.00043"},{"key":"2787_CR64","doi-asserted-by":"crossref","unstructured":"Wang, L., Xiong, Y., Wang, Z., Qiao, Y., Lin, D., Tang, X., & Van Gool, L. (2016). Temporal segment networks: Towards good practices for deep action recognition. In: European Conference on Computer Vision, pp. 20\u201336. Springer.","DOI":"10.1007\/978-3-319-46484-8_2"},{"key":"2787_CR65","doi-asserted-by":"crossref","unstructured":"Wu, M.-C., Chiu, C.-T., & Wu, K.-H. (2019). Multi-teacher knowledge distillation for compressed video action recognition on deep neural networks. In: ICASSP 2019\u20132019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 2202\u20132206. IEEE.","DOI":"10.1109\/ICASSP.2019.8682450"},{"key":"2787_CR66","doi-asserted-by":"crossref","unstructured":"Wu, C.-Y., Zaheer, M., Hu, H., Manmatha, R., Smola, A.J., & Kr\u00e4henb\u00fchl, P. (2018). Compressed video action recognition. In: CVPR, pp. 6026\u20136035.","DOI":"10.1109\/CVPR.2018.00631"},{"key":"2787_CR67","doi-asserted-by":"crossref","unstructured":"Xie, S., Sun, C., Huang, J., Tu, Z., & Murphy, K. (2018). Rethinking spatiotemporal feature learning for video understanding. In: ECCV, pp. 318\u2013335.","DOI":"10.1007\/978-3-030-01267-0_19"},{"key":"2787_CR68","doi-asserted-by":"crossref","unstructured":"Xu, K., & Yao, A. (2022). Accelerating video object segmentation with compressed video. In: CVPR, pp. 1332\u20131341.","DOI":"10.1109\/CVPR52688.2022.00140"},{"key":"2787_CR69","unstructured":"Yang, K., Fu, J., Guo, X., Lu, Y., Qiao, P., Li, D., & Dou, Y. (2019). IF-TTN: information fused temporal transformation network for video action recognition. CoRR abs\/1902.09928."},{"key":"2787_CR70","unstructured":"Yu, Y., Lee, S., Kim, G., & Song, Y. (2021). Self-supervised learning of compressed video representations. In: ICLR."},{"key":"2787_CR71","unstructured":"Zha, X., Zhu, W., Lv, X., Yang, S., & Liu, J. (2021). Shifted chunk transformer for spatio-temporal representational learning. In: NeurIPS, pp. 11384\u201311396."},{"key":"2787_CR72","doi-asserted-by":"crossref","unstructured":"Zhang, Y., Li, X., Liu, C., Shuai, B., Zhu, Y., Brattoli, B., Chen, H., Marsic, I., & Tighe, J. (2021). Vidtr: Video transformer without convolutions. In: ICCV, pp. 13557\u201313567.","DOI":"10.1109\/ICCV48922.2021.01332"},{"key":"2787_CR73","doi-asserted-by":"crossref","unstructured":"Zhang, B., Wang, L., Wang, Z., Qiao, Y., & Wang, H. (2016). Real-time action recognition with enhanced motion vector cnns. In: CVPR, pp. 2718\u20132726.","DOI":"10.1109\/CVPR.2016.297"},{"key":"2787_CR74","doi-asserted-by":"crossref","unstructured":"Zhang, B., Wang, L., Wang, Z., Qiao, Y., & Wang, H. (2018). Real-Time Action Recognition With Deeply Transferred Motion Vector CNNs, IEEE Trans. Image Process.27(5), 2326\u20132339.","DOI":"10.1109\/TIP.2018.2791180"},{"issue":"4","key":"2787_CR75","doi-asserted-by":"publisher","first-page":"1187","DOI":"10.1007\/s11263-023-01921-8","volume":"132","author":"L Zhang","year":"2024","unstructured":"Zhang, L., Gu, X., Li, C., Luo, T., & Fan, H. (2024). Local compressed video stream learning for generic event boundary detection. Int. J. Comput. Vis., 132(4), 1187\u20131204.","journal-title":"Int. J. Comput. Vis."},{"issue":"2","key":"2787_CR76","doi-asserted-by":"publisher","first-page":"695","DOI":"10.1109\/TCSVT.2023.3287201","volume":"34","author":"Z Zheng","year":"2024","unstructured":"Zheng, Z., Yang, L., Wang, Y., Zhang, M., He, L., Huang, G., & Li, F. (2024). Dynamic spatial focus for efficient compressed video action recognition. IEEE Trans. Circuits Syst. Video Technol., 34(2), 695\u2013708.","journal-title":"IEEE Trans. Circuits Syst. Video Technol."}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-026-02787-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11263-026-02787-2","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-026-02787-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,10]],"date-time":"2026-03-10T01:10:40Z","timestamp":1773105040000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11263-026-02787-2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,3,10]]},"references-count":76,"journal-issue":{"issue":"4","published-print":{"date-parts":[[2026,4]]}},"alternative-id":["2787"],"URL":"https:\/\/doi.org\/10.1007\/s11263-026-02787-2","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,3,10]]},"assertion":[{"value":"24 June 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"8 February 2026","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"10 March 2026","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}],"article-number":"189"}}