{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T17:44:27Z","timestamp":1777657467458,"version":"3.51.4"},"reference-count":69,"publisher":"Springer Science and Business Media LLC","issue":"4","license":[{"start":{"date-parts":[[2023,11,1]],"date-time":"2023-11-01T00:00:00Z","timestamp":1698796800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,11,1]],"date-time":"2023-11-01T00:00:00Z","timestamp":1698796800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2024,4]]},"DOI":"10.1007\/s11263-023-01921-8","type":"journal-article","created":{"date-parts":[[2023,11,1]],"date-time":"2023-11-01T20:01:47Z","timestamp":1698868907000},"page":"1187-1204","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":5,"title":["Local Compressed Video Stream Learning for Generic Event Boundary Detection"],"prefix":"10.1007","volume":"132","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-8450-0958","authenticated-orcid":false,"given":"Libo","family":"Zhang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xin","family":"Gu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Congcong","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Tiejian","family":"Luo","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Heng","family":"Fan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2023,11,1]]},"reference":[{"key":"1921_CR1","doi-asserted-by":"crossref","unstructured":"Alwassel, H., Heilbron, F. C., & Ghanem, B. (2018). Action search: Spotting actions in videos and its application to temporal action localization. In: ECCV.","DOI":"10.1007\/978-3-030-01240-3_16"},{"key":"1921_CR2","doi-asserted-by":"crossref","unstructured":"Arnab, A., Dehghani, M., Heigold, G., et\u00a0al. (2021). Vivit: A video vision transformer. In: ICCV.","DOI":"10.1109\/ICCV48922.2021.00676"},{"key":"1921_CR3","doi-asserted-by":"crossref","unstructured":"Caba\u00a0Heilbron, F., Barrios, W., Escorcia, V., et\u00a0al. (2017). Scc: Semantic context cascade for efficient action detection. In: CVPR.","DOI":"10.1109\/CVPR.2017.338"},{"key":"1921_CR4","doi-asserted-by":"crossref","unstructured":"Carreira, J., & Zisserman, A. (2017). Quo Vadis, action recognition? A new model and the kinetics dataset. In: CVPR.","DOI":"10.1109\/CVPR.2017.502"},{"key":"1921_CR5","doi-asserted-by":"crossref","unstructured":"Chao, Y. W., Vijayanarasimhan, S., Seybold, B., et\u00a0al. (2018). Rethinking the faster R-CNN architecture for temporal action localization. In: CVPR.","DOI":"10.1109\/CVPR.2018.00124"},{"key":"1921_CR6","doi-asserted-by":"crossref","unstructured":"Chen, Y., Kalantidis, Y., Li, J., et\u00a0al. (2018). Multi-fiber networks for video recognition. In: ECCV.","DOI":"10.1007\/978-3-030-01246-5_22"},{"key":"1921_CR7","doi-asserted-by":"crossref","unstructured":"Deng, J., Dong, W., Socher, R., et\u00a0al. (2009). Imagenet: A large-scale hierarchical image database. In: CVPR.","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"1921_CR8","unstructured":"Ding, L., & Xu, C. (2018). Weakly-supervised action segmentation with iterative soft boundary assignment. In: CVPR."},{"key":"1921_CR9","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., et\u00a0al. (2021a). An image is worth 16x16 words: Transformers for image recognition at scale. In: ICLR."},{"key":"1921_CR10","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., et\u00a0al. (2021b). An image is worth 16x16 words: Transformers for image recognition at scale. In: ICLR."},{"key":"1921_CR11","doi-asserted-by":"crossref","unstructured":"Fan, H., Xiong, B., Mangalam, K., et\u00a0al. (2021). Multiscale vision transformers.","DOI":"10.1109\/ICCV48922.2021.00675"},{"key":"1921_CR12","doi-asserted-by":"crossref","unstructured":"Fan, L., Huang, W., Gan, C., et\u00a0al. (2018). End-to-end learning of motion representation for video understanding. In: CVPR.","DOI":"10.1109\/CVPR.2018.00630"},{"key":"1921_CR13","doi-asserted-by":"crossref","unstructured":"Feichtenhofer, C., Pinz, A., & Zisserman, A. (2016). Convolutional two-stream network fusion for video action recognition. In: CVPR.","DOI":"10.1109\/CVPR.2016.213"},{"key":"1921_CR14","doi-asserted-by":"crossref","unstructured":"Feichtenhofer, C., Fan, H, Malik J, et\u00a0al (2019) Slowfast networks for video recognition. In: ICCV.","DOI":"10.1109\/ICCV.2019.00630"},{"issue":"4","key":"1921_CR15","doi-asserted-by":"publisher","first-page":"46","DOI":"10.1145\/103085.103090","volume":"34","author":"DL Gall","year":"1991","unstructured":"Gall, D. L. (1991). MPEG: A video compression standard for multimedia applications. Communications of the ACM, 34(4), 46\u201358.","journal-title":"Communications of the ACM"},{"issue":"11","key":"1921_CR16","doi-asserted-by":"publisher","first-page":"665","DOI":"10.1038\/s42256-020-00257-z","volume":"2","author":"R Geirhos","year":"2020","unstructured":"Geirhos, R., Jacobsen, J., Michaelis, C., et al. (2020). Shortcut learning in deep neural networks. Nature Machine Intelligence, 2(11), 665\u2013673.","journal-title":"Nature Machine Intelligence"},{"key":"1921_CR17","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., et\u00a0al. (2016). Deep residual learning for image recognition. In: CVPR.","DOI":"10.1109\/CVPR.2016.90"},{"key":"1921_CR18","unstructured":"Hong, D., Li, C., Wen, L., et\u00a0al. (2021). Generic event boundary detection challenge at CVPR 2021 technical report: Cascaded temporal attention network (CASTANET). arXiv."},{"key":"1921_CR19","doi-asserted-by":"crossref","unstructured":"Hu, J., Shen, L., & Sun, G. (2018). Squeeze-and-excitation networks. In: CVPR.","DOI":"10.1109\/CVPR.2018.00745"},{"key":"1921_CR20","doi-asserted-by":"crossref","unstructured":"Huang, D., Fei-Fei, L., Niebles, J. C. (2016). Connectionist temporal modeling for weakly supervised action labeling. In: ECCV.","DOI":"10.1007\/978-3-319-46493-0_9"},{"key":"1921_CR21","doi-asserted-by":"crossref","unstructured":"Huang, L., Liu, Y., Wang, B., et\u00a0al. (2021). Self-supervised video representation learning by context and motion decoupling. In: CVPR.","DOI":"10.1109\/CVPR46437.2021.01367"},{"issue":"1","key":"1921_CR22","doi-asserted-by":"publisher","first-page":"221","DOI":"10.1109\/TPAMI.2012.59","volume":"35","author":"S Ji","year":"2013","unstructured":"Ji, S., Xu, W., Yang, M., et al. (2013). 3d convolutional neural networks for human action recognition. IEEE transactions on pattern analysis and machine intelligence, 35(1), 221\u2013231.","journal-title":"IEEE transactions on pattern analysis and machine intelligence"},{"key":"1921_CR23","unstructured":"Kang, H., Kim, J., Kim, K., et\u00a0al. (2021). Winning the CVPR\u20192021 kinetics-GEBD challenge: Contrastive learning approach. arXiv."},{"key":"1921_CR24","doi-asserted-by":"crossref","unstructured":"Kuehne, H., Jhuang, H., Garrote, E., et\u00a0al. (2011). HMDB: A large video database for human motion recognition. In: ICCV.","DOI":"10.1109\/ICCV.2011.6126543"},{"key":"1921_CR25","doi-asserted-by":"crossref","unstructured":"Lea, C., Reiter, A., Vidal, R., et\u00a0al. (2016). Segmental spatiotemporal CNNS for fine-grained action segmentation. In: ECCV.","DOI":"10.1007\/978-3-319-46487-9_3"},{"key":"1921_CR26","doi-asserted-by":"crossref","unstructured":"Lea, C., Flynn, M. D., Vidal, R., et\u00a0al. (2017). Temporal convolutional networks for action segmentation and detection. In: CVPR.","DOI":"10.1109\/CVPR.2017.113"},{"key":"1921_CR27","doi-asserted-by":"crossref","unstructured":"Li, C., Wang, X., Wen, L., et\u00a0al. (2022). End-to-end compressed video representation learning for generic event boundary detection. In: CVPR.","DOI":"10.1109\/CVPR52688.2022.01358"},{"key":"1921_CR28","doi-asserted-by":"crossref","unstructured":"Li, J., Wei, P., Zhang, Y., et\u00a0al. (2020). A slow-i-fast-p architecture for compressed video action recognition. In: ACM MM.","DOI":"10.1145\/3394171.3413641"},{"key":"1921_CR29","doi-asserted-by":"crossref","unstructured":"Lin, T., Zhao, X., & Shou, Z. (2017). Single shot temporal action detection. In: ACM MM.","DOI":"10.1145\/3123266.3123343"},{"key":"1921_CR30","doi-asserted-by":"crossref","unstructured":"Lin, T., Liu, X., Li, X., et\u00a0al. (2019a). BMN: Boundary-matching network for temporal action proposal generation. In: ICCV.","DOI":"10.1109\/ICCV.2019.00399"},{"key":"1921_CR31","doi-asserted-by":"crossref","unstructured":"Lin, T., Liu, X., Li, X., et\u00a0al. (2019b). BMN: Boundary-matching network for temporal action proposal generation. In: ICCV.","DOI":"10.1109\/ICCV.2019.00399"},{"key":"1921_CR32","doi-asserted-by":"crossref","unstructured":"Liu, Z., Lin, Y., Cao, Y., et\u00a0al, (2021). Swin transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 10012\u201310022.","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"1921_CR33","doi-asserted-by":"crossref","unstructured":"Liu, Z., Ning, J., Cao, Y., et\u00a0al. (2022). Video Swin transformer.","DOI":"10.1109\/CVPR52688.2022.00320"},{"key":"1921_CR34","doi-asserted-by":"crossref","unstructured":"Long, F., Yao, T., Qiu, Z., et\u00a0al. (2019). Gaussian temporal awareness networks for action localization. In: CVPR.","DOI":"10.1109\/CVPR.2019.00043"},{"key":"1921_CR35","doi-asserted-by":"crossref","unstructured":"Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. In: CVPR.","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"1921_CR36","doi-asserted-by":"crossref","unstructured":"Ma, S., Sigal, L., & Sclaroff, S. (2016). Learning activity progression in lstms for activity detection and early detection. In: CVPR.","DOI":"10.1109\/CVPR.2016.214"},{"key":"1921_CR37","doi-asserted-by":"crossref","unstructured":"Ng, J. Y., Choi, J., Neumann, J., et\u00a0al. (2018). Actionflownet: Learning motion representation for action recognition. In: WACV.","DOI":"10.1109\/WACV.2018.00179"},{"key":"1921_CR38","doi-asserted-by":"crossref","unstructured":"Ni, B., Yang, X., & Gao, S. (2016). Progressively parsing interactional objects for fine grained action detection. In: CVPR.","DOI":"10.1109\/CVPR.2016.116"},{"key":"1921_CR39","unstructured":"Paszke, A., Gross, S., Massa, F., et\u00a0al. (2019). Pytorch: An imperative style, high-performance deep learning library. In: NeurIPS."},{"key":"1921_CR40","unstructured":"Rai, A. K., Krishna, T., Dietlmeier, J, et\u00a0al. (2021). Discerning generic event boundaries in long-form wild videos. arXiv."},{"key":"1921_CR41","doi-asserted-by":"crossref","unstructured":"Richard, A., & Gall, J. (2016). Temporal action detection using a statistical language model. In: CVPR.","DOI":"10.1109\/CVPR.2016.341"},{"key":"1921_CR42","doi-asserted-by":"crossref","unstructured":"Shao, D., Zhao, Y., Dai, B., et\u00a0al. (2020). Intra- and inter-action understanding via temporal action parsing. In: CVPR.","DOI":"10.1109\/CVPR42600.2020.00081"},{"key":"1921_CR43","doi-asserted-by":"crossref","unstructured":"Shou, M. Z., Lei, S. W., Wang, W, et\u00a0al. (2021). Generic event boundary detection: A benchmark for event segmentation. In: ICCV.","DOI":"10.1109\/ICCV48922.2021.00797"},{"key":"1921_CR44","doi-asserted-by":"crossref","unstructured":"Shou, Z., Lin, X., Kalantidis, Y., et\u00a0al. (2019). Dmc-net: Generating discriminative motion cues for fast compressed video action recognition. In: CVPR.","DOI":"10.1109\/CVPR.2019.00136"},{"key":"1921_CR45","unstructured":"Simonyan, K., & Zisserman, A. (2014). Two-stream convolutional networks for action recognition in videos. In: NIPS."},{"key":"1921_CR46","unstructured":"Soomro, K., Zamir, A. R., & Shah, M. (2012). UCF101: A dataset of 101 human actions classes from videos in the wild. arXiv."},{"key":"1921_CR47","doi-asserted-by":"crossref","unstructured":"Sun, D., Yang, X., Liu, M., et\u00a0al. (2018). Pwc-net: Cnns for optical flow using pyramid, warping, and cost volume. In: CVPR.","DOI":"10.1109\/CVPR.2018.00931"},{"key":"1921_CR48","doi-asserted-by":"crossref","unstructured":"Tang, J., Liu, Z., Qian, C., et\u00a0al. (2022). Progressive attention on multi-level dense difference maps for generic event boundary detection. In: CVPR.","DOI":"10.1109\/CVPR52688.2022.00335"},{"key":"1921_CR49","doi-asserted-by":"crossref","unstructured":"Taylor, G. W., Fergus, R., LeCun, Y., et\u00a0al. (2010). Convolutional learning of spatio-temporal features. In: ECCV.","DOI":"10.1007\/978-3-642-15567-3_11"},{"key":"1921_CR50","doi-asserted-by":"crossref","unstructured":"Tran, D., Bourdev, L. D., Fergus, R, et\u00a0al. (2015). Learning spatiotemporal features with 3d convolutional networks. In: ICCV.","DOI":"10.1109\/ICCV.2015.510"},{"key":"1921_CR51","unstructured":"Tran, D., Ray, J., Shou, Z, et\u00a0al. (2017). Convnet architecture search for spatiotemporal feature learning. arXiv."},{"key":"1921_CR52","doi-asserted-by":"crossref","unstructured":"Tran, D., Wang, H., Feiszli, M., et\u00a0al. (2019). Video classification with channel-separated convolutional networks. In: ICCV.","DOI":"10.1109\/ICCV.2019.00565"},{"key":"1921_CR53","doi-asserted-by":"crossref","unstructured":"Varol, G., Laptev, I., & Schmid, C. (2018). Long-term temporal convolutions for action recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(6), 1510\u20131517.","DOI":"10.1109\/TPAMI.2017.2712608"},{"key":"1921_CR54","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., et\u00a0al. (2017a). Attention is all you need. In: NIPS."},{"key":"1921_CR55","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., et\u00a0al. (2017b). Attention is all you need. In: NIPS."},{"key":"1921_CR56","doi-asserted-by":"crossref","unstructured":"Wang, L., Li, W., Li, W., et\u00a0al. (2018a). Appearance-and-relation networks for video classification. In: CVPR.","DOI":"10.1109\/CVPR.2018.00155"},{"key":"1921_CR57","doi-asserted-by":"crossref","unstructured":"Wang, S., Lu, H., & Deng, Z. (2019). Fast object detection in compressed video. In: ICCV.","DOI":"10.1109\/ICCV.2019.00720"},{"key":"1921_CR58","doi-asserted-by":"crossref","unstructured":"Wang, X., Girshick, R. B., Gupta, A., et\u00a0al. (2018b). Non-local neural networks. In: CVPR.","DOI":"10.1109\/CVPR.2018.00813"},{"key":"1921_CR59","doi-asserted-by":"crossref","unstructured":"Woo, S., Park, J., Lee, J., et\u00a0al. (2018). CBAM: Convolutional block attention module. In: ECCV.","DOI":"10.1007\/978-3-030-01234-2_1"},{"key":"1921_CR60","doi-asserted-by":"crossref","unstructured":"Wu, C., Zaheer, M., Hu, H., et\u00a0al. (2018). Compressed video action recognition. In: CVPR.","DOI":"10.1109\/CVPR.2018.00631"},{"key":"1921_CR61","unstructured":"Xie, S., Sun, C., Huang, J., et\u00a0al. (2017). Rethinking spatiotemporal feature learning for video understanding. arXiv."},{"key":"1921_CR62","unstructured":"Yu, Y., Lee, S., Kim, G., et\u00a0al. (2021). Self-supervised learning of compressed video representations. In: ICLR."},{"key":"1921_CR63","doi-asserted-by":"crossref","unstructured":"Yuan, Z., Stroud, J. C., Lu, T., et\u00a0al. (2017). Temporal action localization by structured maximal sums. In: CVPR.","DOI":"10.1109\/CVPR.2017.342"},{"key":"1921_CR64","doi-asserted-by":"crossref","unstructured":"Zeiler, M. D., & Fergus, R. (2014). Visualizing and understanding convolutional networks. In: ECCV.","DOI":"10.1007\/978-3-319-10590-1_53"},{"key":"1921_CR65","doi-asserted-by":"crossref","unstructured":"Zhang, B., Wang, L., Wang, Z., et\u00a0al. (2016). Real-time action recognition with enhanced motion vector CNNs. In: CVPR.","DOI":"10.1109\/CVPR.2016.297"},{"issue":"5","key":"1921_CR66","doi-asserted-by":"publisher","first-page":"2326","DOI":"10.1109\/TIP.2018.2791180","volume":"27","author":"B Zhang","year":"2018","unstructured":"Zhang, B., Wang, L., Wang, Z., et al. (2018). Real-time action recognition with deeply transferred motion vector CNNs. IEEE Transactions on Image Processing, 27(5), 2326\u20132339.","journal-title":"IEEE Transactions on Image Processing"},{"key":"1921_CR67","doi-asserted-by":"crossref","unstructured":"Zhang, H., Hao, Y., & Ngo, C. (2021). Token shift transformer for video classification. In: ACM MM.","DOI":"10.1145\/3474085.3475272"},{"key":"1921_CR68","doi-asserted-by":"crossref","unstructured":"Zhao, P., Xie, L., Ju, C., et\u00a0al. (2020). Bottom-up temporal action localization with mutual regularization. In: ECCV.","DOI":"10.1007\/978-3-030-58598-3_32"},{"key":"1921_CR69","doi-asserted-by":"crossref","unstructured":"Zhao, Y., Xiong, Y., Wang, L., et\u00a0al. (2017). Temporal action detection with structured segment networks. In: ICCV.","DOI":"10.1109\/ICCV.2017.317"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-023-01921-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11263-023-01921-8\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-023-01921-8.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,3,26]],"date-time":"2024-03-26T11:13:39Z","timestamp":1711451619000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11263-023-01921-8"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,11,1]]},"references-count":69,"journal-issue":{"issue":"4","published-print":{"date-parts":[[2024,4]]}},"alternative-id":["1921"],"URL":"https:\/\/doi.org\/10.1007\/s11263-023-01921-8","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,11,1]]},"assertion":[{"value":"5 January 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"25 September 2023","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"1 November 2023","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}