{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,3,28]],"date-time":"2025-03-28T02:52:28Z","timestamp":1743130348424,"version":"3.40.3"},"publisher-location":"Cham","reference-count":51,"publisher":"Springer Nature Switzerland","isbn-type":[{"type":"print","value":"9783031727740"},{"type":"electronic","value":"9783031727757"}],"license":[{"start":{"date-parts":[[2024,9,30]],"date-time":"2024-09-30T00:00:00Z","timestamp":1727654400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,9,30]],"date-time":"2024-09-30T00:00:00Z","timestamp":1727654400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025]]},"DOI":"10.1007\/978-3-031-72775-7_7","type":"book-chapter","created":{"date-parts":[[2024,9,29]],"date-time":"2024-09-29T07:01:50Z","timestamp":1727593310000},"page":"107-123","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Fine-Grained Dynamic Network for\u00a0Generic Event Boundary Detection"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0009-0000-4896-3293","authenticated-orcid":false,"given":"Ziwei","family":"Zheng","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3911-8263","authenticated-orcid":false,"given":"Lijun","family":"He","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8379-4915","authenticated-orcid":false,"given":"Le","family":"Yang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7566-1634","authenticated-orcid":false,"given":"Fan","family":"Li","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,9,30]]},"reference":[{"key":"7_CR1","doi-asserted-by":"crossref","unstructured":"Aakur, S.N., Sarkar, S.: A perceptual prediction framework for self supervised event segmentation. In: CVPR, pp. 1197\u20131206 (2019)","DOI":"10.1109\/CVPR.2019.00129"},{"key":"7_CR2","doi-asserted-by":"crossref","unstructured":"Alayrac, J.B., Laptev, I., Sivic, J., Lacoste-Julien, S.: Joint discovery of object states and manipulation actions. In: ICCV, pp. 2127\u20132136 (2017)","DOI":"10.1109\/ICCV.2017.234"},{"key":"7_CR3","doi-asserted-by":"crossref","unstructured":"Chen, Z., Li, Y., Bengio, S., Si, S.: You Look Twice: GaterNet for dynamic filter selection in CNNs. In: CVPR, pp. 9172\u20139180 (2019)","DOI":"10.1109\/CVPR.2019.00939"},{"key":"7_CR4","doi-asserted-by":"publisher","unstructured":"Cheng, F., Bertasius, G.: TallFormer: temporal action localization with a long-memory transformer. In: Avidan, S., Brostow, G., Cisse, M., Farinella, G.M., Hassner, T. (eds.) Computer Vision \u2013 ECCV 2022. ECCV 2022. LNCS, vol. 13694, pp. 503\u2013521. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19830-4_29","DOI":"10.1007\/978-3-031-19830-4_29"},{"key":"7_CR5","doi-asserted-by":"crossref","unstructured":"Dai, X., et al.: Dynamic head: unifying object detection heads with attentions. In: CVPR, pp. 7373\u20137382 (2021)","DOI":"10.1109\/CVPR46437.2021.00729"},{"key":"7_CR6","doi-asserted-by":"crossref","unstructured":"Deng, J., Dong, W., Socher, R., Li, L.J., Li, K., Fei-Fei, L.: ImageNet: a large-scale hierarchical image database. In: CVPR, pp. 248\u2013255. IEEE (2009)","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"7_CR7","unstructured":"Ding, L., Xu, C.: Weakly-supervised action segmentation with iterative soft boundary assignment. In: CVPR, pp. 6508\u20136516 (2018)"},{"key":"7_CR8","doi-asserted-by":"crossref","unstructured":"Farha, Y.A., Gall, J.: MS-TCN: multi-stage temporal convolutional network for action segmentation. In: CVPR, pp. 3575\u20133584 (2019)","DOI":"10.1109\/CVPR.2019.00369"},{"key":"7_CR9","doi-asserted-by":"crossref","unstructured":"Gygli, M.: Ridiculously fast shot boundary detection with fully convolutional neural networks. In: 2018 International Conference on Content-Based Multimedia Indexing (CBMI), pp.\u00a01\u20134. IEEE (2018)","DOI":"10.1109\/CBMI.2018.8516556"},{"issue":"11","key":"7_CR10","doi-asserted-by":"publisher","first-page":"7436","DOI":"10.1109\/TPAMI.2021.3117837","volume":"44","author":"Y Han","year":"2021","unstructured":"Han, Y., Huang, G., Song, S., Yang, L., Wang, H., Wang, Y.: Dynamic neural networks: a survey. IEEE TPAMI 44(11), 7436\u20137456 (2021)","journal-title":"IEEE TPAMI"},{"key":"7_CR11","doi-asserted-by":"crossref","unstructured":"Han, Y., et al.: Latency-aware unified dynamic networks for efficient image recognition. IEEE TPAMI (2024)","DOI":"10.1109\/TPAMI.2024.3393530"},{"key":"7_CR12","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. In: CVPR, pp. 770\u2013778 (2016)","DOI":"10.1109\/CVPR.2016.90"},{"key":"7_CR13","unstructured":"Hong, D., Li, C., Wen, L., Wang, X., Zhang, L.: Generic event boundary detection challenge at CVPR 2021 technical report: cascaded temporal attention network (CASTANET). arXiv preprint arXiv:2107.00239 (2021)"},{"key":"7_CR14","unstructured":"Howard, A.G., et al.: MobileNets: efficient convolutional neural networks for mobile vision applications. arXiv preprint arXiv:1704.04861 (2017)"},{"key":"7_CR15","doi-asserted-by":"crossref","unstructured":"Hu, J., Shen, L., Sun, G.: Squeeze-and-excitation networks. In: CVPR, pp. 7132\u20137141 (2018)","DOI":"10.1109\/CVPR.2018.00745"},{"key":"7_CR16","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"137","DOI":"10.1007\/978-3-319-46493-0_9","volume-title":"Computer Vision \u2013 ECCV 2016","author":"D-A Huang","year":"2016","unstructured":"Huang, D.-A., Fei-Fei, L., Niebles, J.C.: Connectionist temporal modeling for weakly supervised action labeling. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9908, pp. 137\u2013153. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46493-0_9"},{"key":"7_CR17","unstructured":"Huang, G., Chen, D., Li, T., Wu, F., van\u00a0der Maaten, L., Weinberger, K.: Multi-scale dense networks for resource efficient image classification. In: ICLR (2018)"},{"key":"7_CR18","unstructured":"Huynh, V.T., Yang, H.J., Lee, G.S., Kim, S.H.: Generic event boundary detection in video with pyramid features. arXiv preprint arXiv:2301.04288 (2023)"},{"key":"7_CR19","unstructured":"Ioffe, S., Szegedy, C.: Batch normalization: accelerating deep network training by reducing internal covariate shift. In: ICML, pp. 448\u2013456. PMLR (2015)"},{"key":"7_CR20","unstructured":"Kang, H., Kim, J., Kim, K., Kim, T., Kim, S.J.: Winning the CVPR\u20192021 kinetics-GEBD challenge: contrastive learning approach. arXiv preprint arXiv:2106.11549 (2021)"},{"key":"7_CR21","doi-asserted-by":"crossref","unstructured":"Kang, H., Kim, J., Kim, T., Kim, S.J.: UBoCo: unsupervised boundary contrastive learning for generic event boundary detection. In: CVPR, pp. 20073\u201320082 (2022)","DOI":"10.1109\/CVPR52688.2022.01944"},{"key":"7_CR22","unstructured":"Kingma, D.P., Ba, J.: Adam: a method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014)"},{"key":"7_CR23","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"36","DOI":"10.1007\/978-3-319-46487-9_3","volume-title":"Computer Vision \u2013 ECCV 2016","author":"C Lea","year":"2016","unstructured":"Lea, C., Reiter, A., Vidal, R., Hager, G.D.: Segmental spatiotemporal CNNs for fine-grained action segmentation. In: Leibe, B., Matas, J., Sebe, N., Welling, M. (eds.) ECCV 2016. LNCS, vol. 9907, pp. 36\u201352. Springer, Cham (2016). https:\/\/doi.org\/10.1007\/978-3-319-46487-9_3"},{"key":"7_CR24","doi-asserted-by":"crossref","unstructured":"Lei, P., Todorovic, S.: Temporal deformable residual networks for action segmentation in videos. In: CVPR, pp. 6742\u20136751 (2018)","DOI":"10.1109\/CVPR.2018.00705"},{"key":"7_CR25","unstructured":"Li, C., et al.: Structured context transformer for generic event boundary detection. arXiv preprint arXiv:2206.02985 (2022)"},{"key":"7_CR26","doi-asserted-by":"crossref","unstructured":"Li, C., Wang, X., Wen, L., Hong, D., Luo, T., Zhang, L.: End-to-end compressed video representation learning for generic event boundary detection. In: CVPR, pp. 13967\u201313976 (2022)","DOI":"10.1109\/CVPR52688.2022.01358"},{"key":"7_CR27","doi-asserted-by":"crossref","unstructured":"Li, Y., et al.: Learning dynamic routing for semantic segmentation. In: CVPR, pp. 8553\u20138562 (2020)","DOI":"10.1109\/CVPR42600.2020.00858"},{"key":"7_CR28","doi-asserted-by":"crossref","unstructured":"Lin, T., Liu, X., Li, X., Ding, E., Wen, S.: BMN: boundary-matching network for temporal action proposal generation. In: ICCV, pp. 3889\u20133898 (2019)","DOI":"10.1109\/ICCV.2019.00399"},{"key":"7_CR29","doi-asserted-by":"crossref","unstructured":"Mao, X., et al.: Towards robust vision transformer. In: CVPR, pp. 12042\u201312051 (2022)","DOI":"10.1109\/CVPR52688.2022.01173"},{"key":"7_CR30","doi-asserted-by":"crossref","unstructured":"Ming, Q., Zhou, Z., Miao, L., Zhang, H., Li, L.: Dynamic anchor learning for arbitrary-oriented object detection. In: AAAI, vol.\u00a035, pp. 2355\u20132363 (2021)","DOI":"10.1609\/aaai.v35i3.16336"},{"key":"7_CR31","doi-asserted-by":"crossref","unstructured":"Nag, S., Zhu, X., Song, Y.Z., Xiang, T.: Post-processing temporal action detection. In: CVPR, pp. 18837\u201318845 (2023)","DOI":"10.1109\/CVPR52729.2023.01806"},{"issue":"6","key":"7_CR32","doi-asserted-by":"publisher","first-page":"608","DOI":"10.1002\/wcs.133","volume":"2","author":"GA Radvansky","year":"2011","unstructured":"Radvansky, G.A., Zacks, J.M.: Event perception. Wiley Interdisc. Rev. Cogn. Sci. 2(6), 608\u2013620 (2011)","journal-title":"Wiley Interdisc. Rev. Cogn. Sci."},{"key":"7_CR33","doi-asserted-by":"crossref","unstructured":"Shao, D., Zhao, Y., Dai, B., Lin, D.: Intra-and inter-action understanding via temporal action parsing. In: CVPR, pp. 730\u2013739 (2020)","DOI":"10.1109\/CVPR42600.2020.00081"},{"key":"7_CR34","doi-asserted-by":"crossref","unstructured":"Shi, D., Zhong, Y., Cao, Q., Ma, L., Li, J., Tao, D.: TriDet: temporal action detection with relative boundary modeling. In: CVPR, pp. 18857\u201318866 (2023)","DOI":"10.1109\/CVPR52729.2023.01808"},{"key":"7_CR35","doi-asserted-by":"crossref","unstructured":"Shou, M.Z., Lei, S.W., Wang, W., Ghadiyaram, D., Feiszli, M.: Generic event boundary detection: a benchmark for event segmentation. In: ICCV, pp. 8075\u20138084 (2021)","DOI":"10.1109\/ICCV48922.2021.00797"},{"key":"7_CR36","unstructured":"Sou\u010dek, T., Moravec, J., Loko\u010d, J.: TransNet: a deep network for fast detection of common shot transitions. arXiv preprint arXiv:1906.03363 (2019)"},{"issue":"10","key":"7_CR37","doi-asserted-by":"publisher","first-page":"12506","DOI":"10.1109\/TPAMI.2023.3283067","volume":"45","author":"J Tan","year":"2023","unstructured":"Tan, J., Wang, Y., Wu, G., Wang, L.: Temporal perceiver: a general architecture for arbitrary boundary detection. IEEE TPAMI 45(10), 12506\u201312520 (2023)","journal-title":"IEEE TPAMI"},{"key":"7_CR38","doi-asserted-by":"crossref","unstructured":"Tang, J., Liu, Z., Qian, C., Wu, W., Wang, L.: Progressive attention on multi-level dense difference maps for generic event boundary detection. In: CVPR, pp. 3355\u20133364 (2022)","DOI":"10.1109\/CVPR52688.2022.00335"},{"key":"7_CR39","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"577","DOI":"10.1007\/978-3-030-20887-5_36","volume-title":"Computer Vision \u2013 ACCV 2018","author":"S Tang","year":"2019","unstructured":"Tang, S., Feng, L., Kuang, Z., Chen, Y., Zhang, W.: Fast video shot transition localization with deep structured models. In: Jawahar, C.V., Li, H., Mori, G., Schindler, K. (eds.) ACCV 2018. LNCS, vol. 11361, pp. 577\u2013592. Springer, Cham (2019). https:\/\/doi.org\/10.1007\/978-3-030-20887-5_36"},{"key":"7_CR40","doi-asserted-by":"crossref","unstructured":"Tran, D., Wang, H., Torresani, L., Feiszli, M.: Video classification with channel-separated convolutional networks. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 5552\u20135561 (2019)","DOI":"10.1109\/ICCV.2019.00565"},{"key":"7_CR41","unstructured":"Trockman, A., Kolter, J.Z.: Patches are all you need? arXiv preprint arXiv:2201.09792 (2022)"},{"issue":"7","key":"7_CR42","first-page":"5753","volume":"34","author":"J Wang","year":"2024","unstructured":"Wang, J., Li, F., An, Y., Zhang, X., Sun, H.: Towards robust LiDAR-camera fusion in BEV space via mutual deformable attention and temporal aggregation. IEEE TCSVT 34(7), 5753\u20135764 (2024)","journal-title":"IEEE TCSVT"},{"key":"7_CR43","doi-asserted-by":"crossref","unstructured":"Wang, X., Yu, F., Dou, Z.Y., Darrell, T., Gonzalez, J.E.: SkipNet: learning dynamic routing in convolutional networks. In: ECCV, pp. 409\u2013424 (2018)","DOI":"10.1007\/978-3-030-01261-8_25"},{"key":"7_CR44","doi-asserted-by":"crossref","unstructured":"Wang, Y., Chen, Z., Jiang, H., Song, S., Han, Y., Huang, G.: Adaptive focus for efficient video recognition. In: ICCV, pp. 16249\u201316258 (2021)","DOI":"10.1109\/ICCV48922.2021.01594"},{"key":"7_CR45","doi-asserted-by":"crossref","unstructured":"Wang, Y., et al.: AdaFocus V2: end-to-end training of spatial dynamic networks for video recognition. In: CVPR, pp. 20030\u201320040. IEEE (2022)","DOI":"10.1109\/CVPR52688.2022.01943"},{"key":"7_CR46","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"531","DOI":"10.1007\/978-3-030-58452-8_31","volume-title":"Computer Vision \u2013 ECCV 2020","author":"Z Xie","year":"2020","unstructured":"Xie, Z., Zhang, Z., Zhu, X., Huang, G., Lin, S.: Spatially adaptive inference with stochastic feature sampling and interpolation. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12346, pp. 531\u2013548. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58452-8_31"},{"key":"7_CR47","doi-asserted-by":"crossref","unstructured":"Yang, L., Han, Y., Chen, X., Song, S., Dai, J., Huang, G.: Resolution adaptive networks for efficient inference. In: CVPR, pp. 2369\u20132378 (2020)","DOI":"10.1109\/CVPR42600.2020.00244"},{"key":"7_CR48","doi-asserted-by":"crossref","unstructured":"Yang, L., et al.: CondenseNet V2: sparse feature reactivation for deep networks. In: CVPR, pp. 3569\u20133578 (2021)","DOI":"10.1109\/CVPR46437.2021.00357"},{"issue":"1","key":"7_CR49","doi-asserted-by":"publisher","first-page":"332","DOI":"10.1109\/TCDS.2023.3274214","volume":"16","author":"L Yang","year":"2023","unstructured":"Yang, L., Zheng, Z., Wang, J., Song, S., Huang, G., Li, F.: AdaDet: an adaptive object detection system based on early-exit neural networks. IEEE Trans. Cogn. Dev. Syst. 16(1), 332\u2013345 (2023)","journal-title":"IEEE Trans. Cogn. Dev. Syst."},{"key":"7_CR50","doi-asserted-by":"publisher","unstructured":"Zhang, C.L., Wu, J., Li, Y.: ActionFormer: localizing moments of actions with transformers. In: Avidan, S., Brostow, G., Cisse, M., Farinella, G.M., Hassner, T. (eds.) Computer Vision \u2013 ECCV 2022. ECCV 2022. LNCS, vol. 13664, pp. 492\u2013510. Springer, Cham (2022). https:\/\/doi.org\/10.1007\/978-3-031-19772-7_29","DOI":"10.1007\/978-3-031-19772-7_29"},{"issue":"2","key":"7_CR51","first-page":"695","volume":"34","author":"Z Zheng","year":"2024","unstructured":"Zheng, Z., et al.: Dynamic spatial focus for efficient compressed video action recognition. IEEE TCSVT 34(2), 695\u2013708 (2024)","journal-title":"IEEE TCSVT"}],"container-title":["Lecture Notes in Computer Science","Computer Vision \u2013 ECCV 2024"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-72775-7_7","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,9,29]],"date-time":"2024-09-29T07:38:02Z","timestamp":1727595482000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-72775-7_7"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,9,30]]},"ISBN":["9783031727740","9783031727757"],"references-count":51,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-72775-7_7","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"type":"print","value":"0302-9743"},{"type":"electronic","value":"1611-3349"}],"subject":[],"published":{"date-parts":[[2024,9,30]]},"assertion":[{"value":"30 September 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"ECCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Computer Vision","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Milan","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Italy","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"29 September 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"4 October 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"eccv2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/eccv2024.ecva.net\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}