{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,6]],"date-time":"2026-03-06T18:41:07Z","timestamp":1772822467761,"version":"3.50.1"},"reference-count":52,"publisher":"Springer Science and Business Media LLC","issue":"5","license":[{"start":{"date-parts":[[2022,12,21]],"date-time":"2022-12-21T00:00:00Z","timestamp":1671580800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2022,12,21]],"date-time":"2022-12-21T00:00:00Z","timestamp":1671580800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100001809","name":"NSFC","doi-asserted-by":"crossref","award":["62031023"],"award-info":[{"award-number":["62031023"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"crossref"}]},{"DOI":"10.13039\/501100001809","name":"NSFC","doi-asserted-by":"crossref","award":["62031023"],"award-info":[{"award-number":["62031023"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Neural Process Lett"],"published-print":{"date-parts":[[2023,10]]},"DOI":"10.1007\/s11063-022-11133-9","type":"journal-article","created":{"date-parts":[[2022,12,21]],"date-time":"2022-12-21T16:03:30Z","timestamp":1671638610000},"page":"6181-6197","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":11,"title":["Dilated Transformer with Feature Aggregation Module for Action Segmentation"],"prefix":"10.1007","volume":"55","author":[{"given":"Zexing","family":"Du","sequence":"first","affiliation":[]},{"given":"Qing","family":"Wang","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2022,12,21]]},"reference":[{"key":"11133_CR1","doi-asserted-by":"crossref","unstructured":"Carreira J, Zisserman A (2017) Quo vadis, action recognition? A new model and the kinetics dataset. In: CVPR, pp 6299\u20136308","DOI":"10.1109\/CVPR.2017.502"},{"key":"11133_CR2","doi-asserted-by":"crossref","unstructured":"Arnab A, Dehghani M, Heigold G, Sun C, Lu\u010di\u0107 M, Schmid C (2021) Vivit: a video vision transformer. In: ICCV, pp 6836\u20136846","DOI":"10.1109\/ICCV48922.2021.00676"},{"key":"11133_CR3","doi-asserted-by":"crossref","unstructured":"Feichtenhofer C, Fan H, Malik J, He K (2019) Slowfast networks for video recognition. In: ICCV, pp 6202\u20136211","DOI":"10.1109\/ICCV.2019.00630"},{"key":"11133_CR4","unstructured":"Simonyan K, Zisserman A (2014) Two-stream convolutional networks for action recognition in videos. arXiv:1406.2199"},{"key":"11133_CR5","doi-asserted-by":"crossref","unstructured":"Wang L, Xiong Y, Wang Z, Qiao Y, Lin D, Tang X, Van\u00a0Gool L (2016) Temporal segment networks: towards good practices for deep action recognition. In: ECCV, pp 20\u201336","DOI":"10.1007\/978-3-319-46484-8_2"},{"key":"11133_CR6","doi-asserted-by":"crossref","unstructured":"Qiu Z, Yao T, Mei T (2017) Learning spatio-temporal representation with pseudo-3d residual networks. In: ICCV, pp 5533\u20135541","DOI":"10.1109\/ICCV.2017.590"},{"issue":"8","key":"11133_CR7","doi-asserted-by":"publisher","first-page":"745","DOI":"10.1109\/TPAMI.2000.868676","volume":"22","author":"RT Collins","year":"2000","unstructured":"Collins RT, Lipton AJ, Kanade T (2000) Introduction to the special section on video surveillance. TPAMI 22(8):745\u2013746. https:\/\/doi.org\/10.1109\/TPAMI.2000.868676","journal-title":"TPAMI"},{"issue":"10","key":"11133_CR8","doi-asserted-by":"publisher","first-page":"983","DOI":"10.1007\/s00371-012-0752-6","volume":"29","author":"S Vishwakarma","year":"2013","unstructured":"Vishwakarma S, Agrawal A (2013) A survey on activity recognition and behavior understanding in video surveillance. Vis Comput 29(10):983\u20131009","journal-title":"Vis Comput"},{"key":"11133_CR9","unstructured":"Lee YJ, Ghosh J, Grauman K (2012) Discovering important people and objects for egocentric video summarization. In: CVPR, pp 1346\u20131353"},{"issue":"5","key":"11133_CR10","first-page":"907","volume":"7","author":"Y-F Ma","year":"2005","unstructured":"Ma Y-F, Hua X-S, Lu L, Zhang H-J (2005) A generic framework of user attention model and its application in video summarization. TMM 7(5):907\u2013919","journal-title":"TMM"},{"key":"11133_CR11","doi-asserted-by":"crossref","unstructured":"Feichtenhofer C, Pinz A, Wildes RP (2017) Spatiotemporal multiplier networks for video action recognition. In: CVPR, pp 4768\u20134777","DOI":"10.1109\/CVPR.2017.787"},{"key":"11133_CR12","doi-asserted-by":"crossref","unstructured":"Wang X, Girshick R, Gupta A, He K (2018) Non-local neural networks. In: CVPR, pp 7794\u20137803","DOI":"10.1109\/CVPR.2018.00813"},{"key":"11133_CR13","doi-asserted-by":"crossref","unstructured":"Rohrbach M, Amin S, Andriluka M, Schiele B (2012) A database for fine grained activity detection of cooking activities. In: CVPR, pp 1194\u20131201","DOI":"10.1109\/CVPR.2012.6247801"},{"key":"11133_CR14","unstructured":"Karaman S, Seidenari L, Del\u00a0Bimbo A (2014) Fast saliency based pooling of fisher encoded dense trajectories. In: ECCV THUMOS workshop, p 5"},{"key":"11133_CR15","unstructured":"Oneata D, Verbeek J, Schmid C (2014) The lear submission at thumos 2014. In: ECCV THUMOS challenge"},{"key":"11133_CR16","doi-asserted-by":"crossref","unstructured":"Kuehne H, Gall J, Serre T (2016) An end-to-end generative framework for video segmentation and recognition. In: WACV, pp 1\u20138","DOI":"10.1109\/WACV.2016.7477701"},{"key":"11133_CR17","doi-asserted-by":"crossref","unstructured":"Kuehne H, Arslan A, Serre T (2014) The language of actions: recovering the syntax and semantics of goal-directed human activities. In: CVPR, pp 780\u2013787","DOI":"10.1109\/CVPR.2014.105"},{"key":"11133_CR18","doi-asserted-by":"crossref","unstructured":"Lea C, Reiter A, Vidal R, Hager GD (2016) Segmental spatiotemporal cnns for fine-grained action segmentation. In: ECCV, pp 36\u201352","DOI":"10.1007\/978-3-319-46487-9_3"},{"key":"11133_CR19","doi-asserted-by":"crossref","unstructured":"Singh B, Marks TK, Jones M, Tuzel O, Shao M (2016) A multi-stream bi-directional recurrent neural network for fine-grained action detection. In: CVPR, pp 1961\u20131970","DOI":"10.1109\/CVPR.2016.216"},{"key":"11133_CR20","doi-asserted-by":"crossref","unstructured":"Farha YA, Gall J (2019) Ms-tcn: multi-stage temporal convolutional network for action segmentation. In: CVPR, pp 3575\u20133584","DOI":"10.1109\/CVPR.2019.00369"},{"key":"11133_CR21","doi-asserted-by":"crossref","unstructured":"Li S-J, AbuFarha Y, Liu Y, Cheng M-M, Gall J (2020) Ms-tcn++: multi-stage temporal convolutional network for action segmentation. TPAMI","DOI":"10.1109\/CVPR.2019.00369"},{"key":"11133_CR22","doi-asserted-by":"crossref","unstructured":"Wang Z, Gao Z, Wang L, Li Z, Wu G (2020) Boundary-aware cascade networks for temporal action segmentation. In: ECCV, pp 34\u201351","DOI":"10.1007\/978-3-030-58595-2_3"},{"key":"11133_CR23","doi-asserted-by":"crossref","unstructured":"Huang Y, Sugano Y, Sato Y (2020) Improving action segmentation via graph-based temporal reasoning. In: CVPR","DOI":"10.1109\/CVPR42600.2020.01404"},{"key":"11133_CR24","doi-asserted-by":"crossref","unstructured":"Wang D, Hu D, Li X, Dou D (2021) Temporal relational modeling with self-supervision for action segmentation. In: AAAI, vol 35, pp 2729\u20132737","DOI":"10.1609\/aaai.v35i4.16377"},{"key":"11133_CR25","unstructured":"Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser L, Polosukhin I (2017) Attention is all you need. In: NeurIPS"},{"key":"11133_CR26","unstructured":"Bertasius G, Wang H, Torresani L (2021) Is space-time attention all you need for video understanding? In: ICML"},{"key":"11133_CR27","unstructured":"Yi F, Wen H, Jiang T (2021) Asformer: transformer for action segmentation. arXiv:2110.08568"},{"key":"11133_CR28","doi-asserted-by":"crossref","unstructured":"Ishikawa Y, Kasai S, Aoki Y, Kataoka H (2021) Alleviating over-segmentation errors by detecting action boundaries. In: WACV, pp 2322\u20132331","DOI":"10.1109\/WACV48630.2021.00237"},{"key":"11133_CR29","doi-asserted-by":"crossref","unstructured":"Stein S, McKenna SJ (2013) Combining embedded accelerometers with computer vision for recognizing food preparation activities. In: UbiComp, pp 729\u2013738","DOI":"10.1145\/2493432.2493482"},{"key":"11133_CR30","doi-asserted-by":"crossref","unstructured":"Fathi A, Ren X, Rehg JM (2011) Learning to recognize objects in egocentric activities. In: CVPR, pp 3281\u20133288","DOI":"10.1109\/CVPR.2011.5995444"},{"key":"11133_CR31","doi-asserted-by":"crossref","unstructured":"Fathi A, Rehg JM (2013) Modeling actions through state changes. In: CVPR, pp 2579\u20132586","DOI":"10.1109\/CVPR.2013.333"},{"key":"11133_CR32","doi-asserted-by":"crossref","unstructured":"Cheng Y, Fan Q, Pankanti S, Choudhary A (2014) Temporal sequence modeling for video event detection. In: CVPR, pp 2227\u20132234","DOI":"10.1109\/CVPR.2014.286"},{"key":"11133_CR33","doi-asserted-by":"crossref","unstructured":"Richard A, Gall J (2016) Temporal action detection using a statistical language model. In: CVPR, pp 3131\u20133140","DOI":"10.1109\/CVPR.2016.341"},{"key":"11133_CR34","unstructured":"Ding L, Xu C (2018) Weakly-supervised action segmentation with iterative soft boundary assignment. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 6508\u20136516"},{"key":"11133_CR35","doi-asserted-by":"crossref","unstructured":"Richard A, Kuehne H, Gall J (2017) Weakly supervised action learning with RNN based fine-to-coarse modeling. In: CVPR, pp 754\u2013763","DOI":"10.1109\/CVPR.2017.140"},{"key":"11133_CR36","doi-asserted-by":"crossref","unstructured":"Fayyaz M, Gall J (2020) Sct: set constrained temporal transformer for set supervised action segmentation. In: Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pp 501\u2013510","DOI":"10.1109\/CVPR42600.2020.00058"},{"key":"11133_CR37","doi-asserted-by":"publisher","first-page":"107952","DOI":"10.1016\/j.patcog.2021.107952","volume":"116","author":"J Zhang","year":"2021","unstructured":"Zhang J, Cao Y, Wu Q (2021) Vector of locally and adaptively aggregated descriptors for image feature representation. Pattern Recogn 116:107952","journal-title":"Pattern Recogn"},{"key":"11133_CR38","doi-asserted-by":"crossref","unstructured":"Ishihara K, Nakano G, Inoshita T (2022) Mcfm: Mutual cross fusion module for intermediate fusion-based action segmentation. In: 2022 IEEE international conference on image processing (ICIP). IEEE, pp 1701\u20131705","DOI":"10.1109\/ICIP46576.2022.9897444"},{"key":"11133_CR39","unstructured":"van\u00a0den Oord A, Dieleman S, Zen H, Simonyan K, Vinyals O, Graves A, Kalchbrenner N, Senior A, Kavukcuoglu K (2016) Wavenet: A generative model for raw audio. In: 9th ISCA Speech Synthesis Workshop"},{"key":"11133_CR40","doi-asserted-by":"crossref","unstructured":"Lea C, Flynn MD, Vidal R, Reiter A, Hager GD (2017) Temporal convolutional networks for action segmentation and detection. In: CVPR, pp 156\u2013165","DOI":"10.1109\/CVPR.2017.113"},{"key":"11133_CR41","doi-asserted-by":"crossref","unstructured":"Lei P, Todorovic S (2018) Temporal deformable residual networks for action segmentation in videos. In: CVPR, pp 6742\u20136751","DOI":"10.1109\/CVPR.2018.00705"},{"key":"11133_CR42","doi-asserted-by":"crossref","unstructured":"Gao S-H, Han Q, Li Z-Y, Peng P, Wang L, Cheng M-M (2021) Global2local: efficient structure search for video action segmentation. In: CVPR","DOI":"10.1109\/CVPR46437.2021.01653"},{"key":"11133_CR43","doi-asserted-by":"crossref","unstructured":"Ishikawa Y, Kasai S, Aoki Y, Kataoka H (2021) Alleviating over-segmentation errors by detecting action boundaries. In: WACV, pp 2322\u20132331","DOI":"10.1109\/WACV48630.2021.00237"},{"key":"11133_CR44","doi-asserted-by":"crossref","unstructured":"Ahn H, Lee D (2021) Refining action segmentation with hierarchical video representations. In: ICCV, pp 16302\u201316310","DOI":"10.1109\/ICCV48922.2021.01599"},{"key":"11133_CR45","unstructured":"Dosovitskiy A, Beyer L, Kolesnikov A, Weissenborn D, Zhai X, Unterthiner T, Dehghani M, Minderer M, Heigold G, Gelly S, Uszkoreit J, Houlsby N (2021) An image is worth 16x16 words: transformers for image recognition at scale. In: ICLR"},{"issue":"12","key":"11133_CR46","doi-asserted-by":"publisher","first-page":"4467","DOI":"10.1109\/TCSVT.2019.2947482","volume":"30","author":"J Yu","year":"2019","unstructured":"Yu J, Li J, Yu Z, Huang Q (2019) Multimodal transformer with multi-view visual representation for image captioning. IEEE Trans Circuits Syst Video Technol 30(12):4467\u20134480","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"11133_CR47","unstructured":"Kitaev N, Kaiser L, Levskaya A (2020) Reformer: the efficient transformer. In: ICLR"},{"key":"11133_CR48","unstructured":"Ridley J, Coskun H, Tan DJ, Navab N, Tombari F (2022) Transformers in action: weakly supervised action segmentation. arXiv:2201.05675"},{"key":"11133_CR49","doi-asserted-by":"crossref","unstructured":"Li M, Chen L, Duan Y, Hu Z, Feng J, Zhou J, Lu J (2022) Bridge-prompt: towards ordinal action understanding in instructional videos. In: CVPR, pp 19880\u201319889","DOI":"10.1109\/CVPR52688.2022.01926"},{"key":"11133_CR50","doi-asserted-by":"crossref","unstructured":"Chen M-H, Li B, Bao Y, AlRegib G, Kira Z (2020) Action segmentation with joint self-supervised temporal domain adaptation. In: CVPR, pp 9454\u20139463","DOI":"10.1109\/CVPR42600.2020.00947"},{"key":"11133_CR51","doi-asserted-by":"crossref","unstructured":"Ahn H, Lee D (2021) Refining action segmentation with hierarchical video representations. In: ICCV, pp 16302\u201316310","DOI":"10.1109\/ICCV48922.2021.01599"},{"issue":"3","key":"11133_CR52","doi-asserted-by":"publisher","first-page":"346","DOI":"10.1007\/s11263-015-0851-8","volume":"119","author":"M Rohrbach","year":"2016","unstructured":"Rohrbach M, Rohrbach A, Regneri M, Amin S, Andriluka M, Pinkal M, Schiele B (2016) Recognizing fine-grained and composite activities using hand-centric features and script data. Int J Comput Vis 119(3):346\u2013373","journal-title":"Int J Comput Vis"}],"container-title":["Neural Processing Letters"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11063-022-11133-9.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11063-022-11133-9\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11063-022-11133-9.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,9,29]],"date-time":"2023-09-29T16:14:40Z","timestamp":1696004080000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11063-022-11133-9"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,12,21]]},"references-count":52,"journal-issue":{"issue":"5","published-print":{"date-parts":[[2023,10]]}},"alternative-id":["11133"],"URL":"https:\/\/doi.org\/10.1007\/s11063-022-11133-9","relation":{},"ISSN":["1370-4621","1573-773X"],"issn-type":[{"value":"1370-4621","type":"print"},{"value":"1573-773X","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022,12,21]]},"assertion":[{"value":"16 December 2022","order":1,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"21 December 2022","order":2,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}