{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,8]],"date-time":"2026-06-08T15:57:39Z","timestamp":1780934259821,"version":"3.54.1"},"reference-count":40,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100013061","name":"Jilin Scientific and Technological Development Program","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100013061","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Pattern Recognition"],"published-print":{"date-parts":[[2026,12]]},"DOI":"10.1016\/j.patcog.2026.114035","type":"journal-article","created":{"date-parts":[[2026,5,22]],"date-time":"2026-05-22T23:30:06Z","timestamp":1779492606000},"page":"114035","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"PA","title":["Feature-based optimization enables 2D CNNs for efficient spatio-temporal perception"],"prefix":"10.1016","volume":"180","author":[{"ORCID":"https:\/\/orcid.org\/0009-0007-4904-6818","authenticated-orcid":false,"given":"Shilin","family":"Chen","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6466-8876","authenticated-orcid":false,"given":"Xingwang","family":"Wang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xiaohui","family":"Wei","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yafeng","family":"Sun","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kun","family":"Yang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"key":"10.1016\/j.patcog.2026.114035_b1","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.110985","article-title":"Dynamic convolutional time series forecasting based on adaptive temporal bilateral filtering","volume":"158","author":"Zhang","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.114035_b2","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2025.111483","article-title":"Unsupervised feature selection via maximum relevance and minimum global redundancy","volume":"164","author":"Zuo","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.114035_b3","series-title":"CVPR 2017, Honolulu, HI, USA, July 21-26, 2017","first-page":"4724","article-title":"Quo vadis, action recognition? A new model and the kinetics dataset","author":"Carreira","year":"2017"},{"key":"10.1016\/j.patcog.2026.114035_b4","series-title":"ICML 2021, 18-24 July 2021, Virtual Event","first-page":"813","article-title":"Is space-time attention all you need for video understanding?","volume":"vol. 139","author":"Bertasius","year":"2021"},{"key":"10.1016\/j.patcog.2026.114035_b5","series-title":"ICCV 2021, Montreal, QC, Canada, October 10-17, 2021","first-page":"9992","article-title":"Swin transformer: Hierarchical vision transformer using shifted windows","author":"Liu","year":"2021"},{"issue":"5","key":"10.1016\/j.patcog.2026.114035_b6","first-page":"2760","article-title":"TSM: Temporal shift module for efficient and scalable video understanding on edge devices","volume":"44","author":"Lin","year":"2022","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.patcog.2026.114035_b7","series-title":"CVPR 2021, Virtual, June 19-25, 2021","first-page":"1895","article-title":"TDN: Temporal difference networks for efficient action recognition","author":"Wang","year":"2021"},{"key":"10.1016\/j.patcog.2026.114035_b8","article-title":"STAN: Spatio-temporal analysis network for efficient video action recognition","author":"Chen","year":"2024","journal-title":"Expert Syst. Appl."},{"key":"10.1016\/j.patcog.2026.114035_b9","series-title":"CVPR 2021, Virtual, June 19-25, 2021","first-page":"13214","article-title":"ACTION-Net: Multipath excitation for action recognition","author":"Wang","year":"2021"},{"issue":"9","key":"10.1016\/j.patcog.2026.114035_b10","doi-asserted-by":"crossref","first-page":"5174","DOI":"10.1109\/TCSVT.2023.3250646","article-title":"Spatio-temporal adaptive network with bidirectional temporal difference for action recognition","volume":"33","author":"Li","year":"2023","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.patcog.2026.114035_b11","doi-asserted-by":"crossref","unstructured":"Yuwen Xiong, Zhiqi Li, Yuntao Chen, Feng Wang, Xizhou Zhu, Jiapeng Luo, Wenhai Wang, Tong Lu, Hongsheng Li, Yu Qiao, Lewei Lu, Jie Zhou, Jifeng Dai, Efficient Deformable ConvNets: Rethinking Dynamic and Sparse Operator for Vision Applications, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR, 2024, pp. 5652\u20135661.","DOI":"10.1109\/CVPR52733.2024.00540"},{"key":"10.1016\/j.patcog.2026.114035_b12","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2023.110090","article-title":"Gait feature learning via spatio-temporal two-branch networks","volume":"147","author":"Chen","year":"2024","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.114035_b13","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2025.111562","article-title":"HMSFT: Hierarchical multi-scale spatial-frequency-temporal collaborative transformer for 3D human pose estimation","volume":"164","author":"Zhang","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.114035_b14","series-title":"ICLR 2021, Virtual Event, Austria, May 3-7, 2021","article-title":"An image is worth 16x16 words: Transformers for image recognition at scale","author":"Dosovitskiy","year":"2021"},{"key":"10.1016\/j.patcog.2026.114035_b15","series-title":"ECCV 2018, Munich, Germany, September 8-14, 2018, Proceedings, Part II","first-page":"713","article-title":"ECO: Efficient convolutional network for online video understanding","volume":"vol. 11206","author":"Zolfaghari","year":"2018"},{"key":"10.1016\/j.patcog.2026.114035_b16","series-title":"CVPR 2020, Seattle, WA, USA, June 13-19, 2020","first-page":"906","article-title":"TEA: Temporal excitation and aggregation for action recognition","author":"Li","year":"2020"},{"key":"10.1016\/j.patcog.2026.114035_b17","series-title":"ICCV 2019, Seoul, Korea (South), October 27 - November 2, 2019","first-page":"2000","article-title":"STM: SpatioTemporal and motion encoding for action recognition","author":"Jiang","year":"2019"},{"key":"10.1016\/j.patcog.2026.114035_b18","series-title":"CVPR 2020, Seattle, WA, USA, June 13-19, 2020","first-page":"11531","article-title":"ECA-Net: Efficient channel attention for deep convolutional neural networks","author":"Wang","year":"2020"},{"key":"10.1016\/j.patcog.2026.114035_b19","series-title":"CVPR 2021, Virtual, June 19-25, 2021","first-page":"13713","article-title":"Coordinate attention for efficient mobile network design","author":"Hou","year":"2021"},{"key":"10.1016\/j.patcog.2026.114035_b20","series-title":"ECCV 2022, Tel Aviv, Israel, October 23-27, 2022, Proceedings, Part XXV","first-page":"259","article-title":"TDAM: Top-down attention module for contextually guided feature selection in CNNs","volume":"vol. 13685","author":"Jaiswal","year":"2022"},{"key":"10.1016\/j.patcog.2026.114035_b21","doi-asserted-by":"crossref","first-page":"4104","DOI":"10.1109\/TIP.2022.3180585","article-title":"Motion-driven visual tempo learning for video-based action recognition","volume":"31","author":"Liu","year":"2022","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.patcog.2026.114035_b22","series-title":"CVPR 2016, Las Vegas, NV, USA, June 27-30, 2016","first-page":"770","article-title":"Deep residual learning for image recognition","author":"He","year":"2016"},{"key":"10.1016\/j.patcog.2026.114035_b23","series-title":"ICCV 2021, Montreal, QC, Canada, October 10-17, 2021","first-page":"10337","article-title":"Refining activation downsampling with SoftPool","author":"Stergiou","year":"2021"},{"key":"10.1016\/j.patcog.2026.114035_b24","series-title":"AAAI 2020, IAAI 2020, EAAI 2020, New York, NY, USA, February 7-12, 2020","first-page":"4819","article-title":"Instance enhancement batch normalization: An adaptive regulator of batch noise","author":"Liang","year":"2020"},{"key":"10.1016\/j.patcog.2026.114035_b25","series-title":"AAAI 2024, IAAI 2024, EAAI 2014, February 20-27, 2024, Vancouver, Canada","first-page":"3100","article-title":"EAN: An efficient attention module guided by normalization for deep neural networks","author":"Li","year":"2024"},{"key":"10.1016\/j.patcog.2026.114035_b26","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2025.111642","article-title":"Scene-enhanced multi-scale temporal aware network for video moment retrieval","volume":"165","author":"Wang","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.114035_b27","series-title":"ECCV 2016, Amsterdam, the Netherlands, October 11-14, 2016, Proceedings, Part VIII","first-page":"20","article-title":"Temporal segment networks: Towards good practices for deep action recognition","volume":"vol. 9912","author":"Wang","year":"2016"},{"key":"10.1016\/j.patcog.2026.114035_b28","series-title":"ICCV 2011, Barcelona, Spain, November 6-13, 2011","first-page":"2556","article-title":"HMDB: A large video database for human motion recognition","author":"Kuehne","year":"2011"},{"key":"10.1016\/j.patcog.2026.114035_b29","series-title":"UCF101: A dataset of 101 human actions classes from videos in the wild","author":"Soomro","year":"2012"},{"key":"10.1016\/j.patcog.2026.114035_b30","series-title":"ICCV 2017, Venice, Italy, October 22-29, 2017","first-page":"5843","article-title":"The \u201csomething something\u201d video database for learning and evaluating visual common sense","author":"Goyal","year":"2017"},{"key":"10.1016\/j.patcog.2026.114035_b31","series-title":"2019 Ninth International Conference on Intelligent Computing and Information Systems","first-page":"80","article-title":"Violence recognition from videos using deep learning techniques","author":"Soliman","year":"2019"},{"key":"10.1016\/j.patcog.2026.114035_b32","series-title":"14th International Conference, CAIP 2011, Seville, Spain, August 29-31, 2011, Proceedings, Part II 14","first-page":"332","article-title":"Violence detection in video using computer vision techniques","author":"Bermejo Nievas","year":"2011"},{"key":"10.1016\/j.patcog.2026.114035_b33","doi-asserted-by":"crossref","DOI":"10.1016\/j.dib.2020.106587","article-title":"A dataset for automatic violence detection in videos","volume":"33","author":"Bianculli","year":"2020","journal-title":"Data Brief"},{"key":"10.1016\/j.patcog.2026.114035_b34","series-title":"2020 25th International Conference on Pattern Recognition","first-page":"4183","article-title":"RWF-2000: an open large scale video database for violence detection","author":"Cheng","year":"2021"},{"key":"10.1016\/j.patcog.2026.114035_b35","series-title":"TSI: Temporal saliency integration for video action recognition","author":"Su","year":"2021"},{"key":"10.1016\/j.patcog.2026.114035_b36","doi-asserted-by":"crossref","unstructured":"Zhiyu Zhao, Bingkun Huang, Sen Xing, Gangshan Wu, Yu Qiao, Limin Wang, Asymmetric Masked Distillation for Pre-Training Small Foundation Models, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR, 2024, pp. 18516\u201318526.","DOI":"10.1109\/CVPR52733.2024.01752"},{"key":"10.1016\/j.patcog.2026.114035_b37","doi-asserted-by":"crossref","first-page":"218","DOI":"10.1109\/TMM.2023.3263288","article-title":"MAR: Masked autoencoders for efficient action recognition","volume":"26","author":"Qing","year":"2024","journal-title":"IEEE Trans. Multim."},{"key":"10.1016\/j.patcog.2026.114035_b38","series-title":"ICCV 2021, Montreal, QC, Canada, October 10-17, 2021","first-page":"13688","article-title":"TAM: Temporal adaptive module for video recognition","author":"Liu","year":"2021"},{"key":"10.1016\/j.patcog.2026.114035_b39","series-title":"CVPR 2018, Salt Lake City, UT, USA, June 18-22, 2018","first-page":"6450","article-title":"A closer look at spatiotemporal convolutions for action recognition","author":"Tran","year":"2018"},{"key":"10.1016\/j.patcog.2026.114035_b40","series-title":"ICCV 2021, Montreal, QC, Canada, October 10-17, 2021","first-page":"6804","article-title":"Multiscale vision transformers","author":"Fan","year":"2021"}],"container-title":["Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326010009?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326010009?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,6,8]],"date-time":"2026-06-08T14:58:34Z","timestamp":1780930714000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0031320326010009"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,12]]},"references-count":40,"alternative-id":["S0031320326010009"],"URL":"https:\/\/doi.org\/10.1016\/j.patcog.2026.114035","relation":{},"ISSN":["0031-3203"],"issn-type":[{"value":"0031-3203","type":"print"}],"subject":[],"published":{"date-parts":[[2026,12]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Feature-based optimization enables 2D CNNs for efficient spatio-temporal perception","name":"articletitle","label":"Article Title"},{"value":"Pattern Recognition","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.patcog.2026.114035","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"114035"}}