{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,5,13]],"date-time":"2025-05-13T04:06:41Z","timestamp":1747109201591,"version":"3.40.5"},"reference-count":45,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"6","license":[{"start":{"date-parts":[[2025,6,1]],"date-time":"2025-06-01T00:00:00Z","timestamp":1748736000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,6,1]],"date-time":"2025-06-01T00:00:00Z","timestamp":1748736000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,6,1]],"date-time":"2025-06-01T00:00:00Z","timestamp":1748736000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62202288"],"award-info":[{"award-number":["62202288"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Comput."],"published-print":{"date-parts":[[2025,6]]},"DOI":"10.1109\/tc.2025.3547139","type":"journal-article","created":{"date-parts":[[2025,3,3]],"date-time":"2025-03-03T18:30:00Z","timestamp":1741026600000},"page":"1949-1962","source":"Crossref","is-referenced-by-count":0,"title":["RTSA: A <u>R<\/u>un-<u>T<\/u>hrough <u>S<\/u>parse <u>A<\/u>ttention Framework for Video Transformer"],"prefix":"10.1109","volume":"74","author":[{"ORCID":"https:\/\/orcid.org\/0009-0006-0210-3128","authenticated-orcid":false,"given":"Xuhang","family":"Wang","sequence":"first","affiliation":[{"name":"Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6494-4786","authenticated-orcid":false,"given":"Zhuoran","family":"Song","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-9814-2468","authenticated-orcid":false,"given":"Chunyu","family":"Qi","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8769-293X","authenticated-orcid":false,"given":"Fangxin","family":"Liu","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8417-5796","authenticated-orcid":false,"given":"Naifeng","family":"Jing","sequence":"additional","affiliation":[{"name":"Department of Micro&#x2013;NanoElectronics, Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7353-8798","authenticated-orcid":false,"given":"Li","family":"Jiang","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2790-5884","authenticated-orcid":false,"given":"Xiaoyao","family":"Liang","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Engineering, Shanghai Jiao Tong University, Shanghai, China"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00676"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/3085572"},{"article-title":"Longformer: The long-document transformer","year":"2020","author":"Beltagy","key":"ref3"},{"key":"ref4","first-page":"813","article-title":"Is space-time attention all you need for video understanding?","volume-title":"Proc. ICML","author":"Bertasius"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01007"},{"key":"ref6","article-title":"Language models are few-shot learners","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Brown","year":"2020"},{"key":"ref7","first-page":"19594","article-title":"Space-time mixing attention for video transformer","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Bulat","year":"2021"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00041"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/WACV51458.2022.00086"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2016.40"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA56546.2023.10071081"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/n19-1423"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA56546.2023.10071047"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2018\/98"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00630"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00033"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.622"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N19-1133"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/hpca47549.2020.00035"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2017.373"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3475285"},{"article-title":"The kinetics human action video dataset","year":"2017","author":"Kay","key":"ref22"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/3431920.3439477"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW53098.2021.00342"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01621"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-98355-0_35"},{"key":"ref27","first-page":"5244","article-title":"Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Li","year":"2019"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19830-4_33"},{"author":"Liu","key":"ref29","article-title":"RoBERTa: A robustly optimized bert pretraining approach"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00320"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/3466752.3480125"},{"key":"ref32","doi-asserted-by":"crossref","first-page":"41","DOI":"10.1145\/3123939.3124545","article-title":"Fine-grained DRAM: Energy-efficient DRAM for extreme bandwidth systems","volume-title":"Proc. 50th Annu. IEEE\/ACM Int. Symp. Microarchit.","author":"O\u2019Connor","year":"2017"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2020.2979670"},{"key":"ref34","article-title":"Keeping your eye on the ball: Trajectory attention in video transformers","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Patrick","year":"2021"},{"key":"ref35","article-title":"Language models are unsupervised multitask learners","volume-title":"OpenAI blog","author":"Radford","year":"2019"},{"key":"ref36","first-page":"13937","article-title":"Dynamicvit: Efficient vision transformers with dynamic token sparsification","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Rao","year":"2021"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1145\/3489517.3530504"},{"key":"ref38","first-page":"9547","article-title":"SparseBERT: Rethinking the importance analysis in self-attention","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Shi","year":"2021"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA51647.2021.00018"},{"article-title":"Deepfake video detection using convolutional vision transformer","year":"2021","author":"Wodajo","key":"ref40"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i3.20202"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA56546.2023.10071027"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3475272"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01332"},{"article-title":"ELSA: Enhanced local self-attention for vision transformer","year":"2021","author":"Zhou","key":"ref45"}],"container-title":["IEEE Transactions on Computers"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/12\/10994769\/10909307.pdf?arnumber=10909307","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,12]],"date-time":"2025-05-12T17:43:44Z","timestamp":1747071824000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10909307\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6]]},"references-count":45,"journal-issue":{"issue":"6"},"URL":"https:\/\/doi.org\/10.1109\/tc.2025.3547139","relation":{},"ISSN":["0018-9340","1557-9956","2326-3814"],"issn-type":[{"type":"print","value":"0018-9340"},{"type":"electronic","value":"1557-9956"},{"type":"electronic","value":"2326-3814"}],"subject":[],"published":{"date-parts":[[2025,6]]}}}