{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,6]],"date-time":"2026-06-06T17:01:32Z","timestamp":1780765292050,"version":"3.54.1"},"reference-count":51,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"10","license":[{"start":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T00:00:00Z","timestamp":1759276800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"National Key Research and Development Program of China","award":["2022YFB4502001"],"award-info":[{"award-number":["2022YFB4502001"]}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62072204"],"award-info":[{"award-number":["62072204"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. on Mobile Comput."],"published-print":{"date-parts":[[2025,10]]},"DOI":"10.1109\/tmc.2025.3562721","type":"journal-article","created":{"date-parts":[[2025,4,21]],"date-time":"2025-04-21T13:40:32Z","timestamp":1745242832000},"page":"9303-9318","source":"Crossref","is-referenced-by-count":5,"title":["SPViT: Accelerate Vision Transformer Inference on Mobile Devices via Adaptive Splitting and Offloading"],"prefix":"10.1109","volume":"24","author":[{"ORCID":"https:\/\/orcid.org\/0009-0000-7735-3187","authenticated-orcid":false,"given":"Sifan","family":"Zhao","sequence":"first","affiliation":[{"name":"National Engineering Research Center for Big Data Technology and System, Services Computing Technology and System Lab, Cluster and Grid Computing Lab, School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-1651-7784","authenticated-orcid":false,"given":"Tongtong","family":"Liu","sequence":"additional","affiliation":[{"name":"National Engineering Research Center for Big Data Technology and System, Services Computing Technology and System Lab, Cluster and Grid Computing Lab, School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3934-7605","authenticated-orcid":false,"given":"Hai","family":"Jin","sequence":"additional","affiliation":[{"name":"National Engineering Research Center for Big Data Technology and System, Services Computing Technology and System Lab, Cluster and Grid Computing Lab, School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0336-0522","authenticated-orcid":false,"given":"Dezhong","family":"Yao","sequence":"additional","affiliation":[{"name":"National Engineering Research Center for Big Data Technology and System, Services Computing Technology and System Lab, Cluster and Grid Computing Lab, School of Computer Science and Technology, Huazhong University of Science and Technology, Wuhan, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","first-page":"1","article-title":"An image is worth 16 \u00d7 16 words: Transformers for image recognition at scale","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Dosovitskiy"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/WACV57701.2024.00618"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00610"},{"key":"ref4","first-page":"1086","article-title":"Long short-term transformer for online action detection","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Xu"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICEngTechnol.2017.8308186"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref7","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","author":"Devlin","year":"2018"},{"key":"ref8","first-page":"10347","article-title":"Training data-efficient image transformers & distillation through attention","volume-title":"Proc. 38th Int. Conf. Mach. Learn.","author":"Touvron"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01170"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20053-3_5"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1007\/s11432-022-3646-6"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01779"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02333"},{"key":"ref15","first-page":"34451","article-title":"Q-ViT: Accurate and fully quantized low-bit vision transformer","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Li"},{"key":"ref16","first-page":"27168","article-title":"ZeroQuant: Efficient and affordable post-training quantization for large-scale transformers","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Yao"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01174"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00697"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TGRS.2021.3115699"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-39698-4_29"},{"key":"ref21","first-page":"1","article-title":"Learned step size quantization","volume-title":"Proc. 8th Int. Conf. Learn. Representations","author":"Esser"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00208"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/SC41404.2022.00043"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1145\/3489517.3530585"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-22677-9_29"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/TPDS.2023.3269530"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TPDS.2023.3280805"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2019.2918951"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/TMC.2023.3315138"},{"key":"ref30","article-title":"ED-ViT: Splitting vision transformer for distributed inference on edge devices","author":"Liu","year":"2024"},{"key":"ref31","article-title":"Megatron-LM: Training multi-billion parameter language models using model parallelism","author":"Shoeybi","year":"2019"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02170"},{"key":"ref33","first-page":"31292","article-title":"UPop: Unified and progressive pruning for compressing vision-language transformers","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Shi"},{"key":"ref34","first-page":"9164","article-title":"Learning efficient vision transformers via fine-grained manifold distillation","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Hao"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2021.3075464"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/TMC.2022.3218724"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/TMC.2023.3285882"},{"key":"ref38","article-title":"Manifold-2G","author":"Wang","year":"2024"},{"key":"ref39","article-title":"Nvidia jetson TX2","year":"2024"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00062"},{"key":"ref41","article-title":"DeepViT: Towards deeper vision transformer","author":"Zhou","year":"2021"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00009"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00010"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.309"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA51647.2021.00018"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1145\/3552326.3587438"},{"key":"ref47","article-title":"Raspberry Pi 4B","author":"Foundation","year":"2024"},{"key":"ref48","article-title":"Wondershaper","author":"Hubert","year":"2024"},{"key":"ref49","first-page":"10347","article-title":"Training data-efficient image transformers & distillation through attention","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Touvron"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00060"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"}],"container-title":["IEEE Transactions on Mobile Computing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/7755\/11154819\/10971255.pdf?arnumber=10971255","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,10]],"date-time":"2025-09-10T19:53:42Z","timestamp":1757534022000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10971255\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10]]},"references-count":51,"journal-issue":{"issue":"10"},"URL":"https:\/\/doi.org\/10.1109\/tmc.2025.3562721","relation":{},"ISSN":["1536-1233","1558-0660","2161-9875"],"issn-type":[{"value":"1536-1233","type":"print"},{"value":"1558-0660","type":"electronic"},{"value":"2161-9875","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,10]]}}}