{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,20]],"date-time":"2026-05-20T16:32:17Z","timestamp":1779294737373,"version":"3.51.4"},"reference-count":65,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U1909201"],"award-info":[{"award-number":["U1909201"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62101490"],"award-info":[{"award-number":["62101490"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["6212780029"],"award-info":[{"award-number":["6212780029"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62476242"],"award-info":[{"award-number":["62476242"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["52467024"],"award-info":[{"award-number":["52467024"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["2022C01056"],"award-info":[{"award-number":["2022C01056"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"State Grid Corporation of China Technology Project","doi-asserted-by":"publisher","award":["5700-202019487A-0-0-00"],"award-info":[{"award-number":["5700-202019487A-0-0-00"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"National Natural Science Foundation of Zhejiang Province","award":["LQ21F030017"],"award-info":[{"award-number":["LQ21F030017"]}]},{"name":"Research Startup Funding from Hainan Institute of Zhejiang University","award":["0210-6602-A12203"],"award-info":[{"award-number":["0210-6602-A12203"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2025]]},"DOI":"10.1109\/access.2025.3532603","type":"journal-article","created":{"date-parts":[[2025,1,22]],"date-time":"2025-01-22T18:57:45Z","timestamp":1737572265000},"page":"18535-18545","source":"Crossref","is-referenced-by-count":3,"title":["IMViT: Adjacency Matrix-Based Lightweight Plain Vision Transformer"],"prefix":"10.1109","volume":"13","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-4644-147X","authenticated-orcid":false,"given":"Qihao","family":"Chen","sequence":"first","affiliation":[{"name":"Electrical and Control Engineering, Liaoning Technical University, Huludao, Liaoning, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0939-5526","authenticated-orcid":false,"given":"Yunfeng","family":"Yan","sequence":"additional","affiliation":[{"name":"College of Electrical Engineering, Zhejiang University, Hangzhou, Zhejiang, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0463-2983","authenticated-orcid":false,"given":"Xianbo","family":"Wang","sequence":"additional","affiliation":[{"name":"Hainan Institute of Zhejiang University, Sanya, Hainan, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jishen","family":"Peng","sequence":"additional","affiliation":[{"name":"Electrical and Control Engineering, Liaoning Technical University, Huludao, Liaoning, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref2","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","author":"Devlin","year":"2018","journal-title":"arXiv:1810.04805"},{"key":"ref3","article-title":"Transformer-transducer: End-to-end speech recognition with self-attention","author":"Yeh","year":"2019","journal-title":"arXiv:1910.12977"},{"key":"ref4","article-title":"Unified streaming and non-streaming two-pass end-to-end model for speech recognition","author":"Zhang","year":"2020","journal-title":"arXiv:2012.05481"},{"key":"ref5","article-title":"FusionFormer: Fusing operations in transformer for efficient streaming speech recognition","author":"Song","year":"2022","journal-title":"arXiv:2210.17079"},{"key":"ref6","article-title":"An image is worth 16\u00d716 words: Transformers for image recognition at scale","author":"Dosovitskiy","year":"2020","journal-title":"arXiv:2010.11929"},{"key":"ref7","article-title":"Query2Label: A simple transformer way to multi-label classification","author":"Liu","year":"2021","journal-title":"arXiv:2107.10834"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2017.2765202"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1007\/s41095-021-0229-5"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"ref11","article-title":"SegViT: Semantic segmentation with plain vision transformers","author":"Zhang","year":"2022","journal-title":"arXiv:2210.05844"},{"key":"ref12","first-page":"30392","article-title":"Early convolutions help transformers see better","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"34","author":"Xiao"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2022.3151138"},{"key":"ref14","first-page":"2286","article-title":"ConViT: Improving vision transformers with soft convolutional inductive biases","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"D\u2019Ascoli"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00061"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3264730"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3270479"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1007\/s41095-022-0274-8"},{"key":"ref20","article-title":"Neighborhood attention transformer","author":"Hassani","year":"2022","journal-title":"arXiv:2204.07143"},{"key":"ref21","first-page":"68","article-title":"Stand-alone self-attention in vision models","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"32","author":"Ramachandran"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3243246"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58604-1_20"},{"key":"ref24","article-title":"HRFormer: High-resolution transformer for dense prediction","author":"Yuan","year":"2021","journal-title":"arXiv:2110.09408"},{"key":"ref25","article-title":"Multi-scale high-resolution vision transformer for semantic segmentation","author":"Gu","year":"2021","journal-title":"arXiv:2111.01236"},{"key":"ref26","article-title":"Focal self-attention for local\u2013global interactions in vision transformers","author":"Yang","year":"2021","journal-title":"arXiv:2107.00641"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3234166"},{"key":"ref28","first-page":"10347","article-title":"Training data-efficient image transformers & distillation through attention","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Touvron"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20053-3_30"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01172"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00060"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00009"},{"key":"ref33","article-title":"CrossFormer: A versatile vision transformer hinging on cross-scale attention","author":"Wang","year":"2021","journal-title":"arXiv:2108.00154"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00475"},{"key":"ref35","first-page":"1","article-title":"HiViT: A simpler and more efficient design of hierarchical vision transformer","volume-title":"Proc. 11th Int. Conf. Learn. Represent.","author":"Zhang"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01181"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20053-3_27"},{"key":"ref38","first-page":"15908","article-title":"Transformer in transformer","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"34","author":"Han"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00062"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01270"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2022.3206108"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20080-9_41"},{"key":"ref43","article-title":"GPViT: A high resolution non-hierarchical vision transformer with group propagation","author":"Yang","year":"2022","journal-title":"arXiv:2212.06795"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00983"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i3.20252"},{"key":"ref46","article-title":"Fast vision transformers with HiLo attention","author":"Pan","year":"2022","journal-title":"arXiv:2205.13213"},{"key":"ref47","article-title":"Talking-heads attention","author":"Shazeer","year":"2020","journal-title":"arXiv:2003.02436"},{"key":"ref48","article-title":"LightViT: Towards light-weight convolution-free vision transformers","author":"Huang","year":"2022","journal-title":"arXiv:2207.05557"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01167"},{"key":"ref50","article-title":"ResNet strikes back: An improved training procedure in timm","author":"Wightman","year":"2021","journal-title":"arXiv:2110.00476"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01055"},{"key":"ref52","first-page":"15475","article-title":"Rest: An efficient transformer for visual recognition","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"34","author":"Zhang"},{"key":"ref53","article-title":"ResT v2: Simpler, faster and stronger","author":"Zhang","year":"2022","journal-title":"arXiv:2204.07366"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01186"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"ref56","article-title":"Decoupled weight decay regularization","author":"Loshchilov","year":"2017","journal-title":"arXiv:1711.05101"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1906.07155"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20077-9_17"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref61","article-title":"MobileViT: Light-weight, general-purpose, and mobile-friendly vision transformer","author":"Mehta","year":"2021","journal-title":"arXiv:2110.02178"},{"key":"ref62","article-title":"Separable self-attention for mobile vision transformers","author":"Mehta","year":"2022","journal-title":"arXiv:2206.02680"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01170"},{"key":"ref64","article-title":"Grad-CAM: Why did you say that?","author":"Selvaraju","year":"2016","journal-title":"arXiv:1611.07450"},{"key":"ref65","volume-title":"Improving language understanding by generative pre-training","author":"Radford","year":"2018"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6287639\/10820123\/10849548.pdf?arnumber=10849548","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,1,30]],"date-time":"2025-01-30T19:26:25Z","timestamp":1738265185000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10849548\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":65,"URL":"https:\/\/doi.org\/10.1109\/access.2025.3532603","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025]]}}}