{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,11]],"date-time":"2026-03-11T17:09:38Z","timestamp":1773248978675,"version":"3.50.1"},"reference-count":45,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"2","license":[{"start":{"date-parts":[[2025,2,1]],"date-time":"2025-02-01T00:00:00Z","timestamp":1738368000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,2,1]],"date-time":"2025-02-01T00:00:00Z","timestamp":1738368000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,2,1]],"date-time":"2025-02-01T00:00:00Z","timestamp":1738368000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62032001"],"award-info":[{"award-number":["62032001"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62072297"],"award-info":[{"award-number":["62072297"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62222210"],"award-info":[{"award-number":["62222210"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Research Grants Council of HKSAR","award":["16213824"],"award-info":[{"award-number":["16213824"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Comput."],"published-print":{"date-parts":[[2025,2]]},"DOI":"10.1109\/tc.2024.3475814","type":"journal-article","created":{"date-parts":[[2024,10,8]],"date-time":"2024-10-08T17:36:08Z","timestamp":1728408968000},"page":"341-355","source":"Crossref","is-referenced-by-count":7,"title":["DSTC: Dual-Side Sparse Tensor Core for DNNs Acceleration on Modern GPU Architectures"],"prefix":"10.1109","volume":"74","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-2762-2726","authenticated-orcid":false,"given":"Chen","family":"Zhang","sequence":"first","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7322-4062","authenticated-orcid":false,"given":"Yang","family":"Wang","sequence":"additional","affiliation":[{"name":"Microsoft Research, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0214-6439","authenticated-orcid":false,"given":"Zhiqiang","family":"Xie","sequence":"additional","affiliation":[{"name":"Stanford University, Stanford, CA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4479-5525","authenticated-orcid":false,"given":"Cong","family":"Guo","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7352-8955","authenticated-orcid":false,"given":"Yunxin","family":"Liu","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5660-5493","authenticated-orcid":false,"given":"Jingwen","family":"Leng","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1138-804X","authenticated-orcid":false,"given":"Zhigang","family":"Ji","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2093-1788","authenticated-orcid":false,"given":"Yuan","family":"Xie","sequence":"additional","affiliation":[{"name":"Hong Kong University of Science and Technology, Clear Water Bay, Hong Kong"}]},{"given":"Ru","family":"Huang","sequence":"additional","affiliation":[{"name":"Peking University, Beijing, China"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Deep learning using rectified linear units (ReLU)","author":"Agarap","year":"2018"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/3085572"},{"key":"ref3","first-page":"1","article-title":"Quasi-recurrent neural networks","volume-title":"Proc. Int. Conf. Learn. Representations (ICLR)","author":"Bradbury","year":"2017"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01147"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1145\/3289602.3293898"},{"key":"ref6","article-title":"cuDNN: Efficient primitives for deep learning","author":"Chetlur","year":"2014"},{"key":"ref7","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","author":"Devlin","year":"2018"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1145\/3352460.3358291"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/SC41405.2020.00020"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/DAC18072.2020.9218732"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/VLSI.Design.2010.35"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2018.00059"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.322"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1145\/3352460.3358275"},{"key":"ref16","article-title":"Huggingface","year":"2025"},{"key":"ref17","first-page":"2410","article-title":"Efficient neural audio synthesis","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Kalchbrenner","year":"2018"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA45697.2020.00047"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2019.00028"},{"issue":"4","key":"ref20","doi-asserted-by":"crossref","DOI":"10.1007\/s11704-022-1749-6","article-title":"SpAMM: Optimizing large-scale sparse approximate matrix multiplication on sunway taihulight","volume":"17","author":"Liu","year":"2023","journal-title":"Frontiers Comput. Sci."},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/DAC.2018.8465842"},{"key":"ref22","first-page":"1","article-title":"Accelerating sparse deep neural networks","author":"Mishra","year":"2021"},{"key":"ref23","first-page":"1","article-title":"Cusparse library","volume-title":"Proc. GPU Technol. Conf.","author":"Naumov","year":"2010"},{"key":"ref24","article-title":"Nvidia a100 tensor core architecture","year":"2020"},{"key":"ref25","article-title":"Nvidia h100 tensor core architecture","year":"2022"},{"issue":"27","key":"ref26","article-title":"Cutlass library","volume":"15","author":"Nvidia","year":"2008"},{"key":"ref27","article-title":"V100 GPU architecture. The world\u2019s most advanced data center GPU","author":"NVIDIA","year":"2017","journal-title":"NVIDIA"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2018.00067"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1145\/3140659.3080254"},{"key":"ref30","first-page":"8026","article-title":"PyTorch: An imperative style, high-performance deep learning library","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Paszke","year":"2019"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2019.00016"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00908"},{"key":"ref33","first-page":"20378","article-title":"Movement pruning: Adaptive sparsity by fine-tuning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Sanh","year":"2020"},{"key":"ref34","first-page":"1","article-title":"Very deep convolutional networks for large-scale image recognition","volume-title":"Proc. Int. Conf. Learn. Representations (ICLR)","author":"Simonyan","year":"2015"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO50266.2020.00068"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1016\/j.vlsi.2017.02.002"},{"key":"ref37","article-title":"A simple and effective pruning approach for large language models","author":"Sun","year":"2023"},{"key":"ref38","first-page":"1","article-title":"Llama: Open and efficient foundation language models","author":"Touvron","year":"2023"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00225"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33015676"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/TCAD.2017.2785257"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA47549.2020.00030"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1145\/3352460.3358269"},{"key":"ref44","first-page":"1","article-title":"To prune, or not to prune: Exploring the efficacy of pruning for model compression","volume-title":"Proc. 6th Int. Conf. Learn. Representations (ICLR)","author":"Zhu","year":"2018"},{"key":"ref45","article-title":"Neural network distiller: A Python package for DNN compression research","author":"Zmora","year":"2019"}],"container-title":["IEEE Transactions on Computers"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/12\/10849950\/10709841.pdf?arnumber=10709841","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,1,23]],"date-time":"2025-01-23T19:52:25Z","timestamp":1737661945000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10709841\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,2]]},"references-count":45,"journal-issue":{"issue":"2"},"URL":"https:\/\/doi.org\/10.1109\/tc.2024.3475814","relation":{},"ISSN":["0018-9340","1557-9956","2326-3814"],"issn-type":[{"value":"0018-9340","type":"print"},{"value":"1557-9956","type":"electronic"},{"value":"2326-3814","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,2]]}}}