{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,23]],"date-time":"2026-03-23T23:09:41Z","timestamp":1774307381397,"version":"3.50.1"},"reference-count":57,"publisher":"IEEE","license":[{"start":{"date-parts":[[2021,2,27]],"date-time":"2021-02-27T00:00:00Z","timestamp":1614384000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2021,2,27]],"date-time":"2021-02-27T00:00:00Z","timestamp":1614384000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,2,27]],"date-time":"2021-02-27T00:00:00Z","timestamp":1614384000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,2,27]]},"DOI":"10.1109\/cgo51591.2021.9370335","type":"proceedings-article","created":{"date-parts":[[2021,3,11]],"date-time":"2021-03-11T21:33:26Z","timestamp":1615498406000},"page":"90-102","source":"Crossref","is-referenced-by-count":12,"title":["Unleashing the Low-Precision Computation Potential of Tensor Cores on GPUs"],"prefix":"10.1109","author":[{"given":"Guangli","family":"Li","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jingling","family":"Xue","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lei","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xueying","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiu","family":"Ma","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiao","family":"Dong","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiansong","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaobing","family":"Feng","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1145\/3289185"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2018.00063"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"ref32","first-page":"1097","article-title":"Imagenet classification with deep convolutional neural networks","author":"krizhevsky","year":"2012","journal-title":"Advances in Neural Inform Processing Systems"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2019.00363"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/ICCAD45719.2019.8942058"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1016\/j.parco.2009.12.005"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"ref34","author":"krizhevsky","year":"2009","journal-title":"Learning multiple layers of features from tiny images"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/SC.2018.00050"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1145\/3148226.3148237"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ScalA49573.2019.00008"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/3079856.3080246"},{"key":"ref1","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1038\/nature14539","article-title":"Deep learning","volume":"521","author":"lecun","year":"2015","journal-title":"Nature"},{"key":"ref20","article-title":"High-performance hardware for machine learning","volume":"2","author":"dally","year":"2015","journal-title":"NIPS Tutorial"},{"key":"ref22","first-page":"265","article-title":"Tensorflow: A system for large-scale machine learning","author":"abadi","year":"2016","journal-title":"Proceedings of the 12th USENIX Conference on Operating Systems Design and Implementation ser OSDI'16"},{"key":"ref21","first-page":"1","article-title":"Automatic differentiation in pytorch","author":"paszke","year":"2017","journal-title":"NIPS 2017 Workshop on Autodiff"},{"key":"ref24","first-page":"1","author":"han","year":"2015","journal-title":"Deep compression Compressing deep neural networks with pruning trained quantization and huffman coding"},{"key":"ref23","first-page":"1","article-title":"Ieee standard for floating-point arithmetic","year":"2008","journal-title":"IEEE Std 754-2008"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1145\/321386.321394"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00286"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.521"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00038"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2019.2951305"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/IPDPS.2019.00022"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1145\/3330345.3331057"},{"key":"ref54","article-title":"Acceler-ating 2d fft: Exploit gpu tensor cores through mixed-precision","author":"cheng","year":"2018","journal-title":"The International Conference for High Performance Computing Networking Storage and Analysis (SC'18)"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/HiPCW.2018.8634417"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/MLHPC49564.2019.00007"},{"key":"ref10","author":"teich","year":"2018","journal-title":"Tearing apart google's 3 0 ai coprocessor"},{"key":"ref11","year":"2019","journal-title":"Machine learning unit (mlu) - cambricon"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.761"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1631\/FITEE.1700789"},{"key":"ref13","author":"gong","year":"2014","journal-title":"Compressing deep convolutional networks using vector quantization"},{"key":"ref14","author":"zhou","year":"2017","journal-title":"Incremental network quantization Towards lossless cnns with low-precision weights"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2017.2765695"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1145\/2783258.2783273"},{"key":"ref17","first-page":"1","article-title":"8-bit inference with tensorrt","volume":"2","author":"migacz","year":"2017","journal-title":"GPU Technology Conference"},{"key":"ref18","year":"2019","journal-title":"Nvidia"},{"key":"ref19","year":"2018","journal-title":"CUTLASS CUDA template library for dense linear algebra at all levels and scales"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1145\/2541940.2541967"},{"key":"ref3","year":"2017","journal-title":"Intel nervana neural network processor"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2016.7783723"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2014.58"},{"key":"ref8","year":"2018","journal-title":"NVIDIA Turing GPU Architecture"},{"key":"ref7","year":"2017","journal-title":"NVIDIA Tensor Cores"},{"key":"ref49","author":"jia","year":"2019","journal-title":"Dissecting the NVidia Turing T4 GPU via Microbenchmarking"},{"key":"ref9","year":"2017","journal-title":"Nvidia tesla v100 gpu architecture"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/IPDPSW.2018.00091"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/IISWC.2018.8573521"},{"key":"ref48","author":"jia","year":"2018","journal-title":"Dissecting the NVIDIA Volta GPU Architecture via Microbenchmarking"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2019.00016"},{"key":"ref42","first-page":"4107","article-title":"Bi-narized neural networks","author":"hubara","year":"2016","journal-title":"Advances in neural information processing systems"},{"key":"ref41","first-page":"1","author":"courbariaux","year":"2016","journal-title":"Binarized neural networks Training deep neural networks with weights and activations constrained to+ 1 or-1"},{"key":"ref44","first-page":"444","article-title":"Benchmarking the nvidia v100 gpu and tensor cores","author":"martineau","year":"2018","journal-title":"European Conference on Parallel Processing"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1007\/s40745-015-0040-1"}],"event":{"name":"2021 IEEE\/ACM International Symposium on Code Generation and Optimization (CGO)","location":"Seoul, Korea (South)","start":{"date-parts":[[2021,2,27]]},"end":{"date-parts":[[2021,3,3]]}},"container-title":["2021 IEEE\/ACM International Symposium on Code Generation and Optimization (CGO)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9370300\/9370301\/09370335.pdf?arnumber=9370335","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,5,10]],"date-time":"2022-05-10T15:42:50Z","timestamp":1652197370000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9370335\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,2,27]]},"references-count":57,"URL":"https:\/\/doi.org\/10.1109\/cgo51591.2021.9370335","relation":{},"subject":[],"published":{"date-parts":[[2021,2,27]]}}}