{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T10:18:11Z","timestamp":1740133091131,"version":"3.37.3"},"reference-count":46,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"3","license":[{"start":{"date-parts":[[2018,3,1]],"date-time":"2018-03-01T00:00:00Z","timestamp":1519862400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61772331","61402285","61602300","61202026","61332001"],"award-info":[{"award-number":["61772331","61402285","61602300","61202026","61332001"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Program of China National 1000 Young Talent Plan"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Parallel Distrib. Syst."],"published-print":{"date-parts":[[2018,3,1]]},"DOI":"10.1109\/tpds.2017.2773516","type":"journal-article","created":{"date-parts":[[2017,11,14]],"date-time":"2017-11-14T19:06:34Z","timestamp":1510686394000},"page":"586-599","source":"Crossref","is-referenced-by-count":4,"title":["IBOM: An Integrated and Balanced On-Chip Memory for High Performance GPGPUs"],"prefix":"10.1109","volume":"29","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-0942-518X","authenticated-orcid":false,"given":"Jianfei","family":"Wang","sequence":"first","affiliation":[]},{"given":"Qin","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Li","family":"Jiang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6218-4659","authenticated-orcid":false,"given":"Chao","family":"Li","sequence":"additional","affiliation":[]},{"given":"Xiaoyao","family":"Liang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8417-5796","authenticated-orcid":false,"given":"Naifeng","family":"Jing","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","first-page":"81","article-title":"Bypass and insertion algorithms for exclusive last-level caches","author":"gaur","year":"2011","journal-title":"2011 38th Annual International Symposium on Computer Architecture (ISCA) ISCA"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/TVLSI.2016.2584623"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/2485922.2485952"},{"key":"ref32","first-page":"342","article-title":"Power-performance co-optimization of throughput core architecture using resistive memory","author":"nilanjan goswami","year":"2013","journal-title":"Proc IEEE Int Symp High Perform Comput Archit"},{"key":"ref31","first-page":"247","article-title":"SRAM-DRAM hybrid memory with applications to efficient register files in fine-grained multi-threading","author":"yu","year":"2011","journal-title":"2011 38th Annual International Symposium on Computer Architecture (ISCA) ISCA"},{"year":"2009","key":"ref30"},{"key":"ref37","first-page":"55","article-title":"Bank stealing for conflict mitigation in GPGPU register file","author":"jing","year":"2015","journal-title":"Proc Int Symp Low Power Electron Des"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1145\/2155620.2155656"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2007.30"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/TC.2015.2417545"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2015.7056023"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2008.4771793"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2012.16"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2014.6835938"},{"key":"ref13","doi-asserted-by":"crossref","first-page":"515","DOI":"10.1145\/2749469.2750418","article-title":"CAWA: Coordinated warp scheduling and cache prioritization for critical warp acceleration of GPGPU workloads","author":"lee","year":"2015","journal-title":"Proc 42nd Annu Int Symp Comput Archit"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1145\/2000064.2000093"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1145\/2749469.2750417"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1145\/2611758"},{"year":"2012","key":"ref17","article-title":"Nvidia&#x2019;s next generation CUDA compute architecture: Kepler GK110"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2013.6522337"},{"article-title":"GPGPU register file management by hardware cooperated register reallocation","year":"2014","author":"jeon","key":"ref19"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2010.5452013"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2014.6835955"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/IISWC.2009.5306797"},{"year":"2009","key":"ref3","article-title":"Nvidia&#x2019;s next generation CUDA compute architecture: Fermi"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2016.7783717"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2009.4919648"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2012.18"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1145\/2751205.2751237"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1145\/2716282.2716283"},{"key":"ref2","article-title":"The opencl specification","volume":"1","author":"group","year":"2008","journal-title":"Version"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2014.11"},{"key":"ref1","article-title":"Nvidia CUDA C programming guide","volume":"120","author":"nvidia","year":"2011","journal-title":"NVIDIA Corporation"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1145\/2304576.2304582"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1145\/2830772.2830784"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1145\/2818374"},{"journal-title":"Modern Compiler Implementation in C Basic Techniques","year":"1997","author":"appel","key":"ref22"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ISLPED.2013.6629258"},{"key":"ref42","first-page":"134","article-title":"Compiler managed micro-cache bypassing for high performance EPIC processors","author":"wu","year":"2002","journal-title":"Proc 35th IEEE\/ACM Int Symp Microarchit"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1145\/1669112.1669178"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/TC.2007.70816"},{"year":"2012","key":"ref23","article-title":"Parallel thread execution ISA version 3.0"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2014.41"},{"year":"2012","key":"ref26","article-title":"CUDA SDK 4.2."},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1145\/1854273.1854346"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/InPar.2012.6339595"}],"container-title":["IEEE Transactions on Parallel and Distributed Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/71\/8289387\/08107587.pdf?arnumber=8107587","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,8,7]],"date-time":"2022-08-07T08:58:24Z","timestamp":1659862704000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8107587\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,3,1]]},"references-count":46,"journal-issue":{"issue":"3"},"URL":"https:\/\/doi.org\/10.1109\/tpds.2017.2773516","relation":{},"ISSN":["1045-9219","1558-2183","2161-9883"],"issn-type":[{"type":"print","value":"1045-9219"},{"type":"electronic","value":"1558-2183"},{"type":"electronic","value":"2161-9883"}],"subject":[],"published":{"date-parts":[[2018,3,1]]}}}