{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,7]],"date-time":"2026-01-07T23:42:28Z","timestamp":1767829348140,"version":"3.49.0"},"reference-count":60,"publisher":"IEEE","license":[{"start":{"date-parts":[[2023,2,1]],"date-time":"2023-02-01T00:00:00Z","timestamp":1675209600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,2,1]],"date-time":"2023-02-01T00:00:00Z","timestamp":1675209600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023,2]]},"DOI":"10.1109\/hpca56546.2023.10070957","type":"proceedings-article","created":{"date-parts":[[2023,3,24]],"date-time":"2023-03-24T17:42:55Z","timestamp":1679679775000},"page":"530-542","source":"Crossref","is-referenced-by-count":15,"title":["Mitigating GPU Core Partitioning Performance Effects"],"prefix":"10.1109","author":[{"given":"Aaron","family":"Barnes","sequence":"first","affiliation":[{"name":"Purdue University,School of ECE,West Lafayette,IN"}]},{"given":"Fangjia","family":"Shen","sequence":"additional","affiliation":[{"name":"Purdue University,School of ECE,West Lafayette,IN"}]},{"given":"Timothy G.","family":"Rogers","sequence":"additional","affiliation":[{"name":"Purdue University,School of ECE,West Lafayette,IN"}]}],"member":"263","reference":[{"key":"ref1","article-title":"AMD Graphics Cores Next (GCN) Architecture Whitepaper"},{"key":"ref2","article-title":"Introducing RDNA Architecture"},{"key":"ref3","article-title":"NVIDIA A100 Tensor Core GPU Architecture"},{"key":"ref4","article-title":"NVIDIA GeForce GTX 1080 Whitepaper"},{"key":"ref5","article-title":"NVIDIA GeForce GTX 750 Ti Featuring First-Generation Maxwell GPU Technology, Designed for Extreme Performance per Watt"},{"key":"ref6","article-title":"NVIDIA H100 Tensor Core GPU Architecture Overview"},{"key":"ref7","article-title":"NVIDIA Tesla V100 GPU Architecture"},{"key":"ref8","article-title":"NVIDIA Turing GPU Architecture"},{"key":"ref9","article-title":"NVIDIA\u2019s Next Generation CUDA Compute Architecture: Kepler GK110\/210"},{"key":"ref10","article-title":"TPC Benchmark Specification H"},{"key":"ref11","article-title":"cuDF - GPU DataFrames","year":"2021"},{"key":"ref12","article-title":"CUTLASS 2.8","year":"2021"},{"key":"ref13","article-title":"DeepBench","year":"2021"},{"key":"ref14","article-title":"RAPIDS Accelerator plugin For Apache Spark","year":"2021"},{"key":"ref15","article-title":"Snappy Compression Library","year":"2021"},{"key":"ref16","article-title":"cuGraph - GPU Graph Analytics","year":"2022"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2017.47"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2010.5452029"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1145\/2063384.2063400"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1145\/2555243.2555258"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1145\/324133.324234"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/IISWC.2009.5306797"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/MM.2018.022071134"},{"key":"ref24","article-title":"Methods and apparatus for source operand collector caching","volume-title":"U.S. Patent","author":"Choquette","year":"2013"},{"key":"ref25","article-title":"Thread group scheduler for computing on a parallel thread processor","volume-title":"Patent","author":"Coon","year":"2012"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/SASP.2009.5226335"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2007.30"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1145\/2000064.2000093"},{"key":"ref29","first-page":"465","article-title":"A compile-time managed multi-level register file hierarchy","volume-title":"2011 44th Annual IEEE\/ACM International Symposium on Microarchitecture (MICRO)","author":"Gebhart"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/InPar.2012.6339595"},{"key":"ref31","article-title":"Cost Effective Data Processing with Apache Spark and GPU","volume-title":"GTC","author":"Graves"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1145\/2966986.2980098"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/2830772.2830784"},{"key":"ref34","article-title":"Dissecting the NVIDIA Volta GPU Architecture via Microbenchmarking","author":"Jia","year":"2018"},{"key":"ref35","article-title":"Dissecting the Ampere GPU Architecture through Microbenchmarking","volume-title":"GTC","author":"Jia"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/TVLSI.2016.2584623"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1145\/2485922.2485951"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA45697.2020.00047"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2016.7446079"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2014.6835937"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1145\/2749469.2750417"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1145\/2749469.2750418"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1145\/2628071.2628107"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2018.00031"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/MM.2008.31"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1145\/2830772.2830822"},{"key":"ref47","article-title":"Operand Collector Archtiecture","volume-title":"U.S. Patent","author":"Liu","year":"2010"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1145\/2925426.2926267"},{"key":"ref49","first-page":"308","article-title":"Improving GPU performance via large warps and two-level warp scheduling","volume-title":"2011 44th Annual IEEE\/ACM International Symposium on Microarchitecture (MICRO)","author":"Narasiman"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1145\/2628071.2628117"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1145\/115952.115961"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2012.16"},{"key":"ref53","first-page":"99","article-title":"Divergence-Aware Warp Scheduling","volume-title":"Proceedings of the 46th Annual IEEE\/ACM International Symposium on Microarchitecture, ser. MICRO-46","author":"Rogers"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/MSE.2007.44"},{"key":"ref55","article-title":"Parboil: A Revised Benchmark Suite for Scientific and Commercial Throughput Computing","author":"Stratton","year":"2012"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1145\/2749469.2750393"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2016.57"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2014.6835939"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2016.29"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2016.59"}],"event":{"name":"2023 IEEE International Symposium on High-Performance Computer Architecture (HPCA)","location":"Montreal, QC, Canada","start":{"date-parts":[[2023,2,25]]},"end":{"date-parts":[[2023,3,1]]}},"container-title":["2023 IEEE International Symposium on High-Performance Computer Architecture (HPCA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10070856\/10070923\/10070957.pdf?arnumber=10070957","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,2,13]],"date-time":"2024-02-13T13:12:31Z","timestamp":1707829951000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10070957\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,2]]},"references-count":60,"URL":"https:\/\/doi.org\/10.1109\/hpca56546.2023.10070957","relation":{},"subject":[],"published":{"date-parts":[[2023,2]]}}}