{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,8]],"date-time":"2026-01-08T03:46:49Z","timestamp":1767844009351,"version":"3.49.0"},"reference-count":46,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2016,3]]},"DOI":"10.1109\/hpca.2016.7446062","type":"proceedings-article","created":{"date-parts":[[2016,4,4]],"date-time":"2016-04-04T22:03:56Z","timestamp":1459807436000},"page":"163-175","source":"Crossref","is-referenced-by-count":37,"title":["Warped-preexecution: A GPU pre-execution approach for improving latency hiding"],"prefix":"10.1109","author":[{"given":"Keunsoo","family":"Kim","sequence":"first","affiliation":[]},{"given":"Sangpil","family":"Lee","sequence":"additional","affiliation":[]},{"given":"Myung Kuk","family":"Yoon","sequence":"additional","affiliation":[]},{"given":"Gunjae","family":"Koo","sequence":"additional","affiliation":[]},{"given":"Won Woo","family":"Ro","sequence":"additional","affiliation":[]},{"given":"Murali","family":"Annavaram","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2003.1253246"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2012.6168948"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/1815961.1815992"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2007.30"},{"key":"ref31","first-page":"157","article-title":"Neither more nor less: Optimizing thread-level parallelism for gpgpus","author":"kayiran","year":"2013","journal-title":"Proceedings International Conference on Parallel Architectures and Compilation Techniques PACT"},{"key":"ref30","first-page":"73","article-title":"Apogee: Adaptive prefetching on gpus for energy efficiency","author":"sethia","year":"2013","journal-title":"Proceedings International Conference on Parallel Architectures and Compilation Techniques PACT"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1145\/1736020.1736054"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1145\/379240.379251"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1145\/2749469.2750418"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2015.7095804"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2003.1183532"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.1997.604689"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1145\/1024393.1024407"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2009.4798281"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2013.6522337"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1145\/2485922.2485952"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1145\/2830772.2830784"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2015.7056031"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2014.6835937"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2014.62"},{"key":"ref19","first-page":"591","article-title":"The dual-path execution model for efficient gpu control flow","author":"rhu","year":"2013","journal-title":"Proceedings of the 2013 IEEE 19th International Symposium on High Performance Computer Architecture HPCA &#x2018;13"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1145\/2485922.2485964"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1145\/2628071.2628105"},{"key":"ref27","article-title":"Cacti 4.0","author":"tarjan","year":"2006","journal-title":"tech rep Technical Report HPL-2006-86 HP Laboratories Palo Alto"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1145\/2000064.2000093"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2012.16"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2010.44"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1145\/2155620.2155656"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1145\/2628071.2628107"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1145\/2451116.2451158"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/2166879.2166882"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2002.1003562"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2010.5452013"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1145\/2749469.2750399"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2014.6835936"},{"key":"ref45","doi-asserted-by":"crossref","first-page":"2","DOI":"10.1109\/L-CA.2005.1","article-title":"On reusing the results of pre-executed instructions in a runahead execution processor","volume":"4","author":"mutlu","year":"2005","journal-title":"Computer Architecture Letters"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.1996.566447"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1145\/2749469.2750417"},{"key":"ref42","article-title":"Whitepaper: NVIDIA Fermi","year":"0","journal-title":"Nvidia"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/IISWC.2009.5306797"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/MM.2010.41"},{"key":"ref23","article-title":"Parboil: A revised benchmark suite for scientific and commercial throughput computing","author":"stratton","year":"2012","journal-title":"Center for Reliable and High-Performance Computing"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1007\/s10766-010-0155-0"},{"key":"ref26","article-title":"CUDA C Programming Guide","year":"0","journal-title":"Nvidia"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/IPDPS.2004.1303008"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2009.4919648"}],"event":{"name":"2016 IEEE International Symposium on High Performance Computer Architecture (HPCA)","location":"Barcelona","start":{"date-parts":[[2016,3,12]]},"end":{"date-parts":[[2016,3,16]]}},"container-title":["2016 IEEE International Symposium on High Performance Computer Architecture (HPCA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7440961\/7446041\/7446062.pdf?arnumber=7446062","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2017,6,24]],"date-time":"2017-06-24T10:05:39Z","timestamp":1498298739000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7446062\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2016,3]]},"references-count":46,"URL":"https:\/\/doi.org\/10.1109\/hpca.2016.7446062","relation":{},"subject":[],"published":{"date-parts":[[2016,3]]}}}