{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,21]],"date-time":"2026-04-21T23:27:29Z","timestamp":1776814049801,"version":"3.51.2"},"reference-count":56,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"2","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Parallel Distrib. Syst."],"published-print":{"date-parts":[[2022,2,1]]},"DOI":"10.1109\/tpds.2021.3093231","type":"journal-article","created":{"date-parts":[[2021,6,29]],"date-time":"2021-06-29T19:33:27Z","timestamp":1624995207000},"page":"388-402","source":"Crossref","is-referenced-by-count":7,"title":["Repurposing GPU Microarchitectures with Light-Weight Out-Of-Order Execution"],"prefix":"10.1109","volume":"33","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-1403-6851","authenticated-orcid":false,"given":"Konstantinos","family":"Iliakis","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3151-2730","authenticated-orcid":false,"given":"Sotirios","family":"Xydis","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6930-6847","authenticated-orcid":false,"given":"Dimitrios","family":"Soudris","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1145\/2155620.2155676"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2011.5749714"},{"key":"ref33","author":"kirk","year":"2016","journal-title":"Programming Massively Parallel Processors A Hands-on Approach"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2019.00061"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/2451116.2451158"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2014.6835937"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1145\/1543753.1543756"},{"key":"ref36","article-title":"PTX: Parallel thread execution ISA version 5.0","year":"2017"},{"key":"ref35","year":"2012"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.2200\/S00848ED1V01Y201804CAC044"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2015.7056031"},{"key":"ref27","article-title":"Hyper-Q example","author":"bradley","year":"2012","journal-title":"NVidia Corporation Whitepaper v1 0"},{"key":"ref29","article-title":"RLWS: A Reinforcement Learning based GPU Warp Scheduler","author":"anantpur","year":"2017"},{"key":"ref2","author":"hennessy","year":"2017","journal-title":"Computer Architecture A Quantitative Approach"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/IISWC.2012.6402918"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2015.7056024"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2016.7446062"},{"key":"ref21","first-page":"157","article-title":"Neither more nor less: Optimizing thread-level parallelism for GPGPUs","author":"kay?ran","year":"2013","journal-title":"Proc Int l Conf Parallel Architectures and Compilation Techniques"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CGO.2017.7863727"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/3291050"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1145\/2000064.2000093"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2013.6522337"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1145\/2508148.2485964"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1145\/1669112.1669172"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2003.1183532"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/IISWC.2010.5650274"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1145\/285930.285980"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1145\/2366231.2337168"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1145\/1394608.1382127"},{"key":"ref10","article-title":"CUDNN: Efficient primitives for deep learning","author":"chetlur","year":"2014"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/s10586-014-0400-1"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1145\/3123939.3123974"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/MM.2017.37"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1145\/3140659.3080231"},{"key":"ref14","article-title":"NVIDIA A100 Tensor Core GPU Architect.","year":"2020"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/IISWC.2009.5306797"},{"key":"ref16","article-title":"Parboil: A revised benchmark suite for scientific and commercial throughput computing","volume":"127","author":"stratton","year":"2012"},{"key":"ref17","year":"2011"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2009.4919648"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2016.59"},{"key":"ref4","year":"2016"},{"key":"ref3","article-title":"NVIDIA GeForce GTX 1080","year":"2016"},{"key":"ref6","article-title":"Dissecting the nvidia volta GPU architecture via microbenchmarking","author":"jia","year":"2018"},{"key":"ref5","year":"2018"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2012.16"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2010.5452013"},{"key":"ref49","author":"shen","year":"2013","journal-title":"Modern Processor Design Fundamentals of Superscalar Processors"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1145\/2155620.2155656"},{"key":"ref46","article-title":"Simulating multiported memories using lower port count memories","author":"lindholm","year":"2008"},{"key":"ref45","article-title":"Register file allocation","author":"coon","year":"2009"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1147\/rd.111.0025"},{"key":"ref47","article-title":"Operand collector architecture","author":"liu","year":"2010"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/MAHC.1980.10044"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2018.00073"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/TPDS.2016.2546249"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2014.6835936"}],"container-title":["IEEE Transactions on Parallel and Distributed Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/71\/9493664\/09468415.pdf?arnumber=9468415","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2021,11,8]],"date-time":"2021-11-08T22:59:58Z","timestamp":1636412398000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9468415\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,2,1]]},"references-count":56,"journal-issue":{"issue":"2"},"URL":"https:\/\/doi.org\/10.1109\/tpds.2021.3093231","relation":{},"ISSN":["1045-9219","1558-2183","2161-9883"],"issn-type":[{"value":"1045-9219","type":"print"},{"value":"1558-2183","type":"electronic"},{"value":"2161-9883","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022,2,1]]}}}