{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,29]],"date-time":"2025-09-29T08:11:52Z","timestamp":1759133512632,"version":"3.41.0"},"publisher-location":"New York, NY, USA","reference-count":61,"publisher":"ACM","license":[{"start":{"date-parts":[[2018,6,12]],"date-time":"2018-06-12T00:00:00Z","timestamp":1528761600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"DOI":"10.13039\/501100007601","name":"Horizon 2020","doi-asserted-by":"publisher","award":["TICOH Project, No. 752321"],"award-info":[{"award-number":["TICOH Project, No. 752321"]}],"id":[{"id":"10.13039\/501100007601","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100006192","name":"Advanced Scientific Computing Research","doi-asserted-by":"publisher","award":["CENATE Project, No. 66150"],"award-info":[{"award-number":["CENATE Project, No. 66150"]}],"id":[{"id":"10.13039\/100006192","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2018,6,12]]},"DOI":"10.1145\/3205289.3205294","type":"proceedings-article","created":{"date-parts":[[2018,9,13]],"date-time":"2018-09-13T12:54:52Z","timestamp":1536843292000},"page":"53-64","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":25,"title":["Warp-Consolidation"],"prefix":"10.1145","author":[{"given":"Ang","family":"Li","sequence":"first","affiliation":[{"name":"Pacific Northwest National Lab, USA"}]},{"given":"Weifeng","family":"Liu","sequence":"additional","affiliation":[{"name":"Norwegian University of Science and Technology, Norway"}]},{"given":"Linnan","family":"Wang","sequence":"additional","affiliation":[{"name":"Brown University, USA"}]},{"given":"Kevin","family":"Barker","sequence":"additional","affiliation":[{"name":"Pacific Northwest National Lab, USA"}]},{"given":"Shuaiwen Leon","family":"Song","sequence":"additional","affiliation":[{"name":"Pacific Northwest National Lab, USA, College of William and Mary, USA"}]}],"member":"320","published-online":{"date-parts":[[2018,6,12]]},"reference":[{"key":"e_1_3_2_1_1_1","unstructured":"NVIDIA. CUDA Programming Guide 2017.  NVIDIA. CUDA Programming Guide 2017."},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1145\/2925426.2926267"},{"volume-title":"ISCA-12","author":"Brunie Nicolas","key":"e_1_3_2_1_3_1"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1145\/2155620.2155676"},{"volume-title":"HPCA-11","author":"Fung Wilson WL","key":"e_1_3_2_1_5_1"},{"volume-title":"HPCA-14","author":"Xiang Ping","key":"e_1_3_2_1_6_1"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1109\/PACT.2015.38"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1145\/3123939.3123944"},{"key":"e_1_3_2_1_9_1","unstructured":"David Tarjan and Kevin Skadron. On demand register allocation and deallocation for a multithreaded processor December 29 2009. US Patent App. 12\/649 238.  David Tarjan and Kevin Skadron. On demand register allocation and deallocation for a multithreaded processor December 29 2009. US Patent App. 12\/649 238."},{"key":"e_1_3_2_1_10_1","unstructured":"Vasily Volkov. Better performance at lower occupancy. In GTC-10.  Vasily Volkov. Better performance at lower occupancy. In GTC-10."},{"volume-title":"IPDPS-10","author":"Xiao Shucai","key":"e_1_3_2_1_11_1"},{"key":"e_1_3_2_1_12_1","unstructured":"Jeff A Stuart and John D Owens. Efficient synchronization primitives for GPUs. arXiv preprint arXiv.1110.4623 2011.  Jeff A Stuart and John D Owens. Efficient synchronization primitives for GPUs. arXiv preprint arXiv.1110.4623 2011."},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1145\/2751205.2751232"},{"key":"e_1_3_2_1_14_1","unstructured":"NVIDIA. Volta Architecture White Paper 2018.  NVIDIA. Volta Architecture White Paper 2018."},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1145\/2555243.2555258"},{"key":"e_1_3_2_1_16_1","unstructured":"Jin Wang Norm Rubin Albert Sidelnik and Sudhakar Yalamanchili. Dynamic thread block launch: A lightweight execution mechanism to support irregular applications on GPUs. ISCA-16.  Jin Wang Norm Rubin Albert Sidelnik and Sudhakar Yalamanchili. Dynamic thread block launch: A lightweight execution mechanism to support irregular applications on GPUs. ISCA-16."},{"volume-title":"ISPASS-10","author":"Wong Henry","key":"e_1_3_2_1_17_1"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1145\/2063384.2063400"},{"key":"e_1_3_2_1_19_1","unstructured":"NVIDIA. Parallel Thread Execution ISA 2017.  NVIDIA. Parallel Thread Execution ISA 2017."},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1145\/2155620.2155656"},{"key":"e_1_3_2_1_21_1","unstructured":"Bryan Catanzaro. LDG and SHFL Intrinsics for arbitrary data types 2014.  Bryan Catanzaro. LDG and SHFL Intrinsics for arbitrary data types 2014."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-43659-3_45"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1002\/cpe.4244"},{"key":"e_1_3_2_1_24_1","unstructured":"Justin Luitjens. Faster Parallel Reductions on Kepler 2014.  Justin Luitjens. Faster Parallel Reductions on Kepler 2014."},{"key":"e_1_3_2_1_25_1","unstructured":"NVIDIA. CUDA C Best Practice Guide 2017.  NVIDIA. CUDA C Best Practice Guide 2017."},{"volume-title":"SC-08","author":"Volkov Vasily","key":"e_1_3_2_1_26_1"},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.1145\/2207222.2207225"},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1145\/2628071.2628087"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1145\/2503210.2503268"},{"volume-title":"Open64 Workshop at CGO","year":"2008","author":"Murphy Mike","key":"e_1_3_2_1_30_1"},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1145\/3037697.3037709"},{"key":"e_1_3_2_1_32_1","unstructured":"NVIDIA. CUDA SDK Code Samples 2015.  NVIDIA. CUDA SDK Code Samples 2015."},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1109\/IISWC.2009.5306797"},{"volume-title":"InPar-12","author":"Grauer-Gray Scott","key":"e_1_3_2_1_34_1"},{"volume-title":"ISPASS-09","author":"Kulkarni Milind","key":"e_1_3_2_1_35_1"},{"volume-title":"Center for Reliable and High-Performance Computing","year":"2012","author":"Stratton John A","key":"e_1_3_2_1_36_1"},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.1145\/1735688.1735702"},{"volume-title":"ISPASS-09","author":"Bakhoda Ali","key":"e_1_3_2_1_38_1"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.1145\/2807591.2807606"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.1145\/2400682.2400713"},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"publisher","DOI":"10.1145\/3033019.3033022"},{"key":"e_1_3_2_1_42_1","unstructured":"NVIDIA. CUDA Profiler User's Guide 2018.  NVIDIA. CUDA Profiler User's Guide 2018."},{"key":"e_1_3_2_1_43_1","unstructured":"NVIDIA. Kepler GK110 Whitepaper 2013.  NVIDIA. Kepler GK110 Whitepaper 2013."},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2013.6522337"},{"key":"e_1_3_2_1_45_1","doi-asserted-by":"publisher","DOI":"10.1145\/1964179.1964185"},{"volume-title":"InPar-12","author":"Davidson Andrew","key":"e_1_3_2_1_46_1"},{"key":"e_1_3_2_1_47_1","doi-asserted-by":"publisher","DOI":"10.1145\/2597652.2597685"},{"key":"e_1_3_2_1_48_1","doi-asserted-by":"publisher","DOI":"10.1145\/2830772.2830813"},{"key":"e_1_3_2_1_49_1","unstructured":"Ang Li Shuaiwen Leon Song Akash Kumar Eddy Z Zhang Daniel Chavarr\u00eda-Miranda and Henk Corporaal. Critical points based register-concurrency autotuning for GPUs. In DATE-16.   Ang Li Shuaiwen Leon Song Akash Kumar Eddy Z Zhang Daniel Chavarr\u00eda-Miranda and Henk Corporaal. Critical points based register-concurrency autotuning for GPUs. In DATE-16."},{"key":"e_1_3_2_1_50_1","doi-asserted-by":"publisher","DOI":"10.1145\/2749246.2749265"},{"volume-title":"IPDPS-16","author":"Li Ang","key":"e_1_3_2_1_51_1"},{"key":"e_1_3_2_1_52_1","doi-asserted-by":"publisher","DOI":"10.1145\/3126908.3126931"},{"key":"e_1_3_2_1_53_1","doi-asserted-by":"publisher","DOI":"10.1145\/2749469.2750375"},{"key":"e_1_3_2_1_54_1","doi-asserted-by":"publisher","DOI":"10.1145\/3168831"},{"key":"e_1_3_2_1_55_1","doi-asserted-by":"publisher","DOI":"10.1145\/2370816.2370858"},{"key":"e_1_3_2_1_56_1","doi-asserted-by":"publisher","DOI":"10.1145\/1941553.1941590"},{"key":"e_1_3_2_1_57_1","unstructured":"Marc S Orr Bradford M Beckmann Steven K Reinhardt and David A Wood. Fine-grain task aggregation and coordination on GPUs. In ISCA-14. ACM.   Marc S Orr Bradford M Beckmann Steven K Reinhardt and David A Wood. Fine-grain task aggregation and coordination on GPUs. In ISCA-14. ACM."},{"key":"e_1_3_2_1_58_1","doi-asserted-by":"publisher","DOI":"10.1145\/2628071.2628107"},{"volume-title":"SYNASC-14","author":"Falch Thomas L","key":"e_1_3_2_1_59_1"},{"key":"e_1_3_2_1_60_1","doi-asserted-by":"publisher","DOI":"10.1145\/2925426.2926259"},{"key":"e_1_3_2_1_61_1","doi-asserted-by":"publisher","DOI":"10.1145\/2451116.2451160"}],"event":{"name":"ICS '18: 2018 International Conference on Supercomputing","sponsor":["SIGARCH ACM Special Interest Group on Computer Architecture"],"location":"Beijing China","acronym":"ICS '18"},"container-title":["Proceedings of the 2018 International Conference on Supercomputing"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3205289.3205294","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3205289.3205294","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3205289.3205294","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,18]],"date-time":"2025-06-18T01:08:33Z","timestamp":1750208913000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3205289.3205294"}},"subtitle":["A Novel Execution Model for GPUs"],"short-title":[],"issued":{"date-parts":[[2018,6,12]]},"references-count":61,"alternative-id":["10.1145\/3205289.3205294","10.1145\/3205289"],"URL":"https:\/\/doi.org\/10.1145\/3205289.3205294","relation":{},"subject":[],"published":{"date-parts":[[2018,6,12]]},"assertion":[{"value":"2018-06-12","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}