{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,5]],"date-time":"2026-03-05T15:46:12Z","timestamp":1772725572491,"version":"3.50.1"},"reference-count":50,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2016,3]]},"DOI":"10.1109\/hpca.2016.7446077","type":"proceedings-article","created":{"date-parts":[[2016,4,4]],"date-time":"2016-04-04T22:03:56Z","timestamp":1459807436000},"page":"345-357","source":"Crossref","is-referenced-by-count":92,"title":["Towards high performance paged memory for GPUs"],"prefix":"10.1109","author":[{"given":"Tianhao","family":"Zheng","sequence":"first","affiliation":[]},{"given":"David","family":"Nellans","sequence":"additional","affiliation":[]},{"given":"Arslan","family":"Zulfiqar","sequence":"additional","affiliation":[]},{"given":"Mark","family":"Stephenson","sequence":"additional","affiliation":[]},{"given":"Stephen W.","family":"Keckler","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2014.6835965"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1145\/2541940.2541942"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1016\/0743-7315(91)90014-Z"},{"key":"ref32","article-title":"Optimizing CoMD: A Molecular Dynamics Proxy Application Study","author":"mohd-yusof","year":"2014","journal-title":"GPU Technology Conference (GTC)"},{"key":"ref31","first-page":"14","article-title":"Operating System Support for NVM+DRAM Hybrid Main Memory","author":"mogul","year":"2009","journal-title":"Workshop on Hot Topics in Operating Systems (HotOS)"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1145\/1882486.1882513"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2014.6835964"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/DATE.2011.5763155"},{"key":"ref35","article-title":"NVIDIA Launches World's First High-Speed GPU Interconnect, Helping Pave the Way to Exascale Computing","year":"2014"},{"key":"ref34","article-title":"Unified Memory in CUDA 6","year":"2013","journal-title":"NVIDIA Corporation"},{"key":"ref28","first-page":"354","article-title":"Reducing GPU Offload Latency via Fine-grained CPU-GPUsynchronization","author":"lustig","year":"2013","journal-title":"International Symposium on High-Performance Computer Architecture (HPCA)"},{"key":"ref27","doi-asserted-by":"crossref","first-page":"1202","DOI":"10.1109\/12.966495","article-title":"Designing a Modern Memory Hierarchy with Hardware Prefetching","volume":"50","author":"lin","year":"2001","journal-title":"Proceedings of IEEE Transactions on Computers"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1145\/2366231.2337168"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/2786763.2694381"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2015.7056046"},{"key":"ref20","article-title":"HSA Platform System Architecture Specification - Provisional 1.0","year":"2014","journal-title":"The HSA Foundation"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/L-CA.2013.19"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1016\/S1383-7621(02)00066-8"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2013.6557176"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/MM.2008.48"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/71.180624"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/HPEC.2014.7040988"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1145\/1736020.1736036"},{"key":"ref10","first-page":"1","article-title":"On the Importance of Parallel Application Placement in NUMA Multiprocessors","author":"brecht","year":"1993","journal-title":"Symposium on Experiences with Distributed and Multiprocessor Systems IV"},{"key":"ref11","first-page":"196","article-title":"Soft-ware Design Space Exploration for Exascale Combustion Co-design","author":"chan","year":"2013","journal-title":"International Supercomputing Conference (ISC)"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1145\/1995896.1995911"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/IISWC.2009.5306797"},{"key":"ref13","article-title":"AutoNUMA: the other approach to NUMA scheduling","author":"corbet","year":"2012"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1145\/2451116.2451157"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1145\/1669112.1669154"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2009.4798232"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1145\/77726.255176"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2011.5762730"},{"key":"ref19","article-title":"Improving Performance via Mini-applications","author":"heroux","year":"2009","journal-title":"Sandia National Laboratories Tech Rep SAND"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1145\/1854273.1854314"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1145\/379240.379251"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/2485922.2485943"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2009.4919648"},{"key":"ref8","first-page":"1","article-title":"A Case for NUMA-aware Contention Management on Multicore Systems","author":"blagodurov","year":"2011","journal-title":"Proceedings of the USENIX Annual Technical Conference (USENIX"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/IGCC.2011.6008569"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1145\/2541228.2541231"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1145\/74850.74854"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1145\/237090.237205"},{"key":"ref45","article-title":"XSBench - The Development and Verification of a Performance Abstraction for Monte Carlo Reactor Analysis","author":"tramm","year":"2014","journal-title":"The Role of Reactor Physics toward a Sustainable Future (PHYSOR)"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1145\/582034.582067"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/PACT.2013.6618807"},{"key":"ref42","article-title":"Parboil: A Revised Benchmark Suite for Scientific and Commercial Throughput Computing","author":"stratton","year":"2012","journal-title":"IMPACT Technical Report IMPACT-12&#x2013;01 University of Illinois at Urbana-Champaign Tech Rep"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2007.346185"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1145\/1272996.1273004"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.1998.694775"}],"event":{"name":"2016 IEEE International Symposium on High Performance Computer Architecture (HPCA)","location":"Barcelona, Spain","start":{"date-parts":[[2016,3,12]]},"end":{"date-parts":[[2016,3,16]]}},"container-title":["2016 IEEE International Symposium on High Performance Computer Architecture (HPCA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7440961\/7446041\/7446077.pdf?arnumber=7446077","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2017,6,24]],"date-time":"2017-06-24T10:05:39Z","timestamp":1498298739000},"score":1,"resource":{"primary":{"URL":"http:\/\/ieeexplore.ieee.org\/document\/7446077\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2016,3]]},"references-count":50,"URL":"https:\/\/doi.org\/10.1109\/hpca.2016.7446077","relation":{},"subject":[],"published":{"date-parts":[[2016,3]]}}}