{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,7]],"date-time":"2026-02-07T12:36:05Z","timestamp":1770467765019,"version":"3.49.0"},"reference-count":37,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2023,11,22]],"date-time":"2023-11-22T00:00:00Z","timestamp":1700611200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,11,22]],"date-time":"2023-11-22T00:00:00Z","timestamp":1700611200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100001809","name":"NSFC","doi-asserted-by":"crossref","award":["62102438"],"award-info":[{"award-number":["62102438"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"crossref"}]},{"DOI":"10.13039\/501100005090","name":"Beijing Nova Program","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100005090","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Real-Time Syst"],"published-print":{"date-parts":[[2024,3]]},"DOI":"10.1007\/s11241-023-09409-x","type":"journal-article","created":{"date-parts":[[2023,11,22]],"date-time":"2023-11-22T18:01:38Z","timestamp":1700676098000},"page":"1-23","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":3,"title":["Cluster-aware scheduling in multitasking GPUs"],"prefix":"10.1007","volume":"60","author":[{"given":"Xia","family":"Zhao","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Huiquan","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Anwen","family":"Huang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dongsheng","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Guangda","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2023,11,22]]},"reference":[{"key":"9409_CR24","doi-asserted-by":"crossref","unstructured":"Abdolrashidi A, Esfeden HA, Jahanshahi A, Singh K, Abu-Ghazaleh N, Wong D (2021) BlockMaestro: enabling programmer-transparent task-based execution in GPU systems. In: ISCA, pp. 333\u2013346","DOI":"10.1109\/ISCA52012.2021.00034"},{"key":"9409_CR6","doi-asserted-by":"crossref","unstructured":"Adriaens JT, Compton K, Kim NS, Schulte MJ (2012) The case for GPGPU spatial multitasking. In: HPCA, pp. 1\u201312","DOI":"10.1109\/HPCA.2012.6168946"},{"key":"9409_CR8","doi-asserted-by":"crossref","unstructured":"Aguilera P, Morrow K, Kim NS (2014) Fair share: allocation of GPU resources for both performance and fairness. In: ICCD, pp. 440\u2013447","DOI":"10.1109\/ICCD.2014.6974717"},{"key":"9409_CR26","doi-asserted-by":"crossref","unstructured":"Ahn J, Kim J, Kasan H, Delshadtehrani L, Song W, Joshi A, Kim J (2021) Network-on-chip microarchitecture-based covert channel in GPUs. In: MICRO, pp. 565\u2013577","DOI":"10.1145\/3466752.3480093"},{"key":"9409_CR29","doi-asserted-by":"crossref","unstructured":"Avalos Baddouh C, Khairy M, Green RN, Payer M, Rogers TG (2021) Principal kernel analysis: a tractable methodology to simulate scaled GPU workloads. In: MICRO, pp. 724\u2013737","DOI":"10.1145\/3466752.3480100"},{"key":"9409_CR32","doi-asserted-by":"crossref","unstructured":"Bakhoda A, Yuan GL, Fung WWL, Wong H, Aamodt TM (2009) Analyzing CUDA workloads using a detailed GPU simulator. In: ISPASS, pp. 163\u2013174","DOI":"10.1109\/ISPASS.2009.4919648"},{"key":"9409_CR12","doi-asserted-by":"crossref","unstructured":"Bakhoda A, Kim J, Aamodt TM (2010) Throughput-effective on-chip networks for manycore accelerators. In: MICRO, pp. 421\u2013432","DOI":"10.1109\/MICRO.2010.50"},{"key":"9409_CR33","doi-asserted-by":"crossref","unstructured":"Che S, Boyer M, Meng J, Tarjan D, Sheaffer JW, Lee S-H, Skadron K (2009) Rodinia: a benchmark suite for heterogeneous computing. In: IISWC, pp. 44\u201354","DOI":"10.1109\/IISWC.2009.5306797"},{"key":"9409_CR16","doi-asserted-by":"crossref","unstructured":"Cheng X, Zhao Y, Zhao H, Xie Y (2018) Packet pump: overcoming network bottleneck in on-chip interconnects for GPGPUs. In: DAC, pp. 84:1\u201384:6","DOI":"10.1145\/3195970.3196087"},{"key":"9409_CR22","doi-asserted-by":"crossref","unstructured":"Dai H, Lin Z, Li C, Zhao C, Wang F, Zheng N, Zhou H (2018) Accelerate GPU concurrent kernel execution by mitigating memory pipeline stalls. In: HPCA, pp. 208\u2013220","DOI":"10.1109\/HPCA.2018.00027"},{"key":"9409_CR35","doi-asserted-by":"crossref","unstructured":"Grauer-Gray S, Xu L, Searles R, Ayalasomayajula S, Cavazos J (2012) Auto-tuning a high-level language targeted to GPU Codes. In: InPar, pp. 1\u201310","DOI":"10.1109\/InPar.2012.6339595"},{"key":"9409_CR34","doi-asserted-by":"crossref","unstructured":"He B, Fang W, Luo Q, Govindaraju NK, Wang T (2008) Mars: a mapreduce framework on graphics processors. In: PACT, pp. 260\u2013269","DOI":"10.1145\/1454115.1454152"},{"key":"9409_CR5","doi-asserted-by":"crossref","unstructured":"Hsieh K, Ebrahimi E, Kim G, Chatterjee N, O\u2019Connor M, Vijaykumar N, Mutlu O, Keckler SW (2016) Transparent offloading and mapping (TOM): Enabling programmer-transparent near-data processing in gpu systems. In: ISCA, pp. 204\u2013216","DOI":"10.1145\/3007787.3001159"},{"key":"9409_CR9","doi-asserted-by":"crossref","unstructured":"Jog A, Kayiran O, Kesten T, Pattnaik A, Bolotin E, Chatterjee N, Keckler SW, Kandemir MT, Das CR (2015) Anatomy of GPU memory system for multi-application execution. In: MEMSYS, pp. 223\u2013234","DOI":"10.1145\/2818950.2818979"},{"key":"9409_CR30","doi-asserted-by":"crossref","unstructured":"Lee J, Kim H (2012) TAP: A TLP-aware cache management policy For a CPU-GPU heterogeneous architecture. In: HPCA, pp. 1\u201312","DOI":"10.1109\/HPCA.2012.6168947"},{"issue":"3","key":"9409_CR18","doi-asserted-by":"publisher","first-page":"748","DOI":"10.1109\/TPDS.2014.2313342","volume":"26","author":"Y Liang","year":"2015","unstructured":"Liang Y, Huynh HP, Rupnow K, Goh RSM, Chen D (2015) Efficient GPU spatial-temporal multitasking. IEEE Trans Parallel Distrib Syst 26(3):748\u2013760","journal-title":"IEEE Trans Parallel Distrib Syst"},{"key":"9409_CR28","doi-asserted-by":"crossref","unstructured":"Liu L, Chang W, Demoullin F, Chou YH, Saed M, Pankratz D, Nowicki T, Aamodt TM (2021) Intersection prediction for accelerated GPU ray tracing. In: MICRO, pp. 709\u2013723","DOI":"10.1145\/3466752.3480097"},{"key":"9409_CR25","doi-asserted-by":"crossref","unstructured":"Muthukrishnan H, Lustig D, Nellans D, Wenisch T (2021) GPS: a global publish-subscribe model for multi-GPU memory management. In: MICRO, pp. 46\u201358","DOI":"10.1145\/3466752.3480088"},{"key":"9409_CR23","doi-asserted-by":"crossref","unstructured":"Muthukrishnan H, Nellans D, Lustig D, Fessler JA, Wenisch TF (2021) Efficient multi-GPU shared memory via automatic optimization of fine-grained transfers. In: ISCA, pp. 139\u2013152","DOI":"10.1109\/ISCA52012.2021.00020"},{"key":"9409_CR2","unstructured":"Nvidia (2016) NVIDIA GP100 pascal architecture. http:\/\/www.nvidia.com\/object\/pascal-architecture-whitepaper.html"},{"key":"9409_CR1","unstructured":"Nvidia (2017) NVIDIA Tesla V100 volta architecture. http:\/\/www.nvidia.com\/object\/volta-architecture-whitepaper.html"},{"key":"9409_CR31","unstructured":"Nvidia (2017) Parallel thread execution ISA version 6.1. http:\/\/docs.nvidia.com\/cuda\/parallel-thread-execution\/index.html"},{"key":"9409_CR37","unstructured":"NVIDIA CUDA SDK code samples. https:\/\/developer.nvidia.com\/cuda-downloads"},{"key":"9409_CR19","doi-asserted-by":"crossref","unstructured":"Park JJK, Park Y, Mahlke S (2015) Chimera: collaborative preemption for multitasking on a shared GPU. In: ASPLOS, pp. 593\u2013606","DOI":"10.1145\/2775054.2694346"},{"key":"9409_CR3","doi-asserted-by":"publisher","first-page":"278","DOI":"10.1109\/JETCAS.2012.2193936","volume":"2","author":"K Sewell","year":"2012","unstructured":"Sewell K, Dreslinski RG, Manville T, Satpathy S, Pinckney N, Blake G, Cieslak M, Das R, Wenisch TF, Sylvester D, Blaauw D, Mudge T (2012) Swizzle-switch networks for many-core systems. IEEE J Emerg Selected Topics Circuits Syst 2:278\u2013294","journal-title":"IEEE J Emerg Selected Topics Circuits Syst"},{"key":"9409_CR36","unstructured":"Stratton JA, Rodrigues C, Sung I-J, Obeid N, Chang L-W, Anssari N, Liu GD, Hwu W-MW (2012) Parboil: a revised benchmark suite for scientific and commercial throughput computing. Tech. rep"},{"key":"9409_CR7","doi-asserted-by":"crossref","unstructured":"Tanasic I, Gelado I, Cabezas J, Ramirez A, Navarro N, Valero M (2014) Enabling preemptive multiprogramming on GPUs. In: ISCA, pp. 193\u2013204","DOI":"10.1145\/2678373.2665702"},{"key":"9409_CR21","doi-asserted-by":"crossref","unstructured":"Wang Z, Yang J, Melhem R, Childers B, Zhang Y, Guo M (2016) Simultaneous multikernel GPU: multi-tasking throughput processors via fine-grained sharing. In: HPCA, pp. 358\u2013369","DOI":"10.1109\/HPCA.2016.7446078"},{"key":"9409_CR4","doi-asserted-by":"crossref","unstructured":"Wang L, Zhao X, Kaeli D, Wang Z, Eeckhout L (2018) Intra-cluster coalescing and CTA scheduling to reduce GPU NoC pressure. In: IPDPS","DOI":"10.1109\/IPDPS.2018.00108"},{"key":"9409_CR20","doi-asserted-by":"crossref","unstructured":"Wang H, Luo F, Ibrahim M, Kayiran O, Jog A (2018) Efficient and fair multi-programming in GPUs via effective bandwidth management. In: HPCA","DOI":"10.1109\/HPCA.2018.00030"},{"issue":"8","key":"9409_CR11","doi-asserted-by":"publisher","first-page":"4710","DOI":"10.1007\/s11227-018-2694-x","volume":"75","author":"Z Xu","year":"2019","unstructured":"Xu Z, Zhao X, Wang Z, Yang C (2019) Application-aware NoC management in GPUs multitasking. J Supercomput 75(8):4710\u20134730","journal-title":"J Supercomput"},{"key":"9409_CR14","doi-asserted-by":"crossref","unstructured":"Zhao X, Ma S, Li C, Eeckhout L, Wang Z (2016) A heterogeneous low-cost and low-latency ring-chain network for GPGPUs. In: ICCD, pp. 472\u2013479","DOI":"10.1109\/ICCD.2016.7753329"},{"key":"9409_CR13","doi-asserted-by":"crossref","unstructured":"Zhao X, Ma S, Liu Y, Eeckhout L, Wang Z (2016) A low-cost conflict-free NoC for GPGPUs. In: Proceedings of the Design Automation Conference (DAC), pp. 34:1\u201334:6","DOI":"10.1145\/2897937.2897963"},{"key":"9409_CR10","doi-asserted-by":"crossref","unstructured":"Zhao X, Jahre M, Eeckhout L (2020) HSM: a hybrid slowdown model for multitasking GPUs. In: ASPLOS, pp. 1371\u20131385","DOI":"10.1145\/3373376.3378457"},{"key":"9409_CR17","doi-asserted-by":"crossref","unstructured":"Zhao X, Eeckhout L, Jahre M (2022) Delegated replies: alleviating network clogging in heterogeneous architectures. In: HPCA, pp. 1014\u20131028","DOI":"10.1109\/HPCA53966.2022.00078"},{"key":"9409_CR27","doi-asserted-by":"crossref","unstructured":"Zhang J, Jung M (2021) Ohm-GPU: integrating new optical network and heterogeneous memory into gpu multi-processors. In: MICRO, pp. 695\u2013708","DOI":"10.1145\/3466752.3480107"},{"key":"9409_CR15","doi-asserted-by":"crossref","unstructured":"Ziabari AK, Abell\u00e1n JL, Ma Y, Joshi A, Kaeli D (2015) Asymmetric NoC architectures for GPU systems. In: NoCs, pp. 25:1\u201325:8","DOI":"10.1145\/2786572.2786596"}],"container-title":["Real-Time Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11241-023-09409-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11241-023-09409-x\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11241-023-09409-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,4,22]],"date-time":"2024-04-22T17:09:18Z","timestamp":1713805758000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11241-023-09409-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,11,22]]},"references-count":37,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2024,3]]}},"alternative-id":["9409"],"URL":"https:\/\/doi.org\/10.1007\/s11241-023-09409-x","relation":{},"ISSN":["0922-6443","1573-1383"],"issn-type":[{"value":"0922-6443","type":"print"},{"value":"1573-1383","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,11,22]]},"assertion":[{"value":"7 August 2023","order":1,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"22 November 2023","order":2,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"Research does not have any financial and non-financial competing interests.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}},{"value":"This manuscript belongs to the scope of engineering and does not involve human and animal research.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethical approval"}},{"value":"Research does not include details, images, or videos relating to an individual person.","order":4,"name":"Ethics","group":{"name":"EthicsHeading","label":"Consent for publication"}}]}}