{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,10]],"date-time":"2026-03-10T14:45:37Z","timestamp":1773153937910,"version":"3.50.1"},"reference-count":33,"publisher":"IEEE","license":[{"start":{"date-parts":[[2024,6,19]],"date-time":"2024-06-19T00:00:00Z","timestamp":1718755200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,6,19]],"date-time":"2024-06-19T00:00:00Z","timestamp":1718755200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,6,19]]},"DOI":"10.1109\/iwqos61813.2024.10682877","type":"proceedings-article","created":{"date-parts":[[2024,9,26]],"date-time":"2024-09-26T17:41:00Z","timestamp":1727372460000},"page":"1-10","source":"Crossref","is-referenced-by-count":4,"title":["Scheduling Deep Learning Jobs in Multi-Tenant GPU Clusters via Wise Resource Sharing"],"prefix":"10.1109","author":[{"given":"Yizhou","family":"Luo","sequence":"first","affiliation":[{"name":"Guangdong Provincial Key Laboratory of Novel Security Intelligence Technologies,Harbin Institute of Technology (Shenzhen)"}]},{"given":"Qiang","family":"Wang","sequence":"additional","affiliation":[{"name":"Guangdong Provincial Key Laboratory of Novel Security Intelligence Technologies,Harbin Institute of Technology (Shenzhen)"}]},{"given":"Shaohuai","family":"Shi","sequence":"additional","affiliation":[{"name":"Guangdong Provincial Key Laboratory of Novel Security Intelligence Technologies,Harbin Institute of Technology (Shenzhen)"}]},{"given":"Jiaxin","family":"Lai","sequence":"additional","affiliation":[{"name":"Guangdong Provincial Key Laboratory of Novel Security Intelligence Technologies,Harbin Institute of Technology (Shenzhen)"}]},{"given":"Shuhan","family":"Qi","sequence":"additional","affiliation":[{"name":"Guangdong Provincial Key Laboratory of Novel Security Intelligence Technologies,Harbin Institute of Technology (Shenzhen)"}]},{"given":"Jiajia","family":"Zhang","sequence":"additional","affiliation":[{"name":"Guangdong Provincial Key Laboratory of Novel Security Intelligence Technologies,Harbin Institute of Technology (Shenzhen)"}]},{"given":"Xuan","family":"Wang","sequence":"additional","affiliation":[{"name":"Guangdong Provincial Key Laboratory of Novel Security Intelligence Technologies,Harbin Institute of Technology (Shenzhen)"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1038\/nature14539"},{"key":"ref2","first-page":"1223","article-title":"Large Scale Distributed Deep Networks","volume":"25","author":"Dean","year":"2012","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref3","article-title":"Analysis of large-scale multi-tenant gpu clusters for dnn training workloads","author":"Jeon","year":"2019"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1145\/2785956.2787488"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/INFOCOM.2019.8737415"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/2901318.2901355"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/INFOCOM.2019.8737465"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICDCS.2019.00204"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/INFOCOM.2017.8057205"},{"key":"ref10","article-title":"Low-latency job scheduling with preemption for the development of deep learning","volume-title":"USENIX Conference on Operational Machine Learning (OpML)","author":"Yabuuchi"},{"key":"ref11","first-page":"39","article-title":"Tony: An orchestrator for distributed machine learning jobs","volume-title":"2019 USENIX Conference on Operational Machine Learning (OpML 19)","author":"Hsu"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1145\/3190508.3190517"},{"key":"ref13","first-page":"485","article-title":"Tiresias: A GPU Cluster Manager for Distributed Deep Learning","volume-title":"16th USENIX Symposium on Networked Systems Design and Implementation (NSDI 19)","author":"Gu"},{"key":"ref14","first-page":"481","article-title":"Heterogeneity-Aware cluster scheduling policies for deep learning workloads","volume-title":"14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20)","author":"Narayanan"},{"key":"ref15","first-page":"1","article-title":"Pollux: Co-adaptive cluster scheduling for goodput-optimized deep learning","volume-title":"15th USENIX Symposium on Operating Systems Design and Implementation (OSDI 21)","author":"Qiao"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1145\/3627703.3629583"},{"key":"ref17","first-page":"595","article-title":"Gandiva: Introspective Cluster Scheduling for Deep Learning","volume-title":"13th USENIX Symposium on Operating Systems Design and Implementation (OSDI 18)","author":"Xiao"},{"key":"ref18","first-page":"161","article-title":"Zico: Efficient GPU memory sharing for concurrent DNN training","volume-title":"2021 USENIX Annual Technical Conference (USENIX ATC 21)","author":"Lim"},{"key":"ref19","article-title":"Salus: Fine-Grained GPU Sharing Primitives for Deep Learning Applications","volume-title":"Proceedings of the third MLSys Conference","author":"Yu"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1145\/3575693.3575705"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/INFOCOM48880.2022.9796785"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1145\/3492866.3549716"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CCGrid57682.2023.00040"},{"key":"ref24","author":"Huang","year":"2019","journal-title":"GPipe: Efficient Training of Giant Neural Networks Using Pipeline Parallelism"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1145\/3337821.3337873"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/INFOCOM.2019.8737460"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/ICDCS.2019.00201"},{"key":"ref28","first-page":"945","article-title":"MLaaS in the wild: Workload analysis and scheduling in Large-Scale heterogeneous GPU clusters","volume-title":"19th USENIX Symposium on Networked Systems Design and Implementation (NSDI 22)","author":"Weng"},{"key":"ref29","article-title":"Communication contention aware scheduling of multiple deep learning training jobs","author":"Wang","year":"2020"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-15646-5_3"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/3373376.3378530"},{"key":"ref32","first-page":"289","article-title":"Themis: Fair and efficient GPU cluster scheduling","volume-title":"17th USENIX Symposium on Networked Systems Design and Implementation (NSDI 20)","author":"Mahajan"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1016\/j.simpat.2010.08.010"}],"event":{"name":"2024 IEEE\/ACM 32nd International Symposium on Quality of Service (IWQoS)","location":"Guangzhou, China","start":{"date-parts":[[2024,6,19]]},"end":{"date-parts":[[2024,6,21]]}},"container-title":["2024 IEEE\/ACM 32nd International Symposium on Quality of Service (IWQoS)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10682818\/10682608\/10682877.pdf?arnumber=10682877","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,9,27]],"date-time":"2024-09-27T04:39:57Z","timestamp":1727411997000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10682877\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,6,19]]},"references-count":33,"URL":"https:\/\/doi.org\/10.1109\/iwqos61813.2024.10682877","relation":{},"subject":[],"published":{"date-parts":[[2024,6,19]]}}}