{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,23]],"date-time":"2026-04-23T21:03:51Z","timestamp":1776978231453,"version":"3.51.4"},"reference-count":31,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2026]]},"DOI":"10.1109\/access.2026.3681290","type":"journal-article","created":{"date-parts":[[2026,4,6]],"date-time":"2026-04-06T19:57:43Z","timestamp":1775505463000},"page":"59409-59421","source":"Crossref","is-referenced-by-count":0,"title":["DSFRO: Dynamic Scheduling and Fine-Grained Resource Optimization for Distributed Large Model Training in Heterogeneous Clusters"],"prefix":"10.1109","volume":"14","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-0317-0673","authenticated-orcid":false,"given":"da","family":"Gao","sequence":"first","affiliation":[{"name":"China Telecom Research Institute, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-9288-7803","authenticated-orcid":false,"given":"Guanlin","family":"Dai","sequence":"additional","affiliation":[{"name":"China Telecom Research Institute, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lin","family":"Tian","sequence":"additional","affiliation":[{"name":"China Telecom Research Institute, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yang","family":"Wang","sequence":"additional","affiliation":[{"name":"China Telecom Research Institute, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Liang","family":"Guo","sequence":"additional","affiliation":[{"name":"China Academy of Information and Communications Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chao","family":"Zheng","sequence":"additional","affiliation":[{"name":"China Telecom Research Institute, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","first-page":"1877","article-title":"Language models are few-shot learners","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Brown"},{"key":"ref2","article-title":"Llama 2: Open foundation and fine-tuned chat models","author":"Touvron","year":"2023","journal-title":"arXiv:2307.09288"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1038\/nature14539"},{"key":"ref4","article-title":"Carbon emissions and large neural network training","author":"Patterson","year":"2021","journal-title":"arXiv:2104.10350"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/p19-1355"},{"issue":"1","key":"ref6","first-page":"1","article-title":"Sustainable AI: Environmental implications, challenges and opportunities","volume":"3","author":"Wu","year":"2022","journal-title":"IEEE Trans. Artif. Intell."},{"key":"ref7","first-page":"45","article-title":"Power-efficient GPU cluster scheduling for deep learning workloads","volume-title":"Proc. IEEE Int. Symp. High-Perform. Comput. Archit. (HPCA)","author":"Hu"},{"key":"ref8","article-title":"Megatron-LM: Training multi-billion parameter language models using model parallelism","author":"Shoeybi","year":"2019","journal-title":"arXiv:1909.08053"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1145\/3394486.3406703"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/SC41405.2020.00024"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1145\/2640087.2644155"},{"key":"ref12","volume-title":"Kubernetes: Up and Running","author":"Rensin","year":"2015"},{"key":"ref13","first-page":"323","article-title":"Dominant resource fairness: Fair allocation of multiple resource types","volume-title":"Proc. USENIX NSDI","author":"Ghodsi"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1145\/3005745.3005750"},{"issue":"5","key":"ref15","first-page":"1421","article-title":"Uniform: An efficient deep reinforcement learning scheduler for distributed machine learning","volume":"34","author":"Zhang","year":"2023","journal-title":"IEEE Trans. Parallel Distrib. Syst."},{"key":"ref16","first-page":"1","article-title":"Pollux: Co-adaptive cluster scheduling for goodput-optimized deep learning","volume-title":"Proc. USENIX OSDI","author":"Qiao"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1145\/3190508.3190517"},{"key":"ref18","first-page":"533","article-title":"AntMan: Dynamic scaling on GPU clusters for deep learning","volume-title":"Proc. USENIX OSDI","author":"Xiao"},{"key":"ref19","first-page":"1027","article-title":"Gandiva: Introspective cluster scheduling for deep learning","volume-title":"Proc. USENIX OSDI","author":"Xiao"},{"key":"ref20","volume-title":"NVIDIA Multi-Instance GPU (MIG) User Guide","year":"2020"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/INFOCOM.2018.8486422"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/DASC\/PiCom\/DataCom\/CyberSciTec.2018.000-4"},{"issue":"3","key":"ref23","first-page":"2450","article-title":"Topology-aware scheduling for distributed machine learning","volume":"19","author":"Scheinert","year":"2022","journal-title":"IEEE Trans. Netw. Service Manag."},{"key":"ref24","article-title":"Optimizing network performance for distributed DNN training on GPU clusters: ImageNet\/AlexNet training in 1.5 minutes","author":"Sun","year":"2019","journal-title":"arXiv:1902.06855"},{"key":"ref25","article-title":"Cloud programming simplified: A Berkeley view on serverless computing","author":"Gonzalez","year":"2019","journal-title":"arXiv:1902.03383"},{"key":"ref26","first-page":"947","article-title":"Analysis of large-scale multi-tenant GPU clusters for DNN training workloads","volume-title":"Proc. USENIX ATC","author":"Jeon"},{"key":"ref27","article-title":"Communication-efficient distributed deep learning: A comprehensive survey","author":"Tang","year":"2020","journal-title":"arXiv:2004.10260"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4757-3157-6"},{"key":"ref29","first-page":"1273","article-title":"Communication-efficient learning of deep networks from decentralized data","volume-title":"Proc. 20th Int. Conf. Artif. Intell. Stat. (AISTATS)","author":"McMahan"},{"key":"ref30","article-title":"Towards federated learning at scale: System design","volume-title":"Proc. Mach. Learn. Syst. (SysML)","author":"Bonawitz"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2025.3601598"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6287639\/11323511\/11475428.pdf?arnumber=11475428","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,23]],"date-time":"2026-04-23T19:59:58Z","timestamp":1776974398000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11475428\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"references-count":31,"URL":"https:\/\/doi.org\/10.1109\/access.2026.3681290","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]}}}