{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,19]],"date-time":"2025-12-19T13:03:33Z","timestamp":1766149413665,"version":"3.48.0"},"reference-count":43,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2025,11,1]],"date-time":"2025-11-01T00:00:00Z","timestamp":1761955200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2025,11,1]],"date-time":"2025-11-01T00:00:00Z","timestamp":1761955200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2025,11,1]],"date-time":"2025-11-01T00:00:00Z","timestamp":1761955200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2025,11,1]],"date-time":"2025-11-01T00:00:00Z","timestamp":1761955200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2025,11,1]],"date-time":"2025-11-01T00:00:00Z","timestamp":1761955200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2025,11,1]],"date-time":"2025-11-01T00:00:00Z","timestamp":1761955200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,11,1]],"date-time":"2025-11-01T00:00:00Z","timestamp":1761955200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100014188","name":"Ministry of Science and ICT, South Korea","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100014188","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100010418","name":"Institute of Information &amp; Communications Technology Planning &amp; Evaluation","doi-asserted-by":"publisher","award":["RS-2025-02220502"],"award-info":[{"award-number":["RS-2025-02220502"]}],"id":[{"id":"10.13039\/501100010418","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Journal of Systems Architecture"],"published-print":{"date-parts":[[2025,11]]},"DOI":"10.1016\/j.sysarc.2025.103573","type":"journal-article","created":{"date-parts":[[2025,9,23]],"date-time":"2025-09-23T02:10:04Z","timestamp":1758593404000},"page":"103573","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["SADDLE: A runtime feedback control architecture for adaptive distributed deep learning in heterogeneous GPU clusters"],"prefix":"10.1016","volume":"168","author":[{"ORCID":"https:\/\/orcid.org\/0009-0003-5078-4405","authenticated-orcid":false,"given":"HyungJun","family":"Kim","sequence":"first","affiliation":[]},{"given":"Eunyoung","family":"Lee","sequence":"additional","affiliation":[]},{"given":"Heonchang","family":"Yu","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.sysarc.2025.103573_b1","series-title":"International Conference on Machine Learning","first-page":"3043","article-title":"Asynchronous decentralized parallel stochastic gradient descent","author":"Lian","year":"2018"},{"year":"2018","series-title":"OpenAI Dota Team, an empirical model of large-batch training","author":"McCandlish","key":"10.1016\/j.sysarc.2025.103573_b2"},{"key":"10.1016\/j.sysarc.2025.103573_b3","unstructured":"Aurick Qiao, Sang Keun Choe, Suhas Jayaram Subramanya, Willie Neiswanger, Qirong Ho, Hao Zhang, Gregory R. Ganger, Eric P. Xing, Pollux: Co-adaptive cluster scheduling for goodput-optimized deep learning, in: 15th USENIX Symposium on Operating Systems Design and Implementation, OSDI 21, 2021, pp. 1\u201318."},{"key":"10.1016\/j.sysarc.2025.103573_b4","series-title":"14th USENIX Symposium on Operating Systems Design and Implementation","first-page":"937","article-title":"{Kungfu}: Making training in distributed machine learning adaptive","author":"Mai","year":"2020"},{"key":"10.1016\/j.sysarc.2025.103573_b5","article-title":"More effective distributed ML via a stale synchronous parallel parameter server","volume":"26","author":"Ho","year":"2013","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.sysarc.2025.103573_b6","series-title":"2019 IEEE 39th International Conference on Distributed Computing Systems","first-page":"1507","article-title":"Dynamic stale synchronous parallel distributed training for deep learning","author":"Zhao","year":"2019"},{"issue":"4","key":"10.1016\/j.sysarc.2025.103573_b7","doi-asserted-by":"crossref","first-page":"2637","DOI":"10.1109\/TCC.2021.3062398","article-title":"GSSP: Eliminating stragglers through grouping synchronous for distributed deep learning in heterogeneous cluster","volume":"10","author":"Sun","year":"2021","journal-title":"IEEE Trans. Cloud Comput."},{"issue":"5","key":"10.1016\/j.sysarc.2025.103573_b8","doi-asserted-by":"crossref","first-page":"1030","DOI":"10.1109\/TPDS.2020.3040601","article-title":"Petrel: Heterogeneity-aware distributed deep learning via hybrid synchronization","volume":"32","author":"Zhou","year":"2020","journal-title":"IEEE Trans. Parallel Distrib. Syst."},{"key":"10.1016\/j.sysarc.2025.103573_b9","series-title":"2021 IEEE 41st International Conference on Distributed Computing Systems","first-page":"528","article-title":"Sync-switch: Hybrid parameter synchronization for distributed deep learning","author":"Li","year":"2021"},{"key":"10.1016\/j.sysarc.2025.103573_b10","series-title":"Proceedings of the Twenty-Fifth International Conference on Architectural Support for Programming Languages and Operating Systems","first-page":"401","article-title":"Prague: High-performance heterogeneity-aware asynchronous decentralized training","author":"Luo","year":"2020"},{"issue":"4","key":"10.1016\/j.sysarc.2025.103573_b11","doi-asserted-by":"crossref","first-page":"1217","DOI":"10.1109\/TETCI.2022.3220224","article-title":"DLB: A dynamic load balance strategy for distributed training of deep neural networks","volume":"7","author":"Ye","year":"2022","journal-title":"IEEE Trans. Emerg. Top. Comput. Intell."},{"key":"10.1016\/j.sysarc.2025.103573_b12","doi-asserted-by":"crossref","first-page":"47","DOI":"10.1007\/s11227-019-02845-2","article-title":"BOA: Batch orchestration algorithm for straggler mitigation of distributed DL training in heterogeneous GPU cluster","volume":"76","author":"Yang","year":"2020","journal-title":"J. Supercomput."},{"key":"10.1016\/j.sysarc.2025.103573_b13","first-page":"1","article-title":"LBB: Load-balanced batching for efficient distributed learning on heterogeneous GPU cluster","author":"Yao","year":"2024","journal-title":"J. Supercomput."},{"key":"10.1016\/j.sysarc.2025.103573_b14","doi-asserted-by":"crossref","DOI":"10.1016\/j.sysarc.2024.103079","article-title":"Hieval: A scheduling performance estimation approach for spatial accelerators via hierarchical abstraction","volume":"148","author":"Wu","year":"2024","journal-title":"J. Syst. Archit."},{"key":"10.1016\/j.sysarc.2025.103573_b15","unstructured":"Pengfei Zheng, Rui Pan, Tarannum Khan, Shivaram Venkataraman, Aditya Akella, Shockwave: Fair and efficient cluster scheduling for dynamic adaptation in machine learning, in: 20th USENIX Symposium on Networked Systems Design and Implementation, NSDI 23, 2023, pp. 703\u2013723."},{"key":"10.1016\/j.sysarc.2025.103573_b16","first-page":"400","article-title":"Resource elasticity in distributed deep learning","volume":"2","author":"Or","year":"2020","journal-title":"Proc. Mach. Learn. Syst."},{"key":"10.1016\/j.sysarc.2025.103573_b17","doi-asserted-by":"crossref","unstructured":"Tan N. Le, Xiao Sun, Mosharaf Chowdhury, Zhenhua Liu, AlloX: Compute allocation in hybrid clusters, in: Proceedings of the Fifteenth European Conference on Computer Systems, 2020, pp. 1\u201316.","DOI":"10.1145\/3342195.3387547"},{"key":"10.1016\/j.sysarc.2025.103573_b18","series-title":"14th USENIX Symposium on Operating Systems Design and Implementation","first-page":"481","article-title":"{Heterogeneity-aware} cluster scheduling policies for deep learning workloads","author":"Narayanan","year":"2020"},{"key":"10.1016\/j.sysarc.2025.103573_b19","series-title":"Proceedings of the 31st International Symposium on High-Performance Parallel and Distributed Computing","first-page":"253","article-title":"Hare: Exploiting inter-job and intra-job parallelism of distributed machine learning on heterogeneous GPUs","author":"Chen","year":"2022"},{"key":"10.1016\/j.sysarc.2025.103573_b20","series-title":"Proceedings of the 29th Symposium on Operating Systems Principles","first-page":"642","article-title":"Sia: Heterogeneity-aware, goodput-optimized ML-cluster scheduling","author":"Jayaram Subramanya","year":"2023"},{"key":"10.1016\/j.sysarc.2025.103573_b21","doi-asserted-by":"crossref","unstructured":"Zizhao Mo, Huanle Xu, Chengzhong Xu, Heet: Accelerating elastic training in heterogeneous deep learning clusters, in: Proceedings of the 29th ACM International Conference on Architectural Support for Programming Languages and Operating Systems, Vol. 2, 2024, pp. 499\u2013513.","DOI":"10.1145\/3620665.3640375"},{"key":"10.1016\/j.sysarc.2025.103573_b22","doi-asserted-by":"crossref","unstructured":"Zizhao Mo, Huanle Xu, Wing Cheong Lau, Optimal resource efficiency with fairness in heterogeneous GPU clusters, in: Proceedings of the 25th International Middleware Conference, 2024, pp. 36\u201348.","DOI":"10.1145\/3652892.3654792"},{"key":"10.1016\/j.sysarc.2025.103573_b23","doi-asserted-by":"crossref","DOI":"10.1016\/j.sysarc.2025.103536","article-title":"HeterScale: A hierarchical task scheduling framework for intelligent edge collaboration in IIOT","author":"Zhang","year":"2025","journal-title":"J. Syst. Archit."},{"key":"10.1016\/j.sysarc.2025.103573_b24","doi-asserted-by":"crossref","DOI":"10.1016\/j.sysarc.2024.103118","article-title":"A model-based approach for self-adaptive security in CPS: Application to smart grids","volume":"150","author":"Chehida","year":"2024","journal-title":"J. Syst. Archit."},{"key":"10.1016\/j.sysarc.2025.103573_b25","doi-asserted-by":"crossref","DOI":"10.1016\/j.sysarc.2024.103114","article-title":"Adaptive approximate computing in edge AI and IoT applications: A review","volume":"150","author":"Damsgaard","year":"2024","journal-title":"J. Syst. Archit."},{"issue":"4","key":"10.1016\/j.sysarc.2025.103573_b26","doi-asserted-by":"crossref","first-page":"424","DOI":"10.3934\/mmc.2024034","article-title":"Learning-based DoS attack game strategy over multi-process systems","volume":"4","author":"Hang","year":"2024","journal-title":"Math. Model. Control."},{"issue":"6","key":"10.1016\/j.sysarc.2025.103573_b27","doi-asserted-by":"crossref","first-page":"4649","DOI":"10.1109\/TSG.2023.3250321","article-title":"Hierarchical hybrid multi-agent deep reinforcement learning for peer-to-peer energy trading among multiple heterogeneous microgrids","volume":"14","author":"Wu","year":"2023","journal-title":"IEEE Trans. Smart Grid"},{"key":"10.1016\/j.sysarc.2025.103573_b28","series-title":"2023 IEEE 43rd International Conference on Distributed Computing Systems","first-page":"178","article-title":"Distributed online min\u2013max load balancing with risk-averse assistance","author":"Wang","year":"2023"},{"key":"10.1016\/j.sysarc.2025.103573_b29","article-title":"Pytorch: An imperative style, high-performance deep learning library","volume":"32","author":"Paszke","year":"2019","journal-title":"Adv. Neural Inf. Process. Syst."},{"year":"2018","series-title":"Horovod: Fast and easy distributed deep learning in TensorFlow","author":"Sergeev","key":"10.1016\/j.sysarc.2025.103573_b30"},{"key":"10.1016\/j.sysarc.2025.103573_b31","series-title":"Proceedings 2000 International Conference on Network Protocols","first-page":"187","article-title":"General AIMD congestion control","author":"Yang","year":"2000"},{"issue":"1","key":"10.1016\/j.sysarc.2025.103573_b32","doi-asserted-by":"crossref","first-page":"111","DOI":"10.1016\/j.csda.2003.10.021","article-title":"An ANOVA test for functional data","volume":"47","author":"Cuevas","year":"2004","journal-title":"Comput. Statist. Data Anal."},{"issue":"4","key":"10.1016\/j.sysarc.2025.103573_b33","doi-asserted-by":"crossref","first-page":"65","DOI":"10.1145\/1498765.1498785","article-title":"Roofline: An insightful visual performance model for multicore architectures","volume":"52","author":"Williams","year":"2009","journal-title":"Commun. ACM"},{"year":"2006","series-title":"Gaussian Processes for Machine Learning","author":"Williams","key":"10.1016\/j.sysarc.2025.103573_b34"},{"key":"10.1016\/j.sysarc.2025.103573_b35","series-title":"Forschungsbericht \u2013 Deutsche Forschungs- Und Versuchsanstalt F\u00dcr Luft- Und Raumfahrt","article-title":"A software package for sequential quadratic programming","author":"Kraft","year":"1988"},{"issue":"4","key":"10.1016\/j.sysarc.2025.103573_b36","doi-asserted-by":"crossref","first-page":"203","DOI":"10.1080\/00224065.1986.11979014","article-title":"The exponentially weighted moving average","volume":"18","author":"Hunter","year":"1986","journal-title":"J. Qual. Technol."},{"year":"1995","series-title":"PID controllers: theory, design, and tuning, the international society of measurement and control","author":"Astr\u00f6m","key":"10.1016\/j.sysarc.2025.103573_b37"},{"year":"2021","series-title":"Feedback systems: An introduction for scientists and engineers","author":"\u00c5str\u00f6m","key":"10.1016\/j.sysarc.2025.103573_b38"},{"year":"2014","series-title":"Adam: A method for stochastic optimization","author":"Kingma","key":"10.1016\/j.sysarc.2025.103573_b39"},{"key":"10.1016\/j.sysarc.2025.103573_b40","series-title":"International Conference on Machine Learning","first-page":"1139","article-title":"On the importance of initialization and momentum in deep learning","author":"Sutskever","year":"2013"},{"key":"10.1016\/j.sysarc.2025.103573_b41","article-title":"Attention is all you need","volume":"30","author":"Vaswani","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"1","key":"10.1016\/j.sysarc.2025.103573_b42","doi-asserted-by":"crossref","first-page":"94","DOI":"10.1109\/TPDS.2019.2928289","article-title":"Evaluating modern GPU interconnect: PCIe, NVLink, NV-SLI, nvswitch and gpudirect","volume":"31","author":"Li","year":"2019","journal-title":"IEEE Trans. Parallel Distrib. Syst."},{"key":"10.1016\/j.sysarc.2025.103573_b43","doi-asserted-by":"crossref","unstructured":"Jilong Xue, Youshan Miao, Cheng Chen, Ming Wu, Lintao Zhang, Lidong Zhou, Fast distributed deep learning over RDMA, in: Proceedings of the Fourteenth EuroSys Conference 2019, 2019, pp. 1\u201314.","DOI":"10.1145\/3302424.3303975"}],"container-title":["Journal of Systems Architecture"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1383762125002450?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1383762125002450?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2025,12,19]],"date-time":"2025-12-19T12:59:32Z","timestamp":1766149172000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S1383762125002450"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11]]},"references-count":43,"alternative-id":["S1383762125002450"],"URL":"https:\/\/doi.org\/10.1016\/j.sysarc.2025.103573","relation":{},"ISSN":["1383-7621"],"issn-type":[{"type":"print","value":"1383-7621"}],"subject":[],"published":{"date-parts":[[2025,11]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"SADDLE: A runtime feedback control architecture for adaptive distributed deep learning in heterogeneous GPU clusters","name":"articletitle","label":"Article Title"},{"value":"Journal of Systems Architecture","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.sysarc.2025.103573","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2025 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"103573"}}