{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,2,9]],"date-time":"2024-02-09T08:01:02Z","timestamp":1707465662691},"reference-count":41,"publisher":"IEEE","license":[{"start":{"date-parts":[[2021,7,1]],"date-time":"2021-07-01T00:00:00Z","timestamp":1625097600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2021,7,1]],"date-time":"2021-07-01T00:00:00Z","timestamp":1625097600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,7,1]],"date-time":"2021-07-01T00:00:00Z","timestamp":1625097600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100000001","name":"National Science Foundation","doi-asserted-by":"publisher","award":["1755659,1815619"]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61802377"]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,7]]},"DOI":"10.1109\/icdcs51616.2021.00057","type":"proceedings-article","created":{"date-parts":[[2021,10,5]],"date-time":"2021-10-05T08:47:32Z","timestamp":1633423652000},"source":"Crossref","is-referenced-by-count":7,"title":["Sync-Switch: Hybrid Parameter Synchronization for Distributed Deep Learning"],"prefix":"10.1109","author":[{"given":"Shijian","family":"Li","sequence":"first","affiliation":[]},{"given":"Oren","family":"Mangoubi","sequence":"additional","affiliation":[]},{"given":"Lijie","family":"Xu","sequence":"additional","affiliation":[]},{"given":"Tian","family":"Guo","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","article-title":"A bayesian perspective on generalization and stochastic gradient descent","author":"smith","year":"2018","journal-title":"ICLRE"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.1.1"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.195"},{"key":"ref32","article-title":"Shake-shake regularization","author":"gastaldi","year":"2017","journal-title":"ArXiv Preprint"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/3352020.3352024"},{"key":"ref30","author":"krizhevsky","year":"2017","journal-title":"Cifar-10"},{"key":"ref37","article-title":"QSGD: Communication-Efficient SGD via Gradient Quantization and Encoding","author":"alistarh","year":"2017","journal-title":"NeurIPS"},{"key":"ref36","article-title":"Tern Grad: Ternary Gradients to Reduce Communication in Distributed Deep Learning","author":"wen","year":"2017","journal-title":"NeurIPS"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D17-1045"},{"key":"ref34","article-title":"More effective distributed ml via a stale synchronous parallel parameter server","author":"ho","year":"2013","journal-title":"NeurIPS"},{"key":"ref10","article-title":"Gaia: Geo-distributed machine learning approaching lan speeds","author":"hsieh","year":"2017","journal-title":"NSDI"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1088\/1742-5468\/ab39d9"},{"key":"ref11","article-title":"Slow and stale gradients can win the race","author":"dutta","year":"2020","journal-title":"ArXiv Preprint"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1145\/3190508.3190517"},{"key":"ref13","article-title":"Hogwild: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent","author":"recht","year":"2011","journal-title":"NeurIPS"},{"key":"ref14","article-title":"Resource Elasticity in Distributed Deep Learning","author":"or","year":"2020","journal-title":"Proceedings of Machine Learning and Systems"},{"key":"ref15","article-title":"Revisiting distributed synchronous sgd","author":"chen","year":"2016","journal-title":"ArXiv Preprint"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.243"},{"key":"ref18","article-title":"Sync-switch: Extended report","author":"li","year":"2021","journal-title":"ArXiv Preprint"},{"key":"ref19","article-title":"An alternative view: When does sgd escape local minima?","author":"kleinberg","year":"2018","journal-title":"ICML"},{"key":"ref28","article-title":"Dynamic mini-batch sgd for elastic distributed training: learning in the limbo of resources","author":"lin","year":"2019","journal-title":"ar Xiv preprint"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1145\/3320060"},{"key":"ref27","article-title":"Accurate, large minibatch sgd: Training imagenet in 1 hour","author":"goyal","year":"2017","journal-title":"ArXiv Preprint"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1145\/2783258.2783270"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1006\/jpdc.1994.1085"},{"key":"ref29","article-title":"Tensor2tensor for neural machine translation","author":"vaswani","year":"2018","journal-title":"CoRR"},{"key":"ref5","article-title":"Characterizing and Modeling Distributed Training with Transient Cloud GPU Servers","author":"li","year":"2020","journal-title":"ICDCS"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICDCS.2019.00150"},{"key":"ref7","article-title":"Large scale distributed deep networks","author":"dean","year":"2012","journal-title":"NeurIPS"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICAC.2019.00024"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CCGRID.2019.00053"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/DASC\/PiCom\/DataCom\/CyberSciTec.2018.000-4"},{"key":"ref20","article-title":"Simplifying neural nets by discovering flat minima","author":"hochreiter","year":"1995","journal-title":"NeurIPS"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1016\/j.dcan.2016.12.002"},{"key":"ref21","article-title":"On large-batch training for deep learning: Generalization gap and sharp minima","author":"keskar","year":"2017","journal-title":"ICLRE"},{"key":"ref24","article-title":"Improving mapreduce performance through data placement in heterogeneous hadoop clusters","author":"xie","year":"2010","journal-title":"IPDPSW"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/WACV.2017.58"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/1879141.1879143"},{"key":"ref26","article-title":"Don't decay the learning rate, increase the batch size","author":"smith","year":"2017","journal-title":"ArXiv Preprint"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2013.6638963"}],"event":{"name":"2021 IEEE 41st International Conference on Distributed Computing Systems (ICDCS)","location":"DC, USA","start":{"date-parts":[[2021,7,7]]},"end":{"date-parts":[[2021,7,10]]}},"container-title":["2021 IEEE 41st International Conference on Distributed Computing Systems (ICDCS)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9546301\/9546401\/09546530.pdf?arnumber=9546530","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,5,10]],"date-time":"2022-05-10T15:46:37Z","timestamp":1652197597000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9546530\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,7]]},"references-count":41,"URL":"http:\/\/dx.doi.org\/10.1109\/icdcs51616.2021.00057","relation":{},"subject":[],"published":{"date-parts":[[2021,7]]}}}