{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,13]],"date-time":"2026-03-13T04:56:04Z","timestamp":1773377764945,"version":"3.50.1"},"reference-count":53,"publisher":"IEEE","license":[{"start":{"date-parts":[[2021,7,12]],"date-time":"2021-07-12T00:00:00Z","timestamp":1626048000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,7,12]],"date-time":"2021-07-12T00:00:00Z","timestamp":1626048000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100000001","name":"National Science Foundation (NSF)","doi-asserted-by":"publisher","award":["CCF-1751356,CCF-1956386,CNS-0932428,CCF-1018927,CCF-1423663,CCF-1409204"],"award-info":[{"award-number":["CCF-1751356,CCF-1956386,CNS-0932428,CCF-1018927,CCF-1423663,CCF-1409204"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100004052","name":"King Abdullah University of Science and Technology","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100004052","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,7,12]]},"DOI":"10.1109\/isit45174.2021.9518254","type":"proceedings-article","created":{"date-parts":[[2021,9,1]],"date-time":"2021-09-01T16:52:42Z","timestamp":1630515162000},"page":"1200-1205","source":"Crossref","is-referenced-by-count":13,"title":["Differentially Quantized Gradient Descent"],"prefix":"10.1109","author":[{"given":"Chung-Yi","family":"Lin","sequence":"first","affiliation":[{"name":"California Institute of Technology"}]},{"given":"Victoria","family":"Kostina","sequence":"additional","affiliation":[{"name":"California Institute of Technology"}]},{"given":"Babak","family":"Hassibi","sequence":"additional","affiliation":[{"name":"California Institute of Technology"}]}],"member":"263","reference":[{"key":"ref39","author":"stich","year":"2019","journal-title":"The error-feedback framework Better rates for SGD with delayed gradients and compressed communication"},{"key":"ref38","first-page":"5325","article-title":"Error compensated quantized SGD and its applications to large-scale distributed optimization","volume":"80","author":"wu","year":"2018","journal-title":"Proceedings of the 35th International Conference on Machine Learning"},{"key":"ref33","author":"horv\u00e1th","year":"2019","journal-title":"Natural compression for distributed deep learning"},{"key":"ref32","author":"horv\u00e1th","year":"2019","journal-title":"Stochastic distributed learning with gradient quantization and variance reduction"},{"key":"ref31","author":"mishchenko","year":"2019","journal-title":"Distributed learning with compressed gradient differences"},{"key":"ref30","author":"beznosikov","year":"2020","journal-title":"On biased compression for distributed learning"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4613-1643-5"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2019.2961673"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2019.2946245"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ISIT.2019.8849334"},{"key":"ref28","first-page":"9850","article-title":"ATOMO: Communication-efficient learning via atomic sparsification","author":"wang","year":"2018","journal-title":"Advances in Neural IInformation Processing Systems"},{"key":"ref27","first-page":"1299","article-title":"Gradient sparsification for communication-efficient distributed optimization","author":"wangni","year":"2018","journal-title":"Advances in Neural IInformation Processing Systems"},{"key":"ref29","first-page":"14695","article-title":"Qsparse-local-sgd: Distributed sgd with quantization, sparsification and local computations","author":"basu","year":"2019","journal-title":"Advances in Neural IInformation Processing Systems"},{"key":"ref2","first-page":"693","article-title":"Hogwild: A lock-free approach to parallelizing stochastic gradient descent","author":"recht","year":"2011","journal-title":"Advances in Neural Information Processing Systems 24"},{"key":"ref1","first-page":"2595","article-title":"Parallelized stochastic gradient descent","author":"zinkevich","year":"2010","journal-title":"Advances in Neural Information Processing Systems 23"},{"key":"ref20","first-page":"3252","article-title":"Error feedback fixes SignSGD and other gradient compression schemes","volume":"97","author":"karimireddy","year":"2019","journal-title":"Proceedings of the 36th International Conference on Machine Learning"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D17-1045"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/MLHPC.2016.004"},{"key":"ref24","first-page":"4447","article-title":"Sparsified SGD with memory","author":"stich","year":"2018","journal-title":"Advances in Neural IInformation Processing Systems"},{"key":"ref23","first-page":"5973","article-title":"The convergence of sparsified gradient methods","author":"alistarh","year":"2018","journal-title":"Advances in Neural IInformation Processing Systems"},{"key":"ref26","article-title":"Deep gradient compression: Reducing the communication bandwidth for distributed training","author":"lin","year":"2018","journal-title":"International Conference on Learning Representations"},{"key":"ref25","first-page":"5123","article-title":"GradiVeQ: Vector quantization for bandwidth-efficient gradient aggregation in distributed CNN training","volume":"31","author":"yu","year":"0","journal-title":"Advances in neural information processing systems"},{"key":"ref50","article-title":"Differentially quantized gradient descent","author":"lin","year":"2021","journal-title":"ArXiv Preprint"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9781139045520"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1007\/s11590-016-1087-4"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.21105\/joss.01244"},{"key":"ref10","first-page":"19","article-title":"Communication efficient distributed machine learning with the parameter server","author":"li","year":"2014","journal-title":"Advances in Neural Information Processing Systems 27"},{"key":"ref11","article-title":"Scalable distributed DNN training using commodity GPU cloud computing","author":"strom","year":"2015","journal-title":"InterSpeech"},{"key":"ref40","first-page":"11450","article-title":"Communication-efficient distributed blockwise momentum sgd with error-feedback","author":"zheng","year":"2019","journal-title":"Advances in Neural IInformation Processing Systems"},{"key":"ref12","first-page":"685","article-title":"Deep learning with elastic averaging SGD","author":"zhang","year":"2015","journal-title":"Advances in Neural IInformation Processing Systems"},{"key":"ref13","first-page":"1709","article-title":"QSGD: Communication-efficient SGD via gradient quantization and encoding","author":"alistarh","year":"2017","journal-title":"Advances in Neural IInformation Processing Systems"},{"key":"ref14","first-page":"1509","article-title":"TernGrad: Ternary gradients to reduce communication in distributed deep learning","author":"wen","year":"2017","journal-title":"Advances in Neural IInformation Processing Systems"},{"key":"ref15","first-page":"560","article-title":"signSGD: Compressed optimisation for non-convex problems","author":"bernstein","year":"2018","journal-title":"Proceedings of the 35th International Conference on Machine Learning"},{"key":"ref16","first-page":"8200","article-title":"RATQ: A universal fixed-length quantizer for stochastic optimization","volume":"1908","author":"mayekar","year":"2019","journal-title":"ArXiv"},{"key":"ref17","author":"ramezani-kebrya","year":"2019","journal-title":"Nuqsgd Improved communication efficiency for data-parallel sgd via nonuniform quantization"},{"key":"ref18","first-page":"9032","article-title":"Limits on gradient compression for stochastic optimization","volume":"2001","author":"mayekar","year":"2020","journal-title":"ArXiv"},{"key":"ref19","author":"gandikota","year":"2019","journal-title":"vqSGD Vector quantized stochastic gradient descent"},{"key":"ref4","first-page":"1223","article-title":"Large scale distributed deep networks","author":"dean","year":"2012","journal-title":"Advances in Neural Information Processing Systems 25"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9781139042918"},{"key":"ref6","first-page":"2674","article-title":"Taming the wild: A unified analysis of hogwild-style algorithms","author":"de sa","year":"2015","journal-title":"Advances in Neural IInformation Processing Systems"},{"key":"ref5","first-page":"571","article-title":"Project Adam: Building an efficient and scalable deep learning training system","author":"chilimbi","year":"2014","journal-title":"11th USENIX Symposium on Operating Systems Design and Implementation (OSDI 14)"},{"key":"ref8","first-page":"3027","article-title":"Optimal algorithms for smooth and strongly convex distributed optimization in networks","volume":"70","author":"scaman","year":"2017","journal-title":"Proceedings of the 34th International Conference on Machine Learning"},{"key":"ref7","article-title":"Federated learning: Strategies for improving communication efficiency","author":"kone?n\u00fd","year":"2016","journal-title":"NIPS Workshop on Private Multi-Party Machine Learning PMPML '16"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1137\/110830629"},{"key":"ref9","doi-asserted-by":"crossref","DOI":"10.21437\/Interspeech.2014-274","article-title":"1-bit stochastic gradient descent and application to data-parallel distributed training of speech DNNs","author":"seide","year":"2014","journal-title":"2014 IEEE INTERSPEECH"},{"key":"ref46","author":"nesterov","year":"2014","journal-title":"Introductory Lectures on Convex Optimization A Basic Course"},{"key":"ref45","author":"khirirat","year":"2018","journal-title":"Distributed learning with compressed gradients"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1112\/S0025579300004083"},{"key":"ref47","author":"polyak","year":"1987","journal-title":"Introduction to Optimization"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1561\/2200000050"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1137\/070704277"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1145\/2640087.2644155"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1137\/16M1080173"}],"event":{"name":"2021 IEEE International Symposium on Information Theory (ISIT)","location":"Melbourne, Australia","start":{"date-parts":[[2021,7,12]]},"end":{"date-parts":[[2021,7,20]]}},"container-title":["2021 IEEE International Symposium on Information Theory (ISIT)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9517708\/9517709\/09518254.pdf?arnumber=9518254","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,12]],"date-time":"2026-03-12T20:35:06Z","timestamp":1773347706000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9518254\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,7,12]]},"references-count":53,"URL":"https:\/\/doi.org\/10.1109\/isit45174.2021.9518254","relation":{},"subject":[],"published":{"date-parts":[[2021,7,12]]}}}