{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T05:18:35Z","timestamp":1772342315116,"version":"3.50.1"},"reference-count":142,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"11","license":[{"start":{"date-parts":[[2020,11,1]],"date-time":"2020-11-01T00:00:00Z","timestamp":1604188800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2020,11,1]],"date-time":"2020-11-01T00:00:00Z","timestamp":1604188800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2020,11,1]],"date-time":"2020-11-01T00:00:00Z","timestamp":1604188800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"Zhejiang Laboratory","award":["2019KB0AB02"],"award-info":[{"award-number":["2019KB0AB02"]}]},{"DOI":"10.13039\/501100001809","name":"NSF China","doi-asserted-by":"publisher","award":["61625301"],"award-info":[{"award-number":["61625301"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"NSF China","doi-asserted-by":"publisher","award":["61731018"],"award-info":[{"award-number":["61731018"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Major Research Project of Zhejiang Laboratory","award":["2019KB0AC01"],"award-info":[{"award-number":["2019KB0AC01"]}]},{"name":"Major Research Project of Zhejiang Laboratory","award":["2019KB0AB02"],"award-info":[{"award-number":["2019KB0AB02"]}]},{"name":"Beijing Academy of Artificial Intelligence"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Proc. IEEE"],"published-print":{"date-parts":[[2020,11]]},"DOI":"10.1109\/jproc.2020.3007634","type":"journal-article","created":{"date-parts":[[2020,7,22]],"date-time":"2020-07-22T20:44:00Z","timestamp":1595450640000},"page":"2067-2082","source":"Crossref","is-referenced-by-count":31,"title":["Accelerated First-Order Optimization Algorithms for Machine Learning"],"prefix":"10.1109","volume":"108","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-1286-6552","authenticated-orcid":false,"given":"Huan","family":"Li","sequence":"first","affiliation":[]},{"given":"Cong","family":"Fang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1493-7569","authenticated-orcid":false,"given":"Zhouchen","family":"Lin","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","first-page":"1","article-title":"A differential equation for modeling Nesterov&#x2019;s accelerated gradient method: Theory and insights","volume":"17","author":"su","year":"2016","journal-title":"J Mach Learn Res"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1137\/080716542"},{"key":"ref33","doi-asserted-by":"crossref","DOI":"10.1007\/978-1-4419-8853-9","author":"nesterov","year":"2004","journal-title":"Introductory Lectures on Convex Optimization A Basic Course"},{"key":"ref32","first-page":"586","article-title":"Deep learning without poor local minima","author":"kawaguchi","year":"2016","journal-title":"Proc Adv Neural Inf Process Syst (NIPS)"},{"key":"ref31","first-page":"192","article-title":"The loss surfaces of multilayer networks","author":"choromanska","year":"2015","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref30","first-page":"1233","article-title":"No spurious local minima in nonconvex low rank problems: A unified geometric analysis","author":"ge","year":"2017","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/ECC.2015.7330562"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1137\/15M1009597"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1007\/s10851-015-0565-0"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1016\/0041-5553(64)90137-5"},{"key":"ref28","first-page":"3873","article-title":"Global optimality of local search for low rank matrix recovery","author":"bhojanapalli","year":"2016","journal-title":"Proc Adv Neural Inf Process Syst (NIPS)"},{"key":"ref27","first-page":"2899","article-title":"Stochastic cubic regularization for fast nonconvex optimization","author":"tripuraneni","year":"2018","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref29","first-page":"2973","article-title":"Matrix completion has no spurious local minimum","author":"ge","year":"2016","journal-title":"Proc Adv Neural Inf Process Syst (NIPS)"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-017-1173-0"},{"key":"ref22","first-page":"654","article-title":"Convex until proven guilty: Dimension-free acceleration of gradient descent on non-convex functions","author":"carmon","year":"2017","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1137\/17M1114296"},{"key":"ref24","first-page":"1042","article-title":"Accelerated gradient descent escapes saddle points faster than gradient descent","author":"jin","year":"2018","journal-title":"Proc Conf Learn Theory (COLT)"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/3055399.3055464"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-018-1232-1"},{"key":"ref26","first-page":"689","article-title":"SPIDER: Near-optimal non-convex optimization via stochastic path integrated differential estimator","author":"fang","year":"2018","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref100","first-page":"567","article-title":"Stochastic dual coordinate ascent methods for regularized loss minimization","volume":"14","author":"shalev-shwartz","year":"2013","journal-title":"J Mach Learn Res"},{"key":"ref25","first-page":"2675","article-title":"Natasha2: Faster non-convex optimization than SGD","author":"allen-zhu","year":"2018","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-013-0653-0"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-015-0949-3"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1007\/s10915-018-0893-5"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1137\/14095697X"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1137\/16M1082305"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1137\/130919362"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-012-0588-x"},{"key":"ref54","article-title":"Accelerated gradient sliding for structured convex optimization","author":"lan","year":"2016","journal-title":"arXiv 1609 04905"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1137\/140992382"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-015-0955-5"},{"key":"ref40","first-page":"1560","article-title":"An explicit convergence rate for Nesterov&#x2019;s method from SDP","author":"safavi","year":"2018","journal-title":"Innovations in Theoretical Computer Science (ITCS)"},{"key":"ref4","author":"haykin","year":"1999","journal-title":"Neural Networks A Comprehensive Foundation"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1111\/j.2517-6161.1996.tb02080.x"},{"key":"ref6","first-page":"509","article-title":"On an approach to the construction of optimal methods of minimization of smooth convex functions","volume":"24","author":"nesterov","year":"1988","journal-title":"` Ekonomika I Mateaticheskie Metody"},{"key":"ref5","first-page":"543","article-title":"A method for unconstrained convex minimization problem with the rate of convergence $o(1\/k^{2})$","volume":"269","author":"nesterov","year":"1983","journal-title":"Doklady AN SSSR"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-012-0629-5"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1137\/16M1072528"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-004-0552-5"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-15-2910-8"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1007\/s10851-010-0251-1"},{"key":"ref45","first-page":"21","article-title":"Linear coupling: An ultimate unification of gradient and mirror descent","author":"allen-zhu","year":"2017","journal-title":"Innovations in Theoretical Computer Science (ITCS)"},{"key":"ref48","article-title":"A geometric alternative to Nesterov&#x2019;s accelerated gradient descent","author":"bubeck","year":"2015","journal-title":"arXiv 1506 08187"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-015-0957-3"},{"key":"ref42","article-title":"Primal-dual accelerated gradient methods with small-dimensional relaxation oracle","author":"nesterov","year":"2018","journal-title":"arXiv 1809 05895"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.1614734113"},{"key":"ref44","article-title":"Accelerating asynchronous algorithms for convex optimization by momentum compensation","author":"fang","year":"2018","journal-title":"arXiv 1802 09747"},{"key":"ref43","author":"tseng","year":"2008","journal-title":"On Accelerated Proximal Gradient Methods for Convex-concave Optimization"},{"key":"ref127","article-title":"On nonconvex optimization for machine learning: Gradients, stochasticity, and saddle points","author":"jin","year":"2019","journal-title":"arXiv 1902 04811"},{"key":"ref126","first-page":"1155","article-title":"Escaping saddles with stochastic gradients","author":"daneshmand","year":"2018","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref125","first-page":"797","article-title":"Escaping from saddle points&#x2013;online stochastic gradient for tensor decomposition","author":"ge","year":"2015","journal-title":"Proc Conf Learn Theory (COLT)"},{"key":"ref124","article-title":"Lower bounds for non-convex stochastic optimization","author":"arjevani","year":"2019","journal-title":"arXiv 1912 02365"},{"key":"ref73","first-page":"980","article-title":"Linear convergence with condition number independent access of full gradients","author":"zhang","year":"2013","journal-title":"Proc Adv Neural Inf Process Syst (NIPS)"},{"key":"ref72","first-page":"1646","article-title":"SAGA: A fast incremental gradient method with support for non-strongly convex composite objectives","author":"defazio","year":"2014","journal-title":"Proc Adv Neural Inf Process Syst (NIPS)"},{"key":"ref129","first-page":"5530","article-title":"First-order stochastic algorithms for escaping from saddle points in almost linear time","author":"xu","year":"2018","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-016-1030-6"},{"key":"ref128","first-page":"1192","article-title":"Sharp analysis for nonconvex SGD escaping from saddle points","author":"fang","year":"2019","journal-title":"Proc Conf Learn Theory (COLT)"},{"key":"ref70","first-page":"315","article-title":"Accelerating stochastic gradient descent using predictive variance reduction","author":"johnson","year":"2013","journal-title":"Proc Adv Neural Inf Process Syst (NIPS)"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1137\/17M1134834"},{"key":"ref130","first-page":"3716","article-title":"Neon2: Finding local minima via first-order oracles","author":"allen-zhu","year":"2018","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref77","first-page":"747","article-title":"SDCA without duality, regularization, and individual convexity","author":"shalev-shwartz","year":"2016","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref74","first-page":"1125","article-title":"Finito: A faster, permutable incremental gradient method for big data problems","author":"defazio","year":"2014","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref75","first-page":"783","article-title":"Optimization with first-order surrogate functions","author":"mairal","year":"2013","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref133","article-title":"A dual approach for optimal algorithms in distributed optimization over networks","author":"uribe","year":"2018","journal-title":"arXiv 1809 00710"},{"key":"ref134","first-page":"952","article-title":"An accelerated decentralized stochastic proximal algorithm for finite sums","author":"hendrikx","year":"2019","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref131","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-006-0706-8"},{"key":"ref78","first-page":"2613","article-title":"SARAH: A novel method for machine learning problems using stochastic recursive gradient","author":"nguyen","year":"2017","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref132","first-page":"3027","article-title":"Optimal algorithms for smooth and strongly convex distributed optimization in networks","author":"scaman","year":"2017","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1137\/140961791"},{"key":"ref136","article-title":"A sharp convergence rate analysis for distributed accelerated gradient methods","author":"li","year":"2018","journal-title":"arXiv 1810 01053"},{"key":"ref135","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2014.2298712"},{"key":"ref138","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2019.2937496"},{"key":"ref137","doi-asserted-by":"publisher","DOI":"10.1137\/18M122902X"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1137\/15M1008956"},{"key":"ref139","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2019.2925537"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1137\/120896219"},{"key":"ref61","first-page":"3","article-title":"On the acceleration of augmented Lagrangian method for linearly constrained optimization","author":"he","year":"2010","journal-title":"Proc Optim Online"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2016.2564160"},{"key":"ref64","first-page":"2104","article-title":"An explicit rate bound for over-relaxed ADMM","author":"franca","year":"2016","journal-title":"Proc IEEE Int Symp Inf Theory (ISIT)"},{"key":"ref140","first-page":"1","article-title":"Optimal convergence rates for convex distributed optimization in networks","volume":"20","author":"scaman","year":"2019","journal-title":"J Mach Learn Res"},{"key":"ref65","author":"nemriovsky","year":"1983","journal-title":"Problem Complexity and Method Efficiency in Optimization"},{"key":"ref141","doi-asserted-by":"publisher","DOI":"10.1080\/10556788.2019.1650361"},{"key":"ref66","first-page":"654","article-title":"On the iteration complexity of oblivious first-order optimization algorithms","author":"arjevani","year":"2016","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref142","article-title":"Optimal and practical algorithms for smooth and strongly convex decentralized optimization","author":"kovalev","year":"2020","journal-title":"arXiv 2006 11773"},{"key":"ref67","first-page":"3639","article-title":"Tight complexity bounds for optimizing composite objectives","author":"woodworth","year":"2016","journal-title":"Proc Adv Neural Inf Process Syst (NIPS)"},{"key":"ref68","first-page":"1","article-title":"On lower and upper bounds for smooth and strongly convex optimization","volume":"17","author":"arjevani","year":"2016","journal-title":"J Mach Learn Res"},{"key":"ref2","first-page":"357","article-title":"Application of the logistic function to bio-assay","volume":"39","author":"berkson","year":"1944","journal-title":"J Amer Stat Assoc"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1137\/16M1080173"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1007\/BF00994018"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.1137\/130942954"},{"key":"ref95","article-title":"Variance-reduced decentralized stochastic optimization with accelerated convergence","author":"xin","year":"2019","journal-title":"arXiv 1912 04230"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1137\/16M1060182"},{"key":"ref94","first-page":"1","article-title":"DSA: Decenrtalized double stochastic averaging gradient algorithm","volume":"17","author":"mokhtari","year":"2016","journal-title":"J Mach Learn Res"},{"key":"ref107","first-page":"1110","article-title":"Even faster accelerated coordinate descent using non-uniform sampling","author":"allen-zhu","year":"2016","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref93","doi-asserted-by":"crossref","first-page":"516","DOI":"10.1007\/s10957-010-9737-7","article-title":"Distributed stochastic subgradient projection algorithms for convex optimization","volume":"147","author":"ram","year":"2010","journal-title":"J Optim Theory Appl"},{"key":"ref106","first-page":"865","article-title":"Quartz: Randomized dual coordinate ascent with arbitrary sampling","author":"qu","year":"2015","journal-title":"Proc Adv Neural Inf Process Syst (NIPS)"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2012.2198470"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.1007\/s10589-019-00137-2"},{"key":"ref91","doi-asserted-by":"publisher","DOI":"10.1109\/LCSYS.2018.2834316"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.1093\/imanum\/drz007"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1137\/16M1084316"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1007\/s10208-013-9150-3"},{"key":"ref102","first-page":"1523","article-title":"Iteration complexity of feasible descent methods for convex optimization","volume":"15","author":"wang","year":"2014","journal-title":"J Mach Learn Res"},{"key":"ref111","first-page":"379","article-title":"Accelerated proximal gradient methods for nonconvex programming","author":"li","year":"2015","journal-title":"Proc Adv Neural Inf Process Syst (NIPS)"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2009.2028250"},{"key":"ref110","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-015-0871-8"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-014-0800-2"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1109\/FOCS.2013.24"},{"key":"ref96","article-title":"Communication-efficient distributed optimization in networks with gradient tracking and variance reduction","author":"li","year":"2019","journal-title":"arXiv 1909 05844"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2020.2974267"},{"key":"ref10","first-page":"1","article-title":"Katyusha: The first direct acceleration of stochastic gradient methods","volume":"18","author":"allen-zhu","year":"2018","journal-title":"J Mach Learn Res"},{"key":"ref11","first-page":"5975","article-title":"A simple stochastic variance reduced algorithm with fast convergence rates","author":"zhou","year":"2019","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref12","first-page":"451","article-title":"Don&#x2019;t jump through hoops and remove those loops: SVRG and Katyusha are better without the outer loop","author":"kovalev","year":"2020","journal-title":"Proceedings Algorithmic Learning Theory (ALT)"},{"key":"ref13","first-page":"10462","article-title":"A unified variance-reduced accelerated gradient method for convex optimization","author":"lan","year":"2019","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1137\/100802001"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1137\/130949993"},{"key":"ref118","first-page":"314","article-title":"Stochastic variance reduction for nonconvex optimization","author":"reddi","year":"2016","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1137\/141000270"},{"key":"ref82","first-page":"71","article-title":"Stochastic gradient descent for non-smooth optimization: Convergence results and optimal averaging schemes","author":"shamir","year":"2013","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref117","first-page":"699","article-title":"Variance reduction for faster non-convex optimization","author":"allen-zhu","year":"2016","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1007\/s10107-014-0839-0"},{"key":"ref81","first-page":"676","article-title":"A simple practical accelerated method for finite sums","author":"defazio","year":"2016","journal-title":"Proc Adv Neural Inf Process Syst (NIPS)"},{"key":"ref18","first-page":"1","article-title":"On the complexity analysis of the primal solutions for the accelerated randomized dual coordinate ascent","volume":"21","author":"li","year":"2020","journal-title":"J Mach Learn Res"},{"key":"ref84","first-page":"1614","article-title":"Optimal black-box reductions between optimization objectives","author":"allen-zhu","year":"2016","journal-title":"Proc Adv Neural Inf Process Syst (NIPS)"},{"key":"ref119","first-page":"2348","article-title":"Non-convex finite-sum optimization via SCSG methods","author":"lei","year":"2017","journal-title":"Proc Adv Neural Inf Process Syst (NIPS)"},{"key":"ref19","first-page":"1","article-title":"Stochastic primal-dual coordinate method for regularized empirical risk minimization","volume":"18","author":"zhang","year":"2017","journal-title":"J Mach Learn Res"},{"key":"ref83","first-page":"1080","article-title":"Improved SVRG for non-strongly-convex or sum-of-non-convex objectives","author":"allen-zhu","year":"2016","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref114","first-page":"1246","article-title":"Gradient descent only converges to minimizers","author":"lee","year":"2016","journal-title":"Proc Conf Learn Theory (COLT)"},{"key":"ref113","first-page":"1724","article-title":"How to escape saddle points efficiently","author":"jin","year":"2017","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref116","first-page":"1139","article-title":"On the importance of initialization and momentum in deep learning","author":"sutskever","year":"2013","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref80","first-page":"179","article-title":"Katyusha X: Practical momentum method for stochastic sum-of-nonconvex optimization","author":"allen-zhu","year":"2019","journal-title":"Proc Int Conf Mach Learn (ICML)"},{"key":"ref115","first-page":"1067","article-title":"Gradient descent can take exponential time to escape saddle points","author":"du","year":"2017","journal-title":"Proc Adv Neural Inf Process Syst (NIPS)"},{"key":"ref120","first-page":"1145","article-title":"Proximal stochastic methods for nonsmooth nonconvex finite-sum optimization","author":"reddi","year":"2016","journal-title":"Proc Adv Neural Inf Process Syst (NIPS)"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/TCNS.2017.2698261"},{"key":"ref121","first-page":"3925","article-title":"Stochastic nested variance reduction for nonconvex optimization","author":"zhou","year":"2018","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref122","first-page":"2403","article-title":"SpiderBoost and momentum: Faster stochastic variance reduction algorithms","author":"wang","year":"2019","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref123","article-title":"Finite-sum smooth optimization with SARAH","author":"nguyen","year":"2019","journal-title":"arXiv 1901 07648"},{"key":"ref85","first-page":"1","article-title":"Catalyst acceleration for first-order convex optimization: From theory to practice","volume":"18","author":"lin","year":"2018","journal-title":"J Mach Learn Res"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2008.2009515"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1137\/14096668X"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.2015.7402509"}],"container-title":["Proceedings of the IEEE"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/5\/9241485\/09146135.pdf?arnumber=9146135","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,4,27]],"date-time":"2022-04-27T13:39:53Z","timestamp":1651066793000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9146135\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020,11]]},"references-count":142,"journal-issue":{"issue":"11"},"URL":"https:\/\/doi.org\/10.1109\/jproc.2020.3007634","relation":{},"ISSN":["0018-9219","1558-2256"],"issn-type":[{"value":"0018-9219","type":"print"},{"value":"1558-2256","type":"electronic"}],"subject":[],"published":{"date-parts":[[2020,11]]}}}