{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,18]],"date-time":"2026-04-18T14:35:53Z","timestamp":1776522953683,"version":"3.51.2"},"reference-count":41,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2022,12,2]],"date-time":"2022-12-02T00:00:00Z","timestamp":1669939200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2022,12,2]],"date-time":"2022-12-02T00:00:00Z","timestamp":1669939200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"name":"National Science Foundation","award":["DMS-2053493"],"award-info":[{"award-number":["DMS-2053493"]}]},{"name":"National Science Foundation","award":["DMS-2208394"],"award-info":[{"award-number":["DMS-2208394"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["J Optim Theory Appl"],"published-print":{"date-parts":[[2023,1]]},"DOI":"10.1007\/s10957-022-02132-w","type":"journal-article","created":{"date-parts":[[2022,12,2]],"date-time":"2022-12-02T11:53:46Z","timestamp":1669982026000},"page":"266-297","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":13,"title":["Momentum-Based Variance-Reduced Proximal Stochastic Gradient Method for Composite Nonconvex Stochastic Optimization"],"prefix":"10.1007","volume":"196","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-4163-3723","authenticated-orcid":false,"given":"Yangyang","family":"Xu","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yibo","family":"Xu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2022,12,2]]},"reference":[{"key":"2132_CR1","unstructured":"Allen-Zhu, Z.: Natasha 2: Faster non-convex optimization than SGD. In: Advances in Neural Information Processing Systems, pp. 2675\u20132686 (2018)"},{"key":"2132_CR2","unstructured":"Allen-Zhu, Z., Hazan, E.: Variance reduction for faster non-convex optimization. In: International Conference on Machine Learning, pp. 699\u2013707 (2016)"},{"key":"2132_CR3","unstructured":"Arjevani, Y., Carmon, Y., Duchi, J.C., Foster, D.J., Srebro, N., Woodworth, B.: Lower bounds for non-convex stochastic optimization. arXiv:1912.02365 (2019)"},{"issue":"3","key":"2132_CR4","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/1961189.1961199","volume":"2","author":"C-C Chang","year":"2011","unstructured":"Chang, C.-C., Lin, C.-J.: LIBSVM: a library for support vector machines. ACM Trans. Intell. Syst. Technol. (TIST) 2(3), 1\u201327 (2011)","journal-title":"ACM Trans. Intell. Syst. Technol. (TIST)"},{"key":"2132_CR5","unstructured":"Chen, X., Liu, S., Sun, R., Hong, M.: On the convergence of a class of adam-type algorithms for non-convex optimization. In: International Conference on Learning Representations (2018)"},{"key":"2132_CR6","unstructured":"Cutkosky, A., Orabona, F.: Momentum-based variance reduction in non-convex SGD. In: Advances in Neural Information Processing Systems, pp. 32 (2019)"},{"issue":"1","key":"2132_CR7","doi-asserted-by":"publisher","first-page":"207","DOI":"10.1137\/18M1178244","volume":"29","author":"D Davis","year":"2019","unstructured":"Davis, D., Drusvyatskiy, D.: Stochastic model-based minimization of weakly convex functions. SIAM J. Optim. 29(1), 207\u2013239 (2019)","journal-title":"SIAM J. Optim."},{"issue":"1","key":"2132_CR8","doi-asserted-by":"publisher","first-page":"119","DOI":"10.1007\/s10208-018-09409-5","volume":"20","author":"D Davis","year":"2020","unstructured":"Davis, D., Drusvyatskiy, D., Kakade, S., Lee, J.D.: Stochastic subgradient method converges on tame functions. Found. Comput. Math. 20(1), 119\u2013154 (2020)","journal-title":"Found. Comput. Math."},{"key":"2132_CR9","unstructured":"Fang, C., Li, C.J., Lin, Z., Zhang, T.: Spider: Near-optimal non-convex optimization via stochastic path-integrated differential estimator. In: Advances in Neural Information Processing Systems, pp. 689\u2013699 (2018)"},{"issue":"4","key":"2132_CR10","doi-asserted-by":"publisher","first-page":"2341","DOI":"10.1137\/120880811","volume":"23","author":"S Ghadimi","year":"2013","unstructured":"Ghadimi, S., Lan, G.: Stochastic first and zeroth-order methods for nonconvex stochastic programming. SIAM J. Optim. 23(4), 2341\u20132368 (2013)","journal-title":"SIAM J. Optim."},{"issue":"1\u20132","key":"2132_CR11","doi-asserted-by":"publisher","first-page":"59","DOI":"10.1007\/s10107-015-0871-8","volume":"156","author":"S Ghadimi","year":"2016","unstructured":"Ghadimi, S., Lan, G.: Accelerated gradient methods for nonconvex nonlinear and stochastic programming. Math. Program. 156(1\u20132), 59\u201399 (2016)","journal-title":"Math. Program."},{"issue":"1\u20132","key":"2132_CR12","doi-asserted-by":"publisher","first-page":"267","DOI":"10.1007\/s10107-014-0846-1","volume":"155","author":"S Ghadimi","year":"2016","unstructured":"Ghadimi, S., Lan, G., Zhang, H.: Mini-batch stochastic approximation methods for nonconvex stochastic composite optimization. Math. Program. 155(1\u20132), 267\u2013305 (2016)","journal-title":"Math. Program."},{"key":"2132_CR13","doi-asserted-by":"crossref","unstructured":"Huo, Z., Huang, H.: Asynchronous stochastic gradient descent with variance reduction for non-convex optimization. arXiv:1604.03584 (2016)","DOI":"10.1609\/aaai.v31i1.10940"},{"key":"2132_CR14","unstructured":"Keskar, N.S., Mudigere, D., Nocedal, J., Smelyanskiy, M., Tang, P.T.P.: On large-batch training for deep learning: generalization gap and sharp minima. arXiv:1609.04836 (2016)"},{"key":"2132_CR15","unstructured":"Krizhevsky, A.: Learning multiple layers of features from tiny images. Technical Report, University of Toronto, Toronto, ON (2009)"},{"issue":"11","key":"2132_CR16","doi-asserted-by":"publisher","first-page":"2278","DOI":"10.1109\/5.726791","volume":"86","author":"Y LeCun","year":"1998","unstructured":"LeCun, Y., Bottou, L., Bengio, Y., Haffner, P.: Gradient-based learning applied to document recognition. Proc. IEEE 86(11), 2278\u20132324 (1998)","journal-title":"Proc. IEEE"},{"key":"2132_CR17","unstructured":"Lei, L., Ju, C., Chen, J., Jordan, M.I.: Non-convex finite-sum optimization via scsg methods. In: Advances in Neural Information Processing Systems, pp. 2348\u20132358 (2017)"},{"key":"2132_CR18","unstructured":"Liu, B., Wang, M., Foroosh, H., Tappen, M., Pensky, M.: Sparse convolutional neural networks. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 806\u2013814 (2015)"},{"issue":"Jan","key":"2132_CR19","first-page":"19","volume":"11","author":"J Mairal","year":"2010","unstructured":"Mairal, J., Bach, F., Ponce, J., Sapiro, G.: Online learning for matrix factorization and sparse coding. J. Mach. Learn. Res. 11(Jan), 19\u201360 (2010)","journal-title":"J. Mach. Learn. Res."},{"key":"2132_CR20","unstructured":"Masters, D., Luschi, C.: Revisiting small batch training for deep neural networks. arXiv:1804.07612 (2018)"},{"key":"2132_CR21","unstructured":"Mitliagkas, I., Caramanis, C., Jain, P.: Memory limited, streaming PCA. In: Advances in Neural Information Processing Systems, pp. 2886\u20132894 (2013)"},{"key":"2132_CR22","unstructured":"Nguyen, L.M., Liu, J., Scheinberg, K., Tak\u00e1\u010d, M.: Sarah: a novel method for machine learning problems using stochastic recursive gradient. In: Proceedings of the 34th International Conference on Machine Learning, Vol. 70, pp. 2613\u20132621. JMLR. org (2017)"},{"issue":"110","key":"2132_CR23","first-page":"1","volume":"21","author":"NH Pham","year":"2020","unstructured":"Pham, N.H., Nguyen, L.M., Phan, D.T., Tran-Dinh, Q.: ProxSARAH: an efficient algorithmic framework for stochastic composite nonconvex optimization. J. Mach. Learn. Res. 21(110), 1\u201348 (2020)","journal-title":"J. Mach. Learn. Res."},{"key":"2132_CR24","doi-asserted-by":"crossref","unstructured":"Reddi, S.J., Hefny, A., Sra, S., P\u00f3czos, B., Smola, A.: Stochastic variance reduction for nonconvex optimization. In: International Conference on Machine Learning, pp. 314\u2013323 (2016)","DOI":"10.1109\/ALLERTON.2016.7852377"},{"key":"2132_CR25","unstructured":"Reddi, S.J., Sra, S., Poczos, B., Smola, A.J.: Proximal stochastic methods for nonsmooth nonconvex finite-sum optimization. In: Proceedings of the 30th International Conference on Neural Information Processing Systems, pp. 1153\u20131161 (2016)"},{"key":"2132_CR26","doi-asserted-by":"publisher","first-page":"400","DOI":"10.1214\/aoms\/1177729586","volume":"22","author":"H Robbins","year":"1951","unstructured":"Robbins, H., Monro, S.: A stochastic approximation method. Ann. Math. Stat. 22, 400\u2013407 (1951)","journal-title":"Ann. Math. Stat."},{"key":"2132_CR27","doi-asserted-by":"publisher","first-page":"81","DOI":"10.1016\/j.neucom.2017.02.029","volume":"241","author":"S Scardapane","year":"2017","unstructured":"Scardapane, S., Comminiello, D., Hussain, A., Uncini, A.: Group sparse regularization for deep neural networks. Neurocomputing 241, 81\u201389 (2017)","journal-title":"Neurocomputing"},{"key":"2132_CR28","unstructured":"Shi, J.V., Xu, Y., Baraniuk, R.G.: Sparse bilinear logistic regression. arXiv:1404.4104 (2014)"},{"key":"2132_CR29","unstructured":"Springenberg, J.T., Dosovitskiy, A., Brox, T., Riedmiller, M.: Striving for simplicity: The all convolutional net. arXiv:1412.6806 (2014)"},{"key":"2132_CR30","volume-title":"Reinforcement Learning: An Introduction","author":"RS Sutton","year":"2018","unstructured":"Sutton, R.S., Barto, A.G.: Reinforcement Learning: An Introduction. MIT Press, New York (2018)"},{"key":"2132_CR31","first-page":"11096","volume":"33","author":"Q Tran Dinh","year":"2020","unstructured":"Tran Dinh, Q., Liu, D., Nguyen, L.: Hybrid variance-reduced SGD algorithms for minimax problems with nonconvex-linear function. Adv. Neural. Inf. Process. Syst. 33, 11096\u201311107 (2020)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"issue":"2","key":"2132_CR32","doi-asserted-by":"publisher","first-page":"1005","DOI":"10.1007\/s10107-020-01583-1","volume":"191","author":"Q Tran-Dinh","year":"2022","unstructured":"Tran-Dinh, Q., Pham, N.H., Phan, D.T., Nguyen, L.M.: A hybrid stochastic optimization framework for composite nonconvex optimization. Math. Program. 191(2), 1005\u20131071 (2022)","journal-title":"Math. Program."},{"key":"2132_CR33","unstructured":"Wang, Z., Ji, K., Zhou, Y., Liang, Y., Tarokh, V.: Spiderboost and momentum: faster variance reduction algorithms. In: Advances in Neural Information Processing Systems, pp. 32 (2019)"},{"key":"2132_CR34","unstructured":"Wei, C., Lee, J.D., Liu, Q., Ma, T.: Regularization matters: generalization and optimization of neural nets vs their induced kernel. In: Advances in Neural Information Processing Systems, pp. 9709\u20139721 (2019)"},{"issue":"4","key":"2132_CR35","doi-asserted-by":"publisher","first-page":"418","DOI":"10.1287\/ijoo.2021.0055","volume":"3","author":"Y Xu","year":"2021","unstructured":"Xu, Y., Xu, Y.: Katyusha acceleration for convex finite-sum compositional optimization. Informs J. Optim. 3(4), 418\u2013443 (2021)","journal-title":"Informs J. Optim."},{"key":"2132_CR36","unstructured":"Xu, Y., Xu, Y., Yan, Y., Sutcher-Shepard, C., Grinberg, L., Chen, J.: Parallel and distributed asynchronous adaptive stochastic gradient methods. arXiv:2002.09095 (2020)"},{"issue":"3","key":"2132_CR37","doi-asserted-by":"publisher","first-page":"1686","DOI":"10.1137\/140983938","volume":"25","author":"Y Xu","year":"2015","unstructured":"Xu, Y., Yin, W.: Block stochastic gradient iteration for convex and nonconvex optimization. SIAM J. Optim. 25(3), 1686\u20131716 (2015)","journal-title":"SIAM J. Optim."},{"key":"2132_CR38","unstructured":"Zhang, J., Xiao, L.: A stochastic composite gradient method with incremental variance reduction. In: Advances in Neural Information Processing Systems, pp. 32 (2019)"},{"key":"2132_CR39","first-page":"1","volume":"195","author":"J Zhang","year":"2021","unstructured":"Zhang, J., Xiao, L.: Stochastic variance-reduced prox-linear algorithms for nonconvex composite optimization. Math. Program. 195, 1\u201343 (2021)","journal-title":"Math. Program."},{"issue":"3","key":"2132_CR40","doi-asserted-by":"publisher","first-page":"555","DOI":"10.1109\/TSP.2016.2620967","volume":"65","author":"R Zhao","year":"2016","unstructured":"Zhao, R., Tan, V.Y.: Online nonnegative matrix factorization with outliers. IEEE Trans. Signal Process. 65(3), 555\u2013570 (2016)","journal-title":"IEEE Trans. Signal Process."},{"key":"2132_CR41","unstructured":"Zhou, D., Tang, Y., Yang, Z., Cao, Y., Gu, Q.: On the convergence of adaptive gradient methods for nonconvex optimization. arXiv:1808.05671 (2018)"}],"container-title":["Journal of Optimization Theory and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10957-022-02132-w.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s10957-022-02132-w\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10957-022-02132-w.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,1,9]],"date-time":"2023-01-09T16:41:40Z","timestamp":1673282500000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s10957-022-02132-w"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,12,2]]},"references-count":41,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2023,1]]}},"alternative-id":["2132"],"URL":"https:\/\/doi.org\/10.1007\/s10957-022-02132-w","relation":{},"ISSN":["0022-3239","1573-2878"],"issn-type":[{"value":"0022-3239","type":"print"},{"value":"1573-2878","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022,12,2]]},"assertion":[{"value":"25 April 2021","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"27 October 2022","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"2 December 2022","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}