{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,23]],"date-time":"2026-04-23T14:47:22Z","timestamp":1776955642346,"version":"3.51.4"},"reference-count":82,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"2","license":[{"start":{"date-parts":[[2023,2,1]],"date-time":"2023-02-01T00:00:00Z","timestamp":1675209600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"DOI":"10.13039\/501100001691","name":"Japan Society for the Promotion of Science (JSPS) KAKENHI","doi-asserted-by":"publisher","award":["18K18114"],"award-info":[{"award-number":["18K18114"]}],"id":[{"id":"10.13039\/501100001691","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002241","name":"Japan Science and Technology Agency (JST) Presto","doi-asserted-by":"publisher","award":["JPMJPR1852"],"award-info":[{"award-number":["JPMJPR1852"]}],"id":[{"id":"10.13039\/501100002241","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100003246","name":"Dutch Science Foundation [Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO)] through the Vidi","doi-asserted-by":"publisher","award":["VI.Vidi.192.021"],"award-info":[{"award-number":["VI.Vidi.192.021"]}],"id":[{"id":"10.13039\/501100003246","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Inform. Theory"],"published-print":{"date-parts":[[2023,2]]},"DOI":"10.1109\/tit.2022.3215088","type":"journal-article","created":{"date-parts":[[2022,10,14]],"date-time":"2022-10-14T20:39:40Z","timestamp":1665779980000},"page":"1203-1223","source":"Crossref","is-referenced-by-count":4,"title":["On Generalization Bounds for Deep Networks Based on Loss Surface Implicit Regularization"],"prefix":"10.1109","volume":"69","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-6186-613X","authenticated-orcid":false,"given":"Masaaki","family":"Imaizumi","sequence":"first","affiliation":[{"name":"Komaba Institute for Science, The University of Tokyo, Tokyo, Japan"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2699-4990","authenticated-orcid":false,"given":"Johannes","family":"Schmidt-Hieber","sequence":"additional","affiliation":[{"name":"Department of Applied Mathematics, University of Twente, Enschede, NB, The Netherlands"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1038\/nature14539"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref3","first-page":"4171","article-title":"Bert: Pre-training of deep bidirectional transformers for language understanding","volume-title":"Proc. Assoc. Comput. Linguistics","author":"Devlin"},{"key":"ref4","first-page":"1877","article-title":"Language models are few-shot learners","volume-title":"Proc. Adv. Neur. Inf. Process. Sys.","volume":"33","author":"Brown"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1017\/S0962492921000027"},{"key":"ref6","article-title":"The modern mathematics of deep learning","author":"Berner","year":"2021","journal-title":"arXiv:2105.04026"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-021-06056-w"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511624216"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1214\/19-aos1875"},{"key":"ref10","first-page":"869","article-title":"Deep neural networks learn non-smooth functions effectively","volume-title":"Proc. Artif. Intell. Statist.","volume":"89","author":"Imaizumi"},{"key":"ref11","first-page":"1","article-title":"Advantage of deep neural networks for estimating functions with singularity on hypersurfaces","volume":"23","author":"Imaizumi","year":"2022","journal-title":"J. Mach. Learn. Res."},{"key":"ref12","article-title":"Adaptivity of deep ReLU network for learning in Besov and mixed smooth Besov spaces: Optimal rate and curse of dimensionality","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Suzuki"},{"key":"ref13","article-title":"Risk and parameter convergence of logistic regression","author":"Ji","year":"2018","journal-title":"arXiv:1803.07300"},{"key":"ref14","first-page":"1832","article-title":"Characterizing implicit bias in terms of optimization geometry","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Gunasekar"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ITA.2018.8503198"},{"key":"ref16","first-page":"9461","article-title":"Implicit bias of gradient descent on linear convolutional networks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"31","author":"Gunasekar"},{"key":"ref17","first-page":"3420","article-title":"Convergence of gradient descent on separable data","volume-title":"Proc. Artif. Intell. Statist.","author":"Nacson"},{"key":"ref18","first-page":"2","article-title":"Algorithmic regularization in over-parameterized matrix sensing and neural networks with quadratic activations","volume-title":"Proc. Conf. Learn. Theory","author":"Li"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1214\/19-AOS1931"},{"key":"ref20","article-title":"Implicit bias of gradient descent for mean squared error regression with wide neural networks","author":"Jin","year":"2020","journal-title":"arXiv:2006.07356"},{"key":"ref21","first-page":"1376","article-title":"Norm-based capacity control in neural networks","volume-title":"Proc. Conf. Learn. Theory","author":"Neyshabur"},{"key":"ref22","first-page":"6240","article-title":"Spectrally-normalized margin bounds for neural networks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Bartlett"},{"key":"ref23","first-page":"5947","article-title":"Exploring generalization in deep learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Neyshabur"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1093\/imaiai\/iaz007"},{"key":"ref25","first-page":"1225","article-title":"Train faster, generalize better: Stability of stochastic gradient descent","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Hardt"},{"key":"ref26","first-page":"11611","article-title":"Uniform convergence May be unable to explain generalization in deep learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Nagarajan"},{"key":"ref27","first-page":"6389","article-title":"Visualizing the loss landscape of neural nets","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Li"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.2174\/1573412912666151119213039"},{"issue":"4","key":"ref29","first-page":"643","article-title":"Gradient methods for minimizing functionals","volume":"3","author":"Polyak","year":"1963","journal-title":"Zhurnal Vychislitel Matematiki Matematicheskoi Fiziki"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1214\/17-AOS1637"},{"issue":"1","key":"ref31","first-page":"2822","article-title":"The implicit bias of gradient descent on separable data","volume":"19","author":"Soudry","year":"2018","journal-title":"J. Mach. Learn. Res."},{"key":"ref32","first-page":"10836","article-title":"Generalization bounds of stochastic gradient descent for wide and deep neural networks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"32","author":"Cao"},{"key":"ref33","first-page":"2815","article-title":"Data-dependent stability of stochastic gradient descent","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Kuzborskij"},{"key":"ref34","first-page":"254","article-title":"Stronger generalization bounds for deep nets via a compression approach","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Arora"},{"key":"ref35","article-title":"Compression based bound for non-compressed network: Unified generalization error analysis of large compressible deep neural network","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Suzuki"},{"key":"ref36","first-page":"504","article-title":"Understanding generalization in deep learning via tensor methods","volume-title":"Proc. Artif. Intell. Statist.","author":"Li"},{"key":"ref37","first-page":"1232","article-title":"Controlling bias in adaptive data analysis using information theory","volume-title":"Proc. Artif. Intell. Statist.","author":"Russo"},{"key":"ref38","first-page":"2525","article-title":"Information-theoretic analysis of generalization capability of learning algorithms","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"30","author":"Xu"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ISIT.2018.8437571"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/JSAIT.2020.2991139"},{"key":"ref41","first-page":"11015","article-title":"Information-theoretic generalization bounds for SGLD via data-dependent estimates","volume":"32","author":"Negrea","year":"2019","journal-title":"Proc. Adv. Neural Inf. Process. Syst."},{"key":"ref42","first-page":"3526","article-title":"Information-theoretic generalization bounds for stochastic gradient descent","volume-title":"Proc. Conf. Learn. Theory","author":"Neu"},{"key":"ref43","article-title":"An exact characterization of the generalization error for the Gibbs algorithm","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"34","author":"Aminian"},{"key":"ref44","first-page":"1674","article-title":"Non-convex learning via stochastic gradient Langevin dynamics: A nonasymptotic analysis","volume-title":"Proc. Conf. Learn. Theory","author":"Raginsky"},{"key":"ref45","first-page":"354","article-title":"A variational analysis of stochastic gradient algorithms","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Mandt"},{"key":"ref46","article-title":"Three factors influencing minima in SGD","author":"Jastrz\u0229bski","year":"2017","journal-title":"arXiv:1711.04623"},{"key":"ref47","first-page":"1143","article-title":"Control batch size and learning rate to generalize well: Theoretical and empirical evidence","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"32","author":"He"},{"key":"ref48","first-page":"2698","article-title":"An alternative view: When does SGD escape local minima?","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Kleinberg"},{"key":"ref49","first-page":"1810","article-title":"Stochastic gradient and Langevin processes","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Cheng"},{"key":"ref50","first-page":"605","article-title":"Generalization bounds of SGLD for non-convex learning: Two theoretical viewpoints","volume-title":"Proc. Conf. Learn. Theory","author":"Mou"},{"key":"ref51","first-page":"857","article-title":"Local optimality and generalization guarantees for the Langevin algorithm via empirical metastability","volume-title":"Proc. Conf. Learn. Theory","author":"Tzen"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1016\/j.acha.2021.12.009"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.1903070116"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1002\/cpa.22008"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1214\/19-AOS1849"},{"key":"ref56","article-title":"The generalization error of max-margin linear classifiers: High-dimensional asymptotics in the overparametrized regime","author":"Montanari","year":"2019","journal-title":"arXiv:1911.01544"},{"key":"ref57","article-title":"Generalization of two-layer neural networks: An asymptotic viewpoint","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Ba"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1214\/17-AOS1549"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.1907378117"},{"key":"ref60","article-title":"Benign overfitting in ridge regression","author":"Tsigler","year":"2020","journal-title":"arXiv:2009.14286"},{"key":"ref61","first-page":"6158","article-title":"Learning and generalization in overparameterized neural networks, going beyond two layers","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Allen-Zhu"},{"key":"ref62","first-page":"242","article-title":"A convergence theory for deep learning via over-parameterization","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Allen-Zhu"},{"key":"ref63","first-page":"8571","article-title":"Neural tangent kernel: Convergence and generalization in neural networks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Jacot"},{"key":"ref64","article-title":"Measuring the intrinsic dimension of objective landscapes","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Li"},{"key":"ref65","first-page":"586","article-title":"Deep learning without poor local minima","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Kawaguchi"},{"key":"ref66","first-page":"192","article-title":"The loss surfaces of multilayer networks","volume-title":"Proc. Artif. Intell. Statist.","author":"Choromanska"},{"key":"ref67","first-page":"853","article-title":"Elimination of all bad local minima in deep learning","volume-title":"Proc. Int. Conf. Artif. Intell. Statist.","author":"Kawaguchi"},{"key":"ref68","first-page":"774","article-title":"On the quality of the initial basin in overspecified neural networks","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Safran"},{"key":"ref69","first-page":"12973","article-title":"Piecewise strong convexity of neural networks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"32","author":"Milne"},{"key":"ref70","article-title":"The two regimes of deep network training","author":"Leclerc","year":"2020","journal-title":"arXiv:2002.10376"},{"key":"ref71","first-page":"876","article-title":"Averaging weights leads to wider optima and better generalization","volume-title":"Proc. Uncertainty Artif. Intell.","author":"Izmailov"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4757-2545-2"},{"key":"ref73","article-title":"Non-Gaussianity of stochastic gradient noise","author":"Panigrahi","year":"2019","journal-title":"arXiv:1910.09626"},{"key":"ref74","first-page":"5827","article-title":"A tail-index analysis of stochastic gradient noise in deep neural networks","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Simsekli"},{"key":"ref75","article-title":"A diffusion theory for deep learning dynamics: Stochastic gradient descent exponentially favors flat minima","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Xie"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1137\/1105027"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46128-1_50"},{"key":"ref78","first-page":"527","article-title":"Covering number bounds of certain regularized linear function classes","volume":"2","author":"Zhang","year":"2002","journal-title":"J. Mach. Learn. Res."},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1214\/ECP.v17-2079"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1017\/9781009022811"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1017\/9781108627771"},{"key":"ref82","first-page":"4140","article-title":"Recovery guarantees for one-hidden-layer neural networks","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Zhong"}],"container-title":["IEEE Transactions on Information Theory"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/18\/10024105\/09919858.pdf?arnumber=9919858","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,1,22]],"date-time":"2024-01-22T22:16:33Z","timestamp":1705961793000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9919858\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,2]]},"references-count":82,"journal-issue":{"issue":"2"},"URL":"https:\/\/doi.org\/10.1109\/tit.2022.3215088","relation":{},"ISSN":["0018-9448","1557-9654"],"issn-type":[{"value":"0018-9448","type":"print"},{"value":"1557-9654","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,2]]}}}