{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T03:24:39Z","timestamp":1773977079623,"version":"3.50.1"},"reference-count":65,"publisher":"IEEE","content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018,2]]},"DOI":"10.1109\/ita.2018.8503224","type":"proceedings-article","created":{"date-parts":[[2018,10,25]],"date-time":"2018-10-25T19:42:52Z","timestamp":1540496572000},"page":"1-10","source":"Crossref","is-referenced-by-count":85,"title":["Stochastic Gradient Descent Performs Variational Inference, Converges to Limit Cycles for Deep Networks"],"prefix":"10.1109","author":[{"given":"Pratik","family":"Chaudhari","sequence":"first","affiliation":[]},{"given":"Stefano","family":"Soatto","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","author":"zhang","year":"2016","journal-title":"Understanding deep learning requires rethinking generalization"},{"key":"ref38","author":"stephan","year":"2017","journal-title":"Stochastic gradient descent as approximate bayesian inference"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1103\/PhysRevLett.115.128101"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1103\/PhysRevA.40.4065"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1007\/s10142-003-0095-5"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.0800579105"},{"key":"ref37","first-page":"1070","article-title":"Early stopping as non-parametric variational inference","author":"duvenaud","year":"2016","journal-title":"AISTATS"},{"key":"ref36","author":"chaudhari","year":"2017","journal-title":"Parle parallelizing stochastic gradient descent"},{"key":"ref35","author":"chaudhari","year":"2016","journal-title":"Entropy-SGD Biasing Gradient Descent Into Wide Valleys"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.1608103113"},{"key":"ref60","author":"li","year":"2017","journal-title":"Batch size matters A diffusion approximation framework on nonconvex stochastic gradient descent"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1103\/PhysRev.37.405"},{"key":"ref61","volume":"404","author":"prigogine","year":"1955","journal-title":"Thermodynamics of Irreversible Processes"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1103\/PhysRev.38.2265"},{"key":"ref28","doi-asserted-by":"crossref","first-page":"19","DOI":"10.1002\/cplx.20171","article-title":"On the existence of potential landscape in the evolution of complex systems","volume":"12","author":"ping","year":"2007","journal-title":"Complexity"},{"key":"ref64","author":"daniel frank","year":"2005","journal-title":"Nonlinear Fokker-Planck Equations - Fundamentals and Applications"},{"key":"ref27","first-page":"85","article-title":"On derivations and solutions of master equations and asymptotic representations","volume":"30","author":"hanggi","year":"1978","journal-title":"Zeitschrift Fur Physik B-Condensed Matter"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1146\/annurev.pc.31.100180.003051"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1007\/s10955-012-0532-8"},{"key":"ref2","doi-asserted-by":"crossref","DOI":"10.1007\/978-3-642-61544-3","author":"risken","year":"1996","journal-title":"The Fokker-Planck Equation"},{"key":"ref1","author":"chaudhari","year":"2017","journal-title":"Stochastic gradient descent performs variational inference converges to limit cycles for deep networks"},{"key":"ref20","author":"zoph","year":"2016","journal-title":"Neural architecture search with reinforcement learning"},{"key":"ref22","author":"brock","year":"2017","journal-title":"Smash one-shot model architecture search through hypernetworks"},{"key":"ref21","author":"bowen","year":"2016","journal-title":"Designing Neural Network Architectures using Reinforcement Learning"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.3938\/jkps.66.544"},{"key":"ref23","author":"shwartz-ziv","year":"2017","journal-title":"Opening the black box of deep neural networks via information"},{"key":"ref26","doi-asserted-by":"crossref","DOI":"10.1007\/978-3-642-14394-6","author":"oksendal","year":"2003","journal-title":"Stochastic Differential Equations"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.0506347102"},{"key":"ref50","author":"yin","year":"2017","journal-title":"Gradient diversity empowers distributed learning"},{"key":"ref51","first-page":"2917","article-title":"A complete recipe for stochastic gradient MCMC","author":"yi-an","year":"2015","journal-title":"NIPS"},{"key":"ref59","author":"raginsky","year":"2017","journal-title":"Non-convex learning via Stochastic Gradient Langevin Dynamics a nonasymptotic analysis"},{"key":"ref58","author":"chaudhari","year":"2017","journal-title":"Deep Relaxation partial differential equations for optimizing deep neural networks"},{"key":"ref57","first-page":"201614734","article-title":"A variational perspective on accelerated methods in optimization","author":"andre","year":"2016","journal-title":"PNAS"},{"key":"ref56","first-page":"1051","article-title":"Bridging the gap between stochastic gradient MCMC and stochastic optimization","author":"chen","year":"2016","journal-title":"AISTATS"},{"key":"ref55","first-page":"3203","article-title":"Bayesian sampling using stochastic gradient thermostats","author":"ding","year":"2014","journal-title":"NIPS"},{"key":"ref54","first-page":"681","article-title":"Bayesian learning via stochastic gradient Langevin dynamics","author":"welling","year":"2011","journal-title":"ICML"},{"key":"ref53","doi-asserted-by":"crossref","first-page":"259","DOI":"10.1007\/s10955-017-1805-z","article-title":"Acceleration of convergence to equilibrium in Markov chains by breaking detailed balance","volume":"168","author":"marcus","year":"2017","journal-title":"Journal of Statistical Physics"},{"key":"ref52","author":"pavliotis","year":"2016","journal-title":"Stochastic Processes and Applications"},{"key":"ref10","author":"kingma","year":"2013","journal-title":"Auto-encoding variational bayes"},{"key":"ref11","first-page":"368","article-title":"The information bottleneck method","author":"naftali","year":"1999","journal-title":"Proc of the 37-th annual Allerton Conference on Communication Control and Computing"},{"key":"ref40","author":"neyshabur","year":"2017","journal-title":"Geometry of optimization and implicit regularization in deep learning"},{"key":"ref12","author":"achille","year":"2017","journal-title":"Emergence of invariance and disentangling in deep representations"},{"key":"ref13","doi-asserted-by":"crossref","first-page":"183","DOI":"10.1023\/A:1007665907178","article-title":"An introduction to variational methods for graphical models","volume":"37","author":"michael","year":"1999","journal-title":"Machine Learning"},{"key":"ref14","first-page":"354","article-title":"A variational analysis of stochastic gradient algorithms","author":"mandt","year":"2016","journal-title":"ICML"},{"key":"ref15","author":"keskar","year":"2016","journal-title":"On large-batch training for deep learning Generalization gap and sharp minima"},{"key":"ref16","author":"goyal","year":"2017","journal-title":"Accurate large minibatch sgd Training imagenet in 1 hour"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/5.726791"},{"key":"ref18","author":"krizhevsky","year":"2009","journal-title":"Learning multiple layers of features from tiny images"},{"key":"ref19","author":"springenberg","year":"2014","journal-title":"Striving for simplicity The all convolutional net"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1002\/0471727903"},{"key":"ref3","first-page":"2101","article-title":"Stochastic modified equations and adaptive stochastic gradient algorithms","author":"li","year":"2017","journal-title":"ICML"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1016\/S0167-2789(97)00093-6"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1016\/j.physleta.2013.12.028"},{"key":"ref8","volume":"338","author":"villani","year":"2008","journal-title":"Optimal Transport Old and New"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-20828-2"},{"key":"ref49","author":"chaudhari","year":"2015","journal-title":"On the energy landscape of deep networks"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1007\/s13373-017-0101-1"},{"key":"ref46","first-page":"2575","article-title":"Variational dropout and the local reparameterization trick","author":"diederik","year":"2015","journal-title":"NIPS"},{"key":"ref45","first-page":"1929","article-title":"Dropout: a simple way to prevent neural networks from overfitting","volume":"15","author":"srivastava","year":"2014","journal-title":"JMLR"},{"key":"ref48","author":"arvind","year":"2015","journal-title":"Adding gradient noise improves learning for very deep networks"},{"key":"ref47","first-page":"3059","article-title":"Noisy activation functions","author":"gulcehre","year":"2016","journal-title":"ICML"},{"key":"ref42","first-page":"81","article-title":"Efficient approaches for escaping higher order saddle points in non-convex optimization","author":"anandkumar","year":"2016","journal-title":"COLT"},{"key":"ref41","first-page":"1246","article-title":"Gradient descent only converges to minimizers","author":"jason","year":"2016","journal-title":"COLT"},{"key":"ref44","doi-asserted-by":"crossref","first-page":"5","DOI":"10.1145\/168304.168306","article-title":"Keeping the neural networks simple by minimizing the description length of the weights","author":"hinton","year":"1993","journal-title":"Proceedings of the Sixth Annual Conference on Computational Learning Theory"},{"key":"ref43","first-page":"797","article-title":"Escaping from saddle points online stochastic gradient for tensor decomposition","author":"ge","year":"2015","journal-title":"COLT"}],"event":{"name":"2018 Information Theory and Applications Workshop (ITA)","location":"San Diego, CA","start":{"date-parts":[[2018,2,11]]},"end":{"date-parts":[[2018,2,16]]}},"container-title":["2018 Information Theory and Applications Workshop (ITA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/8486613\/8502949\/08503224.pdf?arnumber=8503224","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,9,6]],"date-time":"2023-09-06T07:24:32Z","timestamp":1693985072000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8503224\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,2]]},"references-count":65,"URL":"https:\/\/doi.org\/10.1109\/ita.2018.8503224","relation":{},"subject":[],"published":{"date-parts":[[2018,2]]}}}