{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,3]],"date-time":"2025-08-03T22:47:52Z","timestamp":1754261272307,"version":"3.33.0"},"reference-count":46,"publisher":"IEEE","license":[{"start":{"date-parts":[[2024,12,15]],"date-time":"2024-12-15T00:00:00Z","timestamp":1734220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,12,15]],"date-time":"2024-12-15T00:00:00Z","timestamp":1734220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,12,15]]},"DOI":"10.1109\/bigdata62323.2024.10825793","type":"proceedings-article","created":{"date-parts":[[2025,1,16]],"date-time":"2025-01-16T18:31:23Z","timestamp":1737052283000},"page":"1413-1427","source":"Crossref","is-referenced-by-count":1,"title":["Efficient SGD Neural Network Training via Sublinear Activated Neuron Identification"],"prefix":"10.1109","author":[{"given":"Lianke","family":"Qin","sequence":"first","affiliation":[{"name":"University of California, Santa Barbara,Department of Computer Science,Santa Barbara,CA"}]},{"given":"Zhao","family":"Song","sequence":"additional","affiliation":[{"name":"Simons Institute for the Theory of Computing,UC Berkeley,San Jose,CA"}]},{"given":"Yuanyuan","family":"Yang","sequence":"additional","affiliation":[{"name":"The University of Washington,Department of Computer Science,Seattle,WA"}]}],"member":"263","reference":[{"article-title":"Efficient sgd neural network training via sublinear activated neuron identification","year":"2023","author":"Qin","key":"ref1"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/5.726791"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.4324\/9781410605337-29"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.5555\/2999134.2999257"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"issue":"ARTICLE","key":"ref6","first-page":"2493","article-title":"Natural language processing (almost) from scratch","volume":"12","author":"Collobert","year":"2011","journal-title":"Journal of machine learning research"},{"key":"ref7","first-page":"4171","article-title":"Bert: Pre-training of deep bidirectional transformers for language understanding","volume-title":"Proceedings of NAACL-HLT","author":"Kenton"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.13140\/RG.2.2.18893.74727"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1038\/nature24270"},{"article-title":"Gradient descent provably optimizes over-parameterized neural networks","volume-title":"International Conference on Learning Representations","author":"Du","key":"ref10"},{"article-title":"Quadratic suffices for over-parametrization via matrix chernoff bound","year":"2019","author":"Song","key":"ref11"},{"key":"ref12","article-title":"An improved analysis of training over-parameterized deep neural networks","volume":"32","author":"Zou","year":"2019","journal-title":"Advances in neural information processing systems"},{"key":"ref13","first-page":"679","article-title":"Over-parameterized adversarial training: An analysis overcoming the curse of dimensionality","volume":"33","author":"Zhang","year":"2020","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref14","first-page":"63:1","article-title":"Training (overparametrized) neural networks in near-linear time","volume-title":"12th Innovations in Theoretical Computer Science Conference, ITCS 2021, January 6-8, 2021, Virtual Conference","volume":"185","author":"Brand"},{"key":"ref15","first-page":"4423","article-title":"Fl-ntk: A neural tangent kernel-based framework for federated learning analysis","volume-title":"International Conference on Machine Learning","author":"Huang"},{"article-title":"An over-parameterized exponential regression","year":"2023","author":"Gao","key":"ref16"},{"key":"ref17","first-page":"9007","article-title":"Neural networks learning and memorization with (almost) no over-parameterization","volume":"33","author":"Daniely","year":"2020","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref18","article-title":"Does preprocessing help training over-parameterized neural networks?","volume":"34","author":"Song","year":"2021","journal-title":"Advances in Neural Information Processing Systems (NeurIPS)"},{"key":"ref19","first-page":"249","article-title":"Understanding the difficulty of training deep feedforward neural networks","volume-title":"Proceedings of the thirteenth international conference on artificial intelligence and statistics. JMLR Workshop and Conference Proceedings","author":"Glorot"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1145\/2488608.2488620"},{"key":"ref21","article-title":"Optimal sketching for kronecker product regression and low rank approximation","volume":"32","author":"Diao","year":"2019","journal-title":"Advances in neural information processing systems"},{"key":"ref22","article-title":"Scaling neural tangent kernels via sketching and random features","volume":"34","author":"Zandieh","year":"2021","journal-title":"Advances in Neural Information Processing Systems"},{"article-title":"Solving empirical risk minimization in the current matrix multiplication time","volume-title":"COLT","author":"Lee","key":"ref23"},{"key":"ref24","first-page":"101","article-title":"An online and unified algorithm for projection matrix vector multiplication with application to empirical risk minimization","volume-title":"International Conference on Artificial Intelligence and Statistics","author":"Qin"},{"article-title":"Oblivious sketching-based central path method for solving linear programming problems","volume-title":"38th International Conference on Machine Learning (ICML)","author":"Song","key":"ref25"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICDE.2016.7498295"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1145\/2897518.2897646"},{"key":"ref28","article-title":"Learning overparameterized neural networks via stochastic gradient descent on structured data","volume":"31","author":"Li","year":"2018","journal-title":"Advances in neural information processing systems"},{"key":"ref29","article-title":"Neural tangent kernel: Convergence and generalization in neural networks","volume":"31","author":"Jacot","year":"2018","journal-title":"Advances in neural information processing systems"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-019-05839-6"},{"article-title":"Training overparametrized neural networks in sublinear time","year":"2022","author":"Hu","key":"ref31"},{"key":"ref32","first-page":"19932","article-title":"Federated adversarial learning: A framework with convergence analysis","volume-title":"International Conference on Machine Learning","author":"Li"},{"article-title":"Bypass exponential time preprocessing: Fast neural network training via weight-data correlation preprocessing","year":"2022","author":"Alman","key":"ref33"},{"key":"ref34","first-page":"16083","article-title":"Bounding the width of neural networks via coupled initialization a worst case analysis","volume-title":"International Conference on Machine Learning","author":"Munteanu"},{"key":"ref35","article-title":"Speeding up optimizations via data structures: Faster search, sample and maintenance","volume-title":"Master\u2019s thesis","author":"Zhang","year":"2022"},{"key":"ref36","article-title":"Toward deeper understanding of neural networks: The power of initialization and a dual view on expressivity","volume":"29","author":"Daniely","year":"2016","journal-title":"Advances In Neural Information Processing Systems"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1080\/01621459.1963.10500830"},{"article-title":"Gradient descent provably optimizes over-parameterized neural networks","volume-title":"ICLR","author":"Du","key":"ref38"},{"article-title":"Fast attention requires bounded entries","year":"2023","author":"Alman","key":"ref39"},{"article-title":"Algorithm and hardness for dynamic attention maintenance in large language models","year":"2023","author":"Brand","key":"ref40"},{"article-title":"An iterative algorithm for rescaled hyperbolic functions regression","year":"2023","author":"Gao","key":"ref41"},{"article-title":"H_2 o: Heavy-hitter oracle for efficient generative inference of large language models","year":"2023","author":"Zhang","key":"ref42"},{"article-title":"Randomized and deterministic attention sparsification algorithms for over-parameterized feature dimension","year":"2023","author":"Deng","key":"ref43"},{"article-title":"In-context learning for attention scheme: from single softmax regression to multiple softmax regression via a tensor trick","year":"2023","author":"Gao","key":"ref44"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/SFCS.1992.267816"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9781107298019"}],"event":{"name":"2024 IEEE International Conference on Big Data (BigData)","start":{"date-parts":[[2024,12,15]]},"location":"Washington, DC, USA","end":{"date-parts":[[2024,12,18]]}},"container-title":["2024 IEEE International Conference on Big Data (BigData)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/10824975\/10824942\/10825793.pdf?arnumber=10825793","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,1,20]],"date-time":"2025-01-20T18:39:13Z","timestamp":1737398353000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10825793\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,15]]},"references-count":46,"URL":"https:\/\/doi.org\/10.1109\/bigdata62323.2024.10825793","relation":{},"subject":[],"published":{"date-parts":[[2024,12,15]]}}}