{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,19]],"date-time":"2026-06-19T16:41:23Z","timestamp":1781887283380,"version":"3.54.5"},"reference-count":41,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"am","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"International Business Machines (IBM) through the IBM-Rensselaer Future of Computing Research Collaboration"},{"name":"National Science Foundation","award":["2401297"],"award-info":[{"award-number":["2401297"]}]},{"name":"National Science Foundation","award":["2532349"],"award-info":[{"award-number":["2532349"]}]},{"name":"National Science Foundation","award":["2532653"],"award-info":[{"award-number":["2532653"]}]},{"name":"Cisco Research Award"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE J. Sel. Areas Inf. Theory"],"published-print":{"date-parts":[[2026]]},"DOI":"10.1109\/jsait.2026.3688610","type":"journal-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:54:30Z","timestamp":1777492470000},"page":"279-289","source":"Crossref","is-referenced-by-count":1,"title":["On the Convergence Theory of Pipeline Gradient-Based Analog In-Memory Training"],"prefix":"10.1109","volume":"7","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-6724-6134","authenticated-orcid":false,"given":"Zhaoxian","family":"Wu","sequence":"first","affiliation":[{"name":"Cornell University, New York, NY, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-8492-0037","authenticated-orcid":false,"given":"Quan","family":"Xiao","sequence":"additional","affiliation":[{"name":"Cornell University, New York, NY, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5677-1723","authenticated-orcid":false,"given":"Tayfun","family":"Gokmen","sequence":"additional","affiliation":[{"name":"IBM Research, Yorktown Heights, NY, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3971-097X","authenticated-orcid":false,"given":"Hsinyu","family":"Tsai","sequence":"additional","affiliation":[{"name":"IBM Research, Yorktown Heights, NY, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1967-8749","authenticated-orcid":false,"given":"Kaoutar El","family":"Maghraoui","sequence":"additional","affiliation":[{"name":"IBM Research, Yorktown Heights, NY, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8893-3486","authenticated-orcid":false,"given":"Tianyi","family":"Chen","sequence":"additional","affiliation":[{"name":"Cornell University, New York, NY, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Llama 2: Open foundation and fine-tuned chat models","author":"Touvron","year":"2023","journal-title":"arXiv:2307.09288"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1147\/JRD.2019.2947011"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.14778\/3415478.3415530"},{"key":"ref4","article-title":"Accurate, large minibatch SGD: Training ImageNet in 1 hour","author":"Goyal","year":"2017","journal-title":"arXiv:1706.02677"},{"key":"ref5","first-page":"1","article-title":"Large batch optimization for deep learning: Training BERT in 76 minutes","volume-title":"Proc. Int. Conf. Learn. Represent. (ICLR)","author":"You"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/3442442.3452055"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.48550\/arxiv.1811.06965"},{"key":"ref8","article-title":"Torchgpipe: On-the-fly pipeline parallelism for training giant models","author":"Kim","year":"2020","journal-title":"arXiv:2004.09910"},{"key":"ref9","first-page":"551","article-title":"ZeRO-offload: Democratizing billion-scale model training","volume-title":"Proc. USENIX Annu. Tech. Conf. (USENIX ATC)","author":"Ren"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.14778\/3611540.3611569"},{"key":"ref11","article-title":"Megatron-LM: Training multi-billion parameter language models using model parallelism","author":"Shoeybi","year":"2019","journal-title":"arXiv:1909.08053"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1145\/3605573.3605613"},{"key":"ref13","first-page":"6183","article-title":"Asynchronous coordinate descent under more realistic assumptions","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"30","author":"Sun"},{"key":"ref14","first-page":"2098","article-title":"Decoupled parallel backpropagation with convergence guarantee","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Huo"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.3389\/fnins.2016.00333"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1038\/ncomms15199"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1038\/s42256-019-0089-1"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/TED.2015.2439635"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.3389\/fnins.2020.00103"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.52202\/079017-1176"},{"key":"ref21","first-page":"1","article-title":"Analog in-memory training on general non-ideal resistive elements: The impact of response functions","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Wu"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.3389\/frai.2021.699148"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1038\/s41467-024-51221-z"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.3389\/frai.2022.891624"},{"key":"ref25","first-page":"1","article-title":"In-memory training on analog devices with limited conductance states via multi-tile residual learning","volume-title":"Proc. Int. Conf. Artif. Intell. Statist.","author":"Li"},{"key":"ref26","first-page":"479","article-title":"Pipelined backpropagation at scale: Training large models without batches","volume":"3","author":"Kosson","year":"2021","journal-title":"Proc. Mach. Learn. Syst."},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1145\/3341301.3359646"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.52202\/068431-1307"},{"key":"ref29","first-page":"8045","article-title":"Pipe-SGD: A decentralized pipelined SGD framework for distributed deep net training","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"31","author":"Li"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1145\/3007787.3001139"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2017.55"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00216"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/jsait.2026.3688610"},{"key":"ref34","first-page":"4951","article-title":"Overparameterized nonlinear learning: Gradient descent takes the shortest path?","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Oymak"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1016\/j.acha.2021.12.009"},{"key":"ref36","first-page":"2055","article-title":"An improved analysis of training over-parameterized deep neural networks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"32","author":"Zou"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1137\/16M1080173"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/AICAS51828.2021.9458494"},{"key":"ref39","article-title":"AutoAugment: Learning augmentation policies from data","author":"Cubuk","year":"2018","journal-title":"arXiv:1805.09501"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.3389\/fnins.2017.00538"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2019.01.006"}],"container-title":["IEEE Journal on Selected Areas in Information Theory"],"original-title":[],"link":[{"URL":"https:\/\/ieeexplore.ieee.org\/ielam\/8700143\/11395188\/11500465-aam.pdf","content-type":"application\/pdf","content-version":"am","intended-application":"syndication"},{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/8700143\/11395188\/11500465.pdf?arnumber=11500465","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,6,19]],"date-time":"2026-06-19T06:01:30Z","timestamp":1781848890000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11500465\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"references-count":41,"URL":"https:\/\/doi.org\/10.1109\/jsait.2026.3688610","relation":{},"ISSN":["2641-8770"],"issn-type":[{"value":"2641-8770","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]}}}