{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,23]],"date-time":"2026-02-23T21:24:27Z","timestamp":1771881867452,"version":"3.50.1"},"reference-count":59,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"3","license":[{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"Intel Strategic Research Sectors (SRS)\u2013Systems Integration SRS and Devices SRS"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Comput.-Aided Des. Integr. Circuits Syst."],"published-print":{"date-parts":[[2026,3]]},"DOI":"10.1109\/tcad.2025.3597244","type":"journal-article","created":{"date-parts":[[2025,8,8]],"date-time":"2025-08-08T18:39:56Z","timestamp":1754678396000},"page":"1352-1365","source":"Crossref","is-referenced-by-count":1,"title":["Ultra Memory-Efficient On-FPGA Training of Transformers via Tensor-Compressed Optimization"],"prefix":"10.1109","volume":"45","author":[{"ORCID":"https:\/\/orcid.org\/0009-0006-2962-7386","authenticated-orcid":false,"given":"Jiayi","family":"Tian","sequence":"first","affiliation":[{"name":"Department of Electrical and Computer Engineering, University of California at Santa Barbara, Santa Barbara, CA, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-0192-3703","authenticated-orcid":false,"given":"Jinming","family":"Lu","sequence":"additional","affiliation":[{"name":"Department of Electrical and Computer Engineering, University of California at Santa Barbara, Santa Barbara, CA, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7668-569X","authenticated-orcid":false,"given":"Hai","family":"Li","sequence":"additional","affiliation":[{"name":"Department of Electrical and Computer Engineering, University of California at Santa Barbara, Santa Barbara, CA, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-3649-0852","authenticated-orcid":false,"given":"Xiangwei","family":"Wang","sequence":"additional","affiliation":[{"name":"Department of Computer Science, North Carolina State University, Raleigh, NC, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2541-8767","authenticated-orcid":false,"given":"Cong Callie","family":"Hao","sequence":"additional","affiliation":[{"name":"School of Electrical and Computer Engineering, Georgia Institute of Technology, Atlanta, GA, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4017-5265","authenticated-orcid":false,"given":"Ian","family":"Young","sequence":"additional","affiliation":[{"name":"Department of Technology Research, Intel Corporation, Hillsboro, OR, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2292-0030","authenticated-orcid":false,"given":"Zheng","family":"Zhang","sequence":"additional","affiliation":[{"name":"Department of Electrical and Computer Engineering, University of California at Santa Barbara, Santa Barbara, CA, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1145\/3436755"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/EuroSP.2018.00035"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9561949"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.23919\/ECC54610.2021.9655103"},{"key":"ref5","first-page":"1519","article-title":"Learning certified control using contraction metric","volume-title":"Proc. Conf. Robot Learn.","author":"Sun"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/3417313.3429382"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1145\/3505633"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ICCAD57390.2023.10323638"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2022.3145850"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICFPT47387.2019.00009"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA53966.2022.00067"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref13","first-page":"2","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","volume-title":"Proc. naacL-HLT","volume":"1","author":"Kenton"},{"key":"ref14","article-title":"An image is worth 16 \u00d7 16 words: Transformers for image recognition at scale","author":"Dosovitskiy","year":"2020","journal-title":"arXiv:2010.11929"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00371"},{"key":"ref16","first-page":"1","article-title":"PINNsFormer: A transformerbased framework for physics-informed neural networks","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Zhao"},{"key":"ref17","first-page":"1","article-title":"Federated learning in ASR: Not as easy as you think","volume-title":"Proc. Speech Commun., 14th ITG Conf.","author":"Yu"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2022-803"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10096223"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ISCAS58744.2024.10558636"},{"key":"ref21","first-page":"7675","article-title":"Training deep neural networks with 8-bit floating point numbers","volume-title":"Proc. NIPS","author":"Wang"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.21437\/Interspeech.2023-2045"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.naacl-long.174"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.56"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/TVLSI.2022.3197282"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/tcad.2023.3317789"},{"key":"ref27","first-page":"5776","article-title":"MINILM: Deep self-attention distillation for task-agnostic compression of pretrained transformers","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Wang"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.findings-acl.224"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2018.00017"},{"issue":"1","key":"ref30","first-page":"6869","article-title":"Quantized neural networks: Training neural networks with low precision weights and activations","volume":"18","author":"Hubara","year":"2017","journal-title":"J. Mach. Learn. Res."},{"key":"ref31","first-page":"1737","article-title":"Deep learning with limited numerical precision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Gupta"},{"key":"ref32","first-page":"1","article-title":"Ultra-low precision 4-bit training of deep neural networks","volume-title":"Proc. NIPS","volume":"33","author":"Sun"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1137\/07070111X"},{"key":"ref34","first-page":"1","article-title":"Speeding-up convolutional neural networks using fine-tuned CPdecomposition","volume-title":"Proc. 3rd Int. Conf. Learn. Represent.","author":"Lebedev"},{"key":"ref35","article-title":"Compression of deep convolutional neural networks for fast and low power mobile applications","author":"Kim","year":"2015","journal-title":"arXiv:1511.06530"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1145\/3318216.3363322"},{"key":"ref37","first-page":"1","article-title":"Tensorizing neural networks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"28","author":"Novikov"},{"key":"ref38","article-title":"Compression and interpretability of deep neural networks via Tucker tensor layer","author":"Calvi","year":"2019","journal-title":"arXiv:1903.06133"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.findings-emnlp.436"},{"key":"ref40","first-page":"1","article-title":"A tensorized transformer for language modeling","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"32","author":"Ma"},{"key":"ref41","first-page":"264","article-title":"TIE: Energy-efficient tensor train-based inference engine for deep neural network","volume-title":"Proc. Int. Symp. Comput. Archit.","author":"Deng"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1145\/3579371.3589103"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/TCSI.2023.3344550"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/isscc42613.2021.9365989"},{"key":"ref45","article-title":"Tensorcompressed back-propagation-free training for (physics-informed) neural networks","author":"Zhao","year":"2023","journal-title":"arXiv:2308.09858"},{"key":"ref46","first-page":"1","article-title":"Tensorized optical multimodal fusion network","volume-title":"Proc. Conf. Lasers Electro-Optics (CLEO)","author":"Zhao"},{"key":"ref47","first-page":"1","article-title":"Real-time FJ\/MAC PDE solvers via tensorized, back-propagation-free optical PINN training","volume-title":"Proc. Mach. Learn. New Compute Paradigms","author":"Zhao"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.3115\/116580.116613"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1137\/090752286"},{"key":"ref50","first-page":"3891","article-title":"Tensor-train recurrent neural networks for video classification","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Yang"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr.2018.00977"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1137\/21M1391444"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2021.04.117"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1016\/j.neunet.2020.07.028"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1016\/j.neunet.2021.08.028"},{"key":"ref56","first-page":"1","article-title":"CoMERA: Computing-and memory-efficient training via rank-adaptive tensor optimization","volume-title":"Proc. Annu. Conf. Neural Inf. Process. Syst.","author":"Yang"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/FPT.2017.8280142"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/FPL.2019.00034"},{"key":"ref59","first-page":"1","article-title":"FPGA-based low-batch training accelerator for modern CNNs featuring high bandwidth memory","volume-title":"Proc. Int. Conf. Comput.-Aided Design","author":"Venkataramanaiah"}],"container-title":["IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/43\/11404293\/11121368.pdf?arnumber=11121368","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,23]],"date-time":"2026-02-23T20:48:04Z","timestamp":1771879684000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11121368\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,3]]},"references-count":59,"journal-issue":{"issue":"3"},"URL":"https:\/\/doi.org\/10.1109\/tcad.2025.3597244","relation":{},"ISSN":["0278-0070","1937-4151"],"issn-type":[{"value":"0278-0070","type":"print"},{"value":"1937-4151","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,3]]}}}