{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,5]],"date-time":"2026-05-05T04:19:06Z","timestamp":1777954746620,"version":"3.51.4"},"reference-count":52,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"5","license":[{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T00:00:00Z","timestamp":1777593600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100007219","name":"Natural Science Foundation of Shanghai Municipality","doi-asserted-by":"publisher","award":["23ZR1425400"],"award-info":[{"award-number":["23ZR1425400"]}],"id":[{"id":"10.13039\/100007219","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Artif. Intell."],"published-print":{"date-parts":[[2026,5]]},"DOI":"10.1109\/tai.2025.3630623","type":"journal-article","created":{"date-parts":[[2025,11,10]],"date-time":"2025-11-10T18:51:47Z","timestamp":1762800707000},"page":"2920-2930","source":"Crossref","is-referenced-by-count":0,"title":["ArMA: Mitigating Catastrophic Forgetting using Attention-Regularized Model Averaging in Continual Fine-tuning Large Language Models"],"prefix":"10.1109","volume":"7","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-4024-925X","authenticated-orcid":false,"given":"Xihe","family":"Qiu","sequence":"first","affiliation":[{"name":"School of Electronic and Electrical Engineering, Shanghai University of Engineering Science, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-6625-1961","authenticated-orcid":false,"given":"Leijun","family":"Cheng","sequence":"additional","affiliation":[{"name":"School of Electronic and Electrical Engineering, Shanghai University of Engineering Science, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-9510-8154","authenticated-orcid":false,"given":"Teqi","family":"Hao","sequence":"additional","affiliation":[{"name":"School of Electronic and Electrical Engineering, Shanghai University of Engineering Science, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3555-7143","authenticated-orcid":false,"given":"Xiaoyu","family":"Tan","sequence":"additional","affiliation":[{"name":"Tencent Youtu Lab, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","article-title":"MetaGPT: Meta programming for a multi-agent collaborative framework","volume-title":"Proc. 12th Int. Conf. Learn. Representations","author":"Hong","year":"2024"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TKDE.2021.3126456"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.conll-babylm.30"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-acl.336"},{"key":"ref5","article-title":"Scaling laws for neural language models","author":"Kaplan","year":"2020"},{"key":"ref6","doi-asserted-by":"crossref","DOI":"10.1016\/j.swevo.2024.101663","article-title":"When large language model meets optimization","author":"Huang","year":"2024"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.969"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.1611835114"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-acl.48"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.63317\/4qxnfzpj9yum"},{"key":"ref11","article-title":"Knowledge unlearning for LLMs: Tasks, methods, and challenges","author":"Si","year":"2023"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.767"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.679"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N19-1209"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.182"},{"key":"ref16","first-page":"8630","article-title":"Bang: Bridging autoregressive and non-autoregressive generation with large scale pretraining","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Qi","year":"2021"},{"key":"ref17","article-title":"Xlnet: Generalized autoregressive pretraining for language understanding","author":"Yang","year":"2019"},{"key":"ref18","article-title":"Kun: Answer polishment for Chinese self-alignment with instruction back-translation","author":"Zheng","year":"2024"},{"key":"ref19","article-title":"Fine-tuning language models from human preferences","author":"Ziegler","year":"2020"},{"key":"ref20","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017"},{"key":"ref21","doi-asserted-by":"crossref","DOI":"10.18653\/v1\/2023.emnlp-main.741","article-title":"FactScore: Fine-grained atomic evaluation of factual precision in long form text generation","author":"Min","year":"2023"},{"key":"ref22","article-title":"Factuality enhanced language models for open-ended text generation","author":"Lee","year":"2023"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11651"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1145\/3570991.3571013"},{"key":"ref25","doi-asserted-by":"crossref","DOI":"10.1109\/IJCNN60899.2024.10649925","article-title":"Adversarially diversified rehearsal memory (adrm): Mitigating memory overfitting challenge in continual learning","author":"Khan","year":"2024"},{"key":"ref26","article-title":"Continual learning for large language models: A survey","author":"Wu","year":"2024"},{"key":"ref27","article-title":"Understanding catastrophic forgetting in language models via implicit inference","author":"Kotha","year":"2024"},{"key":"ref28","article-title":"Neural collapse inspired feature-classifier alignment for few-shot class-incremental learning","volume-title":"Proc. ICLR","author":"Yang","year":"2023"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.410"},{"key":"ref30","doi-asserted-by":"crossref","DOI":"10.1109\/CVPR52729.2023.00360","article-title":"Computationally budgeted continual learning: What does matter?","author":"Prabhu","year":"2023"},{"key":"ref31","article-title":"Flora: Federated fine-tuning large language models with heterogeneous low-rank adaptations","author":"Wang","year":"2024"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00577"},{"key":"ref33","article-title":"Unified parameter-efficient unlearning for LLMs","author":"Ding","year":"2024"},{"key":"ref34","article-title":"Sparse mezo: Less parameters for better performance in zeroth-order llm fine-tuning","author":"Liu","year":"2024"},{"key":"ref35","article-title":"Can pruning make large language models more efficient?","author":"Gholami","year":"2023"},{"key":"ref36","doi-asserted-by":"crossref","DOI":"10.18653\/v1\/2020.emnlp-main.154","article-title":"Crows-pairs: A challenge dataset for measuring social biases in masked language models","author":"Nangia","year":"2020"},{"key":"ref37","doi-asserted-by":"crossref","DOI":"10.1162\/tacl_a_00626","article-title":"Bridging the gap: A survey on integrating (human) feedback for natural language generation","author":"Fernandes","year":"2023"},{"key":"ref38","article-title":"Extracting training data from large language models","author":"Carlini","year":"2021"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1162\/coli_a_00413"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1613\/jair.614"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1093\/mnrasl\/slae108"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1007\/s11424-024-4044-9"},{"key":"ref43","article-title":"Communication-efficient learning of deep networks from decentralized data","author":"McMahan","year":"2023"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1093\/pan\/mps002"},{"key":"ref45","article-title":"Learning both weights and connections for efficient neural networks","author":"Han","year":"2015"},{"key":"ref46","doi-asserted-by":"crossref","DOI":"10.18653\/v1\/2024.emnlp-main.35","article-title":"Mitigating the alignment tax of RLHF","author":"Lin","year":"2024"},{"key":"ref47","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017"},{"key":"ref48","doi-asserted-by":"crossref","DOI":"10.1145\/3709026.3709050","article-title":"Extending token computation for LLM reasoning","author":"Liao","year":"2024"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.21314\/JOP.2007.024"},{"key":"ref50","article-title":"Gpt-4 technical report","author":"Achiam","year":"2023"},{"key":"ref51","article-title":"Lima: Less is more for alignment","author":"Zhou","year":"2023"},{"key":"ref52","article-title":"Qwen2.5: A party of foundation models","year":"2024"}],"container-title":["IEEE Transactions on Artificial Intelligence"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/9078688\/11503071\/11235969.pdf?arnumber=11235969","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,4]],"date-time":"2026-05-04T19:39:13Z","timestamp":1777923553000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11235969\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,5]]},"references-count":52,"journal-issue":{"issue":"5"},"URL":"https:\/\/doi.org\/10.1109\/tai.2025.3630623","relation":{},"ISSN":["2691-4581"],"issn-type":[{"value":"2691-4581","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,5]]}}}