{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,17]],"date-time":"2025-11-17T03:06:23Z","timestamp":1763348783835,"version":"3.45.0"},"reference-count":50,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,6,30]],"date-time":"2025-06-30T00:00:00Z","timestamp":1751241600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,6,30]],"date-time":"2025-06-30T00:00:00Z","timestamp":1751241600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,6,30]]},"DOI":"10.1109\/ijcnn64981.2025.11227985","type":"proceedings-article","created":{"date-parts":[[2025,11,14]],"date-time":"2025-11-14T18:46:15Z","timestamp":1763145975000},"page":"1-8","source":"Crossref","is-referenced-by-count":1,"title":["Efficient LLMs with AMP: Attention Heads and MLP Pruning"],"prefix":"10.1109","author":[{"given":"Leandro Giusti","family":"Mugnaini","sequence":"first","affiliation":[{"name":"Escola Polit&#x00E9;cnica"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Bruno","family":"Lopes Yamamoto","sequence":"additional","affiliation":[{"name":"Escola Polit&#x00E9;cnica"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lucas Lauton","family":"de Alcantara","sequence":"additional","affiliation":[{"name":"Escola Polit&#x00E9;cnica"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Victor","family":"Zacarias","sequence":"additional","affiliation":[{"name":"Universidade de S&#x00E3;o Paulo,Instituto de Matem&#x00E1;tica e Estat&#x00ED;stica,S&#x00E3;o Paulo,Brazil"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Edson","family":"Bollis","sequence":"additional","affiliation":[{"name":"Instituto de Ci&#x00EA;ncia e Tecnologia Ita&#x00FA; (ICTi),S&#x00E3;o Paulo,Brazil"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Lucas","family":"Pellicer","sequence":"additional","affiliation":[{"name":"Instituto de Ci&#x00EA;ncia e Tecnologia Ita&#x00FA; (ICTi),S&#x00E3;o Paulo,Brazil"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Anna Helena","family":"Reali Costa","sequence":"additional","affiliation":[{"name":"Escola Polit&#x00E9;cnica"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Artur","family":"Jordao","sequence":"additional","affiliation":[{"name":"Escola Polit&#x00E9;cnica"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"article-title":"Gpt-4 technical report","year":"2024","author":"A","key":"ref1"},{"article-title":"Large language models are human-level prompt engineers","volume-title":"International Conference on Learning Representations (ICLR)","author":"Zhou","key":"ref2"},{"key":"ref3","article-title":"Language models are few-shot learners","author":"B","year":"2020","journal-title":"Neural Information Processing Systems (NeurIPS)"},{"article-title":"Deepseek-v3 technical report","year":"2024","author":"L","key":"ref4"},{"article-title":"Flexgen: High-throughput generative inference of large language models with a single GPU","volume-title":"International Conference on Machine Learning (ICML)","author":"S","key":"ref5"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00704"},{"article-title":"OPTQ: Accurate quantization for generative pre-trained transformers","volume-title":"International Conference on Learning Representations (ICLR)","author":"Frantar","key":"ref7"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-acl.726"},{"key":"ref9","article-title":"Llm-pruner: On the structural pruning of large language models","author":"Ma","year":"2023","journal-title":"Neural Information Processing Systems (NeurIPS)"},{"article-title":"A simple and effective pruning approach for large language models","volume-title":"International Conference on Learning Representations (ICLR)","author":"Sun","key":"ref10"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.52202\/079017-2305"},{"article-title":"SliceGPT: Compress large language models by deleting rows and columns","volume-title":"International Conference on Learning Representations (ICLR)","author":"Ashkboos","key":"ref12"},{"article-title":"The LLM surgeon","volume-title":"International Conference on Learning Representations (ICLR)","author":"van der Ouderaa","key":"ref13"},{"key":"ref14","article-title":"Parameter-efficient fine-tuning for large models: A comprehensive survey","author":"Han","year":"2024","journal-title":"Transactions on Machine Learning Research (TMLR)"},{"article-title":"Shortened llama: A simple depth pruning for large language models","volume-title":"International Conference on Learning Representations (ICLR) - Workshop","author":"K","key":"ref15"},{"article-title":"SparseGPT: Massive language models can be accurately pruned in one-shot","volume-title":"International Conference on Machine Learning (ICML)","author":"Frantar","key":"ref16"},{"article-title":"Learning n:m fine-grained structured sparse neural networks from scratch","volume-title":"International Conference on Learning Representations (ICLR)","author":"Z","key":"ref17"},{"article-title":"Accelerating sparse deep neural networks","year":"2021","author":"M","key":"ref18"},{"article-title":"Eigendamage: Structured pruning in the kronecker-factored eigenbasis","volume-title":"International Conference on Machine Learning (ICML)","author":"Wang","key":"ref19"},{"article-title":"Neural pruning via growing regularization","volume-title":"International Conference on Learning (ICLR)","author":"Wang","key":"ref20"},{"article-title":"Learning efficient image super-resolution networks via structure-regularized pruning","volume-title":"International Conference on Learning Representations (ICLR)","author":"Zhang","key":"ref21"},{"article-title":"The unreasonable ineffectiveness of the deeper layers","volume-title":"International Conference on Learning Representations (ICLR)","author":"Gromov","key":"ref22"},{"key":"ref23","article-title":"Efficient large language models: A survey","author":"W","year":"2023","journal-title":"Transactions on Machine Learning Research (TMLR)"},{"article-title":"Sheared LLaMA: Accelerating language model pre-training via structured pruning","volume-title":"International Conference on Learning Representations (ICLR)","author":"Xia","key":"ref24"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i10.28960"},{"volume-title":"International Conference on Learning Representations (ICLR)","key":"ref26","article-title":"You only prune once: Designing calibration-free model compression with policy learning"},{"article-title":"COPAL: Continual pruning in large language generative models","volume-title":"International Conference on Machine Learning (ICML)","author":"Malla","key":"ref27"},{"article-title":"Plug-and-play: An efficient post-training pruning method for large language models","volume-title":"International Conference on Learning Representations (ICLR)","author":"Z","key":"ref28"},{"key":"ref29","article-title":"A mathematical framework for transformer circuits","author":"E","year":"2021","journal-title":"Transformer Circuits Thread"},{"key":"ref30","article-title":"Attention is all you need","author":"V","year":"2017","journal-title":"Neural Information Processing Systems (NeurIPS)"},{"article-title":"Llama 2: Open foundation and fine-tuned chat models","year":"2023","author":"T","key":"ref31"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2024.3447085"},{"article-title":"Llama: Open and efficient foundation language models","year":"2023","author":"T","key":"ref33"},{"article-title":"Textbooks are all you need ii: phi-1.5 technical report","year":"2023","author":"Li","key":"ref34"},{"key":"ref35","article-title":"A framework for few-shot language model evaluation","author":"G","year":"2024","journal-title":"Zenodo"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i05.6399"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/p19-1472"},{"article-title":"Think you have solved question answering? try arc, the ai2 reasoning challenge","year":"2018","author":"C","key":"ref38"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i05.6239"},{"article-title":"Pointer sentinel mixture models","year":"2016","author":"Merity","key":"ref40"},{"article-title":"Stanford alpaca: An instruction-following llama model","year":"2023","author":"T","key":"ref41"},{"article-title":"LoRA: Low-rank adaptation of large language models","volume-title":"International Conference on Learning Representations (ICLR)","author":"H","key":"ref42"},{"article-title":"The efficiency misnomer","volume-title":"International Conference on Learning Representations (ICLR)","author":"Dehghani","key":"ref43"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2022\/786"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00029"},{"key":"ref46","article-title":"Green AI","author":"S","year":"2020","journal-title":"Association for Computing Machinery (ACM)"},{"article-title":"Llmcarbon: Modeling the end-to-end carbon footprint of large language models","volume-title":"International Conference on Learning Representations (ICLR)","author":"F","key":"ref47"},{"volume-title":"International Conference on Learning Representations (ICLR)","key":"ref48","article-title":"Holistically evaluating the environmental impact of creating language models"},{"key":"ref49","article-title":"Training compute-optimal large language models","author":"H","year":"2022","journal-title":"Neural Information Processing Systems (NeurIPS)"},{"key":"ref50","article-title":"Quantifying the carbon emissions of machine learning","author":"Lacoste","year":"2019","journal-title":"Neural Information Processing Systems (NeurIPS)"}],"event":{"name":"2025 International Joint Conference on Neural Networks (IJCNN)","start":{"date-parts":[[2025,6,30]]},"location":"Rome, Italy","end":{"date-parts":[[2025,7,5]]}},"container-title":["2025 International Joint Conference on Neural Networks (IJCNN)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11227166\/11227148\/11227985.pdf?arnumber=11227985","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,15]],"date-time":"2025-11-15T07:26:15Z","timestamp":1763191575000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11227985\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6,30]]},"references-count":50,"URL":"https:\/\/doi.org\/10.1109\/ijcnn64981.2025.11227985","relation":{},"subject":[],"published":{"date-parts":[[2025,6,30]]}}}