{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,29]],"date-time":"2025-08-29T00:07:32Z","timestamp":1756426052886,"version":"3.44.0"},"reference-count":69,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"S\u00e3o Paulo Research Foundation (FAPESP), Brasil","award":["#2023\/11163-0"],"award-info":[{"award-number":["#2023\/11163-0"]}]},{"name":"Coordena\u00e7\u00e3o de Aperfei\u00e7oamento de Pessoal de N\u00edvel Superior\u2013Brasil (CAPES)\u2013Finance Code 001"},{"DOI":"10.13039\/501100003593","name":"National Council for Scientific and Technological Development","doi-asserted-by":"crossref","award":["#402734\/2023-8"],"award-info":[{"award-number":["#402734\/2023-8"]}],"id":[{"id":"10.13039\/501100003593","id-type":"DOI","asserted-by":"crossref"}]},{"name":"Edital Programa de Apoio a Novos Docentes 2023"},{"name":"Processo USP","award":["22.1.09345.01.2"],"award-info":[{"award-number":["22.1.09345.01.2"]}]},{"DOI":"10.13039\/501100003593","name":"Conselho Nacional de Desenvolvimento Cient\u00edfico e Tecnol\u00f3gico","doi-asserted-by":"publisher","award":["#312360\/2023-1"],"award-info":[{"award-number":["#312360\/2023-1"]}],"id":[{"id":"10.13039\/501100003593","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2025]]},"DOI":"10.1109\/access.2025.3601042","type":"journal-article","created":{"date-parts":[[2025,8,20]],"date-time":"2025-08-20T18:43:26Z","timestamp":1755715406000},"page":"148192-148202","source":"Crossref","is-referenced-by-count":0,"title":["Layer Pruning With Consensus: A Triple-Win Solution"],"prefix":"10.1109","volume":"13","author":[{"ORCID":"https:\/\/orcid.org\/0009-0006-1857-5795","authenticated-orcid":false,"given":"Leandro Giusti","family":"Mugnaini","sequence":"first","affiliation":[{"name":"Escola Polit&#x00E9;cnica da Universidade de S&#x00E3;o Paulo, Universidade de S&#x00E3;o Paulo, S&#x00E3;o Paulo, Brazil"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-8872-2150","authenticated-orcid":false,"given":"Carolina Tavares","family":"Duarte","sequence":"additional","affiliation":[{"name":"Escola Polit&#x00E9;cnica da Universidade de S&#x00E3;o Paulo, Universidade de S&#x00E3;o Paulo, S&#x00E3;o Paulo, Brazil"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7309-4528","authenticated-orcid":false,"given":"Anna Helena Reali","family":"Costa","sequence":"additional","affiliation":[{"name":"Escola Polit&#x00E9;cnica da Universidade de S&#x00E3;o Paulo, Universidade de S&#x00E3;o Paulo, S&#x00E3;o Paulo, Brazil"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3503-3019","authenticated-orcid":false,"given":"Artur","family":"Jordao","sequence":"additional","affiliation":[{"name":"Escola Polit&#x00E9;cnica da Universidade de S&#x00E3;o Paulo, Universidade de S&#x00E3;o Paulo, S&#x00E3;o Paulo, Brazil"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","article-title":"LLaMA: Open and efficient foundation language models","author":"Touvron","year":"2023","journal-title":"arXiv:2302.13971"},{"key":"ref2","first-page":"6810","article-title":"Benchmarking neural network robustness to common corruptions and perturbations","volume-title":"Proc. 7th Int. Conf. Learn. Represent. (ICLR)","author":"Hendrycks"},{"key":"ref3","first-page":"2772","article-title":"ImageNet-OOD: Deciphering modern out-of-distribution detection algorithms","volume-title":"Proc. 12th Int. Conf. Learn. Represent. (ICLR)","author":"Yang"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2023.3331087"},{"key":"ref5","first-page":"20852","article-title":"The generalization-stability tradeoff in neural network pruning","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Bartoldson"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW54120.2021.00007"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i2.25299"},{"key":"ref8","first-page":"25132","article-title":"Adaptive sharpness-aware pruning for robust sparse networks","volume-title":"Proc. 12th Int. Conf. Learn. Represent. (ICLR)","author":"Bair"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-78169-8_28"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2023.3334614"},{"key":"ref11","first-page":"21702","article-title":"LLM-pruner: On the structural pruning of large language models","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Ma"},{"key":"ref12","first-page":"4640","article-title":"A simple and effective pruning approach for large language models","volume-title":"Proc. 12th Int. Conf. Learn. Represent. (ICLR)","author":"Sun"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2024.3447085"},{"key":"ref14","first-page":"12894","article-title":"Structural pruning via latency-saliency knapsack","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Shen"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2020.2975987"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2018.2874634"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2021.3059529"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2022.3171128"},{"key":"ref19","first-page":"29082","article-title":"Sheared LLaMA: Accelerating language model pre-training via structured pruning","volume-title":"Proc. 12th Int. Conf. Learn. Represent. (ICLR)","author":"Xia"},{"key":"ref20","first-page":"1","article-title":"Shortened LLaMA: A simple depth pruning for large language models","volume-title":"Proc. ICLR Workshop Math. Empirical Understand. Found. Models (ME-FoMo)","author":"Kim"},{"key":"ref21","first-page":"1","article-title":"The efficiency misnomer","volume-title":"Proc. 10th Int. Conf. Learn. Represent. (ICLR)","author":"Dehghani"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00764"},{"issue":"67","key":"ref23","first-page":"1","article-title":"Are all layers created equal?","volume":"23","author":"Zhang","year":"2022","journal-title":"J. Mach. Learn. Res."},{"key":"ref24","first-page":"1","article-title":"Representational dissimilarity metric spaces for stochastic neural networks","volume-title":"Proc. 11th Int. Conf. Learn. Represent. (ICLR)","author":"Duong"},{"key":"ref25","first-page":"4738","article-title":"Generalized shape metrics on neural representations","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Williams"},{"key":"ref26","first-page":"16305","article-title":"Rethinking the pruning criteria for convolutional neural network","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","volume":"34","author":"Huang"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1038\/s42256-020-00257-z"},{"key":"ref28","first-page":"41734","article-title":"On the foundations of shortcut learning","volume-title":"Proc. 12th Int. Conf. Learn. Represent. (ICLR)","author":"Hermann"},{"key":"ref29","first-page":"1","article-title":"Harder or different? A closer look at distribution shift in dataset reproduction","volume-title":"Proc. ICML Workshop Uncertainty Robustness Deep Learn.","author":"Lu"},{"key":"ref30","first-page":"24101","article-title":"A fast post-training pruning framework for transformers","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Kwon"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2022\/786"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW60793.2023.00130"},{"key":"ref33","first-page":"1","article-title":"Learning N: M fine-grained structured sparse neural networks from scratch","volume-title":"Proc. 9th Int. Conf. Learn. Represent. (ICLR)","author":"Zhou"},{"key":"ref34","first-page":"10323","article-title":"SparseGPT: Massive language models can be accurately pruned in one-shot","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Frantar"},{"key":"ref35","first-page":"612","article-title":"Layer folding: Neural network depth reduction using activation linearization","volume-title":"Proc. BMVC","author":"Dror"},{"key":"ref36","first-page":"6849","article-title":"DepthShrinker: A new compression paradigm towards boosting real-hardware efficiency of compact neural networks","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Fu"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i12.29296"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01628"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW63382.2024.00358"},{"key":"ref40","article-title":"Can pruning improve certified robustness of neural networks?","author":"Li","year":"2023","journal-title":"Trans. Mach. Learn. Res."},{"key":"ref41","first-page":"550","article-title":"Residual networks behave like ensembles of relatively shallow networks","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","volume":"29","author":"Veit"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46493-0_39"},{"key":"ref43","first-page":"2793","article-title":"Attention is not all you need: Pure attention loses rank doubly exponentially with depth","volume-title":"Proc. 38th Int. Conf. Mach. Learn. (ICML)","author":"Dong"},{"key":"ref44","first-page":"76772","article-title":"The tunnel effect: Building data representations in deep neural networks","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Masarczyk"},{"key":"ref45","first-page":"6009","article-title":"Head2Toe: Utilizing intermediate representations for better transfer learning","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Evci"},{"key":"ref46","first-page":"1","article-title":"Last layer re-training is sufficient for robustness to spurious correlations","volume-title":"Proc. 11th Int. Conf. Learn. Represent. (ICLR)","author":"Kirichenko"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-86380-7_1"},{"key":"ref48","first-page":"50285","article-title":"What makes a good prune? Maximal unstructured pruning for maximal cosine similarity","volume-title":"Proc. 12th Int. Conf. Learn. Represent. (ICLR)","author":"Mason-Williams"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01203"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2022.3162067"},{"key":"ref51","first-page":"1","article-title":"Revisit kernel pruning with lottery regulated grouped convolutions","volume-title":"Proc. 10th Int. Conf. Learn. Represent. (ICLR)","author":"Zhong"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2022\/431"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01520"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01523"},{"key":"ref55","first-page":"25656","article-title":"Topology-aware network pruning using multi-stage graph embedding and reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Yu"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01530"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/WACV51458.2022.00357"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2022.3147269"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2022.3156047"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2022.3161284"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00160"},{"key":"ref62","first-page":"1","article-title":"SOSP: Efficiently capturing global correlations by second-order structured pruning","volume-title":"Proc. 10th Int. Conf. Learn. Represent. (ICLR)","author":"Nonnenmacher"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00630"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2020.2979517"},{"key":"ref65","first-page":"8428","article-title":"LLMCarbon: Modeling the end-to-end carbon footprint of large language models","volume-title":"Proc. 12th Int. Conf. Learn. Represent. (ICLR)","author":"Faiz"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1145\/3381831"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/p19-1355"},{"key":"ref68","article-title":"Quantifying the carbon emissions of machine learning","author":"Lacoste","year":"2019","journal-title":"arXiv:1910.09700"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2020.04.151"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6287639\/10820123\/11131178.pdf?arnumber=11131178","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,28]],"date-time":"2025-08-28T18:11:05Z","timestamp":1756404665000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11131178\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":69,"URL":"https:\/\/doi.org\/10.1109\/access.2025.3601042","relation":{},"ISSN":["2169-3536"],"issn-type":[{"type":"electronic","value":"2169-3536"}],"subject":[],"published":{"date-parts":[[2025]]}}}