{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,10]],"date-time":"2026-01-10T07:52:13Z","timestamp":1768031533111,"version":"3.49.0"},"publisher-location":"Cham","reference-count":14,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783031697654","type":"print"},{"value":"9783031697661","type":"electronic"}],"license":[{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,1,1]],"date-time":"2024-01-01T00:00:00Z","timestamp":1704067200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024]]},"DOI":"10.1007\/978-3-031-69766-1_22","type":"book-chapter","created":{"date-parts":[[2024,8,25]],"date-time":"2024-08-25T19:02:05Z","timestamp":1724612525000},"page":"317-331","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["WActiGrad: Structured Pruning for\u00a0Efficient Finetuning and\u00a0Inference of\u00a0Large Language Models on\u00a0AI Accelerators"],"prefix":"10.1007","author":[{"given":"Krishna Teja","family":"Chitty-Venkata","sequence":"first","affiliation":[]},{"given":"Varuni Katti","family":"Sastry","sequence":"additional","affiliation":[]},{"given":"Murali","family":"Emani","sequence":"additional","affiliation":[]},{"given":"Venkatram","family":"Vishwanath","sequence":"additional","affiliation":[]},{"given":"Sanjif","family":"Shanmugavelu","sequence":"additional","affiliation":[]},{"given":"Sylvia","family":"Howland","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,8,26]]},"reference":[{"key":"22_CR1","unstructured":"Polaris supercomputing system (2023). https:\/\/www.alcf.anl.gov\/polaris"},{"key":"22_CR2","unstructured":"Weight Streaming Mode (2023). https:\/\/docs.cerebras.net\/en\/latest\/wsc\/cerebras-basics\/cerebras-execution-modes.html"},{"key":"22_CR3","unstructured":"ALCF AI testbed (2024). https:\/\/www.alcf.anl.gov\/alcf-ai-testbed"},{"key":"22_CR4","doi-asserted-by":"crossref","unstructured":"Abts, D., et\u00a0al.: Think fast: a tensor streaming processor (TSP) for accelerating deep learning workloads. In: 2020 ACM\/IEEE 47th Annual International Symposium on Computer Architecture (ISCA), pp. 145\u2013158. IEEE (2020)","DOI":"10.1109\/ISCA45697.2020.00023"},{"key":"22_CR5","doi-asserted-by":"crossref","unstructured":"Ainslie, J., et\u00a0al.: GQA: training generalized multi-query transformer models from multi-head checkpoints. arXiv preprint arXiv:2305.13245 (2023)","DOI":"10.18653\/v1\/2023.emnlp-main.298"},{"key":"22_CR6","doi-asserted-by":"crossref","unstructured":"Aminabadi, R.Y., et\u00a0al.: Deepspeed-inference: enabling efficient inference of transformer models at unprecedented scale. In: SC22: International Conference for High Performance Computing, Networking, Storage and Analysis, pp. 1\u201315. IEEE (2022)","DOI":"10.1109\/SC41404.2022.00051"},{"key":"22_CR7","unstructured":"Frantar, E., et\u00a0al.: Sparsegpt: massive language models can be accurately pruned in one-shot. In: International Conference on Machine Learning, pp. 10323\u201310337. PMLR (2023)"},{"key":"22_CR8","unstructured":"Graphcore: Application examples (2024). https:\/\/github.com\/graphcore\/examples"},{"key":"22_CR9","unstructured":"Hu, E.J., et\u00a0al.: Lora: low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685 (2021)"},{"key":"22_CR10","unstructured":"Jiang, A.Q., et\u00a0al.: Mistral 7b. arXiv preprint arXiv:2310.06825 (2023)"},{"key":"22_CR11","first-page":"21702","volume":"36","author":"X Ma","year":"2023","unstructured":"Ma, X., et al.: LLM-pruner: on the structural pruning of large language models. Adv. Neural. Inf. Process. Syst. 36, 21702\u201321720 (2023)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"22_CR12","doi-asserted-by":"crossref","unstructured":"Marcus, M., et\u00a0al.: The penn treebank: annotating predicate argument structure. In: Human Language Technology: Proceedings of a Workshop held at Plainsboro, New Jersey, 8\u201311 March 1994 (1994)","DOI":"10.3115\/1075812.1075835"},{"key":"22_CR13","unstructured":"Merity, S., et\u00a0al.: Pointer sentinel mixture models. arXiv preprint arXiv:1609.07843 (2016)"},{"key":"22_CR14","unstructured":"Sun, M., et\u00a0al.: A simple and effective pruning approach for large language models. arXiv preprint arXiv:2306.11695 (2023)"}],"container-title":["Lecture Notes in Computer Science","Euro-Par 2024: Parallel Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-031-69766-1_22","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,8,25]],"date-time":"2024-08-25T19:10:58Z","timestamp":1724613058000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-031-69766-1_22"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024]]},"ISBN":["9783031697654","9783031697661"],"references-count":14,"URL":"https:\/\/doi.org\/10.1007\/978-3-031-69766-1_22","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024]]},"assertion":[{"value":"26 August 2024","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"Euro-Par","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"European Conference on Parallel Processing","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Madrid","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Spain","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2024","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"26 August 2024","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"30 August 2024","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"30","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"europar2024","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/2024.euro-par.org\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}