{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,11]],"date-time":"2026-03-11T01:50:08Z","timestamp":1773193808791,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":16,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,6,23]],"date-time":"2024-06-23T00:00:00Z","timestamp":1719100800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc\/4.0\/"}],"funder":[{"name":"National Research Foundation of Korea (NRF)","award":["NRF-2023R1A2C2006290"],"award-info":[{"award-number":["NRF-2023R1A2C2006290"]}]},{"name":"Institute of Information & Communications Technology Planning & Evaluation (IITP)","award":["RS-2023-00229849"],"award-info":[{"award-number":["RS-2023-00229849"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,6,23]]},"DOI":"10.1145\/3649329.3657323","type":"proceedings-article","created":{"date-parts":[[2024,11,7]],"date-time":"2024-11-07T19:27:22Z","timestamp":1731007642000},"page":"1-6","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":9,"title":["OPAL: Outlier-Preserved Microscaling Quantization Accelerator for Generative Large Language Models"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-8047-2416","authenticated-orcid":false,"given":"Jahyun","family":"Koo","sequence":"first","affiliation":[{"name":"DGIST, Daegu, Hyeonpung-eup, Dalseong-gun, Republic of Korea"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5652-5306","authenticated-orcid":false,"given":"Dahoon","family":"Park","sequence":"additional","affiliation":[{"name":"Korea University, Seoul, Seoul, Republic of Korea"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-1150-9888","authenticated-orcid":false,"given":"Sangwoo","family":"Jung","sequence":"additional","affiliation":[{"name":"DGIST, Daegu, Hyeonpung-eup, Dalseong-gun, Republic of Korea"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6151-8602","authenticated-orcid":false,"given":"Jaeha","family":"Kung","sequence":"additional","affiliation":[{"name":"Korea University, Seoul, Seoul, Republic of Korea"}]}],"member":"320","published-online":{"date-parts":[[2024,11,7]]},"reference":[{"key":"e_1_3_2_1_1_1","first-page":"30318","article-title":"Gpt3. int8 (): 8-bit matrix multiplication for transformers at scale","volume":"35","author":"Dettmers T.","year":"2022","unstructured":"T. Dettmers et al. 2022. Gpt3. int8 (): 8-bit matrix multiplication for transformers at scale. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 35. 30318--30332.","journal-title":"Advances in Neural Information Processing Systems (NeurIPS)"},{"key":"e_1_3_2_1_2_1","volume-title":"GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. arXiv:2210.17323.","author":"Frantar E.","year":"2023","unstructured":"E. Frantar et al. 2023. GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. arXiv:2210.17323."},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-09779-9_3"},{"key":"e_1_3_2_1_4_1","unstructured":"W. Kwon et al. 2022. A Fast Post-Training Pruning Framework for Transformers. In Advances in Neural Information Processing Systems (NeurIPS). 24101--24116."},{"key":"e_1_3_2_1_5_1","first-page":"13355","article-title":"OWQ: Outlier-Aware Weight Quantization for Efficient Fine-Tuning and Inference of Large Language Models","volume":"38","author":"Lee C.","year":"2024","unstructured":"C. Lee et al. 2024. OWQ: Outlier-Aware Weight Quantization for Efficient Fine-Tuning and Inference of Large Language Models. In Proc. The Association for the Advancement of Artificial Intelligence (AAAI), Vol. 38. 13355--13364.","journal-title":"Proc. The Association for the Advancement of Artificial Intelligence (AAAI)"},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/DAC56929.2023.10248013"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01565"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2022\/164"},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"crossref","unstructured":"N. Muralimanohar et al. 2009. CACTI 6.0: A tool to model large caches. HP laboratories 27 (2009) 28.","DOI":"10.1109\/MM.2008.2"},{"key":"e_1_3_2_1_10_1","volume-title":"CUTLASS: CUDA Templates for Linear Algebra Subroutines and Solvers. https:\/\/nvidia.github.io\/cutlass\/","author":"NVIDIA.","year":"2019","unstructured":"NVIDIA. 2019. CUTLASS: CUDA Templates for Linear Algebra Subroutines and Solvers. https:\/\/nvidia.github.io\/cutlass\/"},{"key":"e_1_3_2_1_11_1","unstructured":"B. D. Rouhani et al. 2023. Microscaling Data Formats for Deep Learning. arXiv:2310.10537."},{"key":"e_1_3_2_1_12_1","first-page":"36479","article-title":"Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding","volume":"35","author":"Saharia C.","year":"2022","unstructured":"C. Saharia et al. 2022. Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 35. 36479--36494.","journal-title":"Advances in Neural Information Processing Systems (NeurIPS)"},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1109\/DAC18074.2021.9586134"},{"key":"e_1_3_2_1_14_1","unstructured":"H. Touvron et al. 2023. LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971."},{"key":"e_1_3_2_1_15_1","first-page":"1","article-title":"Attention is All you Need","volume":"30","author":"Vaswani A.","year":"2017","unstructured":"A. Vaswani et al. 2017. Attention is All you Need. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 30. 1--11.","journal-title":"Advances in Neural Information Processing Systems (NeurIPS)"},{"key":"e_1_3_2_1_16_1","first-page":"27168","article-title":"ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers","volume":"35","author":"Yao Z.","year":"2022","unstructured":"Z. Yao et al. 2022. ZeroQuant: Efficient and Affordable Post-Training Quantization for Large-Scale Transformers. In Advances in Neural Information Processing Systems (NeurIPS), Vol. 35. 27168--27183.","journal-title":"Advances in Neural Information Processing Systems (NeurIPS)"}],"event":{"name":"DAC '24: 61st ACM\/IEEE Design Automation Conference","location":"San Francisco CA USA","acronym":"DAC '24","sponsor":["SIGDA ACM Special Interest Group on Design Automation","IEEE-CEDA","SIGBED ACM Special Interest Group on Embedded Systems"]},"container-title":["Proceedings of the 61st ACM\/IEEE Design Automation Conference"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3649329.3657323","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3649329.3657323","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T01:17:56Z","timestamp":1750295876000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3649329.3657323"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,6,23]]},"references-count":16,"alternative-id":["10.1145\/3649329.3657323","10.1145\/3649329"],"URL":"https:\/\/doi.org\/10.1145\/3649329.3657323","relation":{},"subject":[],"published":{"date-parts":[[2024,6,23]]},"assertion":[{"value":"2024-11-07","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}