{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,15]],"date-time":"2025-11-15T07:18:01Z","timestamp":1763191081113,"version":"3.45.0"},"reference-count":26,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,6,30]],"date-time":"2025-06-30T00:00:00Z","timestamp":1751241600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,6,30]],"date-time":"2025-06-30T00:00:00Z","timestamp":1751241600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100000001","name":"National Science Foundation","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,6,30]]},"DOI":"10.1109\/ijcnn64981.2025.11228725","type":"proceedings-article","created":{"date-parts":[[2025,11,14]],"date-time":"2025-11-14T18:46:15Z","timestamp":1763145975000},"page":"1-8","source":"Crossref","is-referenced-by-count":0,"title":["k-Odd One Clear (k-OOC), A Novel GPU Kernel That Improves Quantization Accuracy And Speed Of GPTQ Algorithm"],"prefix":"10.1109","author":[{"given":"Loi","family":"Huynh","sequence":"first","affiliation":[{"name":"Auburn University,Department of Computer Science and Software Engineering,Auburn,AL"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Attention is all you need","author":"Vaswani","year":"2017","journal-title":"Advances in Neural Information Processing Systems"},{"article-title":"Opt: Open pre-trained transformer language models","year":"2022","author":"Zhang","key":"ref2"},{"issue":"8","key":"ref3","first-page":"9","article-title":"Language models are unsupervised multitask learners","volume":"1","author":"Radford","year":"2019","journal-title":"OpenAI blog"},{"article-title":"Llama: Open and efficient foundation language models","year":"2023","author":"Touvron","key":"ref4"},{"article-title":"Bloom: A 176b-parameter open-access multilingual language model","year":"2023","author":"Le Scao","key":"ref5"},{"key":"ref6","first-page":"30 318","article-title":"Gpt3. int8 (): 8-bit matrix multiplication for transformers at scale","volume":"35","author":"Dettmers","year":"2022","journal-title":"Advances in Neural Information Processing Systems"},{"issue":"241","key":"ref7","first-page":"1","article-title":"Sparsity in deep learning: Pruning and growth for efficient inference and training in neural networks","volume":"22","author":"Hoefler","year":"2021","journal-title":"Journal of Machine Learning Research"},{"article-title":"A white paper on neural network quantization","year":"2021","author":"Nagel","key":"ref8"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-021-06053-z"},{"key":"ref10","first-page":"27 168","article-title":"Zeroquant: Efficient and affordable post-training quantization for large-scale transformers","volume":"35","author":"Yao","year":"2022","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref11","first-page":"4475","article-title":"Optimal brain compression: A framework for accurate post-training quantization and pruning","volume":"35","author":"Frantar","year":"2022","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref12","article-title":"GPTQ: accurate post-training quantization for generative pre-trained transformers","author":"Frantar","year":"2022","journal-title":"CoRR"},{"article-title":"Billm: Pushing the limit of post-training quantization for llms","volume-title":"ICML","author":"Huang","key":"ref13"},{"article-title":"PB-LLM: partially binarized large language models","volume-title":"ICLR","author":"Yuan","key":"ref14"},{"key":"ref15","article-title":"Optimal brain surgeon: Extensions and performance comparisons","volume":"6","author":"Hassibi","year":"1993","journal-title":"Advances in neural information processing systems"},{"key":"ref16","article-title":"Optimal brain damage","volume":"2","author":"LeCun","year":"1989","journal-title":"Advances in neural information processing systems"},{"key":"ref17","first-page":"14 873","article-title":"M-fac: Efficient matrix-free approximations of second-order information","volume":"34","author":"Frantar","year":"2021","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/WACV51458.2022.00372"},{"article-title":"Contrastive entropy: A new evaluation metric for unnormalized language models","year":"2016","author":"Arora","key":"ref19"},{"article-title":"Pointer sentinel mixture models","year":"2016","author":"Merity","key":"ref20"},{"issue":"140","key":"ref21","first-page":"1","article-title":"Exploring the limits of transfer learning with a unified text-to-text transformer","volume":"21","author":"Raffel","year":"2020","journal-title":"Journal of machine learning research"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.21236\/ADA273556"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46493-0_32"},{"article-title":"Lut-gemm: Quantized matrix multiplication based on luts for efficient inference in large-scale generative language models","year":"2022","author":"Park","key":"ref24"},{"volume-title":"Gpu compute capability","key":"ref25"},{"key":"ref26","first-page":"70","article-title":"Matrix inversion using cholesky decomposition","volume-title":"2013 signal processing: Algorithms, architectures, arrangements, and applications (SPA)","author":"Krishnamoorthy","year":"2013"}],"event":{"name":"2025 International Joint Conference on Neural Networks (IJCNN)","start":{"date-parts":[[2025,6,30]]},"location":"Rome, Italy","end":{"date-parts":[[2025,7,5]]}},"container-title":["2025 International Joint Conference on Neural Networks (IJCNN)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11227166\/11227148\/11228725.pdf?arnumber=11228725","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,15]],"date-time":"2025-11-15T07:13:57Z","timestamp":1763190837000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11228725\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6,30]]},"references-count":26,"URL":"https:\/\/doi.org\/10.1109\/ijcnn64981.2025.11228725","relation":{},"subject":[],"published":{"date-parts":[[2025,6,30]]}}}