{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,21]],"date-time":"2025-11-21T05:57:21Z","timestamp":1763704641240,"version":"3.45.0"},"reference-count":36,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,26]],"date-time":"2025-10-26T00:00:00Z","timestamp":1761436800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,26]],"date-time":"2025-10-26T00:00:00Z","timestamp":1761436800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100012166","name":"National Key Research and Development Program of China","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100007219","name":"Natural Science Foundation of Shanghai","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100007219","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,26]]},"DOI":"10.1109\/iccad66269.2025.11240991","type":"proceedings-article","created":{"date-parts":[[2025,11,20]],"date-time":"2025-11-20T18:39:34Z","timestamp":1763663974000},"page":"1-9","source":"Crossref","is-referenced-by-count":0,"title":["PLAIN: Leveraging High Internal Bandwidth in PIM for Accelerating Large Language Model Inference via Mixed-Precision Quantization"],"prefix":"10.1109","author":[{"given":"Yiwei","family":"Hu","sequence":"first","affiliation":[{"name":"Shanghai Jiao Tong University,School of Computer Science"}]},{"given":"Fangxin","family":"Liu","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,School of Computer Science"}]},{"given":"Zongwu","family":"Wang","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,School of Computer Science"}]},{"given":"Yilong","family":"Zhao","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,School of Computer Science"}]},{"given":"Tao","family":"Yang","sequence":"additional","affiliation":[{"name":"Huawei Technologies Co., Ltd"}]},{"given":"Li","family":"Jiang","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,School of Computer Science"}]},{"given":"Haibing","family":"Guan","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,School of Computer Science"}]}],"member":"263","reference":[{"article-title":"Huggingface\u2019s transformers: State-of-the-art natural language processing","year":"2020","author":"Wolf","key":"ref1"},{"issue":"8","key":"ref2","first-page":"9","article-title":"Language models are unsupervised multitask learners","volume":"1","author":"Radford","year":"2019","journal-title":"OpenAI blog"},{"article-title":"Llama 2: Open foundation and fine-tuned chat models","year":"2023","author":"Touvron","key":"ref3"},{"key":"ref4","doi-asserted-by":"crossref","DOI":"10.1145\/3579371.3589350","article-title":"Tpu v4: An optically reconfigurable supercomputer for machine learning with hardware support for embeddings","author":"Jouppi","year":"2023"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1145\/3695053.3731031"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO50266.2020.00040"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1145\/3620665.3640376"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1145\/3620665.3640422"},{"article-title":"Smoothquant: Accurate and efficient post-training quantization for large language models","year":"2024","author":"Xiao","key":"ref9"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA57654.2024.00082"},{"key":"ref11","doi-asserted-by":"crossref","DOI":"10.1109\/ICCV.2019.00038","article-title":"Hawq: Hessian aware quantization of neural networks with mixed-precision","author":"Dong","year":"2019"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00523"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1145\/3649329.3655896"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1145\/3093336.3037702"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA45697.2020.00070"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1145\/3352460.3358284"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA57654.2024.00029"},{"article-title":"Benchmarking a new paradigm: An experimental analysis of a real processing-in-memory architecture","year":"2022","author":"G\u00f3mez-Luna","key":"ref18"},{"key":"ref19","first-page":"372","article-title":"Mixed precision quantization for reram-based dnn inference accelerators","volume-title":"Proceedings of the 26th Asia and South Pacific Design Automation Conference","author":"Huang"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA59077.2024.00053"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/HOTCHIPS.2019.8875680"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/HCS52781.2021.9567191"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.46506\/jica.2021.2.1.043"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ISSCC42613.2021.9365862"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/HCS55958.2022.9895629"},{"article-title":"Mixed precision quantization of convnets via differentiable neural architecture search","year":"2018","author":"Wu","key":"ref26"},{"key":"ref27","doi-asserted-by":"crossref","DOI":"10.1109\/CVPR.2019.00881","article-title":"Haq: Hardware-aware automated quantization with mixed precision","author":"Wang","year":"2019"},{"article-title":"Llm.int8(): 8-bit matrix multiplication for transformers at scale","year":"2022","author":"Dettmers","key":"ref28"},{"article-title":"Llm inference unveiled: Survey and roofline model insights","year":"2024","author":"Yuan","key":"ref29"},{"article-title":"Ramulator 2.0: A modern, modular, and extensible dram simulator","year":"2023","author":"Luo","key":"ref30"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/3085572"},{"key":"ref32","first-page":"41","article-title":"Fine-grained dram: Energy-efficient dram for extreme bandwidth systems","volume-title":"Proceedings of the 50th Annual IEEE\/ACM International Symposium on Microarchitecture","author":"O\u2019Connor"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/JSSC.2022.3193354"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/JSSC.2022.3232096"},{"article-title":"Opt: Open pre-trained transformer language models","year":"2022","author":"Zhang","key":"ref35"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ISSCC.2017.7870333"}],"event":{"name":"2025 IEEE\/ACM International Conference On Computer Aided Design (ICCAD)","start":{"date-parts":[[2025,10,26]]},"location":"Munich, Germany","end":{"date-parts":[[2025,10,30]]}},"container-title":["2025 IEEE\/ACM International Conference On Computer Aided Design (ICCAD)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11240608\/11240621\/11240991.pdf?arnumber=11240991","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,21]],"date-time":"2025-11-21T05:47:22Z","timestamp":1763704042000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11240991\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,26]]},"references-count":36,"URL":"https:\/\/doi.org\/10.1109\/iccad66269.2025.11240991","relation":{},"subject":[],"published":{"date-parts":[[2025,10,26]]}}}