{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,3]],"date-time":"2026-06-03T07:38:46Z","timestamp":1780472326299,"version":"3.54.1"},"publisher-location":"New York, NY, USA","reference-count":91,"publisher":"ACM","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,6,21]]},"DOI":"10.1145\/3695053.3731073","type":"proceedings-article","created":{"date-parts":[[2025,6,20]],"date-time":"2025-06-20T16:46:17Z","timestamp":1750437977000},"page":"529-543","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":8,"title":["AiF: Accelerating On-Device LLM Inference Using In-Flash Processing"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-2724-8888","authenticated-orcid":false,"given":"Jaeyong","family":"Lee","sequence":"first","affiliation":[{"name":"Seoul National University, Seoul, Republic of Korea"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-2045-637X","authenticated-orcid":false,"given":"Hyeunjoo","family":"Kim","sequence":"additional","affiliation":[{"name":"Seoul National University, Seoul, Republic of Korea"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-7669-112X","authenticated-orcid":false,"given":"Sanghun","family":"Oh","sequence":"additional","affiliation":[{"name":"Seoul National University, Seoul, Republic of Korea"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8188-4324","authenticated-orcid":false,"given":"Myoungjun","family":"Chun","sequence":"additional","affiliation":[{"name":"Soongsil University, Seoul, Republic of Korea"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8667-3198","authenticated-orcid":false,"given":"Myungsuk","family":"Kim","sequence":"additional","affiliation":[{"name":"Kyungpook National University, Daegu, Republic of Korea"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7977-9883","authenticated-orcid":false,"given":"Jihong","family":"Kim","sequence":"additional","affiliation":[{"name":"Seoul National University, Seoul, Republic of Korea"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2025,6,20]]},"reference":[{"key":"e_1_3_3_2_2_2","volume-title":"BSIM-CMG Technical Manual","year":"2020","unstructured":"2020. BSIM-CMG Technical Manual. http:\/\/bsim.berkeley.edu\/models\/bsimcmg\/ Accessed: Apr. 1, 2020. [Online]. Available: http:\/\/bsim.berkeley.edu\/models\/bsimcmg\/."},{"key":"e_1_3_3_2_3_2","unstructured":"Mistral AI. 2023. Mixtral-8x7B. https:\/\/huggingface.co\/mistralai\/Mixtral-8x7B-v0.1."},{"key":"e_1_3_3_2_4_2","doi-asserted-by":"crossref","unstructured":"Keivan Alizadeh Iman Mirzadeh Dmitry Belenko Karen Khatamifard Minsik Cho Carlo C\u00a0Del Mundo Mohammad Rastegari and Mehrdad Farajtabar. 2024. LLM in a flash: Efficient Large Language Model Inference with Limited Memory. arxiv:https:\/\/arXiv.org\/abs\/2312.11514\u00a0[cs.CL]","DOI":"10.18653\/v1\/2024.acl-long.678"},{"key":"e_1_3_3_2_5_2","unstructured":"Ebtesam Almazrouei Hamza Alobeidli Abdulaziz Alshamsi Alessandro Cappelli Ruxandra Cojocaru M\u00e9rouane Debbah \u00c9tienne Goffinet Daniel Hesslow Julien Launay Quentin Malartic Daniele Mazzotta Badreddine Noune Baptiste Pannier and Guilherme Penedo. 2023. The Falcon Series of Open Language Models. arxiv:https:\/\/arXiv.org\/abs\/2311.16867\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2311.16867"},{"key":"e_1_3_3_2_6_2","doi-asserted-by":"crossref","unstructured":"Marc Brysbaert. 2019. How many words do we read per minute? A review and meta-analysis of reading rate. Journal of Memory and Language 109 (2019) 104047.","DOI":"10.1016\/j.jml.2019.104047"},{"key":"e_1_3_3_2_7_2","unstructured":"Cadence. 2024. Spectre. https:\/\/www.cadence.com\/en_US\/home\/tools\/custom-ic-analog-rf-design\/circuit-design\/virtuoso-schematic-editor.html."},{"key":"e_1_3_3_2_8_2","unstructured":"Cadence. 2024. Virtuoso. https:\/\/www.cadence.com\/en_US\/home\/tools\/custom-ic-analog-rf-design\/circuit-design\/virtuoso-schematic-editor.html."},{"key":"e_1_3_3_2_9_2","doi-asserted-by":"publisher","DOI":"10.1145\/3620666.3651341"},{"key":"e_1_3_3_2_10_2","unstructured":"Tim Dettmers Artidoro Pagnoni Ari Holtzman and Luke Zettlemoyer. 2023. QLoRA: Efficient Finetuning of Quantized LLMs. arxiv:https:\/\/arXiv.org\/abs\/2305.14314\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2305.14314"},{"key":"e_1_3_3_2_11_2","doi-asserted-by":"publisher","DOI":"10.1145\/2463676.2465295"},{"key":"e_1_3_3_2_12_2","doi-asserted-by":"publisher","DOI":"10.1109\/ESSCIRC.2015.7313862"},{"key":"e_1_3_3_2_13_2","unstructured":"Abhimanyu Dubey Abhinav Jauhri Abhinav Pandey Abhishek Kadian Ahmad Al-Dahle Aiesha Letman Akhil Mathur Alan Schelten Amy Yang Angela Fan et\u00a0al. 2024. The llama 3 herd of models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2407.21783 (2024)."},{"key":"e_1_3_3_2_14_2","unstructured":"EleutherAI. 2023. GPT-NeoX-20B. https:\/\/huggingface.co\/EleutherAI\/gpt-neox-20b."},{"key":"e_1_3_3_2_15_2","unstructured":"NVM Express. 2022. NVMe Namespace. https:\/\/nvmexpress.org\/resource\/nvme-namespaces\/"},{"key":"e_1_3_3_2_16_2","unstructured":"Elias Frantar Saleh Ashkboos Torsten Hoefler and Dan Alistarh. 2023. GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. arxiv:https:\/\/arXiv.org\/abs\/2210.17323\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2210.17323"},{"key":"e_1_3_3_2_17_2","doi-asserted-by":"publisher","DOI":"10.1145\/3466752.3480078"},{"key":"e_1_3_3_2_18_2","unstructured":"Georgi Gerganov. 2023. ggerganov\/llama. cpp: Port of facebook\u2019s llama model in c\/c++."},{"key":"e_1_3_3_2_19_2","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA57654.2024.00036"},{"key":"e_1_3_3_2_20_2","doi-asserted-by":"publisher","DOI":"10.1145\/1669112.1669118"},{"key":"e_1_3_3_2_21_2","doi-asserted-by":"publisher","DOI":"10.1145\/3579371.3589038"},{"key":"e_1_3_3_2_22_2","doi-asserted-by":"publisher","DOI":"10.1145\/3575693.3575698"},{"key":"e_1_3_3_2_23_2","doi-asserted-by":"publisher","DOI":"10.1145\/3400302.3415723"},{"key":"e_1_3_3_2_24_2","doi-asserted-by":"crossref","unstructured":"Perttu H\u00e4m\u00e4l\u00e4inen Mikke Tavast and Anton Kunnari. 2023. Evaluating Large Language Models in Generating Synthetic HCI Research Data: a Case Study.","DOI":"10.1145\/3544548.3580688"},{"key":"e_1_3_3_2_25_2","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO56248.2022.00058"},{"key":"e_1_3_3_2_26_2","unstructured":"SK Hynix. 2022. SK Hynix Platinum P41. https:\/\/www.techpowerup.com\/ssd-specs\/sk-hynix-platinum-p41-1-tb.d588."},{"key":"e_1_3_3_2_27_2","doi-asserted-by":"publisher","DOI":"10.1109\/ISSCC.2015.7062960"},{"key":"e_1_3_3_2_28_2","unstructured":"Technology\u00a0Innovation Institute. 2023. Falcon-40B. https:\/\/huggingface.co\/tiiuae\/falcon-40b."},{"key":"e_1_3_3_2_29_2","unstructured":"Technology\u00a0Innovation Institute. 2024. Falcon-11B. https:\/\/huggingface.co\/tiiuae\/falcon-11B."},{"key":"e_1_3_3_2_30_2","volume-title":"Workshop on Memory Centric High Performance Computing (MCHPC)","author":"J. Thomas\u00a0Pawlowski","year":"2019","unstructured":"Thomas\u00a0Pawlowski J.2019. Prospects for Memory. In Workshop on Memory Centric High Performance Computing (MCHPC)."},{"key":"e_1_3_3_2_31_2","unstructured":"Hyun\u00a0Sik Jeong and Seong\u00a0Hwan Cho. 2021. Word-line and Charge-pump modeling of NAND Flash using Standard CMOS Logic Process. Journal of Integrated Circuits and Systems 7 4 (2021)."},{"key":"e_1_3_3_2_32_2","doi-asserted-by":"crossref","unstructured":"Won\u00a0Seob Jeong Changmin Lee Keunsoo Kim Myung\u00a0Kuk Yoon Won Jeon Myoungsoo Jung and Won\u00a0Woo Ro. 2020. REACT: Scalable and High-Performance Regular Expression Pattern Matching Accelerator for In-Storage Processing. IEEE Transactions on Parallel and Distributed Systems 31 5 (2020) 1137\u20131151.","DOI":"10.1109\/TPDS.2019.2953646"},{"key":"e_1_3_3_2_33_2","unstructured":"Yunho Jin Chun-Feng Wu David Brooks and Gu-Yeon Wei. 2023. S3: Increasing GPU Utilization during Generative Inference for Higher Throughput. arxiv:https:\/\/arXiv.org\/abs\/2306.06000\u00a0[cs.AR] https:\/\/arxiv.org\/abs\/2306.06000"},{"key":"e_1_3_3_2_34_2","doi-asserted-by":"publisher","DOI":"10.1109\/HPEC.2016.7761588"},{"key":"e_1_3_3_2_35_2","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2018.00042"},{"key":"e_1_3_3_2_36_2","doi-asserted-by":"crossref","unstructured":"Ming-Yen Kao Fredo Chavez Sourabh Khandelwal and Chenming Hu. 2022. Deep Learning-Based BSIM-CMG Parameter Extraction for 10-nm FinFET. IEEE Transactions on Electron Devices 69 8 (2022) 4765\u20134768.","DOI":"10.1109\/TED.2022.3181536"},{"key":"e_1_3_3_2_37_2","unstructured":"Jared Kaplan Sam McCandlish Tom Henighan Tom\u00a0B. Brown Benjamin Chess Rewon Child Scott Gray Alec Radford Jeffrey Wu and Dario Amodei. 2020. Scaling Laws for Neural Language Models. arxiv:https:\/\/arXiv.org\/abs\/2001.08361\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2001.08361"},{"key":"e_1_3_3_2_38_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICECS.2000.913051"},{"key":"e_1_3_3_2_39_2","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA56546.2023.10071024"},{"key":"e_1_3_3_2_40_2","doi-asserted-by":"publisher","DOI":"10.1145\/3194554.3194591"},{"key":"e_1_3_3_2_41_2","first-page":"371","volume-title":"19th USENIX Conference on File and Storage Technologies (FAST 21)","author":"Kim Shine","year":"2021","unstructured":"Shine Kim, Yunho Jin, Gina Sohn, Jonghyun Bae, Tae\u00a0Jun Ham, and Jae\u00a0W. Lee. 2021. Behemoth: A Flash-centric Training Accelerator for Extreme-scale DNNs. In 19th USENIX Conference on File and Storage Technologies (FAST 21). 371\u2013385."},{"key":"e_1_3_3_2_42_2","first-page":"379","volume-title":"21st USENIX Conference on File and Storage Technologies (FAST 23)","author":"Kim Sang-Hoon","year":"2023","unstructured":"Sang-Hoon Kim, Jaehoon Shim, Euidong Lee, Seongyeop Jeong, Ilkueon Kang, and Jin-Soo Kim. 2023. NVMeVirt: A Versatile Software-defined Virtual NVMe Device. In 21st USENIX Conference on File and Storage Technologies (FAST 23). Santa Clara, CA, 379\u2013394."},{"key":"e_1_3_3_2_43_2","doi-asserted-by":"crossref","unstructured":"Junnosuke Kondo and Toru Tanzawa. 2022. Pre-Emphasis Pulse Design for Reducing Bit-Line Access Time in NAND Flash Memory. Electronics 11 (2022).","DOI":"10.3390\/electronics11131926"},{"key":"e_1_3_3_2_44_2","doi-asserted-by":"publisher","DOI":"10.1145\/3123939.3124553"},{"key":"e_1_3_3_2_45_2","volume-title":"Flash Memory Summit","author":"Kuo Shiuan-Hao","year":"2019","unstructured":"Shiuan-Hao Kuo. 2019. Ultra MMI : an LDPC decoder that doubles throughput at end-of-life.. In Flash Memory Summit."},{"key":"e_1_3_3_2_46_2","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO56248.2022.00093"},{"key":"e_1_3_3_2_47_2","doi-asserted-by":"publisher","DOI":"10.1145\/3489517.3530471"},{"key":"e_1_3_3_2_48_2","doi-asserted-by":"crossref","unstructured":"Sang\u00a0Min Lee Hanjoon Kim Jeseung Yeon Juyun Lee Younggeun Choi Minho Kim Changjae Park Kiseok Jang Youngsik Kim Yongseung Kim Changman Lee Hyuck Han Won\u00a0Eung Kim Rui Tang and Joon\u00a0Ho Baek. 2022. A 64-TOPS Energy-Efficient Tensor Accelerator in 14nm With Reconfigurable Fetch Network and Processing Fusion for Maximal Data Reuse. IEEE Open Journal of the Solid-State Circuits Society 2 (2022) 219\u2013230.","DOI":"10.1109\/OJSSCS.2022.3216798"},{"key":"e_1_3_3_2_49_2","doi-asserted-by":"publisher","DOI":"10.1145\/3470496.3527391"},{"key":"e_1_3_3_2_50_2","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO50266.2020.00048"},{"key":"e_1_3_3_2_51_2","doi-asserted-by":"publisher","DOI":"10.1109\/ASSCC.2018.8579314"},{"key":"e_1_3_3_2_52_2","unstructured":"Ji Lin Jiaming Tang Haotian Tang Shang Yang Wei-Ming Chen Wei-Chen Wang Guangxuan Xiao Xingyu Dang Chuang Gan and Song Han. 2024. AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration. arxiv:https:\/\/arXiv.org\/abs\/2306.00978\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2306.00978"},{"key":"e_1_3_3_2_53_2","doi-asserted-by":"crossref","unstructured":"Li-Wei Liu Mu-Hua Yuan Yen-Chin Liao and Hsie-Chia Chang. 2022. A 38.64-Gb\/s Large-CPM 2-KB LDPC Decoder Implementation for nand Flash Memories. IEEE Open Journal of Circuits and Systems 3 (2022) 180\u2013191.","DOI":"10.1109\/OJCAS.2022.3203849"},{"key":"e_1_3_3_2_54_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.39"},{"key":"e_1_3_3_2_55_2","unstructured":"Meta Llama. 2023. LLaMA2-13B. https:\/\/huggingface.co\/meta-llama\/Llama-2-13b-hf."},{"key":"e_1_3_3_2_56_2","unstructured":"Meta Llama. 2023. LLaMA2-7B. https:\/\/huggingface.co\/meta-llama\/Llama-2-7b-hf."},{"key":"e_1_3_3_2_57_2","unstructured":"Meta Llama. 2024. LLaMA3-70B. https:\/\/huggingface.co\/meta-llama\/Meta-Llama-3-70B."},{"key":"e_1_3_3_2_58_2","unstructured":"Meta Llama. 2024. LLaMA3-8B. https:\/\/huggingface.co\/meta-llama\/Meta-Llama-3-8B."},{"key":"e_1_3_3_2_59_2","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA56546.2023.10070946"},{"key":"e_1_3_3_2_60_2","doi-asserted-by":"publisher","DOI":"10.1145\/3352460.3358320"},{"key":"e_1_3_3_2_61_2","doi-asserted-by":"publisher","DOI":"10.1109\/PrimeAsia56064.2022.10103946"},{"key":"e_1_3_3_2_62_2","doi-asserted-by":"publisher","DOI":"10.1145\/3503222.3507702"},{"key":"e_1_3_3_2_63_2","doi-asserted-by":"publisher","DOI":"10.1145\/3307650.3322275"},{"key":"e_1_3_3_2_64_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-90-481-9431-5"},{"key":"e_1_3_3_2_65_2","unstructured":"Micron. 2023. Crucial T500. https:\/\/www.techpowerup.com\/ssd-specs\/crucial-t500-1-tb.d1771."},{"key":"e_1_3_3_2_66_2","doi-asserted-by":"crossref","unstructured":"Subrat Mishra Hussam Amrouch Jerin Joe Chetan\u00a0K. Dabhi Karansingh Thakor Yogesh\u00a0S. Chauhan J\u00f6rg Henkel and Souvik Mahapatra. 2019. A Simulation Study of NBTI Impact on 14-nm Node FinFET Technology for Logic Applications: Device Degradation to Circuit-Level Interaction. IEEE Transactions on Electron Devices 66 1 (2019) 271\u2013278.","DOI":"10.1109\/TED.2018.2875813"},{"key":"e_1_3_3_2_67_2","doi-asserted-by":"crossref","unstructured":"Daehoon Na Jang-woo Lee Seon-Kyoo Lee Hwasuk Cho Junha Lee Manjae Yang Eunjin Song Anil Kavala Tongsung Kim Dong-Su Jang Youngmin Jo Ji-Yeon Shin Byung-Kwan Chun Tae-sung Lee Byunghoon Jeong Chi-Weon Yoon Dongku Kang Seungjae Lee Jungdon Ihm Dae\u00a0Seok Byeon Jinyub Lee and Jai\u00a0Hyuk Song. 2021. A 1.8-Gb\/s\/Pin 16-Tb NAND Flash Memory Multi-Chip Package With F-Chip for High-Performance and High-Capacity Storage. IEEE Journal of Solid-State Circuits 56 4 (2021) 1129\u20131140.","DOI":"10.1109\/JSSC.2021.3052492"},{"key":"e_1_3_3_2_68_2","doi-asserted-by":"publisher","DOI":"10.1145\/2897937.2898032"},{"key":"e_1_3_3_2_69_2","doi-asserted-by":"publisher","DOI":"10.1145\/3445814.3446719"},{"key":"e_1_3_3_2_70_2","doi-asserted-by":"publisher","DOI":"10.1109\/ISSCC42613.2021.9365809"},{"key":"e_1_3_3_2_71_2","doi-asserted-by":"publisher","DOI":"10.1109\/IEDM45625.2022.10019529"},{"key":"e_1_3_3_2_72_2","unstructured":"Pratyush Patel Esha Choukse Chaojie Zhang Aashaka Shah \u00cd\u00f1igo Goiri Saeed Maleki and Ricardo Bianchini. 2024. Splitwise: Efficient generative LLM inference using phase splitting. arxiv:https:\/\/arXiv.org\/abs\/2311.18677\u00a0[cs.AR] https:\/\/arxiv.org\/abs\/2311.18677"},{"key":"e_1_3_3_2_73_2","unstructured":"Samsung. 2022. Samsung 990 PRO. https:\/\/www.techpowerup.com\/ssd-specs\/samsung-990-pro-1-tb.d861."},{"key":"e_1_3_3_2_74_2","unstructured":"Mohammad Shoeybi Mostofa Patwary Raul Puri Patrick LeGresley Jared Casper and Bryan Catanzaro. 2020. Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism. arxiv:https:\/\/arXiv.org\/abs\/1909.08053\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/1909.08053"},{"key":"e_1_3_3_2_75_2","unstructured":"Synopsys. 2024. Design Compiler. https:\/\/www.synopsys.com\/implementation-and-signoff\/rtl-synthesis-test\/dc-ultra.html."},{"key":"e_1_3_3_2_76_2","doi-asserted-by":"publisher","DOI":"10.1109\/EMPDP.2019.8671589"},{"key":"e_1_3_3_2_77_2","doi-asserted-by":"crossref","unstructured":"Chien-Ting Tung and Chenming Hu. 2023. Neural Network-Based BSIM Transistor Model Framework: Currents Charges Variability and Circuit Simulation. IEEE Transactions on Electron Devices 70 4 (2023) 2157\u20132160.","DOI":"10.1109\/TED.2023.3244901"},{"key":"e_1_3_3_2_78_2","doi-asserted-by":"crossref","unstructured":"Yitu Wang Shiyu Li Qilin Zheng Linghao Song Zongwang Li Andrew Chang Hai\u00a0\"Helen\" Li and Yiran Chen. 2024. NDSEARCH: Accelerating Graph-Traversal-Based Approximate Nearest Neighbor Search through Near Data Processing. arxiv:https:\/\/arXiv.org\/abs\/2312.03141\u00a0[cs.AR]","DOI":"10.1109\/ISCA59077.2024.00035"},{"key":"e_1_3_3_2_79_2","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA57654.2024.00033"},{"key":"e_1_3_3_2_80_2","doi-asserted-by":"publisher","DOI":"10.1145\/3445814.3446763"},{"key":"e_1_3_3_2_81_2","doi-asserted-by":"crossref","unstructured":"Samkyu Won Yujong Noh Hyunchul Cho Jeil Ryu Sung-Un Choi Sungdae Choi DuckJu Kim Junseop Chung Bong-Seok Han and Eui-Young Chung. 2011. High-voltage wordline generator for low-power program operation in NAND flash memories. IEEE Asian Solid-State Circuits Conference 2011 (2011) 169\u2013172.","DOI":"10.1109\/ASSCC.2011.6123629"},{"key":"e_1_3_3_2_82_2","unstructured":"Guangxuan Xiao Ji Lin Mickael Seznec Hao Wu Julien Demouth and Song Han. 2024. SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models. arxiv:https:\/\/arXiv.org\/abs\/2211.10438\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2211.10438"},{"key":"e_1_3_3_2_83_2","unstructured":"Daliang Xu Wangsong Yin Xin Jin Ying Zhang Shiyun Wei Mengwei Xu and Xuanzhe Liu. 2023. LLMCad: Fast and Scalable On-device Large Language Model Inference. arxiv:https:\/\/arXiv.org\/abs\/2309.04255\u00a0[cs.NI]"},{"key":"e_1_3_3_2_84_2","doi-asserted-by":"publisher","DOI":"10.1145\/3489517.3530449"},{"key":"e_1_3_3_2_85_2","unstructured":"Li Yan Hsu Cynthia and Oowada Ken. 2014. Non-Volatile Memory And Method With Improved First Pass Programming. U.S Patent 8811091 2014."},{"key":"e_1_3_3_2_86_2","doi-asserted-by":"publisher","DOI":"10.1109\/CloudCom.2017.14"},{"key":"e_1_3_3_2_87_2","doi-asserted-by":"crossref","unstructured":"Min Ye Qiao Li Congming Gao Shun Deng Tei-Wei Kuo and Chun\u00a0Jason Xue. 2022. Stop unnecessary refreshing: extending 3D NAND flash lifetime with ORBER. CCF Trans. High Perform. Comput. 4 3 (2022) 281\u2013301.","DOI":"10.1007\/s42514-022-00107-x"},{"key":"e_1_3_3_2_88_2","unstructured":"Rongjie Yi Liwei Guo Shiyun Wei Ao Zhou Shangguang Wang and Mengwei Xu. 2023. EdgeMoE: Fast On-Device Inference of MoE-based Large Language Models."},{"key":"e_1_3_3_2_89_2","unstructured":"Zhihang Yuan Lin Niu Jiawei Liu Wenyu Liu Xinggang Wang Yuzhang Shang Guangyu Sun Qiang Wu Jiaxiang Wu and Bingzhe Wu. 2023. RPTQ: Reorder-based Post-training Quantization for Large Language Models. arxiv:https:\/\/arXiv.org\/abs\/2304.01089\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2304.01089"},{"key":"e_1_3_3_2_90_2","doi-asserted-by":"crossref","unstructured":"Rowan Zellers Ari Holtzman Yonatan Bisk Ali Farhadi and Yejin Choi. 2019. HellaSwag: Can a Machine Really Finish Your Sentence?https:\/\/arxiv.org\/abs\/1905.07830","DOI":"10.18653\/v1\/P19-1472"},{"key":"e_1_3_3_2_91_2","first-page":"243","volume-title":"11th USENIX Conference on File and Storage Technologies (FAST 13)","author":"Zhao Kai","year":"2013","unstructured":"Kai Zhao, Wenzhe Zhao, Hongbin Sun, Xiaodong Zhang, Nanning Zheng, and Tong Zhang. 2013. LDPC-in-SSD: Making Advanced Error Correction Codes Work Effectively in Solid State Drives. In 11th USENIX Conference on File and Storage Technologies (FAST 13). 243\u2013256."},{"key":"e_1_3_3_2_92_2","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO56248.2022.00035"}],"event":{"name":"ISCA '25: Proceedings of the 52nd Annual International Symposium on Computer Architecture","location":"Tokyo Japan","acronym":"SIGARCH '25","sponsor":["SIGARCH ACM Special Interest Group on Computer Architecture"]},"container-title":["Proceedings of the 52nd Annual International Symposium on Computer Architecture"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3695053.3731073","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,21]],"date-time":"2025-06-21T11:06:11Z","timestamp":1750503971000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3695053.3731073"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6,20]]},"references-count":91,"alternative-id":["10.1145\/3695053.3731073","10.1145\/3695053"],"URL":"https:\/\/doi.org\/10.1145\/3695053.3731073","relation":{},"subject":[],"published":{"date-parts":[[2025,6,20]]},"assertion":[{"value":"2025-06-20","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}