{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,23]],"date-time":"2026-04-23T08:00:44Z","timestamp":1776931244991,"version":"3.51.2"},"publisher-location":"New York, NY, USA","reference-count":107,"publisher":"ACM","funder":[{"name":"Institute of Information & Communications Technology Planning & Evaluation","award":["2022-0-00441, RS-2020-II201361, RS-2025-02304183"],"award-info":[{"award-number":["2022-0-00441, RS-2020-II201361, RS-2025-02304183"]}]},{"DOI":"10.13039\/501100003725","name":"National Research Foundation of Korea","doi-asserted-by":"publisher","award":["2022R1A4A1032361, RS-2025-00560614"],"award-info":[{"award-number":["2022R1A4A1032361, RS-2025-00560614"]}],"id":[{"id":"10.13039\/501100003725","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100003836","name":"IC Design Education Center","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100003836","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,18]]},"DOI":"10.1145\/3725843.3756020","type":"proceedings-article","created":{"date-parts":[[2025,10,17]],"date-time":"2025-10-17T17:21:19Z","timestamp":1760721679000},"page":"246-262","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Accelerating Retrieval Augmented Language Model via PIM and PNM Integration"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-3585-6020","authenticated-orcid":false,"given":"Je-Woo","family":"Jang","sequence":"first","affiliation":[{"name":"Yonsei University, Seoul, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-9317-3886","authenticated-orcid":false,"given":"Junyong","family":"Oh","sequence":"additional","affiliation":[{"name":"Yonsei University, Seoul, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-2293-7656","authenticated-orcid":false,"given":"Youngbae","family":"Kong","sequence":"additional","affiliation":[{"name":"Yonsei University, Seoul, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-9487-5562","authenticated-orcid":false,"given":"Jae-Youn","family":"Hong","sequence":"additional","affiliation":[{"name":"Yonsei University, Seoul, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-2647-9661","authenticated-orcid":false,"given":"Sung-Hyuk","family":"Cho","sequence":"additional","affiliation":[{"name":"Yonsei University, Seoul, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-5634-8710","authenticated-orcid":false,"given":"Jeongyeol","family":"Lee","sequence":"additional","affiliation":[{"name":"Yonsei University, Seoul, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7929-7470","authenticated-orcid":false,"given":"Hoeseok","family":"Yang","sequence":"additional","affiliation":[{"name":"Santa Clara University, Santa Clara, California, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1502-5353","authenticated-orcid":false,"given":"Joon-Sung","family":"Yang","sequence":"additional","affiliation":[{"name":"Yonsei University, Seoul, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,10,17]]},"reference":[{"key":"e_1_3_3_1_2_2","doi-asserted-by":"crossref","unstructured":"Shubham Agarwal Sai Sundaresan Subrata Mitra Debabrata Mahapatra Archit Gupta Rounak Sharma Nirmal\u00a0Joshua Kapu Tong Yu and Shiv Saini. 2025. Cache-craft: Managing chunk-caches for efficient retrieval-augmented generation. Proceedings of the ACM on Management of Data 3 3 (2025) 1\u201328.","DOI":"10.1145\/3725273"},{"key":"e_1_3_3_1_3_2","doi-asserted-by":"publisher","DOI":"10.1145\/215399.215427"},{"key":"e_1_3_3_1_4_2","unstructured":"AMD. 2024. AMD EPYC\u2122 9755. https:\/\/www.amd.com\/en\/products\/processors\/server\/epyc\/9005-series\/amd-epyc-9755.html"},{"key":"e_1_3_3_1_5_2","unstructured":"Advanced Micro\u00a0Devices (AMD). 2022. AMD EPYC 9004 Series Processors. https:\/\/www.amd.com\/content\/dam\/amd\/en\/documents\/epyc-technical-docs\/white-papers\/58015-epyc-9004-tg-architecture-overview.pdf. [Online; accessed 02-April-2025]."},{"key":"e_1_3_3_1_6_2","unstructured":"Akari Asai Zeqiu Wu Yizhong Wang Avirup Sil and Hannaneh Hajishirzi. 2023. Self-RAG: Learning to Retrieve Generate and Critique through Self-Reflection. arxiv:https:\/\/arXiv.org\/abs\/2310.11511\u00a0[cs.CL]"},{"key":"e_1_3_3_1_7_2","doi-asserted-by":"publisher","DOI":"10.1145\/1468075.1468121"},{"key":"e_1_3_3_1_8_2","first-page":"2206","volume-title":"International conference on machine learning","author":"Borgeaud Sebastian","year":"2022","unstructured":"Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George\u00a0Bm Van Den\u00a0Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, et\u00a0al. 2022. Improving language models by retrieving from trillions of tokens. In International conference on machine learning. PMLR, 2206\u20132240."},{"key":"e_1_3_3_1_9_2","unstructured":"Tom Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared\u00a0D Kaplan Prafulla Dhariwal Arvind Neelakantan Pranav Shyam Girish Sastry Amanda Askell et\u00a0al. 2020. Language models are few-shot learners. Advances in neural information processing systems 33 (2020) 1877\u20131901."},{"key":"e_1_3_3_1_10_2","unstructured":"Chi-Min Chan Chunpu Xu Ruibin Yuan Hongyin Luo Wei Xue Yike Guo and Jie Fu. 2024. Rq-rag: Learning to refine queries for retrieval augmented generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2404.00610 (2024)."},{"key":"e_1_3_3_1_11_2","unstructured":"Sitian Chen Amelie\u00a0Chi Zhou Yucheng Shi Yusen Li and Xin Yao. 2024. MemANNS: Enhancing Billion-Scale ANNS Efficiency with Practical PIM Hardware. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2410.23805 (2024)."},{"key":"e_1_3_3_1_12_2","doi-asserted-by":"crossref","unstructured":"Lawrence\u00a0T Clark Vinay Vashishtha Lucian Shifren Aditya Gujja Saurabh Sinha Brian Cline Chandarasekaran Ramamurthy and Greg Yeric. 2016. ASAP7: A 7-nm finFET predictive process design kit. Microelectronics Journal 53 (2016) 105\u2013115.","DOI":"10.1016\/j.mejo.2016.04.006"},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"publisher","DOI":"10.1145\/155332.155333"},{"key":"e_1_3_3_1_14_2","unstructured":"Tri Dao Dan Fu Stefano Ermon Atri Rudra and Christopher R\u00e9. 2022. Flashattention: Fast and memory-efficient exact attention with io-awareness. Advances in neural information processing systems 35 (2022) 16344\u201316359."},{"key":"e_1_3_3_1_15_2","doi-asserted-by":"publisher","DOI":"10.1109\/HOTCHIPS.2019.8875680"},{"key":"e_1_3_3_1_16_2","doi-asserted-by":"crossref","unstructured":"Jesse Dodge Maarten Sap Ana Marasovi\u0107 William Agnew Gabriel Ilharco Dirk Groeneveld Margaret Mitchell and Matt Gardner. 2021. Documenting large webtext corpora: A case study on the colossal clean crawled corpus. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2104.08758 (2021).","DOI":"10.18653\/v1\/2021.emnlp-main.98"},{"key":"e_1_3_3_1_17_2","unstructured":"Matthijs Douze Alexandr Guzhva Chengqi Deng Jeff Johnson Gergely Szilvasy Pierre-Emmanuel Mazar\u00e9 Maria Lomeli Lucas Hosseini and Herv\u00e9 J\u00e9gou. 2024. The Faiss library. (2024). arxiv:https:\/\/arXiv.org\/abs\/2401.08281\u00a0[cs.LG]"},{"key":"e_1_3_3_1_18_2","volume-title":"Wikimedia Downloads","author":"Foundation Wikimedia","unstructured":"Wikimedia Foundation. [n. d.]. Wikimedia Downloads. https:\/\/dumps.wikimedia.org"},{"key":"e_1_3_3_1_19_2","doi-asserted-by":"crossref","unstructured":"Christina Giannoula Ivan Fernandez Juan\u00a0G\u00f3mez Luna Nectarios Koziris Georgios Goumas and Onur Mutlu. 2022. Sparsep: Towards efficient sparse matrix vector multiplication on real processing-in-memory architectures. Proceedings of the ACM on Measurement and Analysis of Computing Systems 6 1 (2022) 1\u201349.","DOI":"10.1145\/3508041"},{"key":"e_1_3_3_1_20_2","doi-asserted-by":"publisher","unstructured":"Shoubhik Gupta William\u00a0Taube Navaraj Leandro Lorenzelli and Ravinder Dahiya. 2018. Ultra-thin chips for high-performance flexible electronics. npj Flexible Electronics 2 (2018) 8. 10.1038\/s41528-018-0021-5","DOI":"10.1038\/s41528-018-0021-5"},{"key":"e_1_3_3_1_21_2","series-title":"Proceedings of Machine Learning Research","first-page":"3929","volume-title":"Proceedings of the 37th International Conference on Machine Learning","volume":"119","author":"Guu Kelvin","year":"2020","unstructured":"Kelvin Guu, Kenton Lee, Zora Tung, Panupong Pasupat, and Mingwei Chang. 2020. Retrieval Augmented Language Model Pre-Training. In Proceedings of the 37th International Conference on Machine Learning(Proceedings of Machine Learning Research, Vol.\u00a0119), Hal\u00a0Daum\u00e9 III and Aarti Singh (Eds.). PMLR, 3929\u20133938. https:\/\/proceedings.mlr.press\/v119\/guu20a.html"},{"key":"e_1_3_3_1_22_2","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO61859.2024.00051"},{"key":"e_1_3_3_1_23_2","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO50266.2020.00040"},{"key":"e_1_3_3_1_24_2","doi-asserted-by":"publisher","DOI":"10.1145\/3676641.3716009"},{"key":"e_1_3_3_1_25_2","doi-asserted-by":"publisher","DOI":"10.1145\/3620666.3651380"},{"key":"e_1_3_3_1_26_2","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA57654.2024.00029"},{"key":"e_1_3_3_1_27_2","doi-asserted-by":"publisher","unstructured":"A.\u00a0V. Inyushkin. 2023. Thermal conductivity of group IV elemental semiconductors. Journal of Applied Physics 134 22 (2023) 221102. 10.1063\/5.0178256","DOI":"10.1063\/5.0178256"},{"key":"e_1_3_3_1_28_2","unstructured":"Gautier Izacard and Edouard Grave. 2020. Leveraging passage retrieval with generative models for open domain question answering. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2007.01282 (2020)."},{"key":"e_1_3_3_1_29_2","unstructured":"Gautier Izacard Patrick Lewis Maria Lomeli Lucas Hosseini Fabio Petroni Timo Schick Jane Dwivedi-Yu Armand Joulin Sebastian Riedel and Edouard Grave. 2022. ATLAS: Few-Shot Learning with Retrieval Augmented Language Models. arxiv:https:\/\/arXiv.org\/abs\/2208.03299\u00a0[cs.CL]"},{"key":"e_1_3_3_1_30_2","doi-asserted-by":"crossref","unstructured":"Junhyeok Jang Hanjin Choi Hanyeoreum Bae Seungjun Lee Miryeong Kwon and Myoungsoo Jung. 2024. Bridging software-hardware for cxl memory disaggregation in billion-scale nearest neighbor search. ACM Transactions on Storage 20 2 (2024) 1\u201330.","DOI":"10.1145\/3639471"},{"key":"e_1_3_3_1_31_2","unstructured":"JEDEC. 2022. High Bandwidth Memory DRAM (HBM3). JEDEC Publication."},{"key":"e_1_3_3_1_32_2","doi-asserted-by":"crossref","unstructured":"Ziwei Ji Nayeon Lee Rita Frieske et\u00a0al. 2023. Survey of Hallucination in Natural Language Generation. Comput. Surveys 55 12 (2023) 1\u201338.","DOI":"10.1145\/3571730"},{"key":"e_1_3_3_1_33_2","doi-asserted-by":"publisher","DOI":"10.1145\/3581784.3607045"},{"key":"e_1_3_3_1_34_2","doi-asserted-by":"publisher","DOI":"10.1145\/3695053.3731093"},{"key":"e_1_3_3_1_35_2","doi-asserted-by":"crossref","unstructured":"Wenqi Jiang Marco Zeller Roger Waleffe Torsten Hoefler and Gustavo Alonso. 2025. Chameleon: a heterogeneous and disaggregated accelerator system for retrieval-augmented language models. Proceedings of the VLDB Endowment (2025).","DOI":"10.14778\/3696435.3696439"},{"key":"e_1_3_3_1_36_2","doi-asserted-by":"crossref","unstructured":"Wenqi Jiang Shuai Zhang Boran Han Jie Wang Yuyang\u00a0Bernie Wang and Tim Kraska. 2025. PipeRAG: Fast retrieval-augmented generation via adaptive pipeline parallelism. Proceedings of the 31th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (2025).","DOI":"10.1145\/3690624.3709194"},{"key":"e_1_3_3_1_37_2","unstructured":"Chao Jin Zili Zhang Xuanlin Jiang Fangyue Liu Xin Liu Xuanzhe Liu and Xin Jin. 2024. Ragcache: Efficient knowledge caching for retrieval-augmented generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2404.12457 (2024)."},{"key":"e_1_3_3_1_38_2","doi-asserted-by":"crossref","unstructured":"Jeff Johnson Matthijs Douze and Herv\u00e9 J\u00e9gou. 2019. Billion-scale similarity search with GPUs. IEEE Transactions on Big Data 7 3 (2019) 535\u2013547.","DOI":"10.1109\/TBDATA.2019.2921572"},{"key":"e_1_3_3_1_39_2","doi-asserted-by":"publisher","DOI":"10.1145\/3613424.3614314"},{"key":"e_1_3_3_1_40_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.550"},{"key":"e_1_3_3_1_41_2","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA45697.2020.00070"},{"key":"e_1_3_3_1_42_2","unstructured":"Urvashi Khandelwal Omer Levy Dan Jurafsky Luke Zettlemoyer and Mike Lewis. 2019. Generalization through memorization: Nearest neighbor language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/1911.00172 (2019)."},{"key":"e_1_3_3_1_43_2","unstructured":"Omar Khattab Keshav Santhanam Xiang\u00a0Lisa Li David Hall Percy Liang Christopher Potts and Matei Zaharia. 2022. Demonstrate-Search-Predict: Composing Retrieval and Language Models for Knowledge-Intensive NLP. arxiv:https:\/\/arXiv.org\/abs\/2212.14024\u00a0[cs.CL]"},{"key":"e_1_3_3_1_44_2","doi-asserted-by":"crossref","unstructured":"Byeongho Kim Sanghoon Cha Sangsoo Park Jieun Lee Sukhan Lee Shin-haeng Kang Jinin So Kyungsoo Kim Jin Jung Jong-Geon Lee et\u00a0al. 2024. The breakthrough memory solutions for improved performance on llm inference. IEEE Micro 44 3 (2024) 40\u201348.","DOI":"10.1109\/MM.2024.3375352"},{"key":"e_1_3_3_1_45_2","unstructured":"Donghyuk Kim Jae-Young Kim Wontak Han Jongsoon Won Haerang Choi Yongkee Kwon and Joo-Young Kim. 2024. Darwin: A DRAM-Based Multi-Level Processing-in-Memory Architecture for Column-Oriented Database. IEEE Transactions on Emerging Topics in Computing (2024)."},{"key":"e_1_3_3_1_46_2","doi-asserted-by":"crossref","unstructured":"Seongguk Kim Subin Kim Kyungjun Cho Taein Shin Hyunwook Park Daehwan Lho Shinyoung Park Kyungjune Son Gapyeol Park Seungtaek Jeong et\u00a0al. 2021. Signal integrity and computing performance analysis of a processing-in-memory of high bandwidth memory (PIM-HBM) scheme. IEEE Transactions on Components Packaging and Manufacturing Technology 11 11 (2021) 1955\u20131970.","DOI":"10.1109\/TCPMT.2021.3117071"},{"key":"e_1_3_3_1_47_2","doi-asserted-by":"publisher","DOI":"10.1145\/3600006.3613165"},{"key":"e_1_3_3_1_48_2","doi-asserted-by":"publisher","DOI":"10.1145\/3352460.3358284"},{"key":"e_1_3_3_1_49_2","doi-asserted-by":"publisher","DOI":"10.1109\/ISSCC42613.2021.9365862"},{"key":"e_1_3_3_1_50_2","doi-asserted-by":"publisher","DOI":"10.23919\/DATE51398.2021.9474024"},{"key":"e_1_3_3_1_51_2","doi-asserted-by":"publisher","DOI":"10.1145\/3533737.3535093"},{"key":"e_1_3_3_1_52_2","unstructured":"Jinhyuk Lee Anthony Chen Zhuyun Dai Dheeru Dua Devendra\u00a0Singh Sachan Michael Boratko Yi Luan S\u00e9bastien\u00a0MR Arnold Vincent Perot Siddharth Dalmia et\u00a0al. 2024. Can Long-Context Language Models Subsume Retrieval RAG SQL and More?arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2406.13121 (2024)."},{"key":"e_1_3_3_1_53_2","doi-asserted-by":"publisher","DOI":"10.1145\/3649329.3655933"},{"key":"e_1_3_3_1_54_2","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA52012.2021.00013"},{"key":"e_1_3_3_1_55_2","first-page":"1","volume-title":"2022 IEEE International Solid-State Circuits Conference (ISSCC)","volume":"65","author":"Lee Seongju","year":"2022","unstructured":"Seongju Lee, Kyuyoung Kim, Sanghoon Oh, Joonhong Park, Gimoon Hong, Dongyoon Ka, Kyudong Hwang, Jeongje Park, Kyeongpil Kang, Jungyeon Kim, et\u00a0al. 2022. A 1ynm 1.25 V 8Gb, 16Gb\/s\/pin GDDR6-based accelerator-in-memory supporting 1TFLOPS MAC operation and various activation functions for deep-learning applications. In 2022 IEEE International Solid-State Circuits Conference (ISSCC) , Vol.\u00a065. IEEE, 1\u20133."},{"key":"e_1_3_3_1_56_2","doi-asserted-by":"crossref","unstructured":"Won\u00a0Jun Lee Chang\u00a0Hyun Kim Yoonah Paik Jongsun Park Il Park and Seon\u00a0Wook Kim. 2019. Design of processing-\u201cinside\u201d-memory optimized for dram behaviors. IEEE Access 7 (2019) 82633\u201382648.","DOI":"10.1109\/ACCESS.2019.2924240"},{"key":"e_1_3_3_1_57_2","unstructured":"Patrick Lewis Ethan Perez Aleksandra Piktus Fabio Petroni Vladimir Karpukhin Naman Goyal Heinrich K\u00fcttler Mike Lewis Wen-tau Yih Tim Rockt\u00e4schel et\u00a0al. 2020. Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in neural information processing systems 33 (2020) 9459\u20139474."},{"key":"e_1_3_3_1_58_2","doi-asserted-by":"publisher","DOI":"10.1145\/3620665.3640376"},{"key":"e_1_3_3_1_59_2","unstructured":"Chien-Yu Lin Keisuke Kamahori Yiyu Liu Xiaoxiang Shi Madhav Kashyap Yile Gu Rulin Shao Zihao Ye Kan Zhu Stephanie Wang et\u00a0al. 2025. TeleRAG: Efficient Retrieval-Augmented Generation Inference with Lookahead Retrieval. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2502.20969 (2025)."},{"key":"e_1_3_3_1_60_2","unstructured":"Xi\u00a0Victoria Lin Xilun Chen Mingda Chen Weijia Shi Maria Lomeli Rich James Pedro Rodriguez Jacob Kahn Gergely Szilv\u00e1sy Mike Lewis et\u00a0al. 2023. RA-DIT: Retrieval-Augmented Dual Instruction Tuning. arxiv:https:\/\/arXiv.org\/abs\/2310.01352\u00a0[cs.CL]"},{"key":"e_1_3_3_1_61_2","doi-asserted-by":"publisher","DOI":"10.1145\/3695053.3731089"},{"key":"e_1_3_3_1_62_2","doi-asserted-by":"publisher","DOI":"10.1145\/3579371.3589101"},{"key":"e_1_3_3_1_63_2","doi-asserted-by":"crossref","unstructured":"Haocong Luo Yahya\u00a0Can Tu\u011frul F\u00a0Nisa Bostanc\u0131 Ataberk Olgun A\u00a0Giray Ya\u011fl\u0131k\u00e7\u0131 and Onur Mutlu. 2023. Ramulator 2.0: A modern modular and extensible dram simulator. IEEE Computer Architecture Letters 23 1 (2023) 112\u2013116.","DOI":"10.1109\/LCA.2023.3333759"},{"key":"e_1_3_3_1_64_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.eacl-main.138"},{"key":"e_1_3_3_1_65_2","doi-asserted-by":"publisher","unstructured":"Henry\u00a0A. Martin S\u00e9bastien Libon Edsger C.\u00a0P. Smits Ren\u00e9\u00a0H. Poelma Willem\u00a0D. van Driel and GuoQi Zhang. 2024. Thermal characterization methodology for thin bond-line interfaces with high-conductive materials. Thermal Science and Engineering Progress 53 (2024) 102754. 10.1016\/j.tsep.2024.102754","DOI":"10.1016\/j.tsep.2024.102754"},{"key":"e_1_3_3_1_66_2","unstructured":"Meta AI. 2024. Llama-3.2-90B-Vision. Hugging Face model card. https:\/\/huggingface.co\/meta-llama\/Llama-3.2-90B-Vision Model card; accessed: 2025-09-02."},{"key":"e_1_3_3_1_67_2","unstructured":"Reiichiro Nakano Jacob Hilton Suchir Balaji Jeff Wu Long Ouyang Christina Kim et\u00a0al. 2021. WebGPT: Browser-Assisted Question-Answering with Human Feedback. arxiv:https:\/\/arXiv.org\/abs\/2112.09332\u00a0[cs.CL]"},{"key":"e_1_3_3_1_68_2","doi-asserted-by":"publisher","DOI":"10.1109\/ISSCC42614.2022.9731107"},{"key":"e_1_3_3_1_69_2","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA59077.2024.00027"},{"key":"e_1_3_3_1_70_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-eacl.109"},{"key":"e_1_3_3_1_71_2","unstructured":"Nvidia. 2022. NVIDIA H100 Tensor Core GPU. https:\/\/www.nvidia.com\/content\/dam\/en-zz\/Solutions\/Data-Center\/h100\/PB-11773-001_v01.pdf"},{"key":"e_1_3_3_1_72_2","volume-title":"NVIDIA Blackwell Architecture Technical Brief","year":"2024","unstructured":"NVIDIA. 2024. NVIDIA Blackwell Architecture Technical Brief. Technical Report V1.0. NVIDIA. Accessed: 2025-06-16."},{"key":"e_1_3_3_1_73_2","unstructured":"NVIDIA. 2025. GB200 NVL2 | NVIDIA. https:\/\/www.nvidia.com\/en-us\/data-center\/gb200-nvl2\/. Accessed: 2025-06-16."},{"key":"e_1_3_3_1_74_2","unstructured":"NVIDIA. 2025. NVIDIA Nsight Compute. https:\/\/developer.nvidia.com\/nsight-compute."},{"key":"e_1_3_3_1_75_2","unstructured":"NVIDIA. 2025. NVIDIA Nsight Systems. https:\/\/developer.nvidia.com\/nsight-systems."},{"key":"e_1_3_3_1_76_2","unstructured":"NVIDIA. 2025. NVLink & NVSwitch: Fastest HPC Data Center Platform | NVIDIA. https:\/\/www.nvidia.com\/en-us\/data-center\/nvlink\/. Accessed: 2025-06-17."},{"key":"e_1_3_3_1_77_2","volume-title":"NVIDIA H100 Product Brief","author":"Corporation NVIDIA","year":"2022","unstructured":"NVIDIA Corporation. 2022. NVIDIA H100 Product Brief. Technical Report PB-11773-001. NVIDIA Corporation. Available at https:\/\/www.nvidia.com\/content\/dam\/en-zz\/Solutions\/Data-Center\/h100\/PB-11773-001_v01.pdf."},{"key":"e_1_3_3_1_78_2","unstructured":"NVIDIA Corporation. 2024. CUTLASS Documentation: Overview. https:\/\/docs.nvidia.com\/cutlass\/overview.html. Last updated: April 26 2024 Accessed: 2024-05-21."},{"key":"e_1_3_3_1_79_2","doi-asserted-by":"publisher","DOI":"10.1145\/3123939.3124545"},{"key":"e_1_3_3_1_80_2","unstructured":"OpenAI. 2022. New and Improved Embedding Model. https:\/\/openai.com\/index\/new-and-improved-embedding-model\/."},{"key":"e_1_3_3_1_81_2","doi-asserted-by":"publisher","DOI":"10.1145\/3620665.3640422"},{"key":"e_1_3_3_1_82_2","doi-asserted-by":"publisher","DOI":"10.1145\/3466752.3480080"},{"key":"e_1_3_3_1_83_2","doi-asserted-by":"crossref","unstructured":"Myeong-Jae Park Jinhyung Lee Kyungjun Cho Jihwan Park Junil Moon Sung-Hak Lee Tae-Kyun Kim Sanghoon Oh Seokwoo Choi Yongsuk Choi et\u00a0al. 2022. A 192-Gb 12-high 896-GB\/s HBM3 DRAM with a TSV auto-calibration scheme and machine-learning-based layout optimization. IEEE Journal of Solid-State Circuits 58 1 (2022) 256\u2013269.","DOI":"10.1109\/JSSC.2022.3193354"},{"key":"e_1_3_3_1_84_2","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA57654.2024.00078"},{"key":"e_1_3_3_1_85_2","doi-asserted-by":"crossref","unstructured":"Md\u00a0Rizwan Parvez Wasi\u00a0Uddin Ahmad Saikat Chakraborty Baishakhi Ray and Kai-Wei Chang. 2021. Retrieval Augmented Code Generation and Summarization. arxiv:https:\/\/arXiv.org\/abs\/2108.11601\u00a0[cs.SE]","DOI":"10.18653\/v1\/2021.findings-emnlp.232"},{"key":"e_1_3_3_1_86_2","unstructured":"Derrick Quinn Mohammad Nouri Neel Patel John Salihu Alireza Salemi Sukhan Lee Hamed Zamani and Mohammad Alian. 2024. Accelerating Retrieval-Augmented Generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2412.15246 (2024)."},{"key":"e_1_3_3_1_87_2","doi-asserted-by":"publisher","DOI":"10.1145\/3695053.3731079"},{"key":"e_1_3_3_1_88_2","doi-asserted-by":"crossref","unstructured":"Yesin Ryu Sung-Gi Ahn Jae\u00a0Hoon Lee Jaewon Park Yong\u00a0Ki Kim Hyochang Kim Yeong\u00a0Geol Song Han-Won Cho Sunghye Cho Seung\u00a0Ho Song et\u00a0al. 2023. A 16 GB 1024 GB\/s HBM3 DRAM with source-synchronized bus design and on-die error control scheme for enhanced RAS features. IEEE Journal of Solid-State Circuits 58 4 (2023) 1051\u20131061.","DOI":"10.1109\/JSSC.2022.3232096"},{"key":"e_1_3_3_1_89_2","unstructured":"Sentence-Transformers. 2021. all-MiniLM-L6-v2 (Sentence-Transformers). https:\/\/huggingface.co\/sentence-transformers\/all-MiniLM-L6-v2."},{"key":"e_1_3_3_1_90_2","doi-asserted-by":"publisher","DOI":"10.1145\/3620666.3651324"},{"key":"e_1_3_3_1_91_2","doi-asserted-by":"crossref","unstructured":"Joonseop Sim Soohong Ahn Taeyoung Ahn Seungyong Lee Myunghyun Rhee Jooyoung Kim Kwangsik Shin Donguk Moon Euiseok Kim and Kyoung Park. 2022. Computational cxl-memory solution for accelerating memory-intensive applications. IEEE Computer Architecture Letters 22 1 (2022) 5\u20138.","DOI":"10.1109\/LCA.2022.3226482"},{"key":"e_1_3_3_1_92_2","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA52012.2021.00027"},{"key":"e_1_3_3_1_93_2","unstructured":"James Thorne Andreas Vlachos Christos Christodoulopoulos and Arpit Mittal. 2018. FEVER: A Large-Scale Dataset for Fact Extraction and Verification. arxiv:https:\/\/arXiv.org\/abs\/1803.05355\u00a0[cs.CL]"},{"key":"e_1_3_3_1_94_2","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA59077.2024.00052"},{"key":"e_1_3_3_1_95_2","first-page":"1135","volume-title":"2024 USENIX Annual Technical Conference (USENIX ATC 24)","author":"Tian Bing","year":"2024","unstructured":"Bing Tian, Haikun Liu, Zhuohui Duan, Xiaofei Liao, Hai Jin, and Yu Zhang. 2024. Scalable Billion-point Approximate Nearest Neighbor Search Using { SmartSSDs}. In 2024 USENIX Annual Technical Conference (USENIX ATC 24). 1135\u20131150."},{"key":"e_1_3_3_1_96_2","doi-asserted-by":"crossref","unstructured":"Boxin Wang Wei Ping Peng Xu Lawrence McAfee Zihan Liu Mohammad Shoeybi Yi Dong Oleksii Kuchaiev Bo Li Chaowei Xiao et\u00a0al. 2023. Shall we pretrain autoregressive language models with retrieval? a comprehensive study. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2304.06762 (2023).","DOI":"10.18653\/v1\/2023.emnlp-main.482"},{"key":"e_1_3_3_1_97_2","unstructured":"Shuting Wang Xin Yu Mang Wang Weipeng Chen Yutao Zhu and Zhicheng Dou. 2024. Richrag: Crafting rich responses for multi-faceted queries in retrieval-augmented generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2406.12566 (2024)."},{"key":"e_1_3_3_1_98_2","doi-asserted-by":"publisher","DOI":"10.1109\/ISSCC42615.2023.10067395"},{"key":"e_1_3_3_1_99_2","doi-asserted-by":"publisher","DOI":"10.1109\/VLSICircuits18222.2020.9162985"},{"key":"e_1_3_3_1_100_2","first-page":"521","volume-title":"16th USENIX Symposium on Operating Systems Design and Implementation (OSDI 22)","author":"Yu Gyeong-In","year":"2022","unstructured":"Gyeong-In Yu, Joo\u00a0Seong Jeong, Geon-Woo Kim, Soojeong Kim, and Byung-Gon Chun. 2022. Orca: A distributed serving system for { Transformer-Based} generative models. In 16th USENIX Symposium on Operating Systems Design and Implementation (OSDI 22). 521\u2013538."},{"key":"e_1_3_3_1_101_2","unstructured":"Zhenrui Yue Honglei Zhuang Aijun Bai Kai Hui Rolf Jagerman Hansi Zeng Zhen Qin Dong Wang Xuanhui Wang and Michael Bendersky. 2024. Inference scaling for long-context retrieval augmented generation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2410.04343 (2024)."},{"key":"e_1_3_3_1_102_2","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO61859.2024.00105"},{"key":"e_1_3_3_1_103_2","doi-asserted-by":"publisher","DOI":"10.1145\/3650200.3656595"},{"key":"e_1_3_3_1_104_2","doi-asserted-by":"publisher","DOI":"10.1145\/3581784.3607062"},{"key":"e_1_3_3_1_105_2","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA59077.2024.00053"},{"key":"e_1_3_3_1_106_2","unstructured":"Zexuan Zhong Tao Lei and Danqi Chen. 2022. Training Language Models with Memory Augmentation. arxiv:https:\/\/arXiv.org\/abs\/2205.12674\u00a0[cs.CL]"},{"key":"e_1_3_3_1_107_2","doi-asserted-by":"publisher","unstructured":"Yongcun Zhou Siqi Wu Yuheng Long Pengli Zhu Feixiang Wu Feng Liu Vignesh Murugadoss Williams Winchester Amit Nautiyal Zhe Wang and Zhanhu Guo. 2020. Recent Advances in Thermal Interface Materials. ES Materials & Manufacturing 7 (2020) 4\u201324. 10.30919\/esmm5f717","DOI":"10.30919\/esmm5f717"},{"key":"e_1_3_3_1_108_2","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA56546.2023.10071005"}],"event":{"name":"MICRO 2025: 58th IEEE\/ACM International Symposium on Microarchitecture","location":"Seoul Korea","acronym":"MICRO 2025","sponsor":["SIGMICRO ACM Special Interest Group on Microarchitectural Research and Processing"]},"container-title":["Proceedings of the 58th IEEE\/ACM International Symposium on Microarchitecture"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3725843.3756020","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,26]],"date-time":"2026-01-26T21:48:25Z","timestamp":1769464105000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3725843.3756020"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,17]]},"references-count":107,"alternative-id":["10.1145\/3725843.3756020","10.1145\/3725843"],"URL":"https:\/\/doi.org\/10.1145\/3725843.3756020","relation":{},"subject":[],"published":{"date-parts":[[2025,10,17]]},"assertion":[{"value":"2025-10-17","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}