{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,23]],"date-time":"2026-04-23T08:03:30Z","timestamp":1776931410190,"version":"3.51.2"},"publisher-location":"New York, NY, USA","reference-count":89,"publisher":"ACM","funder":[{"name":"IITP","award":["No.RS-2024-00396013, No.2022-0-01037"],"award-info":[{"award-number":["No.RS-2024-00396013, No.2022-0-01037"]}]},{"name":"IITP under the Graduate School of Artificial Intelligence Semiconductor","award":["IITP-2025-RS-2023-00256472"],"award-info":[{"award-number":["IITP-2025-RS-2023-00256472"]}]},{"name":"ETRI","award":["No.RS-2025-02305453"],"award-info":[{"award-number":["No.RS-2025-02305453"]}]},{"DOI":"10.13039\/100003877","name":"IDEC, Korea","doi-asserted-by":"publisher","award":[""],"award-info":[{"award-number":[""]}],"id":[{"id":"10.13039\/100003877","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,18]]},"DOI":"10.1145\/3725843.3756121","type":"proceedings-article","created":{"date-parts":[[2025,10,17]],"date-time":"2025-10-17T17:19:56Z","timestamp":1760721596000},"page":"292-307","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Pimba: A Processing-in-Memory Acceleration for Post-Transformer Large Language Model Serving"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0000-1180-0503","authenticated-orcid":false,"given":"Wonung","family":"Kim","sequence":"first","affiliation":[{"name":"KAIST, Daejeon, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-6541-6739","authenticated-orcid":false,"given":"Yubin","family":"Lee","sequence":"additional","affiliation":[{"name":"KAIST, Daejeon, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-2333-292X","authenticated-orcid":false,"given":"Yoonsung","family":"Kim","sequence":"additional","affiliation":[{"name":"KAIST, Daejeon, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-8498-2502","authenticated-orcid":false,"given":"Jinwoo","family":"Hwang","sequence":"additional","affiliation":[{"name":"KAIST, Daejeon, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-6707-0641","authenticated-orcid":false,"given":"Seongryong","family":"Oh","sequence":"additional","affiliation":[{"name":"KAIST, Daejeon, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-0420-179X","authenticated-orcid":false,"given":"Jiyong","family":"Jung","sequence":"additional","affiliation":[{"name":"KAIST, Daejeon, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-0516-0605","authenticated-orcid":false,"given":"Aziz","family":"Huseynov","sequence":"additional","affiliation":[{"name":"KAIST, Daejeon, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-4106-8039","authenticated-orcid":false,"given":"Woong Gyu","family":"Park","sequence":"additional","affiliation":[{"name":"KAIST, Daejeon, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8250-8574","authenticated-orcid":false,"given":"Chang Hyun","family":"Park","sequence":"additional","affiliation":[{"name":"Uppsala University, Atlanta, GA, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-8184-0528","authenticated-orcid":false,"given":"Divya","family":"Mahajan","sequence":"additional","affiliation":[{"name":"Georgia Institute of Technology, Uppsala, Sweden"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6629-449X","authenticated-orcid":false,"given":"Jongse","family":"Park","sequence":"additional","affiliation":[{"name":"KAIST, Daejeon, Republic of Korea"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,10,17]]},"reference":[{"key":"e_1_3_3_2_2_2","unstructured":"[n. d.]. Hello GPT-4o. https:\/\/openai.com\/index\/hello-gpt-4o\/."},{"key":"e_1_3_3_2_3_2","unstructured":"[n. d.]. Introducing OpenAI o1. https:\/\/openai.com\/o1\/."},{"key":"e_1_3_3_2_4_2","unstructured":"[n. d.]. The Llama 4 herd: The beginning of a new era of natively multimodal AI innovation. https:\/\/ai.meta.com\/blog\/llama-4-multimodal-intelligence."},{"key":"e_1_3_3_2_5_2","unstructured":"Johnathan Alsop Shaizeen Aga Mohamed Ibrahim Mahzabeen Islam Andrew Mccrabb and Nuwan Jayasena. 2024. Inclusive-PIM: Hardware-Software Co-design for Broad Acceleration on Commercial PIM Architectures. https:\/\/arxiv.org\/abs\/2309.07984"},{"key":"e_1_3_3_2_6_2","doi-asserted-by":"publisher","DOI":"10.1145\/3620665.3640366"},{"key":"e_1_3_3_2_7_2","unstructured":"Astral. [n. d.]. An extremely fast Python package and project manager written in Rust.https:\/\/docs.astral.sh\/uv\/."},{"key":"e_1_3_3_2_8_2","volume-title":"ISCA","author":"Baek Daehyeon","year":"2024","unstructured":"Daehyeon Baek, Soojin Hwang, and Jaehyuk Huh. 2024. pSyncPIM: Partially Synchronous Execution of Sparse Matrix Operations for All-Bank PIM Architectures. In ISCA."},{"key":"e_1_3_3_2_9_2","doi-asserted-by":"crossref","unstructured":"Rajeev Balasubramonian Andrew\u00a0B. Kahng Naveen Muralimanohar Ali Shafiee and Vaishnav Srinivas. 2017. CACTI 7: New Tools for Interconnect Exploration in Innovative Off-Chip Memories. ACM Trans. Archit. Code Optim. 14 2 (2017).","DOI":"10.1145\/3085572"},{"key":"e_1_3_3_2_10_2","volume-title":"NeurIPS","author":"Beck Maximilian","year":"2024","unstructured":"Maximilian Beck, Korbinian P\u00f6ppel, Markus Spanring, Andreas Auer, Oleksandra Prudnikova, Michael\u00a0K Kopp, G\u00fcnter Klambauer, Johannes Brandstetter, and Sepp Hochreiter. 2024. xLSTM: Extended Long Short-Term Memory. In NeurIPS."},{"key":"e_1_3_3_2_11_2","doi-asserted-by":"crossref","unstructured":"Yonatan Bisk Rowan Zellers Ronan Le\u00a0bras Jianfeng Gao and Yejin Choi. 2020. PIQA: Reasoning about Physical Commonsense in Natural Language. Proceedings of the AAAI Conference on Artificial Intelligence 34 05 (2020) 7432\u20137439.","DOI":"10.1609\/aaai.v34i05.6239"},{"key":"e_1_3_3_2_12_2","volume-title":"ICML","author":"Borgeaud Sebastian","year":"2022","unstructured":"Sebastian Borgeaud, Arthur Mensch, Jordan Hoffmann, Trevor Cai, Eliza Rutherford, Katie Millican, George\u00a0Bm Van Den\u00a0Driessche, Jean-Baptiste Lespiau, Bogdan Damoc, Aidan Clark, Diego De\u00a0Las\u00a0Casas, Aurelia Guy, Jacob Menick, Roman Ring, Tom Hennigan, Saffron Huang, Loren Maggiore, Chris Jones, Albin Cassirer, Andy Brock, Michela Paganini, Geoffrey Irving, Oriol Vinyals, Simon Osindero, Karen Simonyan, Jack Rae, Erich Elsen, and Laurent Sifre. 2022. Improving Language Models by Retrieving from Trillions of Tokens. In ICML."},{"key":"e_1_3_3_2_13_2","volume-title":"ICLR","author":"Chiang Hung-Yueh","year":"2025","unstructured":"Hung-Yueh Chiang, Chi-Chih Chang, Natalia Frumkin, Kai-Chiang Wu, and Diana Marculescu. 2025. Quamba: A Post-Training Quantization Recipe for Selective State Space Models. In ICLR."},{"key":"e_1_3_3_2_14_2","doi-asserted-by":"publisher","DOI":"10.1109\/IISWC63097.2024.00012"},{"key":"e_1_3_3_2_15_2","unstructured":"Peter Clark Isaac Cowhey Oren Etzioni Tushar Khot Ashish Sabharwal Carissa Schoenick and Oyvind Tafjord. 2018. Think you have Solved Question Answering? Try ARC the AI2 Reasoning Challenge. https:\/\/arxiv.org\/abs\/1803.05457"},{"key":"e_1_3_3_2_16_2","volume-title":"ICML","author":"Dao Tri","year":"2024","unstructured":"Tri Dao and Albert Gu. 2024. Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality. In ICML."},{"key":"e_1_3_3_2_17_2","volume-title":"ISCA","author":"Darvish\u00a0Rouhani Bita","year":"2023","unstructured":"Bita Darvish\u00a0Rouhani, Ritchie Zhao, Venmugil Elango, Rasoul Shafipour, Mathew Hall, Maral Mesmakhosroshahi, Ankit More, Levi Melnick, Maximilian Golub, Girish Varatkar, Lai Shao, Gaurav Kolhe, Dimitry Melts, Jasmine Klar, Renee L\u2019Heureux, Matt Perry, Doug Burger, Eric Chung, Zhaoxia\u00a0(Summer) Deng, Sam Naghshineh, Jongsoo Park, and Maxim Naumov. 2023. With Shared Microexponents, A Little Shifting Goes a Long Way. In ISCA."},{"key":"e_1_3_3_2_18_2","unstructured":"DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song Ruoyu Zhang Runxin Xu Qihao Zhu Shirong Ma Peiyi Wang Xiao Bi Xiaokang Zhang Xingkai Yu Yu Wu Z.\u00a0F. Wu Zhibin Gou Zhihong Shao Zhuoshu Li Ziyi Gao Aixin Liu Bing Xue Bingxuan Wang Bochao Wu Bei Feng Chengda Lu Chenggang Zhao Chengqi Deng Chenyu Zhang Chong Ruan Damai Dai Deli Chen Dongjie Ji Erhang Li Fangyun Lin Fucong Dai Fuli Luo Guangbo Hao Guanting Chen Guowei Li H. Zhang Han Bao Hanwei Xu Haocheng Wang Honghui Ding Huajian Xin Huazuo Gao Hui Qu Hui Li Jianzhong Guo Jiashi Li Jiawei Wang Jingchang Chen Jingyang Yuan Junjie Qiu Junlong Li J.\u00a0L. Cai Jiaqi Ni Jian Liang Jin Chen Kai Dong Kai Hu Kaige Gao Kang Guan Kexin Huang Kuai Yu Lean Wang Lecong Zhang Liang Zhao Litong Wang Liyue Zhang Lei Xu Leyi Xia Mingchuan Zhang Minghua Zhang Minghui Tang Meng Li Miaojun Wang Mingming Li Ning Tian Panpan Huang Peng Zhang Qiancheng Wang Qinyu Chen Qiushi Du Ruiqi Ge Ruisong Zhang Ruizhe Pan Runji Wang R.\u00a0J. Chen R.\u00a0L. Jin Ruyi Chen Shanghao Lu Shangyan Zhou Shanhuang Chen Shengfeng Ye Shiyu Wang Shuiping Yu Shunfeng Zhou Shuting Pan S.\u00a0S. Li Shuang Zhou Shaoqing Wu Shengfeng Ye Tao Yun Tian Pei Tianyu Sun T. Wang Wangding Zeng Wanjia Zhao Wen Liu Wenfeng Liang Wenjun Gao Wenqin Yu Wentao Zhang W.\u00a0L. Xiao Wei An Xiaodong Liu Xiaohan Wang Xiaokang Chen Xiaotao Nie Xin Cheng Xin Liu Xin Xie Xingchao Liu Xinyu Yang Xinyuan Li Xuecheng Su Xuheng Lin X.\u00a0Q. Li Xiangyue Jin Xiaojin Shen Xiaosha Chen Xiaowen Sun Xiaoxiang Wang Xinnan Song Xinyi Zhou Xianzu Wang Xinxia Shan Y.\u00a0K. Li Y.\u00a0Q. Wang Y.\u00a0X. Wei Yang Zhang Yanhong Xu Yao Li Yao Zhao Yaofeng Sun Yaohui Wang Yi Yu Yichao Zhang Yifan Shi Yiliang Xiong Ying He Yishi Piao Yisong Wang Yixuan Tan Yiyang Ma Yiyuan Liu Yongqiang Guo Yuan Ou Yuduan Wang Yue Gong Yuheng Zou Yujia He Yunfan Xiong Yuxiang Luo Yuxiang You Yuxuan Liu Yuyang Zhou Y.\u00a0X. Zhu Yanhong Xu Yanping Huang Yaohui Li Yi Zheng Yuchen Zhu Yunxian Ma Ying Tang Yukun Zha Yuting Yan Z.\u00a0Z. Ren Zehui Ren Zhangli Sha Zhe Fu Zhean Xu Zhenda Xie Zhengyan Zhang Zhewen Hao Zhicheng Ma Zhigang Yan Zhiyu Wu Zihui Gu Zijia Zhu Zijun Liu Zilin Li Ziwei Xie Ziyang Song Zizheng Pan Zhen Huang Zhipeng Xu Zhongyu Zhang and Zhen Zhang. 2025. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. https:\/\/arxiv.org\/abs\/2501.12948"},{"key":"e_1_3_3_2_19_2","volume-title":"ACL","author":"Devlin Jacob","year":"2019","unstructured":"Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In ACL."},{"key":"e_1_3_3_2_20_2","unstructured":"Shichen Dong Wen Cheng Jiayu Qin and Wei Wang. 2024. QAQ: Quality Adaptive Quantization for LLM KV Cache. https:\/\/arxiv.org\/abs\/2403.04643"},{"key":"e_1_3_3_2_21_2","volume-title":"ICLR","author":"Dong Xin","year":"2025","unstructured":"Xin Dong, Yonggan Fu, Shizhe Diao, Wonmin Byeon, ZIJIA CHEN, Ameya\u00a0Sunil Mahabaleshwarkar, Shih-Yang Liu, Matthijs\u00a0Van keirsbilck, Min-Hung Chen, Yoshi Suhara, Yingyan\u00a0Celine Lin, Jan Kautz, and Pavlo Molchanov. 2025. Hymba: A Hybrid-head Architecture for Small Language Models. In ICLR."},{"key":"e_1_3_3_2_22_2","volume-title":"ICLR","author":"Fu Daniel\u00a0Y.","year":"2023","unstructured":"Daniel\u00a0Y. Fu, Tri Dao, Khaled\u00a0K. Saab, Armin\u00a0W. Thomas, Atri Rudra, and Christopher R\u00e9. 2023. Hungry Hungry Hippos: Towards Language Modeling with State Space Models. In ICLR."},{"key":"e_1_3_3_2_23_2","volume-title":"COLM","author":"Gu Albert","year":"2024","unstructured":"Albert Gu and Tri Dao. 2024. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. In COLM."},{"key":"e_1_3_3_2_24_2","volume-title":"NeurIPS","author":"Gu Albert","year":"2020","unstructured":"Albert Gu, Tri Dao, Stefano Ermon, Atri Rudra, and Christopher R\u00e9. 2020. HiPPO: recurrent memory with optimal polynomial projections. In NeurIPS."},{"key":"e_1_3_3_2_25_2","volume-title":"ICLR","author":"Gu Albert","year":"2022","unstructured":"Albert Gu, Karan Goel, and Christopher R\u00e9. 2022. Efficiently Modeling Long Sequences with Structured State Spaces. In ICLR."},{"key":"e_1_3_3_2_26_2","volume-title":"NeurIPS","author":"Gu Albert","year":"2024","unstructured":"Albert Gu, Ankit Gupta, Karan Goel, and Christopher R\u00e9. 2024. On the parameterization and initialization of diagonal state space models. In NeurIPS."},{"key":"e_1_3_3_2_27_2","volume-title":"NeurIPS","author":"Gu Albert","year":"2021","unstructured":"Albert Gu, Isys Johnson, Karan Goel, Khaled\u00a0Kamal Saab, Tri Dao, Atri Rudra, and Christopher Re. 2021. Combining Recurrent, Convolutional, and Continuous-time Models with Linear State Space Layers. In NeurIPS."},{"key":"e_1_3_3_2_28_2","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO50266.2020.00040"},{"key":"e_1_3_3_2_29_2","doi-asserted-by":"publisher","DOI":"10.1145\/3620666.3651380"},{"key":"e_1_3_3_2_30_2","doi-asserted-by":"crossref","unstructured":"Nicholas\u00a0J. Higham. 1993. The Accuracy of Floating Point Summation. SIAM Journal on Scientific Computing 14 4 (1993) 783\u2013799.","DOI":"10.1137\/0914050"},{"key":"e_1_3_3_2_31_2","volume-title":"NeurIPS","author":"Hooper Coleman","year":"2024","unstructured":"Coleman Hooper, Sehoon Kim, Hiva Mohammadzadeh, Michael\u00a0W. Mahoney, Yakun\u00a0Sophia Shao, Kurt Keutzer, and Amir Gholami. 2024. KVQuant: Towards 10 Million Context Length LLM Inference with KV Cache Quantization. In NeurIPS."},{"key":"e_1_3_3_2_32_2","unstructured":"Wenjun Huang Jiakai Pan Jiahao Tang Yanyu Ding Yifei Xing Yuhe Wang Zhengzhuo Wang and Jianguo Hu. 2024. ML-Mamba: Efficient Multi-Modal Large Language Model Utilizing Mamba-2. https:\/\/arxiv.org\/abs\/2407.19832"},{"key":"e_1_3_3_2_33_2","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA57654.2024.00029"},{"key":"e_1_3_3_2_34_2","unstructured":"Hao Kang Qingru Zhang Souvik Kundu Geonhwa Jeong Zaoxing Liu Tushar Krishna and Tuo Zhao. 2024. GEAR: An Efficient KV Cache Compression Recipe for Near-Lossless Generative Inference of LLM. https:\/\/arxiv.org\/abs\/2403.05527"},{"key":"e_1_3_3_2_35_2","unstructured":"Jared Kaplan Sam McCandlish Tom Henighan Tom\u00a0B. Brown Benjamin Chess Rewon Child Scott Gray Alec Radford Jeffrey Wu and Dario Amodei. 2020. Scaling Laws for Neural Language Models. https:\/\/arxiv.org\/abs\/2001.08361"},{"key":"e_1_3_3_2_36_2","volume-title":"ICML","author":"Katharopoulos Angelos","year":"2020","unstructured":"Angelos Katharopoulos, Apoorv Vyas, Nikolaos Pappas, and Fran\u00e7ois Fleuret. 2020. Transformers are RNNs: Fast Autoregressive Transformers with Linear Attention. In ICML."},{"key":"e_1_3_3_2_37_2","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA51647.2021.00030"},{"key":"e_1_3_3_2_38_2","volume-title":"ISCA","author":"Kim Yoonsung","year":"2024","unstructured":"Yoonsung Kim, Changhun Oh, Jinwoo Hwang, Wonung Kim, Seongryong Oh, Yubin Lee, Hardik Sharma, Amir Yazdanbakhsh, and Jongse Park. 2024. DACAPO: Accelerating Continuous Learning in Autonomous Systems for Video Analytics. In ISCA."},{"key":"e_1_3_3_2_39_2","doi-asserted-by":"publisher","DOI":"10.1145\/3600006.3613165"},{"key":"e_1_3_3_2_40_2","volume-title":"ICLR","author":"Lan Tian","year":"2023","unstructured":"Tian Lan, Deng Cai, Yan Wang, Heyan Huang, and Xian-Ling Mao. 2023. Copy is All You Need. In ICLR."},{"key":"e_1_3_3_2_41_2","volume-title":"ISCA","author":"Lee Sukhan","year":"2021","unstructured":"Sukhan Lee, Shin-haeng Kang, Jaehoon Lee, Hyeonsu Kim, Eojin Lee, Seungwoo Seo, Hosang Yoon, Seungwon Lee, Kyounghwan Lim, Hyunsung Shin, Jinhyun Kim, O Seongil, Anand Iyer, David Wang, Kyomin Sohn, and Nam\u00a0Sung Kim. 2021. Hardware Architecture and Software Stack for PIM Based on Commercial DRAM Technology : Industrial Product. In ISCA."},{"key":"e_1_3_3_2_42_2","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO61859.2024.00106"},{"key":"e_1_3_3_2_43_2","volume-title":"NeurIPS","author":"Lewis Patrick","year":"2020","unstructured":"Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich K\u00fcttler, Mike Lewis, Wen-tau Yih, Tim Rockt\u00e4schel, Sebastian Riedel, and Douwe Kiela. 2020. Retrieval-augmented generation for knowledge-intensive NLP tasks. In NeurIPS."},{"key":"e_1_3_3_2_44_2","volume-title":"ICCAD","author":"Li Jinhao","year":"2025","unstructured":"Jinhao Li, Shan Huang, Jiaming Xu, Jun Liu, Li Ding, Ningyi Xu, and Guohao Dai. 2025. MARCA: Mamba Accelerator with Reconfigurable Architecture. In ICCAD."},{"key":"e_1_3_3_2_45_2","doi-asserted-by":"crossref","unstructured":"Haocong Luo Yahya\u00a0Can Tu\u011frul F.\u00a0Nisa Bostanc\u0131 Ataberk Olgun A.\u00a0Giray Ya\u011fl\u0131k\u00e7\u0131 and Onur Mutlu. 2024. Ramulator 2.0: A Modern Modular and Extensible DRAM Simulator. IEEE Computer Architecture Letters 23 1 (2024) 112\u2013116.","DOI":"10.1109\/LCA.2023.3333759"},{"key":"e_1_3_3_2_46_2","volume-title":"ICLR","author":"Merity Stephen","year":"2017","unstructured":"Stephen Merity, Caiming Xiong, James Bradbury, and Richard Socher. 2017. Pointer Sentinel Mixture Models. In ICLR."},{"key":"e_1_3_3_2_47_2","volume-title":"ICLR","author":"Micikevicius Paulius","year":"2018","unstructured":"Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, and Hao Wu. 2018. Mixed Precision Training. In ICLR."},{"key":"e_1_3_3_2_48_2","unstructured":"Mistral. [n. d.]. Codestral Mamba. https:\/\/mistral.ai\/news\/codestral-mamba."},{"key":"e_1_3_3_2_49_2","unstructured":"MosaicML NLP Team.[n. d.]. MPT-30B. https:\/\/huggingface.co\/mosaicml\/mpt-30b."},{"key":"e_1_3_3_2_50_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.emnlp-main.1025"},{"key":"e_1_3_3_2_51_2","unstructured":"Nvidia. [n. d.]. Megatron-LM. https:\/\/github.com\/NVIDIA\/Megatron-LM."},{"key":"e_1_3_3_2_52_2","unstructured":"NVIDIA. [n. d.]. Nemotron-H: A Family of Accurate Efficient Hybrid Mamba-Transformer Models. https:\/\/research.nvidia.com\/labs\/adlr\/nemotronh\/."},{"key":"e_1_3_3_2_53_2","doi-asserted-by":"publisher","DOI":"10.1145\/3123939.3124545"},{"key":"e_1_3_3_2_54_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P16-1144"},{"key":"e_1_3_3_2_55_2","doi-asserted-by":"publisher","DOI":"10.1145\/3620665.3640422"},{"key":"e_1_3_3_2_56_2","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA57654.2024.00078"},{"key":"e_1_3_3_2_57_2","unstructured":"PCMag. [n. d.]. Zuckerberg\u2019s Meta Is Spending Billions to Buy 350 000 Nvidia H100 GPUs. https:\/\/www.pcmag.com\/news\/zuckerbergs-meta-is-spending-billions-to-buy-350000-nvidia-h100-gpus."},{"key":"e_1_3_3_2_58_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.936"},{"key":"e_1_3_3_2_59_2","volume-title":"COLM","author":"Peng Bo","year":"2024","unstructured":"Bo Peng, Daniel Goldstein, Quentin\u00a0Gregory Anthony, Alon Albalak, Eric Alcaide, Stella Biderman, Eugene Cheah, Teddy Ferdinan, Kranthi\u00a0Kiran GV, Haowen Hou, Satyapriya Krishna, Ronald\u00a0McClelland Jr., Niklas Muennighoff, Fares Obeid, Atsushi Saito, Guangyu Song, Haoqin Tu, Ruichong Zhang, Bingchen Zhao, Qihang Zhao, Jian Zhu, and Rui-Jie Zhu. 2024. Eagle and Finch: RWKV with Matrix-Valued States and Dynamic Recurrence. In COLM."},{"key":"e_1_3_3_2_60_2","volume-title":"ICML","author":"Poli Michael","year":"2023","unstructured":"Michael Poli, Stefano Massaroli, Eric Nguyen, Daniel\u00a0Y. Fu, Tri Dao, Stephen Baccus, Yoshua Bengio, Stefano Ermon, and Christopher R\u00e9. 2023. Hyena hierarchy: towards larger convolutional language models. In ICML."},{"key":"e_1_3_3_2_61_2","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA53966.2022.00067"},{"key":"e_1_3_3_2_62_2","volume-title":"COLM","author":"Qin Zhen","year":"2024","unstructured":"Zhen Qin, Songlin Yang, Weixuan Sun, Xuyang Shen, Dong Li, Weigao Sun, and Yiran Zhong. 2024. HGRN2: Gated Linear RNNs with State Expansion. In COLM."},{"key":"e_1_3_3_2_63_2","volume-title":"ICLR","author":"Ren Liliang","year":"2025","unstructured":"Liliang Ren, Yang Liu, Yadong Lu, yelong shen, Chen Liang, and Weizhu Chen. 2025. Samba: Simple Hybrid State Space Models for Efficient Unlimited Context Language Modeling. In ICLR."},{"key":"e_1_3_3_2_64_2","unstructured":"Grand\u00a0View Research. [n. d.]. Large Language Model Market Trends. https:\/\/www.grandviewresearch.com\/industry-analysis\/large- language-model-llm-market-report"},{"key":"e_1_3_3_2_65_2","doi-asserted-by":"crossref","unstructured":"Keisuke Sakaguchi Ronan\u00a0Le Bras Chandra Bhagavatula and Yejin Choi. 2021. Winogrande: An adversarial winograd schema challenge at scale. Commun. ACM 64 9 (2021) 99\u2013106.","DOI":"10.1145\/3474381"},{"key":"e_1_3_3_2_66_2","doi-asserted-by":"publisher","DOI":"10.1109\/ISCAS51556.2021.9401196"},{"key":"e_1_3_3_2_67_2","volume-title":"NeurIPS","author":"Schick Timo","year":"2023","unstructured":"Timo Schick, Jane Dwivedi-Yu, Roberto Dessi, Roberta Raileanu, Maria Lomeli, Eric Hambro, Luke Zettlemoyer, Nicola Cancedda, and Thomas Scialom. 2023. Toolformer: Language Models Can Teach Themselves to Use Tools. In NeurIPS."},{"key":"e_1_3_3_2_68_2","doi-asserted-by":"publisher","DOI":"10.1145\/3620666.3651324"},{"key":"e_1_3_3_2_69_2","volume-title":"ICLR","author":"Snell Charlie\u00a0Victor","year":"2025","unstructured":"Charlie\u00a0Victor Snell, Jaehoon Lee, Kelvin Xu, and Aviral Kumar. 2025. Scaling LLM Test-Time Compute Optimally Can be More Effective than Scaling Parameters for Reasoning. In ICLR."},{"key":"e_1_3_3_2_70_2","doi-asserted-by":"publisher","DOI":"10.1109\/MSE.2007.44"},{"key":"e_1_3_3_2_71_2","unstructured":"Yutao Sun Li Dong Shaohan Huang Shuming Ma Yuqing Xia Jilong Xue Jianyong Wang and Furu Wei. 2023. Retentive Network: A Successor to Transformer for Large Language Models. https:\/\/arxiv.org\/abs\/2307.08621"},{"key":"e_1_3_3_2_72_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.findings-acl.551"},{"key":"e_1_3_3_2_73_2","unstructured":"Terry Tolentino. 2024. Large language models: The Complete Guide for 2024."},{"key":"e_1_3_3_2_74_2","unstructured":"Hugo Touvron Louis Martin Kevin Stone Peter Albert Amjad Almahairi Yasmine Babaei Nikolay Bashlykov Soumya Batra Prajjwal Bhargava Shruti Bhosale Dan Bikel Lukas Blecher Cristian\u00a0Canton Ferrer Moya Chen Guillem Cucurull David Esiobu Jude Fernandes Jeremy Fu Wenyin Fu Brian Fuller Cynthia Gao Vedanuj Goswami Naman Goyal Anthony Hartshorn Saghar Hosseini Rui Hou Hakan Inan Marcin Kardas Viktor Kerkez Madian Khabsa Isabel Kloumann Artem Korenev Punit\u00a0Singh Koura Marie-Anne Lachaux Thibaut Lavril Jenya Lee Diana Liskovich Yinghai Lu Yuning Mao Xavier Martinet Todor Mihaylov Pushkar Mishra Igor Molybog Yixin Nie Andrew Poulton Jeremy Reizenstein Rashi Rungta Kalyan Saladi Alan Schelten Ruan Silva Eric\u00a0Michael Smith Ranjan Subramanian Xiaoqing\u00a0Ellen Tan Binh Tang Ross Taylor Adina Williams Jian\u00a0Xiang Kuan Puxin Xu Zheng Yan Iliyan Zarov Yuchen Zhang Angela Fan Melanie Kambadur Sharan Narang Aurelien Rodriguez Robert Stojnic Sergey Edunov and Thomas Scialom. 2023. Llama 2: Open Foundation and Fine-Tuned Chat Models. https:\/\/arxiv.org\/abs\/2307.09288"},{"key":"e_1_3_3_2_75_2","volume-title":"NeurIPS","author":"Vaswani Ashish","year":"2017","unstructured":"Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan\u00a0N. Gomez, \u0141ukasz Kaiser, and Illia Polosukhin. 2017. Attention is all you need. In NeurIPS."},{"key":"e_1_3_3_2_76_2","unstructured":"Roger Waleffe Wonmin Byeon Duncan Riach Brandon Norick Vijay Korthikanti Tri Dao Albert Gu Ali Hatamizadeh Sudhakar Singh Deepak Narayanan Garvit Kulshreshtha Vartika Singh Jared Casper Jan Kautz Mohammad Shoeybi and Bryan Catanzaro. 2024. An Empirical Study of Mamba-based Language Models. https:\/\/arxiv.org\/abs\/2406.07887"},{"key":"e_1_3_3_2_77_2","volume-title":"NeurIPS","author":"Wang Naigang","year":"2018","unstructured":"Naigang Wang, Jungwook Choi, Daniel Brand, Chia-Yu Chen, and Kailash Gopalakrishnan. 2018. Training deep neural networks with 8-bit floating point numbers. In NeurIPS."},{"key":"e_1_3_3_2_78_2","volume-title":"ICML","author":"Xiao Guangxuan","year":"2023","unstructured":"Guangxuan Xiao, Ji Lin, Mickael Seznec, Hao Wu, Julien Demouth, and Song Han. 2023. Smoothquant: Accurate and efficient post-training quantization for large language models. In ICML."},{"key":"e_1_3_3_2_79_2","volume-title":"ICLR","author":"Xu Zukang","year":"2025","unstructured":"Zukang Xu, Yuxuan Yue, Xing Hu, Dawei Yang, Zhihang Yuan, Zixu Jiang, Zhixuan Chen, JiangyongYu, XUCHEN, and Sifan Zhou. 2025. MambaQuant: Quantizing the Mamba Family with Variance Aligned Rotation Methods. In ICLR."},{"key":"e_1_3_3_2_80_2","unstructured":"June\u00a0Yong Yang Byeongwook Kim Jeongin Bae Beomseok Kwon Gunho Park Eunho Yang Se\u00a0Jung Kwon and Dongsoo Lee. 2024. No Token Left Behind: Reliable KV Cache Compression via Importance-Aware Mixed Precision Quantization. https:\/\/arxiv.org\/abs\/2402.18096"},{"key":"e_1_3_3_2_81_2","volume-title":"ICML","author":"Yang Songlin","year":"2024","unstructured":"Songlin Yang, Bailin Wang, Yikang Shen, Rameswar Panda, and Yoon Kim. 2024. Gated Linear Attention Transformers with Hardware-Efficient Training. In ICML."},{"key":"e_1_3_3_2_82_2","volume-title":"ICML","author":"Yang Yiran Ding and Li Lyna Zhang and Chengruidong Zhang and Yuanyuan Xu and Ning Shang and Jiahang Xu and Fan Yang and Mao","year":"2024","unstructured":"Yiran Ding and Li Lyna Zhang and Chengruidong Zhang and Yuanyuan Xu and Ning Shang and Jiahang Xu and Fan Yang and Mao Yang. 2024. LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. In ICML."},{"key":"e_1_3_3_2_83_2","unstructured":"D. Yoon T. Kim J.\u00a0W. Lee and M. Rhu. 5555. A Quantitative Analysis of State Space Model-Based Large Language Model: Study of Hungry Hungry Hippos. IEEE Computer Architecture Letters01 (5555) 1\u20134."},{"key":"e_1_3_3_2_84_2","volume-title":"OSDI","author":"Yu Gyeong-In","year":"2022","unstructured":"Gyeong-In Yu, Joo\u00a0Seong Jeong, Geon-Woo Kim, Soojeong Kim, and Byung-Gon Chun. 2022. Orca: A Distributed Serving System for Transformer-Based Generative Models. In OSDI."},{"key":"e_1_3_3_2_85_2","volume-title":"ISCA","author":"Zadeh Ali\u00a0Hadi","year":"2022","unstructured":"Ali\u00a0Hadi Zadeh, Mostafa Mahmoud, Ameer Abdelhadi, and Andreas Moshovos. 2022. Mokey: enabling narrow fixed-point inference for out-of-the-box floating-point transformer models. In ISCA."},{"key":"e_1_3_3_2_86_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1472"},{"key":"e_1_3_3_2_87_2","unstructured":"Susan Zhang Stephen Roller Naman Goyal Mikel Artetxe Moya Chen Shuohui Chen Christopher Dewan Mona Diab Xian Li Xi\u00a0Victoria Lin Todor Mihaylov Myle Ott Sam Shleifer Kurt Shuster Daniel Simig Punit\u00a0Singh Koura Anjali Sridhar Tianlu Wang and Luke Zettlemoyer. 2022. OPT: Open Pre-trained Transformer Language Models. https:\/\/arxiv.org\/abs\/2205.01068"},{"key":"e_1_3_3_2_88_2","volume-title":"NeurIPS","author":"Zhang Yu","year":"2024","unstructured":"Yu Zhang, Songlin Yang, Ruijie Zhu, Yue Zhang, Leyang Cui, Yiqiao Wang, Bolun Wang, Freda Shi, Bailin Wang, Wei Bi, Peng Zhou, and Guohong Fu. 2024. Gated Slot Attention for Efficient Linear-Time Sequence Modeling. In NeurIPS."},{"key":"e_1_3_3_2_89_2","volume-title":"MLSys","author":"Zhao Yilong","year":"2024","unstructured":"Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen, and Baris Kasikci. 2024. Atom: Low-Bit Quantization for Efficient and Accurate LLM Serving. In MLSys."},{"key":"e_1_3_3_2_90_2","unstructured":"Zyphra. [n. d.]. Zamba2. https:\/\/github.com\/Zyphra\/Zamba2."}],"event":{"name":"MICRO 2025: 58th IEEE\/ACM International Symposium on Microarchitecture","location":"Seoul Korea","acronym":"MICRO 2025","sponsor":["SIGMICRO ACM Special Interest Group on Microarchitectural Research and Processing"]},"container-title":["Proceedings of the 58th IEEE\/ACM International Symposium on Microarchitecture"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3725843.3756121","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,26]],"date-time":"2026-01-26T21:46:27Z","timestamp":1769463987000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3725843.3756121"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,17]]},"references-count":89,"alternative-id":["10.1145\/3725843.3756121","10.1145\/3725843"],"URL":"https:\/\/doi.org\/10.1145\/3725843.3756121","relation":{},"subject":[],"published":{"date-parts":[[2025,10,17]]},"assertion":[{"value":"2025-10-17","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}