{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,19]],"date-time":"2026-05-19T07:19:20Z","timestamp":1779175160307,"version":"3.51.4"},"publisher-location":"New York, NY, USA","reference-count":70,"publisher":"ACM","funder":[{"name":"Hong Kong Research Grants Council","award":["152043\/23E"],"award-info":[{"award-number":["152043\/23E"]}]},{"name":"Ministry of Education, Singapore","award":["MOE-T2EP20121-0002"],"award-info":[{"award-number":["MOE-T2EP20121-0002"]}]},{"name":"National Science Foundation of China","award":["62422206, 62402420"],"award-info":[{"award-number":["62422206, 62402420"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,6,22]]},"DOI":"10.1145\/3722212.3724428","type":"proceedings-article","created":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T09:00:26Z","timestamp":1750150826000},"page":"364-377","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":3,"title":["AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0003-9487-1455","authenticated-orcid":false,"given":"Yangshen","family":"Deng","sequence":"first","affiliation":[{"name":"AlayaDB AI, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6152-3513","authenticated-orcid":false,"given":"Zhengxin","family":"You","sequence":"additional","affiliation":[{"name":"SUSTech, Shenzhen, China and AlayaDB AI, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-6357-3049","authenticated-orcid":false,"given":"Long","family":"Xiang","sequence":"additional","affiliation":[{"name":"SUSTech, Shenzhen, China and AlayaDB AI, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-0560-1549","authenticated-orcid":false,"given":"Qilong","family":"Li","sequence":"additional","affiliation":[{"name":"AlayaDB AI, Shenzhen, China and SUSTech, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-5419-1022","authenticated-orcid":false,"given":"Peiqi","family":"Yuan","sequence":"additional","affiliation":[{"name":"AlayaDB AI, Shenzhen, China and SUSTech, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-1798-8770","authenticated-orcid":false,"given":"Zhaoyang","family":"Hong","sequence":"additional","affiliation":[{"name":"AlayaDB AI, Shenzhen, China and SUSTech, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-8728-7926","authenticated-orcid":false,"given":"Yitao","family":"Zheng","sequence":"additional","affiliation":[{"name":"AlayaDB AI, Shenzhen, China and SUSTech, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-2468-7649","authenticated-orcid":false,"given":"Wanting","family":"Li","sequence":"additional","affiliation":[{"name":"AlayaDB AI, Shenzhen, China and SUSTech, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7245-6873","authenticated-orcid":false,"given":"Runzhong","family":"Li","sequence":"additional","affiliation":[{"name":"AlayaDB AI, Shenzhen, China and SUSTech, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8784-8711","authenticated-orcid":false,"given":"Haotian","family":"Liu","sequence":"additional","affiliation":[{"name":"AlayaDB AI, Shenzhen, China and SUSTech, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8835-430X","authenticated-orcid":false,"given":"Kyriakos","family":"Mouratidis","sequence":"additional","affiliation":[{"name":"Singapore Management University, Singapore, Singapore"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9619-4924","authenticated-orcid":false,"given":"Man Lung","family":"Yiu","sequence":"additional","affiliation":[{"name":"The Hong Kong Polytechnic University, Hong Kong, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0084-1662","authenticated-orcid":false,"given":"Huan","family":"Li","sequence":"additional","affiliation":[{"name":"Zhejiang University, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6510-0964","authenticated-orcid":false,"given":"Qiaomu","family":"Shen","sequence":"additional","affiliation":[{"name":"Beijing Institute of Technology, Zhuhai, Zhuhai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3645-5520","authenticated-orcid":false,"given":"Rui","family":"Mao","sequence":"additional","affiliation":[{"name":"Shenzhen University, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8424-0092","authenticated-orcid":false,"given":"Bo","family":"Tang","sequence":"additional","affiliation":[{"name":"SUSTech, Shenzhen, China and AlayaDB AI, Shenzhen, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,6,22]]},"reference":[{"key":"e_1_3_2_1_1_1","unstructured":"2024. AlloyDB AI. https:\/\/cloud.google.com\/alloydb\/ai"},{"key":"e_1_3_2_1_2_1","unstructured":"2024. Amazon Kendra. https:\/\/aws.amazon.com\/cn\/kendra"},{"key":"e_1_3_2_1_3_1","unstructured":"2024. Bing. https:\/\/www.microsoft.com\/en-us\/bing\/apis\/llm"},{"key":"e_1_3_2_1_4_1","unstructured":"2024. ChatGPT. https:\/\/chatgpt.com"},{"key":"e_1_3_2_1_5_1","unstructured":"2024. Cursor. https:\/\/www.cursor.com"},{"key":"e_1_3_2_1_6_1","unstructured":"2024. Deepseek. https:\/\/chat.deepseek.com"},{"key":"e_1_3_2_1_7_1","unstructured":"2024. Deepseek Coder. https:\/\/chat.deepseek.com\/coder"},{"key":"e_1_3_2_1_8_1","unstructured":"2024. Explainpaper. https:\/\/www.explainpaper.com\/"},{"key":"e_1_3_2_1_9_1","unstructured":"2024. Gemini. https:\/\/gemini.google.com"},{"key":"e_1_3_2_1_10_1","unstructured":"2024. Generative AI in Search: Let Google do the searching for you. https:\/\/blog.google\/products\/search\/generative-ai-google-search-may-2024"},{"key":"e_1_3_2_1_11_1","unstructured":"2024. Github Copilot. https:\/\/github.com\/features\/copilot"},{"key":"e_1_3_2_1_12_1","unstructured":"2024. Gradient AI. Llama-3--8b-instruct-262k. https:\/\/huggingface.co\/gradientai\/ Llama-3--8B-Instruct-262k"},{"key":"e_1_3_2_1_13_1","unstructured":"2024. Gradient AI. Llama-3--8B-Instruct-Gradient-1048k. https:\/\/huggingface.co\/ gradientai\/Llama-3--8B-Instruct-Gradient-1048k"},{"key":"e_1_3_2_1_14_1","unstructured":"2024. Kimi. https:\/\/kimi.moonshot.cn"},{"key":"e_1_3_2_1_15_1","unstructured":"2024. LMCache. https:\/\/lmcache.ai\/"},{"key":"e_1_3_2_1_16_1","unstructured":"2024. NVIDIA cuVS. https:\/\/github.com\/rapidsai\/cuvs"},{"key":"e_1_3_2_1_17_1","unstructured":"2024. Perplexity AI. https:\/\/www.perplexity.ai"},{"key":"e_1_3_2_1_18_1","unstructured":"2024. Pinecone. http:\/\/pinecone.io"},{"key":"e_1_3_2_1_19_1","unstructured":"2024. weaviate: The AI-native database for a new generation of software. http:\/\/weaviate.io"},{"key":"e_1_3_2_1_20_1","volume-title":"Yi: Open Foundation Models by 01.AI. arXiv:2403.04652 [cs.CL]","author":"AI","year":"2025","unstructured":"01. AI, :, Alex Young, Bei Chen, Chao Li, Chengen Huang, Ge Zhang, Guanwei Zhang, Guoyin Wang, Heng Li, Jiangcheng Zhu, Jianqun Chen, Jing Chang, Kaidong Yu, Peng Liu, Qiang Liu, Shawn Yue, Senbin Yang, Shiming Yang, Wen Xie, Wenhao Huang, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Pengcheng Nie, Yanpeng Li, Yuchi Xu, Yudong Liu, Yue Wang, Yuxuan Cai, Zhenyu Gu, Zhiyuan Liu, and Zonghong Dai. 2025. Yi: Open Foundation Models by 01.AI. arXiv:2403.04652 [cs.CL]"},{"key":"e_1_3_2_1_21_1","doi-asserted-by":"publisher","DOI":"10.1145\/320455.320457"},{"key":"e_1_3_2_1_22_1","unstructured":"Saleem Ayesha. 2023. LLM for Lawyers Enrich Your Precedents with the Use of AI. In Data Science Dojo. https:\/\/datasciencedojo.com\/blog\/llm-for-lawyers\/"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"crossref","unstructured":"Yushi Bai Xin Lv Jiajie Zhang Hongchang Lyu Jiankai Tang Zhidian Huang Zhengxiao Du Xiao Liu Aohan Zeng Lei Hou Yuxiao Dong Jie Tang and Juanzi Li. 2024. LongBench: A Bilingual Multitask Benchmark for Long Context Understanding. In ACL. 3119--3137.","DOI":"10.18653\/v1\/2024.acl-long.172"},{"key":"e_1_3_2_1_24_1","volume-title":"Man Lung Yiu, and Bo Tang","author":"Bian Zheng","year":"2024","unstructured":"Zheng Bian, Xiao Yan, Jiahao Zhang, Man Lung Yiu, and Bo Tang. 2024. QSRP: Efficient Reverse k-Ranks Query Processing on High-Dimensional Embeddings. In ICDE. 4614--4627."},{"key":"e_1_3_2_1_25_1","unstructured":"Zheng Cai Maosong Cao Haojiong Chen Kai Chen Keyu Chen Xin Chen Xun Chen Zehui Chen Zhi Chen Pei Chu Xiaoyi Dong Haodong Duan Qi Fan Zhaoye Fei Yang Gao Jiaye Ge Chenya Gu Yuzhe Gu Tao Gui Aijia Guo Qipeng Guo Conghui He Yingfan Hu Ting Huang Tao Jiang Penglong Jiao Zhenjiang Jin Zhikai Lei Jiaxing Li Jingwen Li Linyang Li Shuaibin Li Wei Li Yining Li Hongwei Liu Jiangning Liu Jiawei Hong Kaiwen Liu Kuikun Liu Xiaoran Liu Chengqi Lv Haijun Lv Kai Lv Li Ma Runyuan Ma Zerun Ma Wenchang Ning Linke Ouyang Jiantao Qiu Yuan Qu Fukai Shang Yunfan Shao Demin Song Zifan Song Zhihao Sui Peng Sun Yu Sun Huanze Tang Bin Wang Guoteng Wang Jiaqi Wang Jiayu Wang Rui Wang Yudong Wang Ziyi Wang Xingjian Wei Qizhen Weng Fan Wu Yingtong Xiong Chao Xu Ruiliang Xu Hang Yan Yirong Yan Xiaogui Yang Haochen Ye Huaiyuan Ying Jia Yu Jing Yu Yuhang Zang Chuyu Zhang Li Zhang Pan Zhang Peng Zhang Ruijie Zhang Shuo Zhang Songyang Zhang Wenjian Zhang Wenwei Zhang Xingcheng Zhang Xinyue Zhang Hui Zhao Qian Zhao Xiaomeng Zhao Fengzhe Zhou Zaida Zhou Jingming Zhuo Yicheng Zou Xipeng Qiu Yu Qiao and Dahua Lin. 2024. InternLM2 Technical Report. arXiv:2403.17297 [cs.CL]"},{"key":"e_1_3_2_1_26_1","unstructured":"Zefan Cai Yichi Zhang Bofei Gao Yuliang Liu Tianyu Liu Keming Lu Wayne Xiong Yue Dong Baobao Chang Junjie Hu and Wen Xiao. 2024. PyramidKV: Dynamic KV Cache Compression based on Pyramidal Information Funneling. arXiv:2406.02069 [cs.CL]"},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.14778\/3685800.3685805"},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.14778\/3681954.3681959"},{"key":"e_1_3_2_1_29_1","unstructured":"Zhuoming Chen Ranajoy Sadhukhan Zihao Ye Yang Zhou Jianyu Zhang Niklas Nolte Yuandong Tian Matthijs Douze Leon Bottou Zhihao Jia and Beidi Chen. 2024. MagicPIG: LSH Sampling for Efficient LLM Generation. arXiv:2410.16179 [cs.CL]"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"crossref","unstructured":"Benoit Dageville Thierry Cruanes Marcin Zukowski Vadim Antonov Artin Avanes Jon Bock Jonathan Claybaugh Daniel Engovatov Martin Hentschel Jiansheng Huang AllisonW. Lee Ashish Motivala Abdul Q. Munir Steven Pelley Peter Povinec Greg Rahn Spyridon Triantafyllis and Philipp Unterbrunner. 2016. The Snowflake Elastic Data Warehouse. In SIGMOD. 215--226.","DOI":"10.1145\/2882903.2903741"},{"key":"e_1_3_2_1_31_1","unstructured":"Tri Dao. 2024. FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning. In ICLR."},{"key":"e_1_3_2_1_32_1","unstructured":"Tri Dao Daniel Y. Fu Stefano Ermon Atri Rudra and Christopher R\u00e9. 2022. FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. In NIPS."},{"key":"e_1_3_2_1_33_1","unstructured":"Gunika Dhingra. 2023. LLMs in Finance: BloombergGPT and FinGPT - What You Need to Know. https:\/\/12gunika.medium.com\/llms-in-finance-bloomberggptand- fingpt-what-you-need-to-know-2fdf3af29217"},{"key":"e_1_3_2_1_34_1","unstructured":"Matthijs Douze Alexandr Guzhva Chengqi Deng Jeff Johnson Gergely Szilvasy Pierre-Emmanuel Mazar\u00e9 Maria Lomeli Lucas Hosseini and Herv\u00e9 J\u00e9gou. 2025. The Faiss library. arXiv:2401.08281 [cs.LG]"},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"crossref","unstructured":"Zhiwei Fei Xiaoyu Shen Dawei Zhu Fengzhe Zhou Zhuo Han Alan Huang Songyang Zhang Kai Chen Zhixin Yin Zongwen Shen Jidong Ge and Vincent Ng. 2024. LawBench: Benchmarking Legal Knowledge of Large Language Models. In EMNLP. 7933--7962.","DOI":"10.18653\/v1\/2024.emnlp-main.452"},{"key":"e_1_3_2_1_36_1","unstructured":"Yuan Feng Junlin Lv Yukun Cao Xike Xie and S. Kevin Zhou. 2025. Ada-KV: Optimizing KV Cache Eviction by Adaptive Budget Allocation for Efficient LLM Inference. arXiv:2407.11550 [cs.CL]"},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.14778\/3303753.3303754"},{"key":"e_1_3_2_1_38_1","volume-title":"Yu","author":"Gan Wensheng","year":"2023","unstructured":"Wensheng Gan, ShichengWan, and Philip S. Yu. 2023. Model-as-a-Service (MaaS): A Survey. In BigData. 4636--4645."},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.14778\/3554821.3554843"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.14778\/3415478.3415535"},{"key":"e_1_3_2_1_41_1","unstructured":"Binyuan Hui Jian Yang Zeyu Cui Jiaxi Yang Dayiheng Liu Lei Zhang Tianyu Liu Jiajun Zhang Bowen Yu Keming Lu Kai Dang Yang Fan Yichang Zhang An Yang Rui Men Fei Huang Bo Zheng Yibo Miao Shanghaoran Quan Yunlong Feng Xingzhang Ren Xuancheng Ren Jingren Zhou and Junyang Lin. 2024. Qwen2.5-Coder Technical Report. arXiv:2409.12186 [cs.CL]"},{"key":"e_1_3_2_1_42_1","volume-title":"Joseph Gonzalez, Hao Zhang, and Ion Stoica.","author":"Kwon Woosuk","year":"2023","unstructured":"Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph Gonzalez, Hao Zhang, and Ion Stoica. 2023. Efficient Memory Management for Large Language Model Serving with PagedAttention. In SOSP."},{"key":"e_1_3_2_1_43_1","unstructured":"Yuhong Li Yingbing Huang Bowen Yang Bharat Venkitesh Acyr Locatelli Hanchen Ye Tianle Cai Patrick Lewis and Deming Chen. 2024. SnapKV: LLM Knows What You are Looking for Before Generation. In NIPS."},{"key":"e_1_3_2_1_44_1","unstructured":"Yiming Lin Madelon Hulsebos Ruiying Ma Shreya Shankar Sepanta Zeigham Aditya G. Parameswaran and Eugene Wu. 2024. Towards Accurate and Efficient Document Analytics with Large Language Models. arXiv:2405.04674 [cs.DB]"},{"key":"e_1_3_2_1_45_1","unstructured":"Di Liu Meng Chen Baotong Lu Huiqiang Jiang Zhenhua Han Qianxi Zhang Qi Chen Chengruidong Zhang Bailu Ding Kai Zhang Chen Chen Fan Yang Yuqing Yang and Lili Qiu. 2024. RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval. arXiv:2409.10516 [cs.LG]"},{"key":"e_1_3_2_1_46_1","doi-asserted-by":"crossref","unstructured":"Yuhan Liu Hanchen Li Yihua Cheng Siddhant Ray Yuyang Huang Qizheng Zhang Kuntai Du Jiayi Yao Shan Lu Ganesh Ananthanarayanan Michael Maire Henry Hoffmann Ari Holtzman and Junchen Jiang. 2024. CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving. In SIGCOMM. 38--56.","DOI":"10.1145\/3651890.3672274"},{"key":"e_1_3_2_1_47_1","doi-asserted-by":"crossref","unstructured":"Zhenghua Lyu Huan Hubert Zhang Gang Xiong Gang Guo Haozhou Wang Jinbao Chen Asim Praveen Yu Yang Xiaoming Gao Alexandra Wang Wen Lin Ashwin Agrawal Junfeng Yang Hao Wu Xiaoliang Li Feng Guo Jiang Wu Jesse Zhang and Venkatesh Raghavan. 2021. Greenplum: A Hybrid Database for Transactional and Analytical Workloads. In SIGMOD. 2530--2542.","DOI":"10.1145\/3448016.3457562"},{"key":"e_1_3_2_1_48_1","volume-title":"Efficient and robust approximate nearest neighbor search using hierarchical navigable small world graphs","author":"Malkov Yu A","unstructured":"Yu A Malkov and Dmitry A Yashunin. 2018. Efficient and robust approximate nearest neighbor search using hierarchical navigable small world graphs. In IEEE transactions on pattern analysis and machine intelligence. 824--836."},{"key":"e_1_3_2_1_49_1","doi-asserted-by":"publisher","DOI":"10.1145\/3654923"},{"key":"e_1_3_2_1_50_1","unstructured":"Sundar Pichai and Demis Hassabis. 2024. Our next-generation model: Gemini 1.5. https:\/\/blog.google\/technology\/ai\/google-gemini-next-generation-modelfebruary-2024\/#context-window"},{"key":"e_1_3_2_1_51_1","volume-title":"Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving. arXiv:2407.00079 [cs.DC]","author":"Qin Ruoyu","year":"2024","unstructured":"Ruoyu Qin, Zheming Li, Weiran He, Mingxing Zhang, Yongwei Wu, Weimin Zheng, and Xinran Xu. 2024. Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving. arXiv:2407.00079 [cs.DC]"},{"key":"e_1_3_2_1_52_1","unstructured":"Avi Silberschatz Henry F. Korth and S. Sudarshan. 2020. Database System Concepts Seventh Edition."},{"key":"e_1_3_2_1_53_1","volume-title":"Rowe","author":"Stonebraker Michael","year":"1986","unstructured":"Michael Stonebraker and Lawrence A. Rowe. 1986. The Design of Postgres. In SIGMOD. 340--355."},{"key":"e_1_3_2_1_54_1","unstructured":"Suhas Jayaram Subramanya Devvrit Rohan Kadekodi Ravishankar Krishaswamy and Harsha Vardhan Simhadri. 2019. DiskANN: fast accurate billionpoint nearest neighbor search on a single node. In NIPS."},{"key":"e_1_3_2_1_55_1","volume-title":"QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference. In ICML.","author":"Tang Jiaming","year":"2024","unstructured":"Jiaming Tang, Yilong Zhao, Kan Zhu, Guangxuan Xiao, Baris Kasikci, and Song Han. 2024. QUEST: Query-Aware Sparsity for Efficient Long-Context LLM Inference. In ICML."},{"key":"e_1_3_2_1_56_1","unstructured":"Hugo Touvron Thibaut Lavril Gautier Izacard Xavier Martinet Marie-Anne Lachaux Timoth\u00e9e Lacroix Baptiste Rozi\u00e8re Naman Goyal Eric Hambro Faisal Azhar Aurelien Rodriguez Armand Joulin Edouard Grave and Guillaume Lample. 2023. LLaMA: Open and Efficient Foundation Language Models. arXiv:2302.13971 [cs.CL]"},{"key":"e_1_3_2_1_57_1","doi-asserted-by":"publisher","DOI":"10.1145\/3035918.3056101"},{"key":"e_1_3_2_1_58_1","doi-asserted-by":"crossref","unstructured":"Hui Wang Wan-Lei Zhao Xiangxiang Zeng and Jianye Yang. 2021. Fast k-NN Graph Construction by GPU based NN-Descent. In CIKM. 1929--1938.","DOI":"10.1145\/3459637.3482344"},{"key":"e_1_3_2_1_59_1","doi-asserted-by":"publisher","DOI":"10.1145\/3448016.3457550"},{"key":"e_1_3_2_1_60_1","doi-asserted-by":"publisher","DOI":"10.14778\/3415478.3415541"},{"key":"e_1_3_2_1_61_1","volume-title":"Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander M. Rush.","author":"Debut Lysandre","year":"2020","unstructured":"ThomasWolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, R\u00e9mi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Quentin Lhoest, and Alexander M. Rush. 2020. Transformers: State-of-the-Art Natural Language Processing. In EMNLP Demos. 38--45."},{"key":"e_1_3_2_1_62_1","volume-title":"GAIPS: Accelerating maximum inner product search with GPU. In SIGIR. 1920--1924.","author":"Xiang Long","year":"2021","unstructured":"Long Xiang, Xiao Yan, Lan Lu, and Bo Tang. 2021. GAIPS: Accelerating maximum inner product search with GPU. In SIGIR. 1920--1924."},{"key":"e_1_3_2_1_63_1","unstructured":"Chaojun Xiao Pengle Zhang Xu Han Guangxuan Xiao Yankai Lin Zhengyan Zhang Zhiyuan Liu and Maosong Sun. 2024. InfLLM: Training-Free Long- Context Extrapolation for LLMs with an Efficient Context Memory. In NIPS."},{"key":"e_1_3_2_1_64_1","unstructured":"Guangxuan Xiao Jiaming Tang Jingwei Zuo Junxian Guo Shang Yang Haotian Tang Yao Fu and Song Han. 2024. DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads. arXiv:2410.10819 [cs.CL]"},{"key":"e_1_3_2_1_65_1","unstructured":"Guangxuan Xiao Yuandong Tian Beidi Chen Song Han and Mike Lewis. 2024. Efficient Streaming Language Models with Attention Sinks. In ICLR."},{"key":"e_1_3_2_1_66_1","doi-asserted-by":"crossref","unstructured":"Hailin Zhang Xiaodong Ji Yilin Chen Fangcheng Fu Xupeng Miao Xiaonan Nie Weipeng Chen and Bin Cui. 2025. PQCache: Product Quantization-based KVCache for Long Context LLM Inference. arXiv:2407.12820 [cs.CL]","DOI":"10.1145\/3725338"},{"key":"e_1_3_2_1_67_1","doi-asserted-by":"crossref","unstructured":"Xinrong Zhang Yingfa Chen Shengding Hu Zihang Xu Junhao Chen Moo Hao Xu Han Zhen Thai Shuo Wang Zhiyuan Liu and Maosong Sun. 2024. \u221eBench: Extending Long Context Evaluation Beyond 100K Tokens. In ACL. 15262--15277.","DOI":"10.18653\/v1\/2024.acl-long.814"},{"key":"e_1_3_2_1_68_1","unstructured":"Zhenyu Zhang Ying Sheng Tianyi Zhou Tianlong Chen Lianmin Zheng Ruisi Cai Zhao Song Yuandong Tian Christopher R\u00e9 Clark W. Barrett Zhangyang Wang and Beidi Chen. 2023. H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models. In NIPS."},{"key":"e_1_3_2_1_69_1","volume-title":"Shiyi Cao, Christos Kozyrakis, Ion Stoica, Joseph E. Gonzalez, Clark W. Barrett, and Ying Sheng.","author":"Zheng Lianmin","year":"2024","unstructured":"Lianmin Zheng, Liangsheng Yin, Zhiqiang Xie, Chuyue Sun, Jeff Huang, Cody Hao Yu, Shiyi Cao, Christos Kozyrakis, Ion Stoica, Joseph E. Gonzalez, Clark W. Barrett, and Ying Sheng. 2024. SGLang: Efficient Execution of Structured Language Model Programs. In NIPS."},{"key":"e_1_3_2_1_70_1","unstructured":"Yinmin Zhong Shengyu Liu Junda Chen Jianbo Hu Yibo Zhu Xuanzhe Liu Xin Jin and Hao Zhang. 2024. DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving. In OSDI. 193--210."}],"event":{"name":"SIGMOD\/PODS '25: International Conference on Management of Data","location":"Berlin Germany","acronym":"SIGMOD\/PODS '25","sponsor":["SIGMOD ACM Special Interest Group on Management of Data"]},"container-title":["Companion of the 2025 International Conference on Management of Data"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3722212.3724428","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,10]],"date-time":"2025-09-10T22:39:43Z","timestamp":1757543983000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3722212.3724428"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6,22]]},"references-count":70,"alternative-id":["10.1145\/3722212.3724428","10.1145\/3722212"],"URL":"https:\/\/doi.org\/10.1145\/3722212.3724428","relation":{},"subject":[],"published":{"date-parts":[[2025,6,22]]},"assertion":[{"value":"2025-06-22","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}