{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,13]],"date-time":"2025-11-13T17:23:16Z","timestamp":1763054596929,"version":"3.45.0"},"publisher-location":"New York, NY, USA","reference-count":17,"publisher":"ACM","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,13]]},"DOI":"10.1145\/3766882.3767173","type":"proceedings-article","created":{"date-parts":[[2025,10,1]],"date-time":"2025-10-01T13:55:02Z","timestamp":1759326902000},"page":"25-30","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Frontier: Simulating the Next Generation of LLM Inference Systems"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-4652-7794","authenticated-orcid":false,"given":"Yicheng","family":"Feng","sequence":"first","affiliation":[{"name":"The Chinese University of Hong Kong, Hong Kong SAR, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3785-9700","authenticated-orcid":false,"given":"Xin","family":"Tan","sequence":"additional","affiliation":[{"name":"The Chinese University of Hong Kong, Hong Kong SAR, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-6235-1577","authenticated-orcid":false,"given":"Kin Hang","family":"Sew","sequence":"additional","affiliation":[{"name":"The Chinese University of Hong Kong, Hong Kong SAR, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-0049-873X","authenticated-orcid":false,"given":"Yimin","family":"Jiang","sequence":"additional","affiliation":[{"name":"StepFun, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9113-2660","authenticated-orcid":false,"given":"Yibo","family":"Zhu","sequence":"additional","affiliation":[{"name":"StepFun, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9359-9571","authenticated-orcid":false,"given":"Hong","family":"Xu","sequence":"additional","affiliation":[{"name":"The Chinese University of Hong Kong, Hong Kong SAR, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,10,13]]},"reference":[{"key":"e_1_3_2_1_1_1","unstructured":"2024. Qwen2 Technical Report. (2024)."},{"key":"e_1_3_2_1_2_1","unstructured":"2025. Nvidia Dynamo. Website. https:\/\/github.com\/ai-dynamo\/dynamo."},{"key":"e_1_3_2_1_3_1","unstructured":"2025. Nvidia TensorRT-LLM. Website. https:\/\/github.com\/NVIDIA\/TensorRT-LLM."},{"key":"e_1_3_2_1_4_1","first-page":"351","article-title":"Vidur: A large-scale simulation framework for llm inference","volume":"6","author":"Agrawal Amey","year":"2024","unstructured":"Amey Agrawal, Nitin Kedia, Jayashree Mohan, Ashish Panwar, Nipun Kwatra, Bhargav S Gulavani, Ramachandran Ramjee, and Alexey Tumanov. 2024. Vidur: A large-scale simulation framework for llm inference. Proceedings of Machine Learning and Systems 6 (2024), 351--366.","journal-title":"Proceedings of Machine Learning and Systems"},{"key":"e_1_3_2_1_5_1","volume-title":"18th USENIX Symposium on Operating Systems Design and Implementation (OSDI 24)","author":"Agrawal Amey","year":"2024","unstructured":"Amey Agrawal, Nitin Kedia, Ashish Panwar, Jayashree Mohan, Nipun Kwatra, Bhargav Gulavani, Alexey Tumanov, and Ramachandran Ramjee. 2024. Taming {Throughput-Latency} tradeoff in {LLM} inference with {Sarathi-Serve}. In 18th USENIX Symposium on Operating Systems Design and Implementation (OSDI 24). 117--134."},{"key":"e_1_3_2_1_6_1","volume-title":"Random forests. Machine learning 45, 1","author":"Breiman Leo","year":"2001","unstructured":"Leo Breiman. 2001. Random forests. Machine learning 45, 1 (2001), 5--32."},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1109\/IISWC63097.2024.00012"},{"key":"e_1_3_2_1_8_1","unstructured":"Daya Guo Dejian Yang Haowei Zhang Junxiao Song Ruoyu Zhang Runxin Xu Qihao Zhu Shirong Ma Peiyi Wang Xiao Bi et al. 2025. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948 (2025)."},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1145\/3600006.3613165"},{"key":"e_1_3_2_1_10_1","volume-title":"2023 USENIX Annual Technical Conference (USENIX ATC 23)","author":"Li Jiamin","year":"2023","unstructured":"Jiamin Li, Yimin Jiang, Yibo Zhu, Cong Wang, and Hong Xu. 2023. Accelerating distributed {MoE} training and inference with lina. In 2023 USENIX Annual Technical Conference (USENIX ATC 23). 945--959."},{"key":"e_1_3_2_1_11_1","unstructured":"Aixin Liu Bei Feng Bing Xue Bingxuan Wang Bochao Wu Chengda Lu Chenggang Zhao Chengqi Deng Chenyu Zhang Chong Ruan et al. 2024. Deepseek-v3 technical report. arXiv preprint arXiv:2412.19437 (2024)."},{"key":"e_1_3_2_1_12_1","volume-title":"Buzz: A Pragmatic Take on Inference Disaggregation. arXiv preprint arXiv:2506.05508","author":"Mitra Tiyasa","year":"2025","unstructured":"Tiyasa Mitra, Ritika Borkar, Nidhi Bhatia, Ramon Matas, Shivam Raj, Dheevatsa Mudigere, Ritchie Zhao, Maximilian Golub, Arpan Dutta, Sailaja Madduri, et al. 2025. Beyond the Buzz: A Pragmatic Take on Inference Disaggregation. arXiv preprint arXiv:2506.05508 (2025)."},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1145\/3577193.3593704"},{"key":"e_1_3_2_1_14_1","unstructured":"StepFun Bin Wang Bojun Wang Changyi Wan Guanzhe Huang Hanpeng Hu Haonan Jia Hao Nie Mingliang Li Nuo Chen Siyu Chen Song Yuan Wuxun Xie Xiaoniu Song Xing Chen Xingping Yang Xuelin Zhang Yanbo Yu Yaoyu Wang Yibo Zhu Yimin Jiang Yu Zhou Yuanwei Lu Houyi Li Jingcheng Hu Ka Man Lo Ailin Huang Binxing Jiao Bo Li Boyu Chen Changxin Miao Chang Lou Chen Hu Chen Xu Chenfeng Yu Chengyuan Yao Daokuan Lv Dapeng Shi Deshan Sun Ding Huang Dingyuan Hu Dongqing Pang Enle Liu Fajie Zhang Fanqi Wan Gulin Yan Han Zhang Han Zhou Hanghao Wu Hangyu Guo Hanqi Chen Hanshan Zhang Hao Wu Haocheng Zhang Haolong Yan Haoran Lv Haoran Wei Hebin Zhou Heng Wang Heng Wang Hongxin Li Hongyu Zhou Hongyuan Wang Huiyong Guo Jia Wang Jiahao Gong Jialing Xie Jian Zhou Jianjian Sun Jiaoren Wu Jiaran Zhang Jiayu Liu Jie Cheng Jie Luo Jie Yan Jie Yang Jieyi Hou Jinguang Zhang Jinlan Cao Jisheng Yin Junfeng Liu Junhao Huang Junzhe Lin Kaijun Tan Kaixiang Li Kang An Kangheng Lin Kenkun Liu Lei Yang Liang Zhao Liangyu Chen Lieyu Shi Liguo Tan Lin Lin Lin Zhang Lina Chen Liwen Huang Liying Shi Longlong Gu Mei Chen Mengqiang Ren Ming Li Mingzhe Chen Na Wang Nan Wu Qi Han Qian Zhao Qiang Zhang Qianni Liu Qiaohui Chen Qiling Wu Qinglin He Qinyuan Tan Qiufeng Wang Qiuping Wu Qiuyan Liang Quan Sun Rui Li Ruihang Miao Ruosi Wan Ruyan Guo Shangwu Zhong Shaoliang Pang Shengjie Fan Shijie Shang Shilei Jiang Shiliang Yang Shiming Hao Shuli Gao Siming Huang Siqi Liu Tiancheng Cao Tianhao Cheng Tianhao Peng Wang You Wei Ji Wen Sun Wenjin Deng Wenqing He Wenzhen Zheng Xi Chen Xiangwen Kong Xianzhen Luo Xiaobo Yang Xiaojia Liu Xiaoxiao Ren Xin Han Xin Li Xin Wu Xu Zhao Yanan Wei Yang Li Yangguang Li Yangshijie Xu Yanming Xu Yaqiang Shi Yeqing Shen Yi Yang Yifei Yang Yifeng Gong Yihan Chen Yijing Yang Yinmin Zhang Yizhuang Zhou Yuanhao Ding Yuantao Fan Yuanzhen Yang Yuchu Luo Yue Peng Yufan Lu Yuhang Deng Yuhe Yin Yujie Liu Yukun Chen Yuling Zhao Yun Mou Yunlong Li Yunzhou Ju Yusheng Li Yuxiang Yang Yuxiang Zhang Yuyang Chen Zejia Weng Zhe Xie Zheng Ge Zheng Gong Zhenyi Lu Zhewei Huang Zhichao Chang Zhiguo Huang Zhirui Wang Zidong Yang Zili Wang Ziqi Wang Zixin Zhang Binxing Jiao Daxin Jiang Heung-Yeung Shum and Xiangyu Zhang. 2025. Step-3 is Large yet Affordable: Model-system Co-design for Cost-effective Decoding. arXiv:2507.19427 [cs.LG] https:\/\/arxiv.org\/abs\/2507.19427"},{"key":"e_1_3_2_1_15_1","volume-title":"Jeff Huang, Cody Hao Yu, Shiyi Cao, Christos Kozyrakis, Ion Stoica, Joseph E Gonzalez, et al.","author":"Zheng Lianmin","year":"2024","unstructured":"Lianmin Zheng, Liangsheng Yin, Zhiqiang Xie, Chuyue Livia Sun, Jeff Huang, Cody Hao Yu, Shiyi Cao, Christos Kozyrakis, Ion Stoica, Joseph E Gonzalez, et al. 2024. Sglang: Efficient execution of structured language model programs. Advances in neural information processing systems 37 (2024), 62557--62583."},{"key":"e_1_3_2_1_16_1","volume-title":"18th USENIX Symposium on Operating Systems Design and Implementation (OSDI 24)","author":"Zhong Yinmin","year":"2024","unstructured":"Yinmin Zhong, Shengyu Liu, Junda Chen, Jianbo Hu, Yibo Zhu, Xuanzhe Liu, Xin Jin, and Hao Zhang. 2024. {DistServe}: Disaggregating prefill and decoding for goodput-optimized large language model serving. In 18th USENIX Symposium on Operating Systems Design and Implementation (OSDI 24). 193--210."},{"key":"e_1_3_2_1_17_1","unstructured":"Ruidong Zhu Ziheng Jiang Chao Jin Peng Wu Cesar A Stuardo Dongyang Wang Xinlei Zhang Huaping Zhou Haoran Wei Yang Cheng et al. 2025. MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism. arXiv preprint arXiv:2504.02263 (2025)."}],"event":{"name":"SOSP '25: ACM SIGOPS 31st Symposium on Operating Systems Principles","sponsor":["SIGOPS ACM Special Interest Group on Operating Systems"],"location":"Seoul Republic of Korea","acronym":"SOSP '25"},"container-title":["Proceedings of the 4th Workshop on Practical Adoption Challenges of ML for Systems"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3766882.3767173","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,13]],"date-time":"2025-11-13T17:19:24Z","timestamp":1763054364000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3766882.3767173"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,13]]},"references-count":17,"alternative-id":["10.1145\/3766882.3767173","10.1145\/3766882"],"URL":"https:\/\/doi.org\/10.1145\/3766882.3767173","relation":{},"subject":[],"published":{"date-parts":[[2025,10,13]]},"assertion":[{"value":"2025-10-13","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}