{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,29]],"date-time":"2026-01-29T03:59:32Z","timestamp":1769659172029,"version":"3.49.0"},"publisher-location":"New York, NY, USA","reference-count":70,"publisher":"ACM","funder":[{"name":"National Key R&D Program of China","award":["2023YFB3002002"],"award-info":[{"award-number":["2023YFB3002002"]}]},{"name":"NSFC for Distinguished Young Scholar","award":["62225206"],"award-info":[{"award-number":["62225206"]}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62532006, U23A6007"],"award-info":[{"award-number":["62532006, U23A6007"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Beijing Natural Science Foundation","award":["L242017"],"award-info":[{"award-number":["L242017"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,1,28]]},"DOI":"10.1145\/3774934.3786424","type":"proceedings-article","created":{"date-parts":[[2026,1,28]],"date-time":"2026-01-28T15:25:57Z","timestamp":1769613957000},"page":"537-550","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["ChituDiffusion: A Data-Characteristic-Aware Serving System for Diffusion Models"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0007-4365-4695","authenticated-orcid":false,"given":"Chengzhang","family":"Wu","sequence":"first","affiliation":[{"name":"Tsinghua University, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7327-748X","authenticated-orcid":false,"given":"Liyan","family":"Zheng","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4605-148X","authenticated-orcid":false,"given":"Haojie","family":"Wang","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-7273-0952","authenticated-orcid":false,"given":"Kezhao","family":"Huang","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9630-7645","authenticated-orcid":false,"given":"Zixuan","family":"Ma","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2042-2123","authenticated-orcid":false,"given":"Dong","family":"Dong","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7656-6428","authenticated-orcid":false,"given":"Jidong","family":"Zhai","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2026,1,28]]},"reference":[{"key":"e_1_3_2_1_1_1","unstructured":"2023. Stable Fast. https:\/\/github.com\/chengzeyi\/stable-fast"},{"key":"e_1_3_2_1_2_1","unstructured":"(Accessed on 05\/06\/2024). Adobe firefly. https:\/\/www.adobe.com\/products\/firefly.html"},{"key":"e_1_3_2_1_3_1","unstructured":"(Accessed on 05\/06\/2024). ComfyUI community manual. https:\/\/blenderneko.github.io\/ComfyUI-docs\/Interface\/Textprompts\/#adding-random-choices"},{"key":"e_1_3_2_1_4_1","unstructured":"(Accessed on 05\/06\/2024). Stable Diffusion Dynamic Prompts extension. https:\/\/github.com\/adieyal\/sd-dynamic-prompts\/tree\/main"},{"key":"e_1_3_2_1_5_1","unstructured":"(Accessed on 05\/06\/2024). Stable Diffusion WebUI documentation. https:\/\/github.com\/AUTOMATIC1111\/stable-diffusion-webui\/wiki\/Features#prompts-from-file-or-textbox"},{"key":"e_1_3_2_1_6_1","unstructured":"(Accessed on 05\/06\/2024). Video generation models as world simulators. https:\/\/openai.com\/index\/video-generation-models-as-world-simulators\/"},{"key":"e_1_3_2_1_7_1","volume-title":"12th USENIX symposium on operating systems design and implementation (OSDI 16)","author":"Abadi Mart\u00edn","year":"2016","unstructured":"Mart\u00edn Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, et al. 2016. Tensorflow: A system for large-scale machine learning. In 12th USENIX symposium on operating systems design and implementation (OSDI 16). 265\u2013283."},{"key":"e_1_3_2_1_8_1","volume-title":"Approximate Caching for Efficiently Serving Text-to-Image Diffusion Models. In 21st USENIX Symposium on Networked Systems Design and Implementation (NSDI 24)","author":"Agarwal Shubham","year":"2024","unstructured":"Shubham Agarwal, Subrata Mitra, Sarthak Chakraborty, Srikrishna Karanam, Koyel Mukherjee, and Shiv Kumar Saini. 2024. Approximate Caching for Efficiently Serving Text-to-Image Diffusion Models. In 21st USENIX Symposium on Networked Systems Design and Implementation (NSDI 24). USENIX Association, Santa Clara, CA. 1173\u20131189. isbn:978-1-939133-39-7 https:\/\/www.usenix.org\/conference\/nsdi24\/presentation\/agarwal-shubham"},{"key":"e_1_3_2_1_9_1","volume-title":"March","author":"Stability AI.","year":"2024","unstructured":"Stability AI. [n. d.]. Stable Diffusion 3: Multimodal Diffusion with Transformer Architecture. Technical report published by Stability AI, March 2024. https:\/\/stability.ai\/news\/stable-diffusion-3-research-paper"},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1145\/249069.231409"},{"key":"e_1_3_2_1_11_1","unstructured":"Andreas Blattmann Tim Dockhorn Sumith Kulal Daniel Mendelevitch Maciej Kilian Dominik Lorenz Yam Levi Zion English Vikram Voleti Adam Letts et al. 2023. Stable video diffusion: Scaling latent video diffusion models to large datasets. arXiv preprint arXiv:2311.15127."},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.1986.4767851"},{"key":"e_1_3_2_1_13_1","volume-title":"TVM: An Automated End-to-End Optimizing Compiler for Deep Learning. In 13th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2018","author":"Chen Tianqi","year":"2018","unstructured":"Tianqi Chen, Thierry Moreau, Ziheng Jiang, Lianmin Zheng, Eddie Q. Yan, Haichen Shen, Meghan Cowan, Leyuan Wang, Yuwei Hu, Luis Ceze, Carlos Guestrin, and Arvind Krishnamurthy. 2018. TVM: An Automated End-to-End Optimizing Compiler for Deep Learning. In 13th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2018, Carlsbad, CA, USA, October 8-10, 2018, Andrea C. Arpaci-Dusseau and Geoff Voelker (Eds.). USENIX Association, 578\u2013594."},{"key":"e_1_3_2_1_14_1","volume-title":"2022 USENIX Annual Technical Conference (USENIX ATC 22)","author":"Choi Seungbeom","year":"2022","unstructured":"Seungbeom Choi, Sunho Lee, Yeonjae Kim, Jongse Park, Youngjin Kwon, and Jaehyuk Huh. 2022. Serving heterogeneous machine learning models on Multi-GPU servers with Spatio-Temporal sharing. In 2022 USENIX Annual Technical Conference (USENIX ATC 22). 199\u2013216."},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1145\/258916.258940"},{"key":"e_1_3_2_1_16_1","volume-title":"Athens","author":"\u00c7i\u00e7ek \u00d6zg\u00fcn","year":"2016","unstructured":"\u00d6zg\u00fcn \u00c7i\u00e7ek, Ahmed Abdulkadir, Soeren S Lienkamp, Thomas Brox, and Olaf Ronneberger. 2016. 3D U-Net: learning dense volumetric segmentation from sparse annotation. In Medical Image Computing and Computer-Assisted Intervention\u2013MICCAI 2016: 19th International Conference, Athens, Greece, October 17-21, 2016, Proceedings, Part II 19. 424\u2013432."},{"key":"e_1_3_2_1_17_1","unstructured":"2022. Civitai. https:\/\/github.com\/civitai\/civitai"},{"key":"e_1_3_2_1_18_1","volume-title":"14th USENIX Symposium on Networked Systems Design and Implementation (NSDI 17)","author":"Crankshaw Daniel","year":"2017","unstructured":"Daniel Crankshaw, Xin Wang, Guilio Zhou, Michael J Franklin, Joseph E Gonzalez, and Ion Stoica. 2017. Clipper: A Low-Latency online prediction serving system. In 14th USENIX Symposium on Networked Systems Design and Implementation (NSDI 17). 613\u2013627."},{"key":"e_1_3_2_1_19_1","volume-title":"DVABatch: Diversity-aware Multi-Entry Multi-Exit Batching for Efficient Processing of DNN Services on GPUs. In 2022 USENIX Annual Technical Conference. 183\u2013198","author":"Cui Weihao","year":"2022","unstructured":"Weihao Cui, Han Zhao, Quan Chen, Hao Wei, Zirui Li, Deze Zeng, Chao Li, and Minyi Guo. 2022. DVABatch: Diversity-aware Multi-Entry Multi-Exit Batching for Efficient Processing of DNN Services on GPUs. In 2022 USENIX Annual Technical Conference. 183\u2013198."},{"key":"e_1_3_2_1_20_1","unstructured":"2023. Improving Image Generation with Better Captions. https:\/\/cdn.openai.com\/papers\/dall-e-3.pdf"},{"key":"e_1_3_2_1_21_1","unstructured":"Tri Dao. 2023. Flashattention-2: Faster attention with better parallelism and work partitioning. arXiv preprint arXiv:2307.08691."},{"key":"e_1_3_2_1_22_1","unstructured":"Tri Dao Daniel Y. Fu Stefano Ermon Atri Rudra and Christopher R\u00e9. 2022. FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness. In Advances in Neural Information Processing Systems."},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1145\/3133898"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10593-2_13"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46475-6_25"},{"key":"e_1_3_2_1_26_1","first-page":"721","article-title":"The CoRa tensor compiler: Compilation for ragged tensors with minimal padding","volume":"4","author":"Fegade Pratik","year":"2022","unstructured":"Pratik Fegade, Tianqi Chen, Phillip Gibbons, and Todd Mowry. 2022. The CoRa tensor compiler: Compilation for ragged tensors with minimal padding. Proceedings of Machine Learning and Systems, 4 (2022), 721\u2013747.","journal-title":"Proceedings of Machine Learning and Systems"},{"key":"e_1_3_2_1_27_1","unstructured":"Seth Forsgren and Hayk Martiros. 2022. Riffusion - Stable diffusion for real-time music generation. https:\/\/riffusion.com\/about"},{"key":"e_1_3_2_1_28_1","unstructured":"Jonathan Ho William Chan Chitwan Saharia Jay Whang Ruiqi Gao Alexey Gritsenko Diederik P Kingma Ben Poole Mohammad Norouzi David J Fleet et al. 2022. Imagen video: High definition video generation with diffusion models. arXiv preprint arXiv:2210.02303."},{"key":"e_1_3_2_1_29_1","volume-title":"Denoising diffusion probabilistic models. Advances in neural information processing systems, 33","author":"Ho Jonathan","year":"2020","unstructured":"Jonathan Ho, Ajay Jain, and Pieter Abbeel. 2020. Denoising diffusion probabilistic models. Advances in neural information processing systems, 33 (2020), 6840\u20136851."},{"key":"e_1_3_2_1_30_1","unstructured":"Tobias H\u00f6ppe Arash Mehrjou Stefan Bauer Didrik Nielsen and Andrea Dittadi. 2022. Diffusion models for video prediction and infilling. arXiv preprint arXiv:2206.07696."},{"key":"e_1_3_2_1_31_1","volume-title":"Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685.","author":"Hu Edward J","year":"2021","unstructured":"Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. 2021. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685."},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01767"},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1145\/3600006.3613165"},{"key":"e_1_3_2_1_34_1","unstructured":"Black Forest Labs. 2024. FLUX. https:\/\/github.com\/black-forest-labs\/flux"},{"key":"e_1_3_2_1_35_1","unstructured":"Black Forest Labs Stephen Batifol Andreas Blattmann Frederic Boesel Saksham Consul Cyril Diagne Tim Dockhorn Jack English Zion English Patrick Esser Sumith Kulal Kyle Lacey Yam Levi Cheng Li Dominik Lorenz Jonas M\u00fcller Dustin Podell Robin Rombach Harry Saini Axel Sauer and Luke Smith. 2025. FLUX.1 Kontext: Flow Matching for In-Context Image Generation and Editing in Latent Space. arxiv:2506.15742. arxiv:2506.15742"},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.00686"},{"key":"e_1_3_2_1_37_1","volume-title":"Proc. USENIX ATC.","author":"Li Suyi","year":"2025","unstructured":"Suyi Li, Lingyun Yang, Xiaoxiao Jiang, Hanfeng Lu, Dakai An, Zhipeng Di, Weiyi Lu, Jiawei Chen, Kan Liu, Yinghao Yu, Tao Lan, Guodong Yang, Lin Qu, Liping Zhang, and Wei Wang. 2025. Katz: Efficient Workflow Serving for Diffusion Models with Many Adapters. In Proc. USENIX ATC."},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.1145\/3293883.3295734"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01608"},{"key":"e_1_3_2_1_40_1","unstructured":"Zhimin Li Jianwei Zhang Qin Lin Jiangfeng Xiong Yanxin Long Xinchi Deng Yingfang Zhang Xingchao Liu Minbin Huang Zedong Xiao Dayou Chen Jiajun He Jiahao Li Wenyue Li Chen Zhang Rongwei Quan Jianxiang Lu Jiabin Huang Xiaoyan Yuan Xiaoxiao Zheng Yixuan Li Jihong Zhang Chao Zhang Meng Chen Jie Liu Zheng Fang Weiyan Wang Jinbao Xue Yangyu Tao Jianchen Zhu Kai Liu Sihuan Lin Yifu Sun Yun Li Dongdong Wang Mingtao Chen Zhichao Hu Xiao Xiao Yan Chen Yuhong Liu Wei Liu Di Wang Yong Yang Jie Jiang and Qinglin Lu. 2024. Hunyuan-DiT: A Powerful Multi-Resolution Diffusion Transformer with Fine-Grained Chinese Understanding. arxiv:2405.08748."},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"publisher","DOI":"10.1145\/3503222.3507752"},{"key":"e_1_3_2_1_42_1","unstructured":"Xudong Lu Aojun Zhou Ziyi Lin Qi Liu Yuhui Xu Renrui Zhang Yafei Wen Shuai Ren Peng Gao Junchi Yan and Hongsheng Li. 2024. TerDiT: Ternary Diffusion Models with Transformers. arxiv:2405.14854."},{"key":"e_1_3_2_1_43_1","unstructured":"Gautam Mittal Jesse Engel Curtis Hawthorne and Ian Simon. 2021. Symbolic music generation with diffusion models. arXiv preprint arXiv:2103.16091."},{"key":"e_1_3_2_1_44_1","unstructured":"Shentong Mo Enze Xie Ruihang Chu Lewei Yao Lanqing Hong Matthias Nie\u00dfner and Zhenguo Li. 2023. DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation. arXiv preprint arXiv: 2307.01831."},{"key":"e_1_3_2_1_45_1","doi-asserted-by":"publisher","DOI":"10.1145\/359060.359069"},{"key":"e_1_3_2_1_46_1","doi-asserted-by":"crossref","unstructured":"William Peebles and Saining Xie. 2022. Scalable Diffusion Models with Transformers. arXiv preprint arXiv:2212.09748.","DOI":"10.1109\/ICCV51070.2023.00387"},{"key":"e_1_3_2_1_47_1","volume-title":"SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis. In The Twelfth International Conference on Learning Representations. https:\/\/openreview.net\/forum?id=di52zR8xgf","author":"Podell Dustin","year":"2024","unstructured":"Dustin Podell, Zion English, Kyle Lacey, Andreas Blattmann, Tim Dockhorn, Jonas M\u00fcller, Joe Penna, and Robin Rombach. 2024. SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis. In The Twelfth International Conference on Learning Representations. https:\/\/openreview.net\/forum?id=di52zR8xgf"},{"key":"e_1_3_2_1_48_1","unstructured":"2017. Tensors and Dynamic neural networks in Python with strong GPU acceleration.. https:\/\/pytorch.org"},{"key":"e_1_3_2_1_49_1","unstructured":"Guocheng Qian Jinjie Mai Abdullah Hamdi Jian Ren Aliaksandr Siarohin Bing Li Hsin-Ying Lee Ivan Skorokhodov Peter Wonka Sergey Tulyakov et al. 2023. Magic123: One image to high-quality 3d object generation using both 2d and 3d diffusion priors. arXiv preprint arXiv:2306.17843."},{"key":"e_1_3_2_1_50_1","volume-title":"Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever.","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. arxiv:2103.00020."},{"key":"e_1_3_2_1_51_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"e_1_3_2_1_52_1","doi-asserted-by":"publisher","DOI":"10.1145\/3528233.3530757"},{"key":"e_1_3_2_1_53_1","first-page":"36479","article-title":"Photorealistic text-to-image diffusion models with deep language understanding","volume":"35","author":"Saharia Chitwan","year":"2022","unstructured":"Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily L Denton, Kamyar Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, et al. 2022. Photorealistic text-to-image diffusion models with deep language understanding. Advances in Neural Information Processing Systems, 35 (2022), 36479\u201336494.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_1_54_1","first-page":"4713","article-title":"Image super-resolution via iterative refinement","volume":"45","author":"Saharia Chitwan","year":"2022","unstructured":"Chitwan Saharia, Jonathan Ho, William Chan, Tim Salimans, David J Fleet, and Mohammad Norouzi. 2022. Image super-resolution via iterative refinement. IEEE Transactions on Pattern Analysis and Machine Intelligence, 45, 4 (2022), 4713\u20134726.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"e_1_3_2_1_55_1","doi-asserted-by":"crossref","unstructured":"Axel Sauer Dominik Lorenz Andreas Blattmann and Robin Rombach. 2023. Adversarial diffusion distillation. arXiv preprint arXiv:2311.17042.","DOI":"10.1007\/978-3-031-73016-0_6"},{"key":"e_1_3_2_1_56_1","doi-asserted-by":"publisher","DOI":"10.1145\/3341301.3359658"},{"key":"e_1_3_2_1_57_1","unstructured":"Tencent Hunyuan Team. 2025. HunyuanImage 2.1: An Efficient Diffusion Model for High-Resolution (2K) Text-to-Image Generation. https:\/\/github.com\/Tencent-Hunyuan\/HunyuanImage-2.1"},{"key":"e_1_3_2_1_58_1","unstructured":"2017. NVIDIA TensorRT: Programmable Inference Accelerator. https:\/\/developer.nvidia.com\/tensorrt"},{"key":"e_1_3_2_1_59_1","unstructured":"2021. Introducing Triton: Open-source GPU programming for neural networks. https:\/\/openai.com\/research\/triton"},{"key":"e_1_3_2_1_60_1","doi-asserted-by":"crossref","unstructured":"Aravind Vasudevan Andrew Anderson and David Gregg. 2017. Parallel Multi Channel Convolution using General Matrix Multiplication. arxiv:1704.04428.","DOI":"10.1109\/ASAP.2017.7995254"},{"key":"e_1_3_2_1_61_1","volume-title":"Diffusers: State-of-the-art diffusion models. https:\/\/github.com\/huggingface\/diffusers","author":"von Platen Patrick","year":"2022","unstructured":"Patrick von Platen, Suraj Patil, Anton Lozhkov, Pedro Cuenca, Nathan Lambert, Kashif Rasul, Mishig Davaadorj, and Thomas Wolf. 2022. Diffusers: State-of-the-art diffusion models. https:\/\/github.com\/huggingface\/diffusers"},{"key":"e_1_3_2_1_62_1","unstructured":"Zijie J. Wang Evan Montoya David Munechika Haoyang Yang Benjamin Hoover and Duen Horng Chau. 2022. DiffusionDB: A Large-Scale Prompt Gallery Dataset for Text-to-Image Generative Models. arXiv:2210.14896 [cs] arxiv:2210.14896"},{"key":"e_1_3_2_1_63_1","doi-asserted-by":"publisher","DOI":"10.1101\/2022.12.09.519842"},{"key":"e_1_3_2_1_64_1","doi-asserted-by":"publisher","DOI":"10.1145\/3543507.3587430"},{"key":"e_1_3_2_1_65_1","doi-asserted-by":"publisher","DOI":"10.1145\/1138035.1138036"},{"key":"e_1_3_2_1_66_1","volume-title":"16th USENIX Symposium on Operating Systems Design and Implementation (OSDI 22)","author":"Yu Gyeong-In","year":"2022","unstructured":"Gyeong-In Yu, Joo Seong Jeong, Geon-Woo Kim, Soojeong Kim, and Byung-Gon Chun. 2022. Orca: A distributed serving system for Transformer-Based generative models. In 16th USENIX Symposium on Operating Systems Design and Implementation (OSDI 22). 521\u2013538."},{"key":"e_1_3_2_1_67_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00355"},{"key":"e_1_3_2_1_68_1","volume-title":"Shiyi Cao, Christos Kozyrakis, Ion Stoica, Joseph E Gonzalez, et al.","author":"Zheng Lianmin","year":"2023","unstructured":"Lianmin Zheng, Liangsheng Yin, Zhiqiang Xie, Jeff Huang, Chuyue Sun, Cody Hao Yu, Shiyi Cao, Christos Kozyrakis, Ion Stoica, Joseph E Gonzalez, et al. 2023. Efficiently Programming Large Language Models using SGLang. arXiv preprint arXiv:2312.07104."},{"key":"e_1_3_2_1_69_1","unstructured":"Changqian Yu Debang Li Jusnshi Huang Zhengcong Fei Mingyuan Fan. 2024. Scaling Diffusion Transformers to 16 Billion Parameters. arXiv preprint."},{"key":"e_1_3_2_1_70_1","volume-title":"PetS: A Unified Framework for Parameter-Efficient Transformers Serving. In 2022 USENIX Annual Technical Conference (USENIX ATC 22)","author":"Zhou Zhe","year":"2022","unstructured":"Zhe Zhou, Xuechao Wei, Jiejing Zhang, and Guangyu Sun. 2022. PetS: A Unified Framework for Parameter-Efficient Transformers Serving. In 2022 USENIX Annual Technical Conference (USENIX ATC 22). 489\u2013504."}],"event":{"name":"PPoPP '26: 31st ACM SIGPLAN Annual Symposium on Principles and Practice of Parallel Programming","location":"Sydney NSW Australia","acronym":"PPoPP '26","sponsor":["SIGHPC ACM Special Interest Group on High Performance Computing, Special Interest Group on High Performance Computing","SIGPLAN ACM Special Interest Group on Programming Languages"]},"container-title":["Proceedings of the 31st ACM SIGPLAN Annual Symposium on Principles and Practice of Parallel Programming"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3774934.3786424","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,28]],"date-time":"2026-01-28T15:27:52Z","timestamp":1769614072000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3774934.3786424"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,1,28]]},"references-count":70,"alternative-id":["10.1145\/3774934.3786424","10.1145\/3774934"],"URL":"https:\/\/doi.org\/10.1145\/3774934.3786424","relation":{},"subject":[],"published":{"date-parts":[[2026,1,28]]},"assertion":[{"value":"2026-01-28","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}