{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,8]],"date-time":"2026-04-08T16:31:22Z","timestamp":1775665882682,"version":"3.50.1"},"reference-count":73,"publisher":"IEEE","license":[{"start":{"date-parts":[[2026,1,31]],"date-time":"2026-01-31T00:00:00Z","timestamp":1769817600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,1,31]],"date-time":"2026-01-31T00:00:00Z","timestamp":1769817600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100018537","name":"National Science and Technology Major Project","doi-asserted-by":"publisher","award":["2022ZD0115200"],"award-info":[{"award-number":["2022ZD0115200"]}],"id":[{"id":"10.13039\/501100018537","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"NSFC","doi-asserted-by":"publisher","award":["62125403,62502255,U24A20234,92464302,U24B20164"],"award-info":[{"award-number":["62125403,62502255,U24A20234,92464302,U24B20164"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100017582","name":"Beijing National Research Center for Information Science and Technology","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100017582","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026,1,31]]},"DOI":"10.1109\/hpca68181.2026.11408594","type":"proceedings-article","created":{"date-parts":[[2026,3,4]],"date-time":"2026-03-04T20:47:22Z","timestamp":1772657242000},"page":"1-15","source":"Crossref","is-referenced-by-count":1,"title":["MoEntwine: Unleashing the Potential of Wafer-Scale Chips for Large-Scale Expert Parallel Inference"],"prefix":"10.1109","author":[{"given":"Xinru","family":"Tang","sequence":"first","affiliation":[{"name":"Tsinghua University, School of Integrated Circuits,BNRist,Beijing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jingxiang","family":"Hou","sequence":"additional","affiliation":[{"name":"Tsinghua University, School of Integrated Circuits,BNRist,Beijing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dingcheng","family":"Jiang","sequence":"additional","affiliation":[{"name":"Tsinghua University, School of Integrated Circuits,BNRist,Beijing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Taiquan","family":"Wei","sequence":"additional","affiliation":[{"name":"Tsinghua University, School of Integrated Circuits,BNRist,Beijing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiaxin","family":"Liu","sequence":"additional","affiliation":[{"name":"Tsinghua University, School of Integrated Circuits,BNRist,Beijing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jinyi","family":"Deng","sequence":"additional","affiliation":[{"name":"Tsinghua University, School of Integrated Circuits,BNRist,Beijing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Huizheng","family":"Wang","sequence":"additional","affiliation":[{"name":"Tsinghua University, School of Integrated Circuits,BNRist,Beijing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qize","family":"Yang","sequence":"additional","affiliation":[{"name":"Tsinghua University, School of Integrated Circuits,BNRist,Beijing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Haoran","family":"Shang","sequence":"additional","affiliation":[{"name":"Tsinghua University, School of Integrated Circuits,BNRist,Beijing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chao","family":"Li","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University,Shanghai,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yang","family":"Hu","sequence":"additional","affiliation":[{"name":"Tsinghua University, School of Integrated Circuits,BNRist,Beijing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Shouyi","family":"Yin","sequence":"additional","affiliation":[{"name":"Tsinghua University, School of Integrated Circuits,BNRist,Beijing,China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","year":"2025","journal-title":"cruxeval\/data at main \u2022 facebookresearch\/cruxeval - github.com"},{"key":"ref2","year":"2025","journal-title":"databricks\/dbrx-instruct \u2022 Hugging Face - huggingface.co"},{"key":"ref3","year":"2025","journal-title":"Deploying DeepSeek with PD Disaggregation and Large-Scale Expert Parallelism on 96 H100 GPUs - LMSYS Org - lmsys.org"},{"key":"ref4","year":"2025","journal-title":"Evidently AI - 200 LLM benchmarks and evaluation datasets - evidentlyai.com"},{"key":"ref5","year":"2025","journal-title":"GitHub - Azure\/AzurePublicDataset: Microsoft Azure Traces github.com"},{"key":"ref6","year":"2025","journal-title":"GitHub - deepseek-ai\/EPLB: Expert Parallelism Load Balancer github.com"},{"key":"ref7","year":"2025","journal-title":"GitHub - ekwinox117\/multi-challenge - github.com"},{"key":"ref8","year":"2025","journal-title":"GitHub - HowieHwong\/TrustLLM: [ICML 2024] TrustLLM: Trustworthiness in Large Language Models - github.com"},{"key":"ref9","year":"2025","journal-title":"GitHub - sarahmart\/HARDMath: A new dataset of difficult graduatelevel applied mathematics problems; evaluations demonstrate that leading LLMs currently exhibit low accuracy in solving these problems. github.com"},{"key":"ref10","year":"2025","journal-title":"NVIDIA DGX B200 - nvidia.com"},{"key":"ref11","year":"2025","journal-title":"NVIDIA GB200 NVL72 - nvidia.com"},{"key":"ref12","article-title":"Mnemosyne: Parallelization strategies for efficiently serving multi-million context length 11 m inference requests without approximations","author":"Agrawal","year":"2024","journal-title":"arXiv preprint"},{"key":"ref13","first-page":"117","article-title":"Taming throughput-latency tradeoff in llm inference with sarathi-serve","volume-title":"18th USENIX Symposium on Operating Systems Design and Implementation (OSDI 24)","author":"Agrawal","year":"2024"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.52202\/068431-1611"},{"key":"ref16","article-title":"Towards reasoning era: A survey of long chain-of-thought for reasoning large language models","author":"Chen","year":"2025","journal-title":"arXiv preprint"},{"key":"ref17","first-page":"1445","article-title":"Swing: Short-cutting rings for higher bandwidth allreduce","volume-title":"21st USENIX Symposium on Networked Systems Design and Implementation (NSDI 24)","author":"De Sensi","year":"2024"},{"key":"ref18","author":"Liu","year":"2024","journal-title":"Deepseek-v2: A strong, economical, and efficient mixture-of-experts language model"},{"key":"ref19","article-title":"An image is worth 16x16 words: Transformers for image recognition at scale","volume-title":"International Conference on Learning Representations","author":"Dosovitskiy","year":"2021"},{"issue":"120","key":"ref20","first-page":"1","article-title":"Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity","volume":"23","author":"Fedus","year":"2022","journal-title":"Journal of Machine Learning Research"},{"key":"ref21","first-page":"288","article-title":"Megablocks: Efficient sparse training with mixture-of-experts","volume-title":"Proceedings of Machine Learning and Systems","volume":"5","author":"Gale","year":"2023"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1145\/3503221.3508418"},{"key":"ref23","article-title":"Deepspeedfastgen: High-throughput text generation for 11 ms via mii and deepspeedinference","author":"Holmes","year":"2024","journal-title":"arXiv preprint"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/TED.2017.2737644"},{"key":"ref25","article-title":"Inference without interference: Disaggregate 11 m inference for mixed downstream workloads","author":"Hu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/MCAS.2024.3349669"},{"key":"ref27","article-title":"Towards moe deployment: Mitigating inefficiencies in mixture-of-expert (moe) inference","author":"Huang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref28","first-page":"269","article-title":"Tutel: Adaptive mixture-of-experts at scale","volume-title":"Proceedings of Machine Learning and Systems","volume":"5","author":"Hwang","year":"2023"},{"key":"ref29","volume-title":"Mixtral of experts","author":"Jiang","year":"2024"},{"key":"ref30","first-page":"341","article-title":"Reducing activation recomputation in large transformer models","volume-title":"Proceedings of Machine Learning and Systems","volume":"5","author":"Korthikanti","year":"2023"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/3600006.3613165"},{"key":"ref32","article-title":"Gshard: Scaling giant models with conditional computation and automatic sharding","volume-title":"International Conference on Learning Representations","author":"Lepikhin"},{"issue":"06","key":"ref33","first-page":"993","article-title":"Research on wafer-scale chip mapping task based on genetic algorithm","volume":"46","author":"Li","year":"2024","journal-title":"Computer Engineering & Science"},{"key":"ref34","first-page":"945","article-title":"Accelerating distributed \\{MoE\\} training and inference with lina","volume-title":"2023 USENIX Annual Technical Conference (USENIX ATC 23)","author":"Li","year":"2023"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2024\/705"},{"key":"ref36","article-title":"Longcontext llms struggle with long in-context learning","author":"Li","year":"2024","journal-title":"arXiv preprint"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/HCS61935.2024.10664673"},{"key":"ref38","article-title":"Deepseek-v3 technical report","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/DAC18074.2021.9586194"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/INFOCOM52122.2024.10621327"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1145\/3669940.3707272"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ICPP.2013.17"},{"key":"ref43","article-title":"Epsmoe: Expert pipeline scheduler for cost-efficient moe inference","author":"Qian","year":"2024","journal-title":"arXiv preprint"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1145\/3695053.3731025"},{"key":"ref45","first-page":"155","article-title":"Mooncake: Trading more storage for less computation - a KVCache-centric architecture for serving LLM chatbot","volume-title":"23rd USENIX Conference on File and Storage Technologies (FAST 25)","author":"Qin"},{"key":"ref46","first-page":"18332","article-title":"Deepspeed-moe: Advancing mixture-of-experts inference and training to power next-generation ai scale","volume-title":"International conference on machine learning. PMLR","author":"Rajbhandari","year":"2022"},{"key":"ref47","article-title":"Outrageously large neural networks: The sparsely-gated mixture-of-experts layer","author":"Shazeer","year":"2017","journal-title":"arXiv preprint"},{"key":"ref48","article-title":"Outrageously large neural networks: The sparsely-gated mixture-of-experts layer","volume-title":"5th International Conference on Learning Representations, ICLR 2017, Toulon, France, April 24\u201326, 2017, Conference Track Proceedings","author":"Shazeer","year":"2017"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/INFOCOM53939.2023.10228874"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ECTC51687.2025.00005"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/ECTC51687.2025.00005"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2017.52"},{"key":"ref53","article-title":"Tackling the dynamicity in a production llm serving system with sota optimizations via hybrid prefill\/decode\/verify scheduling on efficient meta-kernels","author":"Song","year":"2024","journal-title":"arXiv preprint"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2018.00068"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2018.00018"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA61900.2025.00102"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/HCS55958.2022.9895534"},{"key":"ref58","article-title":"Llama 2: Open foundation and fine-tuned chat models","author":"Touvron","year":"2023","journal-title":"arXiv preprint"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.23919\/ICS.2024.3515003"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1016\/j.jai.2024.12.003"},{"key":"ref61","first-page":"386","article-title":"Spatial-aware orchestration of 11 m attention on waferscale chips","volume-title":"International Symposium on Advanced Parallel Processing Technologies. Springer","author":"Wei","year":"2025"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/ISSCC42615.2023.10067395"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/micro61859.2024.00068"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS57527.2023.00035"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1145\/3695053.3731101"},{"key":"ref66","volume-title":"Qwen3 technical report","author":"Yang","year":"2025"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-95-1021-4_3"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1145\/3695053.3731045"},{"key":"ref69","article-title":"Flashinfer: Efficient and customizable attention engine for 11 m inference serving","volume-title":"arXiv preprint","author":"Ye","year":"2025"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1145\/3695053.3731016"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.52202\/079017-3135"},{"key":"ref72","first-page":"961","article-title":"\\{SmartMoE\\}: Efficiently training \\{Sparsely-Activated\\} models through combining offline and online parallelization","volume-title":"2023 USENIX Annual Technical Conference (USENIX ATC 23)","author":"Zhai","year":"2023"},{"key":"ref73","first-page":"193","article-title":"Distserve: Disaggregating prefill and decoding for goodputoptimized large language model serving","volume-title":"18th USENIX Symposium on Operating Systems Design and Implementation (OSDI 24)","author":"Zhong","year":"2024"}],"event":{"name":"2026 IEEE International Symposium on High Performance Computer Architecture (HPCA)","location":"Sydney, Australia","start":{"date-parts":[[2026,1,31]]},"end":{"date-parts":[[2026,2,4]]}},"container-title":["2026 IEEE International Symposium on High Performance Computer Architecture (HPCA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11408404\/11408433\/11408594.pdf?arnumber=11408594","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,5]],"date-time":"2026-03-05T06:36:07Z","timestamp":1772692567000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11408594\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,1,31]]},"references-count":73,"URL":"https:\/\/doi.org\/10.1109\/hpca68181.2026.11408594","relation":{},"subject":[],"published":{"date-parts":[[2026,1,31]]}}}