{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,10]],"date-time":"2026-06-10T16:39:42Z","timestamp":1781109582260,"version":"3.54.1"},"reference-count":26,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,12,14]],"date-time":"2025-12-14T00:00:00Z","timestamp":1765670400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,12,14]],"date-time":"2025-12-14T00:00:00Z","timestamp":1765670400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,12,14]]},"DOI":"10.1109\/icpads67057.2025.11322882","type":"proceedings-article","created":{"date-parts":[[2026,1,14]],"date-time":"2026-01-14T20:36:54Z","timestamp":1768423014000},"page":"1-8","source":"Crossref","is-referenced-by-count":1,"title":["HAP: Hybrid Adaptive Parallelism for Efficient Mixture-of-Experts Inference"],"prefix":"10.1109","author":[{"given":"Haoran","family":"Lin","sequence":"first","affiliation":[{"name":"School of Software, Shandong University,Jinan,China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xianzhi","family":"Yu","sequence":"additional","affiliation":[{"name":"Huawei Noah&#x0027;s Ark Lab,Beijing,China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kang","family":"Zhao","sequence":"additional","affiliation":[{"name":"Huawei Noah&#x0027;s Ark Lab,Beijing,China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Han","family":"Bao","sequence":"additional","affiliation":[{"name":"Huawei Noah&#x0027;s Ark Lab,Beijing,China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zongyuan","family":"Zhan","sequence":"additional","affiliation":[{"name":"Huawei Noah&#x0027;s Ark Lab,Beijing,China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ting","family":"Hu","sequence":"additional","affiliation":[{"name":"Huawei Noah&#x0027;s Ark Lab,Beijing,China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Wulong","family":"Liu","sequence":"additional","affiliation":[{"name":"Huawei Noah&#x0027;s Ark Lab,Beijing,China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zekun","family":"Yin","sequence":"additional","affiliation":[{"name":"School of Software, Shandong University,Jinan,China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xin","family":"Li","sequence":"additional","affiliation":[{"name":"School of Software, Shandong University,Jinan,China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Weiguo","family":"Liu","sequence":"additional","affiliation":[{"name":"School of Software, Shandong University,Jinan,China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.804"},{"key":"ref2","article-title":"No language left behind: Scaling human-centered machine translation","author":"Costa-Juss\u00e0","year":"2022","journal-title":"arXiv preprint"},{"issue":"120","key":"ref3","first-page":"1","article-title":"Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity","volume":"23","author":"Fedus","year":"2022","journal-title":"Journal of Machine Learning Research"},{"key":"ref4","article-title":"Deepseek-v3 technical report","author":"Liu","year":"2024","journal-title":"arXiv preprint"},{"key":"ref5","first-page":"8583","article-title":"Scaling vision with sparse mixture of experts","volume":"34","author":"Riquelme","year":"2021","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/3600006.3613165"},{"key":"ref7","article-title":"Deepspeedfastgen: High-throughput text generation for llms via mii and deepspeedinference","author":"Holmes","year":"2024","journal-title":"arXiv preprint"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/TSC.2024.3399654"},{"key":"ref9","article-title":"Gshard: Scaling giant models with conditional computation and automatic sharding","author":"Lepikhin","year":"2020","journal-title":"arXiv preprint"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/IPDPSW55747.2022.00171"},{"key":"ref11","article-title":"Mixtral of experts","author":"Jiang","year":"2024","journal-title":"arXiv preprint"},{"key":"ref12","year":"2024","journal-title":"Qwen1.5-moe: Matching 7b model performance with 1 \/ 3 activated parameters"},{"key":"ref13","author":"Yang","year":"2024","journal-title":"Qwen2 technical report"},{"key":"ref14","volume-title":"A tensorrt toolbox for optimized large language model inference.","year":"2024"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.52202\/079017-2000"},{"key":"ref16","article-title":"Flash communication: Reducing tensor parallelization bottleneck for fast large language model inference","author":"Li","year":"2024","journal-title":"arXiv preprint"},{"key":"ref17","article-title":"Towards moe deployment: Mitigating inefficiencies in mixture-of-expert (moe) inference","author":"Huang","year":"2023","journal-title":"arXiv preprint"},{"key":"ref18","first-page":"18332","article-title":"Deepspeed-moe: Advancing mixture-of-experts inference and training to power next-generation ai scale","volume-title":"International conference on machine learning","author":"Rajbhandari","year":"2022"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1145\/3577193.3593704"},{"key":"ref20","volume-title":"Deepep: an efficient expert-parallel communication library.","author":"Zhao","year":"2025"},{"key":"ref21","first-page":"559","article-title":"Alpa: Automating inter-and \\{IntraOperator\\} parallelism for distributed deep learning","volume-title":"16th USENIX Symposium on Operating Systems Design and Implementation (OSDI 22)","author":"Zheng","year":"2022"},{"key":"ref22","first-page":"269","article-title":"Tutel: Adaptive mixture-of-experts at scale","volume-title":"Proceedings of Machine Learning and Systems","volume":"5","author":"Hwang","year":"2023"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/EPEPS48591.2020.9231458"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/HCS49909.2020.9220622"},{"key":"ref25","volume-title":"Bitsandbytes: a lightweight python wrapper around cuda custom functions.","year":"2024"},{"key":"ref26","article-title":"A white paper on neural network quantization","author":"Nagel","year":"2021","journal-title":"arXiv preprint"}],"event":{"name":"2025 IEEE 31th International Conference on Parallel and Distributed Systems (ICPADS)","location":"Hefei, China","start":{"date-parts":[[2025,12,14]]},"end":{"date-parts":[[2025,12,18]]}},"container-title":["2025 IEEE 31th International Conference on Parallel and Distributed Systems (ICPADS)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11322805\/11322871\/11322882.pdf?arnumber=11322882","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,15]],"date-time":"2026-01-15T07:08:51Z","timestamp":1768460931000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11322882\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,14]]},"references-count":26,"URL":"https:\/\/doi.org\/10.1109\/icpads67057.2025.11322882","relation":{},"subject":[],"published":{"date-parts":[[2025,12,14]]}}}