{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,8]],"date-time":"2026-05-08T16:20:27Z","timestamp":1778257227722,"version":"3.51.4"},"reference-count":304,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"6","license":[{"start":{"date-parts":[[2025,12,1]],"date-time":"2025-12-01T00:00:00Z","timestamp":1764547200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,12,1]],"date-time":"2025-12-01T00:00:00Z","timestamp":1764547200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,12,1]],"date-time":"2025-12-01T00:00:00Z","timestamp":1764547200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100004787","name":"Research Grants Council of Hong Kong","doi-asserted-by":"publisher","award":["27213824"],"award-info":[{"award-number":["27213824"]}],"id":[{"id":"10.13039\/501100004787","id-type":"DOI","asserted-by":"publisher"}]},{"name":"HKU-SCF FinTech Academy Research and Development Funding"},{"name":"HKU IDS Research Seed Fund","award":["IDS-RSF2023-0012"],"award-info":[{"award-number":["IDS-RSF2023-0012"]}]},{"name":"Research Grants Council of the Hong Kong Special Administrative Region, China","award":["HKURFS2122-7S04"],"award-info":[{"award-number":["HKURFS2122-7S04"]}]},{"name":"Areas of Excellence Scheme","award":["AoE\/E-601\/22-R"],"award-info":[{"award-number":["AoE\/E-601\/22-R"]}]},{"name":"Collaborative Research Fund","award":["C1009-22G"],"award-info":[{"award-number":["C1009-22G"]}]},{"name":"Collaborative Research Fund","award":["17212423"],"award-info":[{"award-number":["17212423"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Commun. Surv. Tutorials"],"published-print":{"date-parts":[[2025,12]]},"DOI":"10.1109\/comst.2025.3527641","type":"journal-article","created":{"date-parts":[[2025,1,9]],"date-time":"2025-01-09T15:26:46Z","timestamp":1736436406000},"page":"3820-3860","source":"Crossref","is-referenced-by-count":119,"title":["Mobile Edge Intelligence for Large Language Models: A Contemporary Survey"],"prefix":"10.1109","volume":"27","author":[{"given":"Guanqiao","family":"Qu","sequence":"first","affiliation":[{"name":"Department of Electrical and Electronic Engineering, The University of Hong Kong, Pok Fu Lam, Hong Kong SAR, China"}]},{"given":"Qiyuan","family":"Chen","sequence":"additional","affiliation":[{"name":"Department of Electrical and Electronic Engineering, The University of Hong Kong, Pok Fu Lam, Hong Kong SAR, China"}]},{"given":"Wei","family":"Wei","sequence":"additional","affiliation":[{"name":"Department of Electrical and Electronic Engineering, The University of Hong Kong, Pok Fu Lam, Hong Kong SAR, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4463-5652","authenticated-orcid":false,"given":"Zheng","family":"Lin","sequence":"additional","affiliation":[{"name":"Department of Electrical and Electronic Engineering, The University of Hong Kong, Pok Fu Lam, Hong Kong SAR, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4295-940X","authenticated-orcid":false,"given":"Xianhao","family":"Chen","sequence":"additional","affiliation":[{"name":"Department of Electrical and Electronic Engineering, The University of Hong Kong, Pok Fu Lam, Hong Kong SAR, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8773-4629","authenticated-orcid":false,"given":"Kaibin","family":"Huang","sequence":"additional","affiliation":[{"name":"Department of Electrical and Electronic Engineering, The University of Hong Kong, Pok Fu Lam, Hong Kong SAR, China"}]}],"member":"263","reference":[{"key":"ref1","volume-title":"A large language model from Google,  Research, designed for the medical domain.","year":"2023"},{"key":"ref2","volume-title":"RT-2: New model translates vision and language into action.","author":"DeepMind","year":"2023"},{"key":"ref3","article-title":"Personal LLM agents: Insights and survey about the capability, efficiency and security","author":"Li","year":"2024","journal-title":"arXiv:2401.05459"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/GCWkshps58843.2023.10465035"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2024.3459027"},{"key":"ref6","volume-title":"Google,  introduces gemini, the most capable and flexible AI model we\u2019ve ever built.","year":"2023"},{"key":"ref7","volume-title":"Qualcomm,  works with Meta to enable on-device AI applications using LLAMA 2.","year":"2023"},{"key":"ref8","first-page":"1","article-title":"MobileLLM: Optimizing sub-billion parameter language models for on-device use cases","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Liu"},{"key":"ref9","volume-title":"Introducing Apple, \u2019s on-device and server foundation models.","year":"2024"},{"key":"ref10","article-title":"A survey of large language models","author":"Zhao","year":"2023","journal-title":"arXiv:2303.18223"},{"key":"ref11","article-title":"A survey of resource-efficient LLM and multimodal foundation models","author":"Xu","year":"2024","journal-title":"arXiv:2401.08092"},{"key":"ref12","first-page":"1","article-title":"Efficient large language models: A survey","volume":"2024","author":"Wan","year":"2024","journal-title":"Trans. Mach. Learn. Res."},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2024.3353265"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.3390\/app15020586"},{"key":"ref15","article-title":"Beyond efficiency: A systematic survey of resource-efficient large language models","author":"Bai","year":"2024","journal-title":"arXiv:2401.00625"},{"key":"ref16","article-title":"LLM inference unveiled: Survey and roofline model insights","author":"Yuan","year":"2024","journal-title":"arXiv:2402.16363"},{"key":"ref17","article-title":"Understanding LLMs: A comprehensive overview from training to inference","author":"Liu","year":"2024","journal-title":"arXiv:2401.02038"},{"key":"ref18","article-title":"Parameter-efficient fine-tuning for large models: A comprehensive survey","author":"Han","year":"2024","journal-title":"arXiv:2403.14608"},{"key":"ref19","article-title":"On the opportunities of green computing: A survey","author":"Zhou","year":"2023","journal-title":"arXiv:2311.00447"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1145\/3604930.3605705"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/OJCOMS.2023.3320646"},{"key":"ref22","article-title":"A survey on model compression for large language models","author":"Zhu","year":"2023","journal-title":"arXiv:2308.07633"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/3754448"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/VTC2023-Fall60731.2023.10333824"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/MWC.005.2400019"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/MCOM.001.2300550"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/MNET.2024.3435752"},{"key":"ref28","volume-title":"Large language model (LLM) for telecommunications: A comprehensive survey on principles, key techniques, and opportunities.","author":"Zhou et al","year":"2024"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1155\/2010\/628086"},{"key":"ref30","volume-title":"3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Study on Traffic Characteristics and Performance Requirements for AI\/ML Model Transfer in 5GS; (Release 18)","year":"2021"},{"key":"ref31","volume-title":"Creating voice-based virtual assistants using NVIDIA RIVA and RASA.","year":"2021"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.3390\/healthcare10020293"},{"key":"ref33","volume-title":"3rd Generation Partnership Project; Technical Specification Group Services and System Aspects; Service Requirements for the 5G System; Stage 1 (Release 19)","year":"2024"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1038\/s41591-024-03423-7"},{"key":"ref35","volume-title":"New fitbit study explores metabolic health.","author":"Prieto","year":"2024"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2025.102963"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1016\/j.bspc.2023.105325"},{"key":"ref38","volume-title":"Art.9 GDPR: Processing of special categories of personal data.","year":"2015"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/MPRV.2009.82"},{"key":"ref40","volume-title":"Introducing Microsoft 365 Copilot\u2014Your copilot for work.","author":"Spataro","year":"2023"},{"key":"ref41","article-title":"AgentsCoDriver: Large language model empowered collaborative driving with lifelong learning","author":"Hu","year":"2024","journal-title":"arXiv:2404.06345"},{"key":"ref42","volume-title":"Ghost,  autonomy announces investment from OpenAI startup fund to bring multi-modal LLMs to autonomous driving.","year":"2023"},{"key":"ref43","volume-title":"Chinese automaker Geely to release auto industry\u2019s first large language model.","author":"Feed","year":"2023"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/TMC.2024.3449371"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2024.3370169"},{"key":"ref46","article-title":"Collaborative perception for connected and autonomous driving: Challenges, possible solutions and opportunities","author":"Hu","year":"2024","journal-title":"arXiv:2401.01544"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/UBMK52708.2021.9558906"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/W18-6301"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i10.21316"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1810.04805"},{"key":"ref52","first-page":"1","article-title":"An image is worth 16\u00d716 words: Transformers for image recognition at scale","volume-title":"Proc. Int. Conf. Learn. Represent. (ICLR)","author":"Dosovitskiy"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01075"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/tifs.2024.3520015"},{"key":"ref56","first-page":"23","article-title":"A new algorithm for data compression","volume":"12","author":"Gage","year":"1994","journal-title":"C Users J."},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P16-1162"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2012.6289079"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1145\/3465055"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1007\/s10462-022-10148-x"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298935"},{"key":"ref62","volume-title":"Deep Learning","author":"Goodfellow","year":"2016"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1038\/nature14539"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-24797-2_4"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.3390\/info16080688"},{"key":"ref66","article-title":"GPT-4 technical report","volume-title":"arXiv:2303.08774","author":"Achiam","year":"2023"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1017\/S1351324920000601"},{"key":"ref68","first-page":"10347","article-title":"Training data-efficient image transformers & distillation through attention","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Touvron"},{"key":"ref69","article-title":"SplitLoRA: A split parameter-efficient fine-tuning framework for large language models","author":"Lin","year":"2024","journal-title":"arXiv:2407.00952"},{"key":"ref70","first-page":"1","article-title":"ALBERT: A lite BERT for self-supervised learning of language representations","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Lan"},{"issue":"140","key":"ref71","first-page":"1","article-title":"Exploring the limits of transfer learning with a unified text-to-text transformer","volume":"21","author":"Raffel","year":"2020","journal-title":"J. Mach. Learn. Res."},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1038\/d41586-023-00816-5"},{"key":"ref73","volume-title":"Improving language understanding by generative pre-training.","author":"Radford","year":"2018"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1907.11692"},{"key":"ref75","first-page":"5753","article-title":"XLNet: Generalized autoregressive pretraining for language understanding","volume-title":"Proc. Adv. Neural Inform. Process. Syst. (NeurIPS)","volume":"32","author":"Yang"},{"issue":"8","key":"ref76","first-page":"1","article-title":"Language models are unsupervised multitask learners","volume":"1","author":"Radford","year":"2019","journal-title":"OpenAI Blog"},{"key":"ref77","first-page":"1877","article-title":"Language models are few-shot learners","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Brown"},{"issue":"1","key":"ref78","first-page":"11324","article-title":"PaLM: Scaling language modeling with pathways","volume":"24","author":"Chowdhery","year":"2024","journal-title":"J. Mach. Learn. Res."},{"key":"ref79","article-title":"Gemini: A family of highly capable multimodal models","author":"Team","year":"2023","journal-title":"arXiv:2312.11805"},{"key":"ref80","article-title":"LLAMA 2: Open foundation and fine-tuned chat models","author":"Touvron","year":"2023","journal-title":"arXiv:2307.09288"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1525\/9780520940420-020"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.naacl-main.41"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/TASLP.2021.3122291"},{"key":"ref84","volume-title":"How does claude 3 AI work?","author":"ai","year":"2024"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1145\/3641289"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/MNET.2024.3427313"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612568"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/BigData59044.2023.10386743"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/WACVW60836.2024.00106"},{"key":"ref90","article-title":"WenLan: Bridging vision and language by large-scale multi-modal pre-training","author":"Huo","year":"2021","journal-title":"arXiv:2103.06561"},{"key":"ref91","article-title":"ImageBERT: Cross-modal pre-training with large-scale weak-supervised image-text data","author":"Qi","year":"2020","journal-title":"arXiv:2001.07966"},{"key":"ref92","article-title":"Instruction tuning with GPT-4","author":"Peng","year":"2023","journal-title":"arXiv:2304.03277"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.1145\/3777411"},{"key":"ref94","volume-title":"Xtext language engineering for everyone.","year":"2023"},{"key":"ref95","article-title":"A survey on generative AI and LLM for video generation, understanding, and streaming","author":"Zhou","year":"2024","journal-title":"arXiv:2404.16038"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.54364\/AAIML.2023.1191"},{"key":"ref97","volume-title":"Generative AI vs interactive AI: Understanding the differences.","year":"2023"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.1109\/ICNC59896.2024.10555960"},{"key":"ref99","article-title":"User-centric interactive AI for distributed diffusion model-based AI-generated content","author":"Du","year":"2023","journal-title":"arXiv:2311.11094"},{"key":"ref100","article-title":"Interactive generative AI agents for satellite networks through a mixture of experts transmission","author":"Zhang","year":"2024","journal-title":"arXiv:2404.09134"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1109\/MNET.2024.3401159"},{"key":"ref102","volume-title":"What is retrieval-augmented generation, AKA RAG?","author":"Merritt","year":"2023"},{"key":"ref103","first-page":"9459","article-title":"Retrieval-augmented generation for knowledge-intensive NLP tasks","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","volume":"33","author":"Lewis"},{"key":"ref104","volume-title":"What is retrieval-augmented generation (RAG)?","year":"2023"},{"key":"ref105","volume-title":"What is retrieval-augmented generation?","year":"2023"},{"key":"ref106","first-page":"2219","article-title":"Liveness is not enough: Enhancing fingerprint authentication with behavioral biometrics to defeat puppet attacks","volume-title":"Proc. USENIX Security Symp.","author":"Wu"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1109\/ICCT59356.2023.10419549"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1109\/TDSC.2021.3116552"},{"key":"ref109","article-title":"DriveMLM: Aligning multi-modal large language models with behavioral planning states for autonomous driving","author":"Wang","year":"2023","journal-title":"arXiv:2312.09245"},{"key":"ref110","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-naacl.163"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2020.2965856"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2020.3006870"},{"key":"ref113","article-title":"SATSense: Multi-satellite collaborative framework for spectrum sensing","author":"Yuan","year":"2024","journal-title":"arXiv:2405.15542"},{"key":"ref114","doi-asserted-by":"publisher","DOI":"10.1109\/tmc.2024.3509861"},{"key":"ref115","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2021.3081991"},{"key":"ref116","doi-asserted-by":"publisher","DOI":"10.1109\/mwc.004.2200050"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2020.2984887"},{"key":"ref118","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2021.3119950"},{"key":"ref119","doi-asserted-by":"publisher","DOI":"10.1109\/ICDCS.2019.00182"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2019.2918951"},{"key":"ref121","volume-title":"ITU-R WP5D completed the recommendation framework for IMT-2030 (global 6G vision).","year":"2023"},{"key":"ref122","volume-title":"Architectural framework for machine learning in future networks including IMT-2020","year":"2019"},{"key":"ref123","volume-title":"A survey on resource management in joint communication and computing-embedded SAGIN.","author":"Chen","year":"2024"},{"key":"ref124","doi-asserted-by":"publisher","DOI":"10.1109\/MC.2017.3641638"},{"key":"ref125","doi-asserted-by":"publisher","DOI":"10.1109\/ICDCS.2017.325"},{"key":"ref126","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2018.2842821"},{"key":"ref127","volume-title":"Calflops: A FLOPs and Params calculate tool for neural networks.","author":"Ye","year":"2023"},{"key":"ref128","first-page":"1","article-title":"Fine-tuning language models with just forward passes","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Malladi"},{"key":"ref129","article-title":"LLMCad: Fast and scalable on-device large language model inference","author":"Xu","year":"2023","journal-title":"arXiv:2309.04255"},{"key":"ref130","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-emnlp.662"},{"key":"ref131","first-page":"87","article-title":"AWQ: Activation-aware weight quantization for LLM compression and acceleration","volume-title":"Proc. Mach. Learn. Syst.","volume":"6","author":"Lin"},{"key":"ref132","first-page":"21702","article-title":"LLM-pruner: On the structural pruning of large language models","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Ma"},{"key":"ref133","first-page":"10323","article-title":"SparseGPT: Massive language models can be accurately pruned in one-shot","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Frantar"},{"key":"ref134","first-page":"1","article-title":"MiniLLM: Knowledge distillation of large language models","volume-title":"Proc. Int. Conf. Learn. Represent. (ICLR)","author":"Gu"},{"key":"ref135","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.eacl-long.57"},{"key":"ref136","first-page":"19274","article-title":"Fast inference from transformers via speculative decoding","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Leviathan"},{"key":"ref137","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.504"},{"key":"ref138","first-page":"17456","article-title":"Confident adaptive language modeling","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Schuster"},{"key":"ref139","article-title":"EdgeMoE: Fast on-device inference of MoE-based large language models","author":"Yi","year":"2023","journal-title":"arXiv:2308.14352"},{"key":"ref140","first-page":"22137","article-title":"Deja Vu: Contextual sparsity for efficient LLMs at inference time","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Liu"},{"key":"ref141","first-page":"1","article-title":"Medusa: Simple LLM inference acceleration framework with multiple decoding heads","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Cai"},{"key":"ref142","first-page":"1","article-title":"Break the sequential dependency of LLM inference using lookahead decoding","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Fu"},{"key":"ref143","article-title":"HiP attention: Sparse sub-quadratic attention with hierarchical attention pruning","author":"Lee","year":"2024","journal-title":"arXiv:2406.09827"},{"key":"ref144","first-page":"32332","article-title":"KIVI: A tuning-free asymmetric 2bit quantization for KV cache","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Liu"},{"key":"ref145","article-title":"MiniCache: KV cache compression in depth dimension for large language models","author":"Liu","year":"2024","journal-title":"arXiv:2405.14366"},{"key":"ref146","first-page":"52342","article-title":"Scissorhands: Exploiting the persistence of importance hypothesis for LLM KV cache compression at test time","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","volume":"36","author":"Liu"},{"key":"ref147","article-title":"PyramidKV: Dynamic KV cache compression based on pyramidal information funneling","author":"Zhang","year":"2024","journal-title":"arXiv:2406.02069"},{"key":"ref148","first-page":"2790","article-title":"Parameter-efficient transfer learning for NLP","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Houlsby"},{"key":"ref149","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.emnlp-main.243"},{"key":"ref150","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acllong.353"},{"key":"ref151","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i11.26505"},{"key":"ref152","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.378"},{"key":"ref153","first-page":"1","article-title":"LoRA: Low-rank adaptation of large language models","volume-title":"Proc. Int. Conf. Learn. Rep. (ICLR)","author":"Hu"},{"key":"ref154","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-acl.26"},{"key":"ref155","first-page":"1","article-title":"OmniQuant: Omnidirectionally calibrated quantization for large language models","volume-title":"Proc. Int. Conf. Learn. Rep. (ICLR)","author":"Shao"},{"key":"ref156","first-page":"38087","article-title":"SmoothQuant: Accurate and efficient post-training quantization for large language models","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Xiao"},{"key":"ref157","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01544"},{"key":"ref158","first-page":"4857","article-title":"Learning to prune deep neural networks via layer-wise optimal brain surgeon","volume-title":"Proc. Adv. Neural Inform. Process. Syst. (NeurIPS)","author":"Dong"},{"key":"ref159","article-title":"OPT: Open pre-trained transformer language models","author":"Zhang","year":"2022","journal-title":"arXiv:2205.01068"},{"key":"ref160","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1503.02531"},{"key":"ref161","article-title":"A survey on knowledge distillation of large language models","author":"Xu","year":"2024","journal-title":"arXiv:2402.13116"},{"key":"ref162","volume-title":"llama.cpp.","author":"Gerganov","year":"2024"},{"key":"ref163","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.204"},{"key":"ref164","doi-asserted-by":"publisher","DOI":"10.1145\/3527155"},{"key":"ref165","first-page":"1","article-title":"EE-LLM: Large-scale training and inference of early-exit large language models with 3D parallelism","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Chen"},{"key":"ref166","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2021.acl-long.16"},{"issue":"120","key":"ref167","first-page":"5232","article-title":"Switch transformers: Scaling to trillion parameter models with simple and efficient sparsity","volume":"23","author":"Fedus","year":"2022","journal-title":"J. Mach. Learn. Res."},{"key":"ref168","first-page":"1","article-title":"GShard: Scaling giant models with conditional computation and automatic sharding","volume-title":"Proc. Int. Conf. Learn. Rep. (ICLR)","author":"Lepikhin"},{"key":"ref169","article-title":"A review of sparse expert models in deep learning","author":"Fedus","year":"2022","journal-title":"arXiv:2209.01667"},{"key":"ref170","article-title":"PowerInfer: Fast large language model serving with a consumer-grade GPU","author":"Song","year":"2023","journal-title":"arXiv:2312.12456"},{"key":"ref171","article-title":"CLOVER: Regressive lightweight speculative decoding with sequential knowledge","author":"Xiao","year":"2024","journal-title":"arXiv:2405.00263"},{"key":"ref172","article-title":"Attention is naturally sparse with Gaussian distributed input","author":"Deng","year":"2024","journal-title":"arXiv:2404.02690"},{"key":"ref173","article-title":"The CAP principle for LLM serving: A survey of long-context large language model serving","author":"Zeng","year":"2024","journal-title":"arXiv:2405.11299"},{"key":"ref174","first-page":"1","article-title":"SparQ attention: Bandwidth-efficient LLM inference","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Ribar"},{"key":"ref175","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01306"},{"key":"ref176","article-title":"SPT: Fine-tuning transformer-based language models efficiently with sparsification","author":"Gui","year":"2023","journal-title":"arXiv:2312.10365"},{"key":"ref177","first-page":"1","article-title":"H2O: Heavy-hitter oracle for efficient generative inference of large language models","volume-title":"Proc. Adv. Neural Inform. Process. Syst. (NeurIPS)","author":"Zhang"},{"key":"ref178","first-page":"1","article-title":"Efficient streaming language models with attention sinks","volume-title":"Proc. Int. Conf. Learn. Represent. (ICLR)","author":"Xiao"},{"key":"ref179","volume-title":"Platforms state of the union (ASL).","year":"2024"},{"key":"ref180","article-title":"IncreLoRA: Incremental parameter allocation method for parameter-efficient fine-tuning","author":"Zhang","year":"2023","journal-title":"arXiv:2308.12043"},{"key":"ref181","first-page":"10088","article-title":"QLoRA: Efficient finetuning of quantized LLMs","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Dettmers"},{"key":"ref182","article-title":"Gradients without backpropagation","author":"Baydin","year":"2022","journal-title":"arXiv:2202.08587"},{"key":"ref183","doi-asserted-by":"publisher","DOI":"10.1017\/9781108989817"},{"key":"ref184","doi-asserted-by":"publisher","DOI":"10.1109\/tdsc.2024.3429271"},{"key":"ref185","doi-asserted-by":"publisher","DOI":"10.1109\/tifs.2025.3609104"},{"key":"ref186","doi-asserted-by":"publisher","DOI":"10.1109\/ICDCS60910.2024.00013"},{"key":"ref187","doi-asserted-by":"publisher","DOI":"10.1109\/SURV.2013.070813.00063"},{"key":"ref188","doi-asserted-by":"publisher","DOI":"10.1109\/MCOM.2017.1700184"},{"key":"ref189","volume-title":"When search engine services meet large language models: Visions and challenges.","author":"Xiong et al","year":"2024"},{"key":"ref190","doi-asserted-by":"publisher","DOI":"10.3390\/buildings14010220"},{"key":"ref191","article-title":"Towards a personal health large language model","author":"Cosentino","year":"2024","journal-title":"arXiv:2406.06474"},{"key":"ref192","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2022.3213411"},{"key":"ref193","doi-asserted-by":"publisher","DOI":"10.1109\/INFOCOM.2019.8737464"},{"key":"ref194","doi-asserted-by":"publisher","DOI":"10.1109\/MWC.014.2300319"},{"key":"ref195","doi-asserted-by":"publisher","DOI":"10.1145\/3637528.3671470"},{"key":"ref196","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i16.29728"},{"key":"ref197","article-title":"TrimCaching: Parameter-sharing edge caching for AI model downloading","author":"Qu","year":"2024","journal-title":"arXiv:2404.14204"},{"key":"ref198","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2024.3373015"},{"key":"ref199","doi-asserted-by":"publisher","DOI":"10.1109\/MWC.010.2200546"},{"key":"ref200","doi-asserted-by":"publisher","DOI":"10.1109\/ICCCN52240.2021.9522156"},{"key":"ref201","doi-asserted-by":"publisher","DOI":"10.1109\/GLOBECOM54140.2023.10436771"},{"key":"ref202","article-title":"Cached model-as-a-resource: Provisioning large language model agents for edge intelligence in space-air-ground integrated networks","author":"Xu","year":"2024","journal-title":"arXiv:2403.05826"},{"key":"ref203","doi-asserted-by":"publisher","DOI":"10.1109\/ISIT.2013.6620380"},{"key":"ref204","doi-asserted-by":"publisher","DOI":"10.1109\/TCCN.2020.2968326"},{"key":"ref205","doi-asserted-by":"publisher","DOI":"10.1109\/ICC.2014.6883723"},{"key":"ref206","article-title":"GPTQ: Accurate post-training quantization for generative pre-trained transformers","author":"Frantar","year":"2022","journal-title":"arXiv:2210.17323"},{"key":"ref207","first-page":"1","article-title":"SqueezeLLM: Dense-and-sparse quantization","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Kim"},{"key":"ref208","first-page":"1","article-title":"SpQR: A sparse-quantized representation for near-lossless LLM weight compression","volume-title":"Proc. Int. Conf. Learn. Rep. (ICLR)","author":"Dettmers"},{"key":"ref209","doi-asserted-by":"publisher","DOI":"10.1109\/ISIT.2016.7541655"},{"key":"ref210","article-title":"Automatic cross-replica sharding of weight update in data-parallel training","author":"Xu","year":"2020","journal-title":"arXiv:2004.13336"},{"key":"ref211","first-page":"103","article-title":"GPipe: Efficient training of giant neural networks using pipeline parallelism","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Huang"},{"key":"ref212","article-title":"Megatron-LM: Training multi-billion parameter language models using model parallelism","author":"Shoeybi","year":"2019","journal-title":"arXiv:1909.08053"},{"key":"ref213","first-page":"1","article-title":"Efficient large-scale language model training on GPU clusters using megatron-LM","volume-title":"Proc. Int. Conf. High Perform. Comput. Netw. Storage Anal.","author":"Narayanan"},{"key":"ref214","doi-asserted-by":"publisher","DOI":"10.1109\/SC41405.2020.00024"},{"key":"ref215","first-page":"551","article-title":"ZeRO-offload: Democratizing billion-scale model training","volume-title":"Proc. USENIX Annu. Tech. Conf. (USENIX ATC)","author":"Ren"},{"key":"ref216","doi-asserted-by":"publisher","DOI":"10.1109\/LCOMM.2020.2996605"},{"key":"ref217","doi-asserted-by":"publisher","DOI":"10.1109\/TCCN.2020.2999606"},{"key":"ref218","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-97-7707-5_28"},{"key":"ref219","doi-asserted-by":"publisher","DOI":"10.1145\/3637528.3671573"},{"key":"ref220","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2023\/393"},{"key":"ref221","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.488"},{"key":"ref222","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01755"},{"key":"ref223","doi-asserted-by":"publisher","DOI":"10.1109\/ICCWorkshops57953.2023.10283579"},{"key":"ref224","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2023\/519"},{"key":"ref225","article-title":"\u03bb-split: A privacy-preserving split computing framework for cloud-powered generative AI","author":"Ohta","year":"2023","journal-title":"arXiv:2310.14651"},{"key":"ref226","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01202"},{"key":"ref227","doi-asserted-by":"publisher","DOI":"10.1109\/MNET.2024.3420755"},{"key":"ref228","doi-asserted-by":"publisher","DOI":"10.1109\/ICC40277.2020.9148862"},{"key":"ref229","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2022.3190512"},{"key":"ref230","volume-title":"Fine-tune LLAMA 2 with LoRa: Customizing a large language model for question-answering.","year":"2024"},{"key":"ref231","first-page":"745","article-title":"MegaScale: Scaling large language model training to more than 10,000 GPUs","volume-title":"Proc. USENIX Symp. Netw. Syst. Design Implement. (NSDI)","author":"Jiang"},{"key":"ref232","doi-asserted-by":"publisher","DOI":"10.1109\/OJCS.2024.3380828"},{"key":"ref233","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/W17-5525"},{"key":"ref234","doi-asserted-by":"publisher","DOI":"10.1145\/3458817.3476205"},{"key":"ref235","doi-asserted-by":"publisher","DOI":"10.1109\/INFOCOM.2019.8737614"},{"key":"ref236","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2021.3118403"},{"key":"ref237","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2022.3168538"},{"key":"ref238","article-title":"Automated federated pipeline for parameter-efficient fine-tuning of large language models","author":"Fang","year":"2024","journal-title":"arXiv:2404.06448"},{"key":"ref239","volume-title":"FedSN: A general federated learning framework over LEO satellite networks","author":"Lin","year":"2024"},{"key":"ref240","article-title":"FedAC: A adaptive clustered federated learning framework for heterogeneous data","author":"Zhang","year":"2024","journal-title":"arXiv:2403.16460"},{"key":"ref241","doi-asserted-by":"publisher","DOI":"10.1145\/3650203.3663331"},{"key":"ref242","doi-asserted-by":"publisher","DOI":"10.1109\/icassp48485.2024.10447454"},{"key":"ref243","article-title":"When federated learning meets pre-trained language models\u2019 parameter-efficient tuning methods","author":"Zhang","year":"2023","journal-title":"arXiv:2212.10025"},{"key":"ref244","article-title":"FATE-LLM: A industrial grade federated learning framework for large language models","author":"Fan","year":"2023","journal-title":"arXiv:2310.10049"},{"key":"ref245","first-page":"1","article-title":"SLoRA: Federated parameter efficient fine-tuning of language models","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Babakniya"},{"key":"ref246","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-short.8"},{"key":"ref247","doi-asserted-by":"publisher","DOI":"10.1109\/ICDCS51616.2021.00010"},{"key":"ref248","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2022.3227031"},{"key":"ref249","article-title":"Pushing large language models to the 6G edge: Vision, challenges, and opportunities","author":"Lin","year":"2023","journal-title":"arXiv:2309.16739"},{"key":"ref250","doi-asserted-by":"publisher","DOI":"10.1016\/j.jnca.2018.05.003"},{"key":"ref251","article-title":"Split learning for health: Distributed deep learning without sharing raw patient data","author":"Vepakomma","year":"2018","journal-title":"arXiv:1812.00564"},{"key":"ref252","doi-asserted-by":"publisher","DOI":"10.1109\/ICUFN49451.2021.9528601"},{"key":"ref253","doi-asserted-by":"publisher","DOI":"10.1109\/TMC.2024.3359040"},{"key":"ref254","doi-asserted-by":"publisher","DOI":"10.1109\/WCNC55385.2023.10118601"},{"key":"ref255","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i8.20825"},{"key":"ref256","article-title":"AdaptSFL: Adaptive split federated learning in resource-constrained edge networks","author":"Lin","year":"2024","journal-title":"arXiv:2403.13101"},{"key":"ref257","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-70604-3_4"},{"key":"ref258","article-title":"Robust split federated learning for U-shaped medical image networks","author":"Yang","year":"2022","journal-title":"arXiv:2212.06378"},{"key":"ref259","doi-asserted-by":"publisher","DOI":"10.1109\/GCWkshps58843.2023.10465123"},{"key":"ref260","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2024.3397677"},{"key":"ref261","doi-asserted-by":"publisher","DOI":"10.1109\/MNET.2024.3376419"},{"key":"ref262","article-title":"ChatGPT is not all you need a state-of-the-art review of large generative AI models","author":"Gozalo-Brizuela","year":"2023","journal-title":"arXiv:2301.04655"},{"key":"ref263","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-emnlp.802"},{"key":"ref264","doi-asserted-by":"publisher","DOI":"10.1109\/ISPA-BDCloud-SocialCom-SustainCom59178.2023.00101"},{"key":"ref265","first-page":"1","article-title":"Not all patches are what you need: Expediting vision transformers via token Reorganizations","volume-title":"Proc. Int. Conf. Learn. Represent. (ICLR)","author":"Liang"},{"key":"ref266","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.825"},{"key":"ref267","first-page":"1","article-title":"Hybrid LLM: Cost-efficient and quality-aware query routing","volume-title":"Proc. Int. Conf. Learn. Represent. (ICLR)","author":"Ding"},{"key":"ref268","article-title":"ServerlessLLM: Locality-enhanced serverless inference for large language models","author":"Fu","year":"2024","journal-title":"arXiv:2401.14351"},{"key":"ref269","first-page":"1","article-title":"BTR: Binary token representations for efficient retrieval augmented language models","volume-title":"Proc. Int. Conf. Learn. Represent. (ICLR)","author":"Cao"},{"key":"ref270","first-page":"3690","article-title":"PoWER-BERT: Accelerating BERT inference via progressive word-vector elimination","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Goyal"},{"key":"ref271","first-page":"1","article-title":"Token merging: Your ViT but faster","volume-title":"Proc. Int. Conf. Learn. Represent. (ICLR)","author":"Bolya"},{"key":"ref272","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2021.3126087"},{"key":"ref273","doi-asserted-by":"publisher","DOI":"10.1109\/MWC.002.2200468"},{"key":"ref274","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.acl-long.721"},{"key":"ref275","doi-asserted-by":"publisher","DOI":"10.1109\/ICCC57788.2023.10233481"},{"key":"ref276","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2022.3221778"},{"key":"ref277","doi-asserted-by":"publisher","DOI":"10.1145\/3603269.3610856"},{"key":"ref278","doi-asserted-by":"publisher","DOI":"10.1145\/3552326.3587438"},{"key":"ref279","article-title":"Fewer is more: Boosting LLM reasoning with reinforced context pruning","author":"Huang","year":"2023","journal-title":"arXiv:2312.08901"},{"key":"ref280","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.391"},{"key":"ref281","doi-asserted-by":"publisher","DOI":"10.1109\/TMC.2018.2883952"},{"key":"ref282","doi-asserted-by":"publisher","DOI":"10.1109\/TNET.2022.3179239"},{"key":"ref283","article-title":"FFSplit: Split feed-forward network for optimizing accuracy-efficiency trade-off in language model inference","author":"Liu","year":"2024","journal-title":"arXiv:2401.04044"},{"key":"ref284","first-page":"1","article-title":"QLLM: Accurate and efficient low-bitwidth quantization for large language models","volume-title":"Proc. Int. Conf. Learn. Represent. (ICLR)","author":"Liu"},{"key":"ref285","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.489"},{"key":"ref286","first-page":"1","article-title":"Unified language-vision pretraining in LLM with dynamic discrete visual tokenization","volume-title":"Proc. Int. Conf. Learn. Represent. (ICLR)","author":"Jin"},{"key":"ref287","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01300"},{"key":"ref288","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2023.3293154"},{"key":"ref289","doi-asserted-by":"publisher","DOI":"10.1109\/tgcn.2024.3374700"},{"key":"ref290","doi-asserted-by":"publisher","DOI":"10.1109\/pimrc59610.2024.10817394"},{"key":"ref291","first-page":"12312","article-title":"Distributed inference and fine-tuning of large language models over the Internet","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Borzunov"},{"key":"ref292","article-title":"Carbon emissions and large neural network training","author":"Patterson","year":"2021","journal-title":"arXiv:2104.10350"},{"key":"ref293","volume-title":"Energy consumption of ChatGPT responses.","author":"Aibin","year":"2024"},{"key":"ref294","article-title":"The unseen AI disruptions for power grids: LLM-induced transients","author":"Li","year":"2024","journal-title":"arXiv:2409.11416"},{"key":"ref295","volume-title":"Green edge AI: A contemporary survey.","author":"Mao","year":"2024"},{"key":"ref296","doi-asserted-by":"publisher","DOI":"10.1109\/TIFS.2024.3413592"},{"key":"ref297","doi-asserted-by":"publisher","DOI":"10.1109\/TIFS.2023.3287072"},{"key":"ref298","first-page":"1","article-title":"Teach LLMs to PHISH: Stealing private information from language models","volume-title":"Proc. Int. Conf. Learn. Represent. (ICLR)","author":"Panda"},{"key":"ref299","first-page":"35413","article-title":"Poisoning language models during instruction tuning","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Wan"},{"key":"ref300","first-page":"1","article-title":"Backdoor attacks for in-context learning with language models","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Kandpal"},{"key":"ref301","first-page":"1","article-title":"Beyond scale: The diversity coefficient as a data quality metric demonstrates LLMs are pre-trained on formally diverse data","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Lee"},{"key":"ref302","doi-asserted-by":"publisher","DOI":"10.3390\/info15080509"},{"key":"ref303","volume-title":"How to train ChatGPT on your own data.","year":"2024"},{"key":"ref304","first-page":"10198","article-title":"LA-UCL: LLM-augmented unsupervised contrastive learning framework for few-shot text classification","volume-title":"Proc. Joint Int. Conf. Comput. Linguist. Lang. Resource Eval. (LREC-COLING)","author":"Zhang"}],"container-title":["IEEE Communications Surveys &amp; Tutorials"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/9739\/11303750\/10835069.pdf?arnumber=10835069","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,19]],"date-time":"2025-12-19T07:44:45Z","timestamp":1766130285000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10835069\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12]]},"references-count":304,"journal-issue":{"issue":"6"},"URL":"https:\/\/doi.org\/10.1109\/comst.2025.3527641","relation":{"has-preprint":[{"id-type":"doi","id":"10.36227\/techrxiv.172115025.57884352\/v1","asserted-by":"object"}]},"ISSN":["1553-877X","2373-745X"],"issn-type":[{"value":"1553-877X","type":"electronic"},{"value":"2373-745X","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,12]]}}}