{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,23]],"date-time":"2025-10-23T17:15:08Z","timestamp":1761239708444,"version":"build-2065373602"},"publisher-location":"New York, NY, USA","reference-count":42,"publisher":"ACM","funder":[{"name":"Ministry of Science and Technology of China","award":["2023YFB4502400"],"award-info":[{"award-number":["2023YFB4502400"]}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62322206","62132018","62025204","U2268204","62272307","62372296"],"award-info":[{"award-number":["62322206","62132018","62025204","U2268204","62272307","62372296"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,27]]},"DOI":"10.1145\/3704413.3764419","type":"proceedings-article","created":{"date-parts":[[2025,10,23]],"date-time":"2025-10-23T17:08:23Z","timestamp":1761239303000},"page":"221-230","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["DRAGON: Enhancing On-Device Model Performance with Distributed Retrieval-Augmented Generation"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0008-2010-9579","authenticated-orcid":false,"given":"Shangyu","family":"Liu","sequence":"first","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3447-5349","authenticated-orcid":false,"given":"Zhenzhe","family":"Zheng","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2571-1979","authenticated-orcid":false,"given":"Xiaoyao","family":"Huang","sequence":"additional","affiliation":[{"name":"Cloud Computing Research Institute, China Telecom, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0965-9058","authenticated-orcid":false,"given":"Fan","family":"Wu","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6934-1685","authenticated-orcid":false,"given":"Guihai","family":"Chen","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3472-1717","authenticated-orcid":false,"given":"Jie","family":"Wu","sequence":"additional","affiliation":[{"name":"Cloud Computing Research Institute, China Telecom, Beijing, China"},{"name":"Temple University, Philadelphia, Pennsylvania, USA"}]}],"member":"320","published-online":{"date-parts":[[2025,10,23]]},"reference":[{"key":"e_1_3_2_2_1_1","volume-title":"Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs. arXiv:2503.01743","author":"Abouelenin Abdelrahman","year":"2025","unstructured":"Abdelrahman Abouelenin, Atabak Ashfaq, Adam Atkinson, Hany Awadalla, Nguyen Bach, Jianmin Bao, Alon Benhaim, Martin Cai, Vishrav Chaudhary, Congcong Chen, et al. 2025. Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs. arXiv:2503.01743"},{"key":"e_1_3_2_2_2_1","volume-title":"GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. In EMNLP. 4895\u20134901.","author":"Ainslie Joshua","year":"2023","unstructured":"Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebr\u00f3n, and Sumit Sanghai. 2023. GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints. In EMNLP. 4895\u20134901."},{"key":"e_1_3_2_2_3_1","doi-asserted-by":"crossref","unstructured":"Amin Banitalebi-Dehkordi Naveen Vedula Jian Pei Fei Xia Lanjun Wang and Yong Zhang. 2021. Auto-Split: A General Framework of Collaborative Edge-Cloud AI. In SIGKDD. 2543\u20132553.","DOI":"10.1145\/3447548.3467078"},{"key":"e_1_3_2_2_4_1","unstructured":"Sebastian Borgeaud Arthur Mensch Jordan Hoffmann Trevor Cai Eliza Rutherford et al. 2022. Improving Language Models by Retrieving from Trillions of Tokens. In ICML. 2206\u20132240."},{"key":"e_1_3_2_2_5_1","volume-title":"Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads. In ICML. 5209\u20135235.","author":"Cai Tianle","year":"2024","unstructured":"Tianle Cai, Yuhong Li, Zhengyang Geng, Hongwu Peng, Jason D. Lee, Deming Chen, and Tri Dao. 2024. Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads. In ICML. 5209\u20135235."},{"key":"e_1_3_2_2_6_1","doi-asserted-by":"publisher","DOI":"10.1145\/3012426.3022184"},{"key":"e_1_3_2_2_7_1","unstructured":"Charlie Chen Sebastian Borgeaud Geoffrey Irving Jean-Baptiste Lespiau Laurent Sifre and John Jumper. 2023. Accelerating Large Language Model Decoding with Speculative Sampling. arXiv:2302.01318"},{"key":"e_1_3_2_2_8_1","doi-asserted-by":"crossref","unstructured":"Jiawei Chen Hongyu Lin Xianpei Han and Le Sun. 2024. Benchmarking Large Language Models in Retrieval-Augmented Generation. In AAAI. 17754\u201317762.","DOI":"10.1609\/aaai.v38i16.29728"},{"key":"e_1_3_2_2_9_1","unstructured":"DeepSeek-AI. 2024. DeepSeek-V3 Technical Report. arXiv:2412.19437"},{"key":"e_1_3_2_2_10_1","doi-asserted-by":"crossref","unstructured":"Yucheng Ding Chaoyue Niu Fan Wu Shaojie Tang Chengfei Lyu and Guihai Chen. 2024. Enhancing On-Device LLM Inference with Historical Cloud-Based LLM Interactions. In SIGKDD. 597\u2013608.","DOI":"10.1145\/3637528.3671679"},{"key":"e_1_3_2_2_11_1","unstructured":"Kelvin Guu Kenton Lee Zora Tung Panupong Pasupat and Mingwei Chang. 2020. Retrieval Augmented Language Model Pre-Training. In ICML. 3929\u20133938."},{"key":"e_1_3_2_2_12_1","doi-asserted-by":"crossref","unstructured":"Junxian Huang Feng Qian Alexandre Gerber Z Morley Mao Subhabrata Sen and Oliver Spatscheck. 2012. A Close Examination of Performance and Power Characteristics of 4G LTE Networks. In MobiSys. 225\u2013238.","DOI":"10.1145\/2307636.2307658"},{"key":"e_1_3_2_2_13_1","unstructured":"Data is Better-Together. 2024. 10k_prompts_ranked. https:\/\/huggingface.co\/datasets\/data-is-better-together\/10k_prompts_ranked. Accessed: 2025-03-31."},{"key":"e_1_3_2_2_14_1","unstructured":"Gautier Izacard Mathilde Caron Lucas Hosseini Sebastian Riedel Piotr Bojanowski Armand Joulin and Edouard Grave. 2021. Unsupervised Dense Information Retrieval with Contrastive Learning. https:\/\/arxiv.org\/abs\/2112.09118"},{"key":"e_1_3_2_2_15_1","doi-asserted-by":"crossref","unstructured":"Zhengbao Jiang Frank Xu Luyu Gao Zhiqing Sun Qian Liu Jane Dwivedi-Yu Yiming Yang Jamie Callan and Graham Neubig. 2023. Active Retrieval Augmented Generation. In EMNLP. 7969\u20137992.","DOI":"10.18653\/v1\/2023.emnlp-main.495"},{"key":"e_1_3_2_2_16_1","doi-asserted-by":"publisher","DOI":"10.1561\/2200000083"},{"key":"e_1_3_2_2_17_1","doi-asserted-by":"crossref","unstructured":"Vladimir Karpukhin Barlas O\u011fuz Sewon Min Patrick Lewis Ledell Wu Sergey Edunov Danqi Chen and Wen-tau Yih. 2020. Dense Passage Retrieval for Open-Domain Question Answering. In EMNLP. 6769\u20136781.","DOI":"10.18653\/v1\/2020.emnlp-main.550"},{"key":"e_1_3_2_2_18_1","unstructured":"Urvashi Khandelwal Omer Levy Dan Jurafsky Luke Zettlemoyer and Mike Lewis. 2020. Generalization through Memorization: Nearest Neighbor Language Models. In ICLR."},{"key":"e_1_3_2_2_19_1","doi-asserted-by":"publisher","DOI":"10.1145\/3372224.3419194"},{"key":"e_1_3_2_2_20_1","unstructured":"Yaniv Leviathan Matan Kalman and Yossi Matias. 2023. Fast Inference From Transformers via Speculative Decoding. In ICML. 19274\u201319286."},{"key":"e_1_3_2_2_21_1","unstructured":"Patrick Lewis Ethan Perez Aleksandra Piktus Fabio Petroni Vladimir Karpukhin Naman Goyal Heinrich K\u00fcttler Mike Lewis Wen-tau Yih Tim Rockt\u00e4schel et al. 2020. Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. In NIPS. 9459\u20139474."},{"key":"e_1_3_2_2_22_1","volume-title":"DRAGON: A Device-Cloud Distributed RAG Framework that Enables a Simultaneous Integration of Personalized Information and Generic Knowledge. https:\/\/github.com\/ThomasAtlantis\/DRAGON","author":"Liu Shangyu","year":"2025","unstructured":"Shangyu Liu. 2025. DRAGON: A Device-Cloud Distributed RAG Framework that Enables a Simultaneous Integration of Personalized Information and Generic Knowledge. https:\/\/github.com\/ThomasAtlantis\/DRAGON"},{"key":"e_1_3_2_2_23_1","doi-asserted-by":"crossref","unstructured":"Hongyin Luo Tianhua Zhang Yung-Sung Chuang Yuan Gong Yoon Kim Xixin Wu Helen Meng and James Glass. 2023. Search Augmented Instruction Learning. In EMNLP. 3717\u20133729.","DOI":"10.18653\/v1\/2023.findings-emnlp.242"},{"key":"e_1_3_2_2_24_1","first-page":"196","article-title":"Mobility-Aware and Delay-Sensitive Service Provisioning in Mobile Edge-Cloud Networks","volume":"21","author":"Ma Yu","year":"2020","unstructured":"Yu Ma, Weifa Liang, Jing Li, Xiaohua Jia, and Song Guo. 2020. Mobility-Aware and Delay-Sensitive Service Provisioning in Mobile Edge-Cloud Networks. TMC 21, 1 (2020), 196\u2013210.","journal-title":"TMC"},{"key":"e_1_3_2_2_25_1","unstructured":"Stephen Merity Caiming Xiong James Bradbury and Richard Socher. 2017. Pointer Sentinel Mixture Models. In ICLR."},{"key":"e_1_3_2_2_26_1","unstructured":"OpenAI. 2023. GPT-4 Technical Report. arXiv:2303.08774"},{"key":"e_1_3_2_2_27_1","doi-asserted-by":"publisher","DOI":"10.1109\/MNET.2024.3442880"},{"key":"e_1_3_2_2_28_1","unstructured":"Guanqiao Qu Qiyuan Chen Wei Wei Zheng Lin Xianhao Chen and Kaibin Huang. 2024. Mobile Edge Intelligence for Large Language Models: A Contemporary Survey. arXiv:2407.18921"},{"key":"e_1_3_2_2_29_1","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00605"},{"key":"e_1_3_2_2_30_1","doi-asserted-by":"crossref","unstructured":"Nils Reimers and Iryna Gurevych. 2019. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. In EMNLP. 3980\u20133990.","DOI":"10.18653\/v1\/D19-1410"},{"key":"e_1_3_2_2_31_1","volume-title":"REPLUG: Retrieval-Augmented Black-Box Language Models. In NAACL. 8371\u20138384.","author":"Shi Weijia","year":"2024","unstructured":"Weijia Shi, Sewon Min, Michihiro Yasunaga, Minjoon Seo, Rich James, Mike Lewis, Luke Zettlemoyer, and Wen-tau Yih. 2024. REPLUG: Retrieval-Augmented Black-Box Language Models. In NAACL. 8371\u20138384."},{"key":"e_1_3_2_2_32_1","doi-asserted-by":"publisher","DOI":"10.1561\/1500000010"},{"key":"e_1_3_2_2_33_1","unstructured":"Mitchell Stern Noam Shazeer and Jakob Uszkoreit. 2018. Blockwise Parallel Decoding for Deep Autoregressive Models. In NIPS. 10107\u201310116."},{"key":"e_1_3_2_2_34_1","unstructured":"Qwen Team. 2024. Qwen2.5 Technical Report. arXiv:2412.15115"},{"key":"e_1_3_2_2_35_1","volume-title":"Speculative Decoding: Exploiting Speculative Execution for Accelerating Seq2seq Generation. In EMNLP. 3909\u20133925.","author":"Xia Heming","year":"2023","unstructured":"Heming Xia, Tao Ge, Peiyi Wang, Si-Qing Chen, Furu Wei, and Zhifang Sui. 2023. Speculative Decoding: Exploiting Speculative Execution for Accelerating Seq2seq Generation. In EMNLP. 3909\u20133925."},{"key":"e_1_3_2_2_36_1","doi-asserted-by":"crossref","unstructured":"Menglin Xia Xuchao Zhang Camille Couturier Guoqing Zheng Saravan Rajmohan and Victor R\u00fchle. 2024. Hybrid-RACA: Hybrid Retrieval-Augmented Composition Assistance for Real-time Text Prediction. In EMNLP. 120\u2013131.","DOI":"10.18653\/v1\/2024.emnlp-industry.11"},{"key":"e_1_3_2_2_37_1","volume-title":"Predictive Pipelined Decoding: A Compute-Latency Trade-off for Exact LLM Decoding. TMLR","author":"Yang Seongjun","year":"2024","unstructured":"Seongjun Yang, Gibbeum Lee, Jaewoong Cho, Dimitris Papailiopoulos, and Kangwook Lee. 2024. Predictive Pipelined Decoding: A Compute-Latency Trade-off for Exact LLM Decoding. TMLR (2024)."},{"key":"e_1_3_2_2_38_1","doi-asserted-by":"crossref","unstructured":"Jun Zhang Jue Wang Huan Li Lidan Shou Ke Chen Gang Chen and Sharad Mehrotra. 2024. Draft& Verify: Lossless Large Language Model Acceleration via Self-Speculative Decoding. In ACL. 11263\u201311282.","DOI":"10.18653\/v1\/2024.acl-long.607"},{"key":"e_1_3_2_2_39_1","volume-title":"Towards Real-Time Cooperative Deep Inference over the Cloud and Edge End Devices. IMWUT 4, 2","author":"Zhang Shigeng","year":"2020","unstructured":"Shigeng Zhang, Yinggang Li, Xuan Liu, Song Guo, Weiping Wang, Jianxin Wang, Bo Ding, and Di Wu. 2020. Towards Real-Time Cooperative Deep Inference over the Cloud and Edge End Devices. IMWUT 4, 2 (2020), 69:1\u201369:24."},{"key":"e_1_3_2_2_40_1","volume-title":"Xi Victoria Lin, et al","author":"Zhang Susan","year":"2022","unstructured":"Susan Zhang, Stephen Roller, Naman Goyal, Mikel Artetxe, Moya Chen, Shuohui Chen, Christopher Dewan, Mona Diab, Xian Li, Xi Victoria Lin, et al. 2022. OPT: Open Pre-trained Transformer Language Models. arXiv:2205.01068 [cs.CL]"},{"key":"e_1_3_2_2_41_1","unstructured":"Zhenyu Zhang Ying Sheng Tianyi Zhou Tianlong Chen Lianmin Zheng et al. 2023. H2O: Heavy-Hitter Oracle for Efficient Generative Inference of Large Language Models. In NIPS. 34661\u201334710."},{"key":"e_1_3_2_2_42_1","unstructured":"Wayne Xin Zhao Kun Zhou Junyi Li Tianyi Tang Xiaolei Wang Yupeng Hou Yingqian Min Beichen Zhang Junjie Zhang Zican Dong et al. 2023. A Survey of Large Language Models. arXiv:2303.18223"}],"event":{"name":"MobiHoc '25: Twenty-sixth International Symposium on Theory, Algorithmic Foundations, and Protocol Design for Mobile Networks and Mobile Computing","sponsor":["SIGMOBILE ACM Special Interest Group on Mobility of Systems, Users, Data and Computing"],"location":"Rice University Houston TX USA","acronym":"MobiHoc '25"},"container-title":["Proceedings of the Twenty-sixth International Symposium on Theory, Algorithmic Foundations, and Protocol Design for Mobile Networks and Mobile Computing"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3704413.3764419","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,10,23]],"date-time":"2025-10-23T17:11:10Z","timestamp":1761239470000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3704413.3764419"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,23]]},"references-count":42,"alternative-id":["10.1145\/3704413.3764419","10.1145\/3704413"],"URL":"https:\/\/doi.org\/10.1145\/3704413.3764419","relation":{},"subject":[],"published":{"date-parts":[[2025,10,23]]},"assertion":[{"value":"2025-10-23","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}