{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,12]],"date-time":"2026-06-12T15:55:19Z","timestamp":1781279719844,"version":"3.54.1"},"publisher-location":"New York, NY, USA","reference-count":29,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,12,3]],"date-time":"2024-12-03T00:00:00Z","timestamp":1733184000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,12,3]]},"DOI":"10.1145\/3700410.3702126","type":"proceedings-article","created":{"date-parts":[[2024,12,26]],"date-time":"2024-12-26T09:27:33Z","timestamp":1735205253000},"page":"1-7","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":9,"title":["MNN-LLM: A Generic Inference Engine for Fast Large Language Model Deployment on Mobile Devices"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0009-0498-7491","authenticated-orcid":false,"given":"Zhaode","family":"Wang","sequence":"first","affiliation":[{"name":"Alibaba Group, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-4331-4100","authenticated-orcid":false,"given":"Jingbang","family":"Yang","sequence":"additional","affiliation":[{"name":"Alibaba Group, Hangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-1687-9746","authenticated-orcid":false,"given":"Xinyu","family":"Qian","sequence":"additional","affiliation":[{"name":"Alibaba Group, Hangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-1353-687X","authenticated-orcid":false,"given":"Shiwen","family":"Xing","sequence":"additional","affiliation":[{"name":"Alibaba Group, Hangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-8995-9841","authenticated-orcid":false,"given":"Xiaotang","family":"Jiang","sequence":"additional","affiliation":[{"name":"Alibaba Group, Hangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-4918-7425","authenticated-orcid":false,"given":"Chengfei","family":"Lv","sequence":"additional","affiliation":[{"name":"Alibaba Group, Hangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0030-8289","authenticated-orcid":false,"given":"Shengyu","family":"Zhang","sequence":"additional","affiliation":[{"name":"Zhejiang University, Hangzhou, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2024,12,26]]},"reference":[{"key":"e_1_3_3_1_2_2","unstructured":"Keivan Alizadeh Iman Mirzadeh Dmitry Belenko Karen Khatamifard Minsik Cho Carlo C\u00a0Del Mundo Mohammad Rastegari and Mehrdad Farajtabar. 2024. LLM in a flash: Efficient Large Language Model Inference with Limited Memory. arxiv:https:\/\/arXiv.org\/abs\/2312.11514\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2312.11514"},{"key":"e_1_3_3_1_3_2","unstructured":"ARM. 2024. Arm Big.LITTLE. https:\/\/www.arm.com\/zh-TW\/technologies\/big-little."},{"key":"e_1_3_3_1_4_2","unstructured":"ARM. 2024. Arm NEON. https:\/\/www.arm.com\/technologies\/neon."},{"key":"e_1_3_3_1_5_2","unstructured":"ARM. 2024. Dot Product. https:\/\/developer.arm.com\/documentation\/100069\/0609\/A64-SIMD-Vector-Instructions\/SDOT\u2013vector-."},{"key":"e_1_3_3_1_6_2","unstructured":"ARM. 2024. Matrix Multiplication extension. https:\/\/developer.arm.com\/documentation\/101754\/0622\/armclang-Reference\/Other-Compiler-specific-Features\/Supported-architecture-features\/Matrix-Multiplication-extension."},{"key":"e_1_3_3_1_7_2","unstructured":"ARM. 2024. The Armv8.2 architecture extension. https:\/\/developer.arm.com\/documentation\/109697\/latest\/Feature-descriptions\/The-Armv8-2-architecture-extension."},{"key":"e_1_3_3_1_8_2","unstructured":"Jinze Bai Shuai Bai Yunfei Chu Zeyu Cui Kai Dang Xiaodong Deng Yang Fan Wenbin Ge Yu Han Fei Huang Binyuan Hui Luo Ji Mei Li Junyang Lin Runji Lin Dayiheng Liu Gao Liu Chengqiang Lu Keming Lu Jianxin Ma Rui Men Xingzhang Ren Xuancheng Ren Chuanqi Tan Sinan Tan Jianhong Tu Peng Wang Shijie Wang Wei Wang Shengguang Wu Benfeng Xu Jin Xu An Yang Hao Yang Jian Yang Shusheng Yang Yang Yao Bowen Yu Hongyi Yuan Zheng Yuan Jianwei Zhang Xingxuan Zhang Yichang Zhang Zhenru Zhang Chang Zhou Jingren Zhou Xiaohuan Zhou and Tianhang Zhu. 2023. Qwen Technical Report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2309.16609 (2023)."},{"key":"e_1_3_3_1_9_2","unstructured":"Junjie Bai Fang Lu Ke Zhang et\u00a0al. 2019. ONNX: Open Neural Network Exchange. https:\/\/github.com\/onnx\/onnx."},{"key":"e_1_3_3_1_10_2","unstructured":"Elias Frantar Saleh Ashkboos Torsten Hoefler and Dan Alistarh. 2023. GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. arxiv:https:\/\/arXiv.org\/abs\/2210.17323\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2210.17323"},{"key":"e_1_3_3_1_11_2","unstructured":"Georgi Gerganov. 2024. ggerganov\/llama.cpp: Port of Facebook\u2019s LLaMA model in C\/C++. https:\/\/github.com\/ggerganov\/llama.cpp."},{"key":"e_1_3_3_1_12_2","unstructured":"Suriya Gunasekar Yi Zhang Jyoti Aneja Caio C\u00e9sar\u00a0Teodoro Mendes Allie\u00a0Del Giorno Sivakanth Gopi Mojan Javaheripi Piero Kauffmann Gustavo de Rosa Olli Saarikivi Adil Salim Shital Shah Harkirat\u00a0Singh Behl Xin Wang S\u00e9bastien Bubeck Ronen Eldan Adam\u00a0Tauman Kalai Yin\u00a0Tat Lee and Yuanzhi Li. 2023. Textbooks Are All You Need. (2023). arxiv:https:\/\/arXiv.org\/abs\/2306.11644\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2306.11644"},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"publisher","DOI":"10.1109\/AICCSA.2017.168"},{"key":"e_1_3_3_1_14_2","unstructured":"Andrew\u00a0G. Howard Menglong Zhu Bo Chen Dmitry Kalenichenko Weijun Wang Tobias Weyand Marco Andreetto and Hartwig Adam. 2017. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. arxiv:https:\/\/arXiv.org\/abs\/1704.04861\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/1704.04861"},{"key":"e_1_3_3_1_15_2","unstructured":"Edward\u00a0J. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang and Weizhu Chen. 2021. LoRA: Low-Rank Adaptation of Large Language Models. arxiv:https:\/\/arXiv.org\/abs\/2106.09685\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2106.09685"},{"key":"e_1_3_3_1_16_2","unstructured":"Xiaotang Jiang Huan Wang Yiliu Chen Ziqi Wu Lichuan Wang Bin Zou Yafeng Yang Zongyang Cui Yu Cai Tianhang Yu Chengfei Lv and Zhihua Wu. 2020. MNN: A Universal and Efficient Inference Engine. CoRR abs\/2002.12418 (2020). arXiv:https:\/\/arXiv.org\/abs\/2002.12418https:\/\/arxiv.org\/abs\/2002.12418"},{"key":"e_1_3_3_1_17_2","unstructured":"Jared Kaplan Sam McCandlish Tom Henighan Tom\u00a0B. Brown Benjamin Chess Rewon Child Scott Gray Alec Radford Jeffrey Wu and Dario Amodei. 2020. Scaling Laws for Neural Language Models. CoRR abs\/2001.08361 (2020). arXiv:https:\/\/arXiv.org\/abs\/2001.08361https:\/\/arxiv.org\/abs\/2001.08361"},{"key":"e_1_3_3_1_18_2","first-page":"249","volume-title":"16th USENIX Symposium on Operating Systems Design and Implementation (OSDI 22)","author":"Lv Chengfei","year":"2022","unstructured":"Chengfei Lv, Chaoyue Niu, Renjie Gu, Xiaotang Jiang, Zhaode Wang, Bin Liu, Ziqi Wu, Qiulin Yao, Congyu Huang, Panos Huang, Tao Huang, Hui Shu, Jinde Song, Bin Zou, Peng Lan, Guohuan Xu, Fei Wu, Shaojie Tang, Fan Wu, and Guihai Chen. 2022. Walle: An End-to-End, General-Purpose, and Large-Scale Production System for Device-Cloud Collaborative Machine Learning. In 16th USENIX Symposium on Operating Systems Design and Implementation (OSDI 22). USENIX Association, Carlsbad, CA, 249\u2013265. https:\/\/www.usenix.org\/conference\/osdi22\/presentation\/lv"},{"key":"e_1_3_3_1_19_2","unstructured":"OpenAI. 2023. ChatGPT. https:\/\/openai.com\/chatgpt Available at: https:\/\/openai.com\/chatgpt."},{"key":"e_1_3_3_1_20_2","unstructured":"Qualcomm. 2023. The future of AI is \u201con device\u201d. https:\/\/cms.tinyml.org\/wp-content\/uploads\/ew2023\/Kyuwoong-Hwang_tinyML-Asia-2023.pdf."},{"key":"e_1_3_3_1_21_2","unstructured":"qualcomm. 2024. Adreno Graphics Processing Units. https:\/\/www.qualcomm.com\/products\/features\/adreno."},{"key":"e_1_3_3_1_22_2","unstructured":"qualcomm. 2024. Snapdragon 8 Gen 3 Mobile Platform. https:\/\/www.qualcomm.com\/products\/mobile\/snapdragon\/smartphones\/snapdragon-8-series-mobile-platforms\/snapdragon-8-gen-3-mobile-platform."},{"key":"e_1_3_3_1_23_2","unstructured":"Joseph Redmon Santosh Divvala Ross Girshick and Ali Farhadi. 2016. You Only Look Once: Unified Real-Time Object Detection. arxiv:https:\/\/arXiv.org\/abs\/1506.02640\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/1506.02640"},{"key":"e_1_3_3_1_24_2","unstructured":"MLC team. 2024. MLC-LLM. https:\/\/github.com\/mlc-ai\/mlc-llm."},{"key":"e_1_3_3_1_25_2","unstructured":"Qwen Team. 2024. Qwen2.5: A Party of Foundation Models. https:\/\/qwenlm.github.io\/blog\/qwen2.5\/"},{"key":"e_1_3_3_1_26_2","unstructured":"Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan\u00a0N. Gomez Lukasz Kaiser and Illia Polosukhin. 2023. Attention Is All You Need. arxiv:https:\/\/arXiv.org\/abs\/1706.03762\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/1706.03762"},{"key":"e_1_3_3_1_27_2","unstructured":"Zhenliang Xue Yixin Song Zeyu Mi Le Chen Yubin Xia and Haibo Chen. 2024. PowerInfer-2: Fast Large Language Model Inference on a Smartphone. arxiv:https:\/\/arXiv.org\/abs\/2406.06282\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2406.06282"},{"key":"e_1_3_3_1_28_2","unstructured":"An Yang Baosong Yang Binyuan Hui Bo Zheng Bowen Yu Chang Zhou Chengpeng Li Chengyuan Li Dayiheng Liu Fei Huang Guanting Dong Haoran Wei Huan Lin Jialong Tang Jialin Wang Jian Yang Jianhong Tu Jianwei Zhang Jianxin Ma Jin Xu Jingren Zhou Jinze Bai Jinzheng He Junyang Lin Kai Dang Keming Lu Keqin Chen Kexin Yang Mei Li Mingfeng Xue Na Ni Pei Zhang Peng Wang Ru Peng Rui Men Ruize Gao Runji Lin Shijie Wang Shuai Bai Sinan Tan Tianhang Zhu Tianhao Li Tianyu Liu Wenbin Ge Xiaodong Deng Xiaohuan Zhou Xingzhang Ren Xinyu Zhang Xipin Wei Xuancheng Ren Yang Fan Yang Yao Yichang Zhang Yu Wan Yunfei Chu Yuqiong Liu Zeyu Cui Zhenru Zhang and Zhihao Fan. 2024. Qwen2 Technical Report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2407.10671 (2024)."},{"key":"e_1_3_3_1_29_2","unstructured":"Biao Zhang and Rico Sennrich. 2019. Root Mean Square Layer Normalization. arxiv:https:\/\/arXiv.org\/abs\/1910.07467\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/1910.07467"},{"key":"e_1_3_3_1_30_2","unstructured":"ztxz16. 2023. fastllm. https:\/\/github.com\/ztxz16\/fastllm."}],"event":{"name":"MMAsia'24: ACM Multimedia Asia Workshops","location":"Auckland New Zealand","acronym":"MMAsia '24","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 6th ACM International Conference on Multimedia in Asia Workshops"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3700410.3702126","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3700410.3702126","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,19]],"date-time":"2025-06-19T01:17:38Z","timestamp":1750295858000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3700410.3702126"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,12,3]]},"references-count":29,"alternative-id":["10.1145\/3700410.3702126","10.1145\/3700410"],"URL":"https:\/\/doi.org\/10.1145\/3700410.3702126","relation":{},"subject":[],"published":{"date-parts":[[2024,12,3]]},"assertion":[{"value":"2024-12-26","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}