{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,5]],"date-time":"2026-06-05T15:33:35Z","timestamp":1780673615689,"version":"3.54.1"},"reference-count":12,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,6,30]],"date-time":"2025-06-30T00:00:00Z","timestamp":1751241600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,6,30]],"date-time":"2025-06-30T00:00:00Z","timestamp":1751241600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,6,30]]},"DOI":"10.1109\/ijcnn64981.2025.11228317","type":"proceedings-article","created":{"date-parts":[[2025,11,14]],"date-time":"2025-11-14T18:46:15Z","timestamp":1763145975000},"page":"1-8","source":"Crossref","is-referenced-by-count":4,"title":["LLMs at the Edge: Performance and Efficiency Evaluation with Ollama on Diverse Hardware"],"prefix":"10.1109","author":[{"given":"Donghao","family":"Huang","sequence":"first","affiliation":[{"name":"Singapore Management University,School of Computing and Information Systems,Singapore"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zhaoxia","family":"Wang","sequence":"additional","affiliation":[{"name":"Singapore Management University,School of Computing and Information Systems,Singapore"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"issue":"4","key":"ref1","first-page":"111","article-title":"A review on edge large language models: Design, execution, and applications","volume":"37","author":"Zheng","year":"2024","journal-title":"J. ACM"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/3603287.3651205"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ccwc62904.2025.10903774"},{"key":"ref4","article-title":"Shortened llama: A simple depth pruning for large language models","author":"Kim","year":"2024","journal-title":"ICLR"},{"key":"ref5","article-title":"Optimal brain compression: A framework for accurate post-training quantization and pruning","author":"Frantar","year":"2022","journal-title":"NeurIPS"},{"key":"ref6","article-title":"Qwen2. 5 technical report","author":"Yang","year":"2024"},{"key":"ref7","article-title":"The llama 3 herd of models","author":"Grattafiori","year":"2024"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/SCW63240.2024.00178"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10097191"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICDMW65004.2024.00061"},{"key":"ref11","article-title":"Optimizing llm inference clusters for enhanced performance and energy efficiency","author":"Hisaharo","year":"2024","journal-title":"Authorea Preprints"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-demos.6"}],"event":{"name":"2025 International Joint Conference on Neural Networks (IJCNN)","location":"Rome, Italy","start":{"date-parts":[[2025,6,30]]},"end":{"date-parts":[[2025,7,5]]}},"container-title":["2025 International Joint Conference on Neural Networks (IJCNN)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11227166\/11227148\/11228317.pdf?arnumber=11228317","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,15]],"date-time":"2025-11-15T07:48:17Z","timestamp":1763192897000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11228317\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6,30]]},"references-count":12,"URL":"https:\/\/doi.org\/10.1109\/ijcnn64981.2025.11228317","relation":{},"subject":[],"published":{"date-parts":[[2025,6,30]]}}}