{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,17]],"date-time":"2026-03-17T08:03:35Z","timestamp":1773734615287,"version":"3.50.1"},"reference-count":47,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2026]]},"DOI":"10.1109\/access.2026.3671798","type":"journal-article","created":{"date-parts":[[2026,3,9]],"date-time":"2026-03-09T19:59:26Z","timestamp":1773086366000},"page":"38544-38562","source":"Crossref","is-referenced-by-count":0,"title":["CAGR: A Cross-Accelerator Graph Optimization Framework for Efficient Recommender System Inference"],"prefix":"10.1109","volume":"14","author":[{"ORCID":"https:\/\/orcid.org\/0009-0001-1157-6510","authenticated-orcid":false,"given":"Zijian","family":"Shen","sequence":"first","affiliation":[{"name":"Carnegie Mellon University, Pittsburgh, PA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-1510-8477","authenticated-orcid":false,"given":"Wenyu","family":"Zhao","sequence":"additional","affiliation":[{"name":"Microsoft, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-6474-1315","authenticated-orcid":false,"given":"Boyuan","family":"Wang","sequence":"additional","affiliation":[{"name":"University of Southern California, Los Angeles, CA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-8389-0831","authenticated-orcid":false,"given":"Zimeng","family":"Wang","sequence":"additional","affiliation":[{"name":"Brandeis University, Waltham, MA, USA"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-3808-3911","authenticated-orcid":false,"given":"Wenbin","family":"Shang","sequence":"additional","affiliation":[{"name":"University of Glasgow, Glasgow, U.K."}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1145\/2959100.2959190"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1145\/3543507.3583237"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1145\/3705728"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1906.00091"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2017\/239"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1145\/3331184.3331267"},{"key":"ref7","first-page":"412","article-title":"Distributed hierarchical GPU parameter server for massive scale deep learning ads systems","volume":"2","author":"Zhao","year":"2020","journal-title":"Proc. Mach. Learn. Syst."},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA47549.2020.00047"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1145\/3583780.3615135"},{"key":"ref10","article-title":"Integrating large language models into recommendation via mutual augmentation and adaptive aggregation","author":"Luo","year":"2024","journal-title":"arXiv:2401.13870"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1145\/3470496.3533727"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1145\/3466752.3480127"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1145\/3079856.3080246"},{"key":"ref14","first-page":"578","article-title":"TVM: An automated end-to-end optimizing compiler for deep learning","volume-title":"Proc. 13th USENIX Symp. Operating Syst. Design Implement.","author":"Chen"},{"key":"ref15","article-title":"Operator fusion in XLA: Analysis and evaluation","author":"Snider","year":"2023","journal-title":"arXiv:2301.13062"},{"key":"ref16","first-page":"265","article-title":"TensorFlow: A system for large-scale machine learning","volume-title":"Proc. 12th USENIX Symp. operating Syst. design Implement. (OSDI 16)","author":"Abadi"},{"key":"ref17","first-page":"8026","article-title":"PyTorch: An imperative style, high-performance deep learning library","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"32","author":"Paszke"},{"key":"ref18","article-title":"Glow: Graph lowering compiler techniques for neural networks","author":"Rotem","year":"2018","journal-title":"arXiv:1805.00907"},{"key":"ref19","first-page":"863","article-title":"Ansor: Generating high-performance tensor programs for deep learning","volume-title":"Proc. 14th USENIX Symp. Operating Syst. Design Implement.","author":"Zheng"},{"key":"ref20","article-title":"Tensor comprehensions: Framework-agnostic high-performance machine learning abstractions","author":"Vasilache","year":"2018","journal-title":"arXiv:1802.04730"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1145\/3315508.3329973"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1145\/3404835.3462976"},{"key":"ref23","article-title":"Deep learning inference in Facebook data centers: Characterization, performance optimizations and hardware implications","author":"Park","year":"2018","journal-title":"arXiv:1811.09886"},{"key":"ref24","article-title":"Deep recommender models data flow optimization for AI accelerators","author":"Ruggeri","year":"2023"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1145\/3341301.3359630"},{"key":"ref26","first-page":"881","article-title":"Rammer: Enabling holistic deep learning compiler optimizations with rTasks","volume-title":"Proc. 14th USENIX Symp. Operating Syst. Design Implement.","author":"Ma"},{"key":"ref27","first-page":"2430","article-title":"Device placement optimization with reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Mirhoseini"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-34237-0_8"},{"key":"ref29","article-title":"Hardware\/software co-design methodologies for efficient ai systems and applications","author":"Odema","year":"2024"},{"key":"ref30","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017","journal-title":"arXiv:1707.06347"},{"key":"ref31","article-title":"Mlir: A compiler infrastructure for the end of Moore\u2019s law","author":"Lattner","year":"2020","journal-title":"arXiv:2002.11054"},{"key":"ref32","volume-title":"Avazu Click-Through Rate Prediction","year":"2014"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/3620665.3640366"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2025.3599787"},{"key":"ref35","first-page":"37","article-title":"PET: Optimizing tensor programs with partially equivalent transformations and automated corrections","volume-title":"Proc. 15th USENIX Symp. Operating Syst. Design Implement.","author":"Wang"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2025.3633290"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA51647.2021.00016"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2025.3629716"},{"key":"ref39","article-title":"A graph-enhanced deep-reinforcement learning framework for the aircraft landing problem","author":"Maru","year":"2025","journal-title":"arXiv:2502.12617"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.52202\/068431-1189"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1145\/3627673.3679536"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1145\/3453483.3454083"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1145\/3523227.3547405"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1145\/3523227.3547387"},{"key":"ref45","first-page":"430","article-title":"Pathways: Asynchronous distributed dataflow for ML","volume-title":"Proc. Mach. Learn. Syst.","author":"Barham"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/IPDPS53621.2022.00065"},{"key":"ref47","article-title":"Deep graph library: A graph-centric, highly-performant package for graph neural networks","author":"Wang","year":"2019","journal-title":"arXiv:1909.01315"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6287639\/11323511\/11424418.pdf?arnumber=11424418","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,17]],"date-time":"2026-03-17T05:46:58Z","timestamp":1773726418000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11424418\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"references-count":47,"URL":"https:\/\/doi.org\/10.1109\/access.2026.3671798","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]}}}