{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,17]],"date-time":"2025-11-17T14:32:43Z","timestamp":1763389963906,"version":"build-2065373602"},"publisher-location":"New York, NY, USA","reference-count":51,"publisher":"ACM","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,12]]},"DOI":"10.1145\/3725783.3764389","type":"proceedings-article","created":{"date-parts":[[2025,10,9]],"date-time":"2025-10-09T17:50:12Z","timestamp":1760032212000},"page":"38-45","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":1,"title":["Towards Fully Disaggregated Recommendation Model Serving"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-9215-4298","authenticated-orcid":false,"given":"Yibo","family":"Huang","sequence":"first","affiliation":[{"name":"University of Michigan, Ann Arbor, Michigan, USA"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-9328-3205","authenticated-orcid":false,"given":"Yiming","family":"Qiu","sequence":"additional","affiliation":[{"name":"University of Hong Kong, Hong Kong, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-0813-5911","authenticated-orcid":false,"given":"Zhenning","family":"Yang","sequence":"additional","affiliation":[{"name":"University of Michigan, Ann Arbor, Michigan, USA"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-4094-6610","authenticated-orcid":false,"given":"Yi","family":"Dai","sequence":"additional","affiliation":[{"name":"Fudan University, Shanghai, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7566-5793","authenticated-orcid":false,"given":"Dingming","family":"Wu","sequence":"additional","affiliation":[{"name":"Meta Platforms Inc., Menlo Park, California, USA"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-0472-107X","authenticated-orcid":false,"given":"Fan","family":"Lai","sequence":"additional","affiliation":[{"name":"University of Illinois Urbana-Champaign, Champaign, Illinois, USA"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-6163-0569","authenticated-orcid":false,"given":"Jiarong","family":"Xing","sequence":"additional","affiliation":[{"name":"Rice University, Houston, Texas, USA"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-8326-8124","authenticated-orcid":false,"given":"Ang","family":"Chen","sequence":"additional","affiliation":[{"name":"University of Michigan, Ann Arbor, Michigan, USA"}]}],"member":"320","published-online":{"date-parts":[[2025,10,11]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Ankit Agrawal, Krishan Kumar Attre, Paramvir Bahl, Ameya Bhagat, Gowri Bhaskara, Tanya Brokhman, Lei Cao, Ahmad Cheema, et al.","author":"Bai Wei","year":"2023","unstructured":"Wei Bai, Shanim Sainul Abdeen, Ankit Agrawal, Krishan Kumar Attre, Paramvir Bahl, Ameya Bhagat, Gowri Bhaskara, Tanya Brokhman, Lei Cao, Ahmad Cheema, et al. 2023. Empowering azure storage with {RDMA}. In NSDI."},{"key":"e_1_3_2_1_2_1","unstructured":"COMPUTE EXPRESS LINK CONSORTIUM INC. 2025. CXL\u00ae Specification."},{"key":"e_1_3_2_1_3_1","unstructured":"Intel Corporation. 2019. What Are PCIe 4.0 and 5.0? https:\/\/www.intel.com\/content\/www\/us\/en\/gaming\/resources\/what-is-pcie-4-and-why-does-it-matter.html"},{"key":"e_1_3_2_1_4_1","unstructured":"NVIDIA Corporation. 2024. Resource Domain. https:\/\/docs.nvidia.com\/networking\/display\/rdmacore50\/resource+domain"},{"key":"e_1_3_2_1_5_1","unstructured":"NVIDIA Corporation. 2025. ConnectX NICs. https:\/\/www.nvidia.com\/en-us\/networking\/ethernet-adapters\/"},{"key":"e_1_3_2_1_6_1","unstructured":"Aditya Desai Li Chou and Anshumali Shrivastava. 2022. Random Offset Block Embedding (ROBE) for compressed embedding tables in deep learning recommendation systems. In MLSys."},{"key":"e_1_3_2_1_7_1","unstructured":"Aleksandar Dragojevi\u0107 Dushyanth Narayanan Miguel Castro and Orion Hodson. 2014. FaRM: Fast Remote Memory. In NSDI."},{"key":"e_1_3_2_1_8_1","unstructured":"Yixiao Gao Qiang Li Lingbo Tang Yongqing Xi Pengcheng Zhang Wenwen Peng Bo Li Yaohui Wu Shaozong Liu Lei Yan et al. 2021. When cloud storage meets {RDMA}. In NSDI."},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"crossref","unstructured":"A.A. Ginart Maxim Naumov Dheevatsa Mudigere Jiyan Yang and James Zou. 2021. Mixed Dimension Embeddings with Application to Memory-Efficient Recommendation Systems. In ISIT.","DOI":"10.1109\/ISIT45174.2021.9517710"},{"key":"e_1_3_2_1_10_1","unstructured":"Chuanxiong Guo Haitao Wu Zhong Deng Gaurav Soni Jianxi Ye Jitu Padhye and Marina Lipshteyn. 2016. RDMA over commodity ethernet at scale. In SIGCOMM."},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"crossref","unstructured":"Udit Gupta Samuel Hsia Vikram Saraph Xiaodong Wang Brandon Reagen Gu-Yeon Wei Hsien-Hsin S. Lee David Brooks and Carole-Jean Wu. 2020. DeepRecSys: A System for Optimizing End-To-End At-Scale Neural Recommendation Inference. In ISCA.","DOI":"10.1109\/ISCA45697.2020.00084"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"crossref","unstructured":"Udit Gupta Samuel Hsia Vikram Saraph Xiaodong Wang Brandon Reagen Gu-Yeon Wei Hsien-Hsin S. Lee David Brooks and Carole-Jean Wu. 2020. DeepRecSys: A System for Optimizing End-To-End At-Scale Neural Recommendation Inference. In ISCA.","DOI":"10.1109\/ISCA45697.2020.00084"},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"crossref","unstructured":"Udit Gupta Carole-Jean Wu Xiaodong Wang Maxim Naumov Brandon Reagen David Brooks Bradford Cottel Kim Hazelwood Mark Hempstead Bill Jia et al. 2020. The architectural implications of facebook's dnn-based personalized recommendation. In HPCA.","DOI":"10.1109\/HPCA47549.2020.00047"},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"crossref","unstructured":"Samuel Hsia Udit Gupta Bilge Acun Newsha Ardalani Pan Zhong Gu-Yeon Wei David Brooks and Carole-Jean Wu. 2023. MP-Rec: Hardware-Software Co-design to Enable Multi-path Recommendation. In ASPLOS.","DOI":"10.1145\/3582016.3582068"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.ins.2019.06.048"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"publisher","DOI":"10.1109\/TSC.2019.2948009"},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"crossref","unstructured":"Yibo Huang Yukai Huang Ming Yan Jiayu Hu Cunming Liang Yang Xu Wenxiong Zou Yiming Zhang Rui Zhang Chunpu Huang et al. 2022. An ultra-low latency and compatible PCIe interconnect for rack-scale communication. In CONEXT.","DOI":"10.1145\/3555050.3569128"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"crossref","unstructured":"Mohamed Assem Ibrahim Onur Kayiran and Shaizeen Aga. 2021. Efficient Cache Utilization via Model-aware Data Placement for Recommendation Models. In MEMSYS.","DOI":"10.1145\/3488423.3519317"},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.1145\/3579371.3589112"},{"key":"e_1_3_2_1_20_1","volume-title":"Mahmut Taylan Kandemir, and Chita R. Das","author":"Jain Rishabh","year":"2023","unstructured":"Rishabh Jain, Scott Cheng, Vishwas Kalagi, Vrushabh Sanghavi, Samvit Kaul, Meena Arunachalam, Kiwan Maeng, Adwait Jog, Anand Sivasubramaniam, Mahmut Taylan Kandemir, and Chita R. Das. 2023. Optimizing CPU Performance for Recommendation Systems At-Scale. In ISCA."},{"key":"e_1_3_2_1_21_1","doi-asserted-by":"crossref","unstructured":"Wenqi Jiang Zhenhao He Shuai Zhang Kai Zeng Liang Feng Jiansong Zhang Tongxuan Liu Yong Li Jingren Zhou Ce Zhang and Gustavo Alonso. 2021. FleetRec: Large-Scale Recommendation Inference on Hybrid GPU-FPGA Clusters. In KDD.","DOI":"10.1145\/3447548.3467139"},{"key":"e_1_3_2_1_22_1","volume-title":"SPACE: Locality-Aware Processing in Heterogeneous Memory for Personalized Recommendations. In ISCA.","author":"Kal Hongju","year":"2021","unstructured":"Hongju Kal, Seokmin Lee, Gun Ko, and Won Woo Ro. 2021. SPACE: Locality-Aware Processing in Heterogeneous Memory for Personalized Recommendations. In ISCA."},{"key":"e_1_3_2_1_23_1","volume-title":"David Brooks, Vikas Chandra, Utku Diril, Amin Firoozshahian, Kim Hazelwood, Bill Jia, Hsien-Hsin S Lee, et al.","author":"Ke Liu","year":"2020","unstructured":"Liu Ke, Udit Gupta, Benjamin Youngjae Cho, David Brooks, Vikas Chandra, Utku Diril, Amin Firoozshahian, Kim Hazelwood, Bill Jia, Hsien-Hsin S Lee, et al. 2020. Recnmp: Accelerating personalized recommendation with near-memory processing. In ISCA."},{"key":"e_1_3_2_1_24_1","unstructured":"Liu Ke Xuan Zhang Benjamin Lee G. Edward Suh and Hsien-Hsin S. Lee. 2022. DisaggRec: Architecting Disaggregated Systems for Large-Scale Personalized Recommendation."},{"key":"e_1_3_2_1_25_1","volume-title":"Curie: Toward rigorous and automated scientific experimentation with ai agents. arXiv preprint arXiv:2502.16069","author":"Jern Kon Patrick Tser","year":"2025","unstructured":"Patrick Tser Jern Kon, Jiachen Liu, Qiuyi Ding, Yiming Qiu, Zhenning Yang, Yibo Huang, Jayanth Srinivasa, Myungjin Lee, Mosharaf Chowdhury, and Ang Chen. 2025. Curie: Toward rigorous and automated scientific experimentation with ai agents. arXiv preprint arXiv:2502.16069 (2025)."},{"key":"e_1_3_2_1_26_1","volume-title":"Gunawi","author":"Kurniawan Daniar H.","year":"2023","unstructured":"Daniar H. Kurniawan, Ruipu Wang, Kahfi S. Zulkifli, Fandi A. Wiranata, John Bent, Ymir Vigfusson, and Haryadi S. Gunawi. 2023. EVStore: Storage and Caching Capabilities for Scaling Embedding Tables in Deep Recommendation Systems. In ASPLOS."},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.1145\/3352460.3358284"},{"key":"e_1_3_2_1_28_1","volume-title":"Chun cheng Jason Chen, and Mosharaf Chowdhury","author":"Lai Fan","year":"2023","unstructured":"Fan Lai, Wei Zhang, Rui Liu, William Tsai, Xiaohan Wei, Yuxi Hu, Sabin Devkota, Jianyu Huang, Jongsoo Park, Xing Liu, Zeliang Chen, Ellie Wen, Paul Rivera, Jie You, Chun cheng Jason Chen, and Mosharaf Chowdhury. 2023. AdaEmbed: Adaptive Embedding for Large-Scale Recommendation Models. In OSDI."},{"key":"e_1_3_2_1_29_1","volume-title":"Hyunji Choi, Hyoung Uk Sul, Soosung Kim, Jae W. Lee, and Tae Jun Ham.","author":"Lee Yejin","year":"2021","unstructured":"Yejin Lee, Seong Hoon Seo, Hyunji Choi, Hyoung Uk Sul, Soosung Kim, Jae W. Lee, and Tae Jun Ham. 2021. MERCI: efficient embedding reduction on commodity hardware via sub-query memoization. In ASPLOS."},{"key":"e_1_3_2_1_30_1","volume-title":"32nd USENIX Security Symposium (USENIX Security 23)","author":"Liu Hongyi","year":"2023","unstructured":"Hongyi Liu, Jiarong Xing, Yibo Huang, Danyang Zhuo, Srinivas Devadas, and Ang Chen. 2023. Remote direct memory introspection. In 32nd USENIX Security Symposium (USENIX Security 23). 6043\u20136060."},{"key":"e_1_3_2_1_31_1","volume-title":"Verbs: Introduce resource domain. https:\/\/patchwork.kernel.org\/project\/linux-rdma\/patch\/1505648922-21346-1-git-send-email-yishaih@mellanox.com\/","year":"2017","unstructured":"Mellanox. 2017. Verbs: Introduce resource domain. https:\/\/patchwork.kernel.org\/project\/linux-rdma\/patch\/1505648922-21346-1-git-send-email-yishaih@mellanox.com\/"},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"crossref","unstructured":"Dheevatsa Mudigere Yuchen Hao Jianyu Huang Zhihao Jia Andrew Tulloch Srinivas Sridharan Xing Liu Mustafa Ozdal Jade Nie Jongsoo Park et al. 2022. Software-hardware co-design for fast and scalable training of deep learning recommendation models. In ISCA.","DOI":"10.1145\/3470496.3533727"},{"key":"e_1_3_2_1_33_1","volume-title":"Jianyu Huang, Narayanan Sundaraman, Jongsoo Park, Xiaodong Wang, Udit Gupta, Carole-Jean Wu, Alisson G Azzolini, et al.","author":"Naumov Maxim","year":"2019","unstructured":"Maxim Naumov, Dheevatsa Mudigere, Hao-Jun Michael Shi, Jianyu Huang, Narayanan Sundaraman, Jongsoo Park, Xiaodong Wang, Udit Gupta, Carole-Jean Wu, Alisson G Azzolini, et al. 2019. Deep learning recommendation model for personalization and recommendation systems. arXiv preprint arXiv:1906.00091 (2019)."},{"key":"e_1_3_2_1_34_1","unstructured":"Zaifeng Pan Zhen Zheng Feng Zhang Ruofan Wu Hao Liang Dalin Wang Xiafei Qiu Junjie Bai Wei Lin and Xiaoyong Du. 2024. RE-Com: A Compiler Approach to Accelerating Recommendation Model Inference with Massive Embedding Columns. In ASPLOS."},{"key":"e_1_3_2_1_35_1","unstructured":"Meta Research. 2023. GitHub - Set of datasets for the deep learning recommendation model (DLRM). https:\/\/github.com\/facebookresearch\/dlrm_datasets"},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"crossref","unstructured":"Geet Sethi Bilge Acun Niket Agarwal Christos Kozyrakis Caroline Trippel and Carole-Jean Wu. 2022. RecShard: statistical feature-based memory optimization for industry-scale neural recommendation. In ASPLOS.","DOI":"10.1145\/3503222.3507777"},{"key":"e_1_3_2_1_37_1","volume-title":"FlexShard: Flexible Sharding for Industry-Scale Sequence Recommendation Models. arXiv preprint arXiv:2301.02959","author":"Sethi Geet","year":"2023","unstructured":"Geet Sethi, Pallab Bhattacharya, Dhruv Choudhary, Carole-Jean Wu, and Christos Kozyrakis. 2023. FlexShard: Flexible Sharding for Industry-Scale Sequence Recommendation Models. arXiv preprint arXiv:2301.02959 (2023)."},{"key":"e_1_3_2_1_38_1","volume-title":"Legoos: A disseminated, distributed {OS} for hardware resource dis-aggregation. In OSDI.","author":"Shan Yizhou","year":"2018","unstructured":"Yizhou Shan, Yutong Huang, Yilun Chen, and Yiying Zhang. 2018. Legoos: A disseminated, distributed {OS} for hardware resource dis-aggregation. In OSDI."},{"key":"e_1_3_2_1_39_1","unstructured":"Hao-Jun Michael Shi Dheevatsa Mudigere Maxim Naumov and Jiyan Yang. 2020. Compositional Embeddings Using Complementary Partitions for Memory-Efficient Recommendation Systems. In KDD."},{"key":"e_1_3_2_1_40_1","unstructured":"Hao-Jun Michael Shi Dheevatsa Mudigere Maxim Naumov and Jiyan Yang. 2020. Compositional embeddings using complementary partitions for memory-efficient recommendation systems. In KDD."},{"key":"e_1_3_2_1_41_1","unstructured":"Yingcan Wei Matthias Langer Fan Yu Minseok Lee Jie Liu Ji Shi and Zehuan Wang. 2022. A GPU-specialized inference parameter server for large-scale deep recommendation models. In RecSys."},{"key":"e_1_3_2_1_42_1","doi-asserted-by":"crossref","unstructured":"Mark Wilkening Udit Gupta Samuel Hsia Caroline Trippel Carole-Jean Wu David Brooks and Gu-Yeon Wei. 2021. RecSSD: near data processing for solid state drive based recommendation inference. In ASPLOS.","DOI":"10.1145\/3410277"},{"key":"e_1_3_2_1_43_1","unstructured":"Minhui Xie Youyou Lu Jiazhen Lin Qing Wang Jian Gao Kai Ren and Jiwu Shu. 2022. Fleche: an efficient GPU embedding cache for personalized recommendations. In EuroSys."},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"crossref","unstructured":"Jilong Xue Youshan Miao Cheng Chen Ming Wu Lintao Zhang and Lidong Zhou. 2019. Fast distributed deep learning over rdma. In EuroSys.","DOI":"10.1145\/3302424.3303975"},{"key":"e_1_3_2_1_45_1","doi-asserted-by":"publisher","DOI":"10.5555\/3767955.3768000"},{"key":"e_1_3_2_1_46_1","volume-title":"GRACE: A Scalable Graph-Based Approach to Accelerating Recommendation Model Inference. In ASPLOS.","author":"Ye Haojie","year":"2023","unstructured":"Haojie Ye, Sanketh Vedula, Yuhan Chen, Yichen Yang, Alex Bronstein, Ronald Dreslinski, Trevor Mudge, and Nishil Talati. 2023. GRACE: A Scalable Graph-Based Approach to Accelerating Recommendation Model Inference. In ASPLOS."},{"key":"e_1_3_2_1_47_1","unstructured":"Chunxing Yin Bilge Acun Carole-Jean Wu and Xing Liu. 2021. TT-Rec: Tensor Train Compression for Deep Learning Recommendation Models. In MLSys."},{"key":"e_1_3_2_1_48_1","unstructured":"Chaoliang Zeng Layong Luo Qingsong Ning Yaodong Han Yuhang Jiang Ding Tang Zilong Wang Kai Chen and Chuanxiong Guo. 2022. {FAERY}: An {FPGA-accelerated} Embedding-based Retrieval System. In OSDI."},{"key":"e_1_3_2_1_49_1","volume-title":"Autoshard: Automated embedding table sharding for recommender systems. In KDD.","author":"Zha Daochen","year":"2022","unstructured":"Daochen Zha, Louis Feng, Bhargav Bhushanam, Dhruv Choudhary, Jade Nie, Yuandong Tian, Jay Chae, Yinbin Ma, Arun Kejariwal, and Xia Hu. 2022. Autoshard: Automated embedding table sharding for recommender systems. In KDD."},{"key":"e_1_3_2_1_50_1","unstructured":"Daochen Zha Louis Feng Qiaoyu Tan Zirui Liu Kwei-Herng Lai Bhargav Bhushanam Yuandong Tian Arun Kejariwal and Xia Hu. 2022. DreamShard: Generalizable Embedding Table Placement for Recommender Systems. In NeurIPS."},{"key":"e_1_3_2_1_51_1","doi-asserted-by":"publisher","DOI":"10.1145\/3514221.3517856"}],"event":{"name":"APSys '25: 16th ACM SIGOPS Asia-Pacific Workshop on Systems","location":"Lotte Hotel World, Emerald Hall Seoul Republic of Korea","acronym":"APSys '25","sponsor":["SIGOPS ACM Special Interest Group on Operating Systems"]},"container-title":["Proceedings of the 16th ACM SIGOPS Asia-Pacific Workshop on Systems"],"original-title":[],"deposited":{"date-parts":[[2025,10,9]],"date-time":"2025-10-09T17:50:46Z","timestamp":1760032246000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3725783.3764389"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,11]]},"references-count":51,"alternative-id":["10.1145\/3725783.3764389","10.1145\/3725783"],"URL":"https:\/\/doi.org\/10.1145\/3725783.3764389","relation":{},"subject":[],"published":{"date-parts":[[2025,10,11]]},"assertion":[{"value":"2025-10-11","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}