{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,10]],"date-time":"2026-01-10T07:58:54Z","timestamp":1768031934854,"version":"3.49.0"},"publisher-location":"New York, NY, USA","reference-count":31,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,5,30]],"date-time":"2024-05-30T00:00:00Z","timestamp":1717027200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100006374","name":"National Science Foundation","doi-asserted-by":"publisher","award":["CCF-1823037"],"award-info":[{"award-number":["CCF-1823037"]}],"id":[{"id":"10.13039\/501100006374","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100006374","name":"DOE U.S. Department of Energy","doi-asserted-by":"publisher","award":["DE-AC02-05CH11231"],"award-info":[{"award-number":["DE-AC02-05CH11231"]}],"id":[{"id":"10.13039\/501100006374","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,5,30]]},"DOI":"10.1145\/3650200.3656623","type":"proceedings-article","created":{"date-parts":[[2024,6,3]],"date-time":"2024-06-03T14:11:54Z","timestamp":1717423914000},"page":"225-235","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":4,"title":["RDMA-Based Algorithms for Sparse Matrix Multiplication on GPUs"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-1488-1622","authenticated-orcid":false,"given":"Benjamin","family":"Brock","sequence":"first","affiliation":[{"name":"Intel Corporation, USA"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7253-9038","authenticated-orcid":false,"given":"Ayd\u0131n","family":"Bulu\u00e7","sequence":"additional","affiliation":[{"name":"Lawrence Berkeley National Laboratory, United States of America"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0957-701X","authenticated-orcid":false,"given":"Katherine","family":"Yelick","sequence":"additional","affiliation":[{"name":"University of California, Berkeley, USA"}]}],"member":"320","published-online":{"date-parts":[[2024,6,3]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.parco.2016.10.001"},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1137\/15M104253X"},{"key":"e_1_3_2_1_3_1","volume-title":"Parallel triangle counting and enumeration using matrix algebra","author":"Azad Ariful","unstructured":"Ariful Azad, Aydin Bulu\u00e7, and John Gilbert. 2015. Parallel triangle counting and enumeration using matrix algebra. In IPDPSW. IEEE, 804\u2013811."},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1137\/18M1189348"},{"key":"e_1_3_2_1_5_1","volume-title":"Scaling combinatorial algorithms on distributed-memory systems","author":"Azad Ariful","year":"2021","unstructured":"Ariful Azad, Oguz Selvitopi, Md\u00a0Taufique Hussain, John Gilbert, and Ayd\u0131n Bulu\u00e7. 2021. Combinatorial BLAS 2.0: Scaling combinatorial algorithms on distributed-memory systems. IEEE Transactions on Parallel and Distributed Systems (2021)."},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1145\/3144779.3169108"},{"key":"e_1_3_2_1_7_1","unstructured":"Satish Balay Shrirang Abhyankar Mark\u00a0F. Adams Jed Brown Peter Brune Kris Buschelman Lisandro Dalcin Alp Dener Victor Eijkhout William\u00a0D. Gropp Dmitry Karpeyev Dinesh Kaushik Matthew\u00a0G. Knepley Dave\u00a0A. May Lois\u00a0Curfman McInnes Richard\u00a0Tran Mills Todd Munson Karl Rupp Patrick Sanan Barry\u00a0F. Smith Stefano Zampini Hong Zhang and Hong Zhang. 2021. PETSc Web page. https:\/\/www.mcs.anl.gov\/petsc. https:\/\/www.mcs.anl.gov\/petsc"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.parco.2014.03.012"},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1145\/3337821.3337912"},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1177\/1094342011403516"},{"key":"e_1_3_2_1_11_1","first-page":"679","article-title":"Fast parallel Markov clustering in bioinformatics using massively parallel computing on GPU with CUDA and ELLPACK-R sparse format","volume":"9","author":"Bustamam Alhadi","year":"2012","unstructured":"Alhadi Bustamam, Kevin Burrage, and Nicholas\u00a0A Hamilton. 2012. Fast parallel Markov clustering in bioinformatics using massively parallel computing on GPU with CUDA and ELLPACK-R sparse format. IEEE\/ACM TCBB 9, 3 (2012), 679\u2013692.","journal-title":"IEEE\/ACM TCBB"},{"key":"e_1_3_2_1_12_1","volume-title":"R-MAT: A recursive model for graph mining","author":"Chakrabarti Deepayan","unstructured":"Deepayan Chakrabarti, Yiping Zhan, and Christos Faloutsos. 2004. R-MAT: A recursive model for graph mining. In SDM. SIAM, 442\u2013446."},{"key":"e_1_3_2_1_13_1","volume-title":"Graph algorithms via SuiteSparse: GraphBLAS: triangle counting and k-truss","author":"Davis A","unstructured":"Timothy\u00a0A Davis. 2018. Graph algorithms via SuiteSparse: GraphBLAS: triangle counting and k-truss. In HPEC. IEEE, 1\u20136."},{"key":"e_1_3_2_1_14_1","unstructured":"S\u00a0van Dongen. 2000. Graph clustering by flow simulation. PhD thesis University of Utrecht (2000)."},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1109\/HPCC-SmartCity-DSS.2016.0140"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"crossref","unstructured":"Zhixiang Gu Jose Moreira David Edelsohn and Ariful Azad. 2020. Bandwidth Optimized Parallel Algorithms for Sparse Matrix-Matrix Multiplication using Propagation Blocking. In SPAA. 293\u2013303.","DOI":"10.1145\/3350755.3400216"},{"key":"e_1_3_2_1_17_1","volume-title":"Parallel String Graph Construction and Transitive Reduction for De Novo Genome Assembly","author":"Guidi Giulia","unstructured":"Giulia Guidi, Oguz Selvitopi, Marquita Ellis, Leonid Oliker, Katherine Yelick, and Aydin Buluc. 2021. Parallel String Graph Construction and Transitive Reduction for De Novo Genome Assembly. In IPDPS. IEEE."},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"crossref","unstructured":"Changwan Hong Aravind Sukumaran-Rajam Israt Nisa Kunal Singh and P Sadayappan. 2019. Adaptive sparse tiling for sparse matrix multiplication. In PPOPP. 300\u2013314.","DOI":"10.1145\/3293883.3295712"},{"key":"e_1_3_2_1_19_1","unstructured":"Yuwei Hu Zihao Ye Minjie Wang Jiali Yu Da Zheng Mu Li Zheng Zhang Zhiru Zhang and Yida Wang. 2020. FeatGraph: A Flexible and Efficient Backend for Graph Neural Network Systems. In SC\u201920."},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"crossref","unstructured":"Guyue Huang Guohao Dai Yu Wang and Huazhong Yang. 2020. GE-SpMM: General-purpose Sparse Matrix-Matrix Multiplication on GPUs for Graph Neural Networks. In SC\u201920.","DOI":"10.1109\/SC41405.2020.00076"},{"key":"e_1_3_2_1_21_1","volume-title":"A Portable Multidimensional Coarray for C++","author":"M\u00f6ssbauer Felix","unstructured":"Felix M\u00f6ssbauer, Roger Kowalewski, Tobias Fuchs, and Karl F\u00fcrlinger. 2018. A Portable Multidimensional Coarray for C++. In PDP. Cambridge, UK."},{"key":"e_1_3_2_1_22_1","volume-title":"Parallel efficient sparse matrix-matrix multiplication on multicore platforms","author":"Patwary Mostofa\u00a0Ali","unstructured":"Md\u00a0Mostofa\u00a0Ali Patwary, Nadathur\u00a0Rajagopalan Satish, Narayanan Sundaram, Jongsoo Park, Michael\u00a0J Anderson, Satya\u00a0Gautam Vadlamudi, Dipankar Das, Sergey\u00a0G Pudov, Vadim\u00a0O Pirogov, and Pradeep Dubey. 2015. Parallel efficient sparse matrix-matrix multiplication on multicore platforms. In ISC. Springer, 48\u201357."},{"key":"e_1_3_2_1_23_1","volume-title":"Performance evaluation of sparse matrix multiplication kernels on Intel Xeon Phi","author":"Saule Erik","unstructured":"Erik Saule, Kamer Kaya, and \u00dcmit\u00a0V \u00c7ataly\u00fcrek. 2013. Performance evaluation of sparse matrix multiplication kernels on Intel Xeon Phi. In PPAM. Springer, 559\u2013570."},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1142\/S0129626411000254"},{"key":"e_1_3_2_1_25_1","volume-title":"Order or shuffle: Empirically evaluating vertex order impact on parallel graph computations","author":"Slota M","unstructured":"George\u00a0M Slota, Sivasankaran Rajamanickam, and Kamesh Madduri. 2017. Order or shuffle: Empirically evaluating vertex order impact on parallel graph computations. In IPDPSW. IEEE, 588\u2013597."},{"key":"e_1_3_2_1_26_1","volume-title":"Sparse tensor algebra as a parallel programming model. arXiv preprint arXiv:1512.00066","author":"Solomonik Edgar","year":"2015","unstructured":"Edgar Solomonik and Torsten Hoefler. 2015. Sparse tensor algebra as a parallel programming model. arXiv preprint arXiv:1512.00066 (2015)."},{"key":"e_1_3_2_1_27_1","volume-title":"Cyclops tensor framework: Reducing communication and eliminating load imbalance in massively parallel contractions","author":"Solomonik Edgar","unstructured":"Edgar Solomonik, Devin Matthews, Jeff Hammond, and James Demmel. 2013. Cyclops tensor framework: Reducing communication and eliminating load imbalance in massively parallel contractions. In IPDPS. IEEE, 813\u2013824."},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"crossref","unstructured":"Alok Tripathy Katherine Yelick and Ayd\u0131n Bulu\u00e7. 2020. Reducing communication in graph neural network training. In SC\u201920. 1\u201317.","DOI":"10.1109\/SC41405.2020.00074"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1002\/(SICI)1096-9128(199704)9:4<255::AID-CPE250>3.0.CO;2-2"},{"key":"e_1_3_2_1_30_1","volume-title":"Graph Clustering by Flow Simulation. Ph.\u00a0D. Dissertation","author":"van Dongen Stijn","unstructured":"Stijn van Dongen. 2000. Graph Clustering by Flow Simulation. Ph.\u00a0D. Dissertation. University of Utrecht."},{"key":"e_1_3_2_1_31_1","volume-title":"EuroPar","author":"Yang Carl","unstructured":"Carl Yang, Ayd\u0131n Bulu\u00e7, and John\u00a0D Owens. 2018. Design principles for sparse matrix multiplication on the GPU. In EuroPar. Springer, 672\u2013687."}],"event":{"name":"ICS '24: 2024 International Conference on Supercomputing","location":"Kyoto Japan","acronym":"ICS '24","sponsor":["SIGARCH ACM Special Interest Group on Computer Architecture"]},"container-title":["Proceedings of the 38th ACM International Conference on Supercomputing"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3650200.3656623","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3650200.3656623","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,22]],"date-time":"2025-08-22T15:23:04Z","timestamp":1755876184000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3650200.3656623"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,5,30]]},"references-count":31,"alternative-id":["10.1145\/3650200.3656623","10.1145\/3650200"],"URL":"https:\/\/doi.org\/10.1145\/3650200.3656623","relation":{},"subject":[],"published":{"date-parts":[[2024,5,30]]},"assertion":[{"value":"2024-06-03","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}