{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,12]],"date-time":"2025-11-12T09:09:51Z","timestamp":1762938591731,"version":"3.45.0"},"reference-count":63,"publisher":"Wiley","issue":"25-26","license":[{"start":{"date-parts":[[2025,10,9]],"date-time":"2025-10-09T00:00:00Z","timestamp":1759968000000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/onlinelibrary.wiley.com\/termsAndConditions#vor"}],"content-domain":{"domain":["onlinelibrary.wiley.com"],"crossmark-restriction":true},"short-container-title":["Concurrency and Computation"],"published-print":{"date-parts":[[2025,11,30]]},"abstract":"<jats:title>ABSTRACT<\/jats:title>\n                  <jats:p>\n                    In computational quantum chemistry, the computation of three\u2010center two\u2010electron repulsion integrals (also termed three\u2010center ERIs) is essential for density fitting. Due to the large number of integral elements and the induced combinatorial computational complexity, the community has actively pursued the acceleration\/speedup of ERI calculations to achieve pragmatic levels of efficiency. From the perspective of GPU acceleration,\n                    <jats:styled-content>atomicAdd<\/jats:styled-content>\n                    is known to incur significant memory overhead: The frequent collisions and retrials of value aggregation in global GPU memory lead to substantial performance degradation. To tackle this issue, we propose new thread mapping strategies for three\u2010center two\u2010electron integrals on GPUs, aiming at reducing the computational cost associated with value aggregation. Our methods are based on the idea of suitable substitutions of device\u2010level reduction (\n                    <jats:styled-content>atomicAdd<\/jats:styled-content>\n                    ) with efficient warp\u2010 and thread\u2010level reduction, such as warp\u2010shuffle and register accumulation. As a result, our computational experiments using an Intel Xeon Gold 6338 CPU, an NVIDIA A100 GPU, and relevant molecules of interest show the superiority against the conventional thread mapping scheme, achieving up to 2.76 speedups to compute three\u2010center ERIs more efficiently. Moreover, compared to well\u2010known quantum chemistry software such as PySCF and GPU4PySCF, our method achieved up to  speedups over PySCF and up to  speedups over GPU4PySCF. Our method has the potential to further enhance the performance, extensibility, and versatility of GPU\u2010accelerated quantum chemical computations.\n                  <\/jats:p>","DOI":"10.1002\/cpe.70328","type":"journal-article","created":{"date-parts":[[2025,10,10]],"date-time":"2025-10-10T03:16:00Z","timestamp":1760066160000},"update-policy":"https:\/\/doi.org\/10.1002\/crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Efficient GPU Implementations of Three\u2010Center Two\u2010Electron Repulsion Integrals"],"prefix":"10.1002","volume":"37","author":[{"given":"Kanta","family":"Suzuki","sequence":"first","affiliation":[{"name":"Graduate School of Advanced Science and Engineering Hiroshima University  Higashi\u2010Hiroshima Japan"}]},{"given":"Yasuaki","family":"Ito","sequence":"additional","affiliation":[{"name":"Graduate School of Advanced Science and Engineering Hiroshima University  Higashi\u2010Hiroshima Japan"}]},{"given":"Haruto","family":"Fujii","sequence":"additional","affiliation":[{"name":"Computing Laboratory Fujitsu Limited  Kawasaki Japan"}]},{"given":"Nobuya","family":"Yokogawa","sequence":"additional","affiliation":[{"name":"Graduate School of Advanced Science and Engineering Hiroshima University  Higashi\u2010Hiroshima Japan"}]},{"given":"Satoki","family":"Tsuji","sequence":"additional","affiliation":[{"name":"Graduate School of Advanced Science and Engineering Hiroshima University  Higashi\u2010Hiroshima Japan"},{"name":"Computing Laboratory Fujitsu Limited  Kawasaki Japan"}]},{"given":"Koji","family":"Nakano","sequence":"additional","affiliation":[{"name":"Graduate School of Advanced Science and Engineering Hiroshima University  Higashi\u2010Hiroshima Japan"}]},{"given":"Victor","family":"Parque","sequence":"additional","affiliation":[{"name":"Graduate School of Advanced Science and Engineering Hiroshima University  Higashi\u2010Hiroshima Japan"}]},{"given":"Akihiko","family":"Kasagi","sequence":"additional","affiliation":[{"name":"Computing Laboratory Fujitsu Limited  Kawasaki Japan"}]}],"member":"311","published-online":{"date-parts":[[2025,10,9]]},"reference":[{"key":"e_1_2_8_2_1","doi-asserted-by":"publisher","DOI":"10.1109\/CANDAR64496.2024.00021"},{"key":"e_1_2_8_3_1","doi-asserted-by":"publisher","DOI":"10.1021\/cr00005a013"},{"key":"e_1_2_8_4_1","doi-asserted-by":"publisher","DOI":"10.1002\/cbic.202300120"},{"key":"e_1_2_8_5_1","doi-asserted-by":"publisher","DOI":"10.1017\/S0305004100011919"},{"key":"e_1_2_8_6_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.parco.2023.103017"},{"key":"e_1_2_8_7_1","doi-asserted-by":"publisher","DOI":"10.1021\/acs.chemrev.8b00803"},{"key":"e_1_2_8_8_1","doi-asserted-by":"publisher","DOI":"10.1021\/acs.jctc.2c00876"},{"key":"e_1_2_8_9_1","doi-asserted-by":"publisher","DOI":"10.1002\/jcc.20779"},{"key":"e_1_2_8_10_1","doi-asserted-by":"publisher","DOI":"10.1016\/0009-2614(93)89151-7"},{"key":"e_1_2_8_11_1","doi-asserted-by":"publisher","DOI":"10.1016\/S0166-1280(00)00528-5"},{"key":"e_1_2_8_12_1","doi-asserted-by":"publisher","DOI":"10.1063\/1.1594713"},{"key":"e_1_2_8_13_1","doi-asserted-by":"publisher","DOI":"10.1007\/s002140050269"},{"key":"e_1_2_8_14_1","doi-asserted-by":"publisher","DOI":"10.1021\/ct400250u"},{"key":"e_1_2_8_15_1","doi-asserted-by":"publisher","DOI":"10.1063\/1.4820484"},{"key":"e_1_2_8_16_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-85697-6_14"},{"key":"e_1_2_8_17_1","doi-asserted-by":"publisher","DOI":"10.1109\/CANDARW64572.2024.00041"},{"key":"e_1_2_8_18_1","doi-asserted-by":"publisher","DOI":"10.1109\/CANDARW64572.2024.00033"},{"key":"e_1_2_8_19_1","doi-asserted-by":"publisher","DOI":"10.1021\/ct700268q"},{"key":"e_1_2_8_20_1","doi-asserted-by":"publisher","DOI":"10.1021\/acs.jctc.2c00414"},{"key":"e_1_2_8_21_1","doi-asserted-by":"publisher","DOI":"10.1021\/ct300321a"},{"key":"e_1_2_8_22_1","doi-asserted-by":"publisher","DOI":"10.1002\/qua.560400605"},{"key":"e_1_2_8_23_1","doi-asserted-by":"publisher","DOI":"10.1021\/acs.jctc.9b00560"},{"key":"e_1_2_8_24_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.cplett.2015.01.023"},{"key":"e_1_2_8_25_1","doi-asserted-by":"publisher","DOI":"10.3390\/app15052572"},{"key":"e_1_2_8_26_1","doi-asserted-by":"publisher","DOI":"10.1021\/acs.jctc.6b01166"},{"key":"e_1_2_8_27_1","doi-asserted-by":"publisher","DOI":"10.1063\/5.0156934"},{"key":"e_1_2_8_28_1","doi-asserted-by":"publisher","DOI":"10.1021\/acs.jctc.0c00768"},{"key":"e_1_2_8_29_1","doi-asserted-by":"publisher","DOI":"10.1021\/acs.jctc.1c00720"},{"key":"e_1_2_8_30_1","doi-asserted-by":"publisher","DOI":"10.1002\/cpe.8328"},{"key":"e_1_2_8_31_1","doi-asserted-by":"publisher","DOI":"10.1002\/wcms.1494"},{"key":"e_1_2_8_32_1","doi-asserted-by":"publisher","DOI":"10.1063\/5.0005188"},{"key":"e_1_2_8_33_1","doi-asserted-by":"publisher","DOI":"10.1021\/acs.jctc.1c00145"},{"key":"e_1_2_8_34_1","article-title":"Enhancing GPU\u2010Acceleration in the Python\u2010Based Simulations of Chemistry Framework","author":"Wu X.","year":"2024","journal-title":"arXiv"},{"key":"e_1_2_8_35_1","doi-asserted-by":"publisher","DOI":"10.1063\/5.0052105"},{"key":"e_1_2_8_36_1","doi-asserted-by":"publisher","DOI":"10.1021\/acs.jpca.3c04574"},{"key":"e_1_2_8_37_1","doi-asserted-by":"publisher","DOI":"10.1080\/00268976.2022.2112987"},{"key":"e_1_2_8_38_1","doi-asserted-by":"publisher","DOI":"10.1063\/5.0215352"},{"key":"e_1_2_8_39_1","doi-asserted-by":"publisher","DOI":"10.1063\/5.0233523"},{"key":"e_1_2_8_40_1","doi-asserted-by":"publisher","DOI":"10.1021\/acs.jctc.2c00995"},{"key":"e_1_2_8_41_1","doi-asserted-by":"publisher","DOI":"10.1063\/5.0217001"},{"key":"e_1_2_8_42_1","doi-asserted-by":"publisher","DOI":"10.1021\/ct300754n"},{"key":"e_1_2_8_43_1","doi-asserted-by":"publisher","DOI":"10.1021\/ct500984t"},{"key":"e_1_2_8_44_1","unstructured":"\u201cNVIDIA CUDA C++ Programming Guide Release 12.3 \u201d 2024 https:\/\/docs.nvidia.com\/cuda\/cuda\u2010c\u2010programming\u2010guide\/."},{"key":"e_1_2_8_45_1","doi-asserted-by":"publisher","DOI":"10.1002\/wcms.1340"},{"key":"e_1_2_8_46_1","doi-asserted-by":"publisher","DOI":"10.1021\/acs.jcim.9b00725"},{"key":"e_1_2_8_47_1","doi-asserted-by":"publisher","DOI":"10.1109\/IPDPSW63119.2024.00066"},{"key":"e_1_2_8_48_1","doi-asserted-by":"publisher","DOI":"10.1002\/jcc.540030314"},{"key":"e_1_2_8_49_1","doi-asserted-by":"publisher","DOI":"10.1063\/1.432807"},{"key":"e_1_2_8_50_1","doi-asserted-by":"publisher","DOI":"10.1016\/0021-9991(78)90092-X"},{"key":"e_1_2_8_51_1","doi-asserted-by":"publisher","DOI":"10.1063\/1.450106"},{"key":"e_1_2_8_52_1","doi-asserted-by":"publisher","DOI":"10.1063\/1.455553"},{"key":"e_1_2_8_53_1","doi-asserted-by":"publisher","DOI":"10.1039\/b413539c"},{"issue":"1063","key":"e_1_2_8_54_1","first-page":"542","article-title":"Electronic Wave Functions \u2010 I. A General Method of Calculation for the Stationary States of any Molecular System","volume":"200","author":"Boys S. F.","year":"1950","journal-title":"Proceedings of the Royal Society of London. Series A: Mathematical and Physical Sciences"},{"key":"e_1_2_8_55_1","doi-asserted-by":"publisher","DOI":"10.1016\/0009-2614(91)80260-5"},{"key":"e_1_2_8_56_1","doi-asserted-by":"crossref","unstructured":"R.Haase \u201cCLIJ: GPU\u2010Accelerated Image Processing for Everyone bioRxiv \u201d2019.","DOI":"10.1101\/660704"},{"volume-title":"Proceedings of the 2015 International Conference on Parallel Architecture and Compilation","year":"2020","author":"Schweizer H.","key":"e_1_2_8_57_1"},{"key":"e_1_2_8_58_1","doi-asserted-by":"publisher","DOI":"10.1145\/3725798.3725801"},{"key":"e_1_2_8_59_1","doi-asserted-by":"publisher","DOI":"10.1145\/3126908.3126956"},{"key":"e_1_2_8_60_1","doi-asserted-by":"publisher","DOI":"10.3390\/app15094779"},{"key":"e_1_2_8_61_1","doi-asserted-by":"publisher","DOI":"10.1002\/qua.560400604"},{"key":"e_1_2_8_62_1","doi-asserted-by":"publisher","DOI":"10.1093\/nar\/gkae1059"},{"key":"e_1_2_8_63_1","unstructured":"\u201cGANSU: GPU Accelerated Numerical Simulation Utility \u201dhttps:\/\/github.com\/Yasuaki\u2010Ito\/GANSU\/."},{"key":"e_1_2_8_64_1","doi-asserted-by":"publisher","DOI":"10.1002\/jcc.23981"}],"container-title":["Concurrency and Computation: Practice and Experience"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/onlinelibrary.wiley.com\/doi\/pdf\/10.1002\/cpe.70328","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,12]],"date-time":"2025-11-12T09:04:52Z","timestamp":1762938292000},"score":1,"resource":{"primary":{"URL":"https:\/\/onlinelibrary.wiley.com\/doi\/10.1002\/cpe.70328"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,9]]},"references-count":63,"journal-issue":{"issue":"25-26","published-print":{"date-parts":[[2025,11,30]]}},"alternative-id":["10.1002\/cpe.70328"],"URL":"https:\/\/doi.org\/10.1002\/cpe.70328","archive":["Portico"],"relation":{},"ISSN":["1532-0626","1532-0634"],"issn-type":[{"type":"print","value":"1532-0626"},{"type":"electronic","value":"1532-0634"}],"subject":[],"published":{"date-parts":[[2025,10,9]]},"assertion":[{"value":"2025-05-20","order":0,"name":"received","label":"Received","group":{"name":"publication_history","label":"Publication History"}},{"value":"2025-09-25","order":2,"name":"accepted","label":"Accepted","group":{"name":"publication_history","label":"Publication History"}},{"value":"2025-10-09","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}],"article-number":"e70328"}}