{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2023,1,21]],"date-time":"2023-01-21T03:12:29Z","timestamp":1674270749658},"reference-count":29,"publisher":"Springer Science and Business Media LLC","issue":"6","license":[{"start":{"date-parts":[[2013,11,9]],"date-time":"2013-11-09T00:00:00Z","timestamp":1383955200000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["Int J Parallel Prog"],"published-print":{"date-parts":[[2014,12]]},"DOI":"10.1007\/s10766-013-0293-2","type":"journal-article","created":{"date-parts":[[2013,11,8]],"date-time":"2013-11-08T13:51:10Z","timestamp":1383918670000},"page":"1032-1047","source":"Crossref","is-referenced-by-count":3,"title":["Reducing Communication Overhead in Multi-GPU Hybrid Solver for 2D Laplace\u2019s Equation"],"prefix":"10.1007","volume":"42","author":[{"given":"Micha\u0142","family":"Czapi\u0144ski","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chris","family":"Thompson","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Stuart","family":"Barnes","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2013,11,9]]},"reference":[{"key":"293_CR1","doi-asserted-by":"crossref","unstructured":"Bolz, J., Farmer, I., Grinspun, E., Schr\u00f6der, P.: Sparse matrix solvers on the GPU: conjugate gradients and multigrid. In: Proceedings of ACM Transactions on Graphics, pp. 917\u2013924 (2003)","DOI":"10.1145\/882262.882364"},{"key":"293_CR2","unstructured":"Goodnight, N., Woolley, C., Lewin, G., Luebke, D., Humphreys, G.: A multigrid solver for boundary value problems using programmable graphics hardware. In: Proceedings of the ACM SIGGRAPH\/EUROGRAPHICS Conference on Graphics Hardware, pp. 102\u2013111 (2003)"},{"key":"293_CR3","doi-asserted-by":"crossref","first-page":"40","DOI":"10.1145\/1365490.1365500","volume":"6","author":"J Nickolls","year":"2008","unstructured":"Nickolls, J., Buck, I., Garland, M., Skadron, K.: Scalable parallel programming with CUDA. ACM Queue 6, 40\u201353 (2008)","journal-title":"ACM Queue"},{"key":"293_CR4","doi-asserted-by":"crossref","unstructured":"Lindholm, E., Nickolls, J., Oberman, S., Montrym, J.: NVIDIA Tesla: a unified graphics and computing architecture. IEEE Micro 28, 39\u201355 (2008)","DOI":"10.1109\/MM.2008.31"},{"key":"293_CR5","doi-asserted-by":"crossref","first-page":"80","DOI":"10.1111\/j.1467-8659.2007.01012.x","volume":"26","author":"JD Owens","year":"2007","unstructured":"Owens, J.D., Luebke, D., Govindaraju, N., Harris, M., Kr\u00fcger, J., Lefohn, A., Purcell, T.J.: A survey of general-purpose computation on graphics hardware. Comput. Graph. Forum 26, 80\u2013113 (2007)","journal-title":"Comput. Graph. Forum"},{"key":"293_CR6","doi-asserted-by":"crossref","unstructured":"Garland, M., Le Grand, S., Nickolls, J., Anderson, J., Hardwick, J., Morton, S., Phillips, E., Zhang, Y., Volkov, V.: Parallel computing experiences with CUDA. IEEE Micro 28, 13\u201327 (2008)","DOI":"10.1109\/MM.2008.57"},{"key":"293_CR7","volume-title":"CUDA by Example: An Introduction to General-Purpose GPU Programming","author":"J Sanders","year":"2010","unstructured":"Sanders, J., Kandrot, E.: CUDA by Example: An Introduction to General-Purpose GPU Programming. Addison-Wesley, Reading (2010)"},{"key":"293_CR8","volume-title":"Programming Massively Parallel Processors: A Hands-on Approach","author":"D Kirk","year":"2010","unstructured":"Kirk, D., Hwu, W., Hwu, W.: Programming Massively Parallel Processors: A Hands-on Approach. Morgan Kaufmann Publishers, Los Altos (2010)"},{"key":"293_CR9","doi-asserted-by":"crossref","unstructured":"Stock, F., Koch, A.: A fast GPU implementation for solving sparse ill-posed linear equation systems. In: Proceedings of the 8th International Conference on Parallel Processing and Applied Mathematics: Part I, pp. 457\u2013466 (2010)","DOI":"10.1007\/978-3-642-14390-8_48"},{"key":"293_CR10","doi-asserted-by":"crossref","unstructured":"Wozniak, M., Olas, T., Wyrzykowski, R.: Parallel implementation of conjugate gradient method on graphics processors. In: Proceedings of the 8th International Conference on Parallel Processing and Applied Mathematics: Part I, pp. 125\u2013135 (2010)","DOI":"10.1007\/978-3-642-14390-8_14"},{"key":"293_CR11","doi-asserted-by":"crossref","first-page":"127","DOI":"10.1145\/1837853.1693472","volume":"45","author":"Y Zhang","year":"2010","unstructured":"Zhang, Y., Cohen, J., Owens, J.D.: Fast tridiagonal solvers on the GPU. ACM SIGPLAN Notices 45, 127\u2013136 (2010)","journal-title":"ACM SIGPLAN Notices"},{"key":"293_CR12","doi-asserted-by":"crossref","first-page":"22","DOI":"10.1109\/TPDS.2010.61","volume":"22","author":"D G\u00f6ddeke","year":"2011","unstructured":"G\u00f6ddeke, D., Strzodka, R.: Cyclic reduction tridiagonal solvers on GPUs applied to mixed precision multigrid. IEEE Trans. Parallel Distrib. Syst. 22, 22\u201332 (2011)","journal-title":"IEEE Trans. Parallel Distrib. Syst."},{"key":"293_CR13","doi-asserted-by":"crossref","unstructured":"Elsen, E., LeGresley, P., Darve, E.: Large calculation of the flow over a hypersonic vehicle using a GPU. J. Comput. Phys. 227, 10,148\u201310,161 (2008)","DOI":"10.1016\/j.jcp.2008.08.023"},{"key":"293_CR14","doi-asserted-by":"crossref","unstructured":"Feng, Z., Li, P.: Multigrid on GPU: tackling power grid analysis on parallel SIMT platforms. In: ICCAD 2008. IEEE\/ACM International Conference on, Computer-Aided Design, pp. 647\u2013654 (2008)","DOI":"10.1109\/ICCAD.2008.4681645"},{"key":"293_CR15","doi-asserted-by":"crossref","first-page":"802","DOI":"10.1016\/j.jpdc.2011.02.006","volume":"71","author":"M Czapi\u0144ski","year":"2011","unstructured":"Czapi\u0144ski, M., Barnes, S.: Tabu search with two approaches to parallel flowshop evaluation on CUDA platform. J. Parallel Distrib. Comput. 71, 802\u2013811 (2011)","journal-title":"J. Parallel Distrib. Comput."},{"key":"293_CR16","doi-asserted-by":"crossref","first-page":"1461","DOI":"10.1016\/j.jpdc.2012.07.014","volume":"73","author":"M Czapi\u0144ski","year":"2013","unstructured":"Czapi\u0144ski, M.: An effective parallel multistart tabu search for quadratic assignment problem on CUDA platform. J. Parallel Distrib. Comput. 73, 1461\u20131468 (2013)","journal-title":"J. Parallel Distrib. Comput."},{"key":"293_CR17","doi-asserted-by":"crossref","unstructured":"Lawlor, O.: Message passing for GPGPU clusters: CudaMPI. In: Cluster Computing and Workshops, 2009. CLUSTER \u201909. IEEE International Conference on, pp. 1\u20138 (2009)","DOI":"10.1109\/CLUSTR.2009.5289129"},{"key":"293_CR18","doi-asserted-by":"crossref","unstructured":"Cevahir, A., Nukada, A., Matsuoka, S.: Fast conjugate gradients with multiple GPUs. In: Proceedings of the 9th International Conference on Computational Science: Part I, pp. 893\u2013903 (2009)","DOI":"10.1007\/978-3-642-01970-8_90"},{"key":"293_CR19","doi-asserted-by":"crossref","first-page":"232","DOI":"10.1016\/j.parco.2009.12.005","volume":"36","author":"S Tomov","year":"2010","unstructured":"Tomov, S., Dongarra, J., Baboulin, M.: Towards dense linear algebra for hybrid GPU accelerated manycore systems. Parallel Comput. 36, 232\u2013240 (2010)","journal-title":"Parallel Comput."},{"key":"293_CR20","doi-asserted-by":"crossref","first-page":"266","DOI":"10.1016\/j.cpc.2010.06.035","volume":"182","author":"CT Yang","year":"2011","unstructured":"Yang, C.T., Huang, C.L., Lin, C.F.: Hybrid CUDA, OpenMP, and MPI parallel programming on multicore GPU clusters. Comput. Phys. Commun. 182, 266\u2013269 (2011)","journal-title":"Comput. Phys. Commun."},{"key":"293_CR21","doi-asserted-by":"crossref","first-page":"103","DOI":"10.1177\/1094342005054257","volume":"19","author":"R Brightwell","year":"2005","unstructured":"Brightwell, R., Riesen, R., Underwood, K.D.: Analyzing the impact of overlap, offload, and independent progress for message passing interface applications. Int. J. High Perform. Comput. Appl. 19, 103\u2013117 (2005)","journal-title":"Int. J. High Perform. Comput. Appl."},{"key":"293_CR22","doi-asserted-by":"crossref","first-page":"624","DOI":"10.1016\/j.parco.2007.06.006","volume":"33","author":"T Hoefler","year":"2007","unstructured":"Hoefler, T., Gottschling, P., Lumsdaine, A., Rehm, W.: Optimizing a conjugate gradient solver with non-blocking collective operations. Parallel Comput. 33, 624\u2013633 (2007)","journal-title":"Parallel Comput."},{"key":"293_CR23","doi-asserted-by":"crossref","first-page":"75","DOI":"10.1007\/s10586-007-0046-3","volume":"11","author":"A Shet","year":"2008","unstructured":"Shet, A., Sadayappan, P., Bernholdt, D., Nieplocha, J., Tipparaju, V.: A framework for characterizing overlap of communication and computation in parallel applications. Clust. Comput. 11, 75\u201390 (2008)","journal-title":"Clust. Comput."},{"key":"293_CR24","doi-asserted-by":"crossref","first-page":"608","DOI":"10.1016\/j.parco.2008.12.013","volume":"35","author":"R Thakur","year":"2009","unstructured":"Thakur, R., Gropp, W.: Test suite for evaluating performance of multithreaded MPI communication. Parallel Comput. 35, 608\u2013617 (2009)","journal-title":"Parallel Comput."},{"key":"293_CR25","unstructured":"NVidia: NVIDIA CUDA C Programming Guide. http:\/\/developer.nvidia.com\/cuda-toolkit-40 (2011). Accessed 10 July 2013"},{"key":"293_CR26","doi-asserted-by":"crossref","unstructured":"White III, J., Dongarra, J.: Overlapping computation and communication for advection on hybrid parallel computers. In: International Parallel and Distributed Processing, Symposium, pp. 59\u201367 (2011)","DOI":"10.1109\/IPDPS.2011.16"},{"key":"293_CR27","doi-asserted-by":"crossref","unstructured":"Micikevicius, P.: 3D finite difference computation on GPUs using CUDA. In: Proceedings of 2nd Workshop on General Purpose Processing on Graphics Processing Units, pp. 79\u201384 (2009)","DOI":"10.1145\/1513895.1513905"},{"key":"293_CR28","doi-asserted-by":"crossref","DOI":"10.1137\/1.9781611971446","volume-title":"Applied Numerical Linear Algebra","author":"J Demmel","year":"1997","unstructured":"Demmel, J.: Applied Numerical Linear Algebra. Society for Industrial and Applied Mathematics, Philadelphia (1997)"},{"key":"293_CR29","doi-asserted-by":"crossref","DOI":"10.1137\/1.9780898719505","volume-title":"A Multigrid Tutorial","author":"WL Briggs","year":"2000","unstructured":"Briggs, W.L., Henson, V.E., McCormick, S.F.: A Multigrid Tutorial, 2nd edn. Society for Industrial and Applied Mathematics, Philadelphia (2000)","edition":"2"}],"container-title":["International Journal of Parallel Programming"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10766-013-0293-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s10766-013-0293-2\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s10766-013-0293-2","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2019,8,1]],"date-time":"2019-08-01T05:59:25Z","timestamp":1564639165000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s10766-013-0293-2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2013,11,9]]},"references-count":29,"journal-issue":{"issue":"6","published-print":{"date-parts":[[2014,12]]}},"alternative-id":["293"],"URL":"https:\/\/doi.org\/10.1007\/s10766-013-0293-2","relation":{},"ISSN":["0885-7458","1573-7640"],"issn-type":[{"value":"0885-7458","type":"print"},{"value":"1573-7640","type":"electronic"}],"subject":[],"published":{"date-parts":[[2013,11,9]]}}}