{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,2]],"date-time":"2026-07-02T23:48:32Z","timestamp":1783036112646,"version":"3.54.6"},"publisher-location":"Cham","reference-count":29,"publisher":"Springer International Publishing","isbn-type":[{"value":"9783319920399","type":"print"},{"value":"9783319920405","type":"electronic"}],"license":[{"start":{"date-parts":[[2018,1,1]],"date-time":"2018-01-01T00:00:00Z","timestamp":1514764800000},"content-version":"unspecified","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2018]]},"DOI":"10.1007\/978-3-319-92040-5_17","type":"book-chapter","created":{"date-parts":[[2018,5,28]],"date-time":"2018-05-28T07:55:05Z","timestamp":1527494105000},"page":"329-349","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":10,"title":["Chebyshev Filter Diagonalization on Modern Manycore Processors and GPGPUs"],"prefix":"10.1007","author":[{"given":"Moritz","family":"Kreutzer","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Dominik","family":"Ernst","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Alan R.","family":"Bishop","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Holger","family":"Fehske","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Georg","family":"Hager","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kengo","family":"Nakajima","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Gerhard","family":"Wellein","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2018,5,29]]},"reference":[{"key":"17_CR1","unstructured":"NVIDIA Profiler. \nhttp:\/\/docs.nvidia.com\/cuda\/profiler-users-guide"},{"key":"17_CR2","unstructured":"TOP500 Supercomputer Sites, June 2017. \nhttp:\/\/www.top500.org"},{"key":"17_CR3","doi-asserted-by":"crossref","unstructured":"Aktulga, H.M., Bulu\u00e7, A., Williams, S., Yang, C.: Optimizing sparse matrix-multiple vectors multiplication for nuclear configuration interaction calculations. In: Proceedings of the 2014 IEEE International Parallel and Distributed Processing Symposium, May 2012. IEEE Computer Society (2014)","DOI":"10.1109\/IPDPS.2014.125"},{"key":"17_CR4","unstructured":"Anzt, H., Tomov, S., Dongarra, J.: Accelerating the LOBPCG method on GPUs using a blocked sparse matrix vector product. In: Proceedings of the Symposium on High Performance Computing, HPC 2015, pp. 75\u201382. Society for Computer Simulation International, San Diego (2015). \nhttp:\/\/dl.acm.org\/citation.cfm?id=2872599.2872609"},{"issue":"15","key":"17_CR5","doi-asserted-by":"publisher","first-page":"154101","DOI":"10.1063\/1.4964861","volume":"145","author":"AS Banerjee","year":"2016","unstructured":"Banerjee, A.S., Lin, L., Hu, W., Yang, C., Pask, J.E.: Chebyshev polynomial filtered subspace iteration in the discontinuous Galerkin method for large-scale electronic structure calculations. J. Chem. Phys. 145(15), 154101 (2016). \nhttps:\/\/doi.org\/10.1063\/1.4964861","journal-title":"J. Chem. Phys."},{"issue":"3","key":"17_CR6","doi-asserted-by":"publisher","first-page":"381","DOI":"10.1016\/S0167-8191(97)00005-7","volume":"23","author":"A Basermann","year":"1997","unstructured":"Basermann, A., Reichel, B., Schelthoff, C.: Preconditioned CG methods for sparse matrices on massively parallel machines. Parallel Comput. 23(3), 381\u2013398 (1997). \nhttp:\/\/www.sciencedirect.com\/science\/article\/pii\/S0167819197000057","journal-title":"Parallel Comput."},{"key":"17_CR7","unstructured":"Bhardwaj, O., Ineichen, Y., Bekas, C., Curioni, A.: Highly scalable linear time estimation of spectrograms \u2013 a tool for very large scale data analysis. Poster at 2013 ACM\/IEEE International Conference on High Performance Computing Networking, Storage and Analysis (2013)"},{"key":"17_CR8","doi-asserted-by":"publisher","first-page":"206","DOI":"10.1137\/080731992","volume":"34","author":"J Demmel","year":"2012","unstructured":"Demmel, J., Grigori, L., Hoemmen, M., Langou, J.: Communication-optimal parallel and sequential QR and LU factorizations. SIAM J. Sci. Comput. 34, 206\u2013239 (2012)","journal-title":"SIAM J. Sci. Comput."},{"issue":"4","key":"17_CR9","doi-asserted-by":"publisher","first-page":"674","DOI":"10.1002\/nla.2048","volume":"23","author":"E Napoli Di","year":"2016","unstructured":"Di Napoli, E., Polizzi, E., Saad, Y.: Efficient estimation of eigenvalue counts in an interval. Numer. Linear Algebra Appl. 23(4), 674\u2013692 (2016)","journal-title":"Numer. Linear Algebra Appl."},{"key":"17_CR10","doi-asserted-by":"publisher","first-page":"241","DOI":"10.1016\/B978-044482851-4.50030-X","volume-title":"Parallel Computational Fluid Dynamics 1999","author":"W.D. Gropp","year":"2000","unstructured":"Gropp, W.D., Kaushik, D.K., Keyes, D.E., Smith, B.F.: Towards realistic performance bounds for implicit CFD codes. In: Proceedings of Parallel CFD 1999, pp. 233\u2013240. Elsevier (1999)"},{"key":"17_CR11","doi-asserted-by":"publisher","first-page":"229","DOI":"10.1007\/978-3-642-32683-7_8","volume-title":"High Performance Computing in Power and Energy Systems","author":"AA Kamiabad","year":"2013","unstructured":"Kamiabad, A.A., Tate, J.E.: Polynomial preconditioning of power system matrices with graphics processing units. In: Khaitan, S., Gupta, A. (eds.) High Performance Computing in Power and Energy Systems, pp. 229\u2013246. Springer, Heidelberg (2013). \nhttps:\/\/doi.org\/10.1007\/978-3-642-32683-7_8"},{"key":"17_CR12","doi-asserted-by":"crossref","unstructured":"Kreutzer, M., Hager, G., Wellein, G., Fehske, H., Basermann, A., Bishop, A.R.: Sparse matrix-vector multiplication on GPGPU clusters: A new storage format and a scalable implementation. In: 2012 IEEE 26th International Parallel and Distributed Processing Symposium Workshops PhD Forum, pp. 1696\u20131702, May 2012","DOI":"10.1109\/IPDPSW.2012.211"},{"key":"17_CR13","doi-asserted-by":"crossref","unstructured":"Kreutzer, M., Pieper, A., Hager, G., Wellein, G., Alvermann, A., Fehske, H.: Performance engineering of the Kernel Polynomal Method on large-scale CPU-GPU systems. In: 2015 IEEE International Parallel and Distributed Processing Symposium (IPDPS), pp. 417\u2013426, May 2015","DOI":"10.1109\/IPDPS.2015.76"},{"issue":"5","key":"17_CR14","doi-asserted-by":"publisher","first-page":"C401","DOI":"10.1137\/130930352","volume":"36","author":"M Kreutzer","year":"2014","unstructured":"Kreutzer, M., Hager, G., Wellein, G., Fehske, H., Bishop, A.R.: A unified sparse matrix data format for efficient general sparse matrix-vector multiplication on modern processors with wide SIMD units. SIAM J. Sci. Comput. 36(5), C401\u2013C423 (2014). \nhttps:\/\/doi.org\/10.1137\/130930352","journal-title":"SIAM J. Sci. Comput."},{"issue":"5","key":"17_CR15","doi-asserted-by":"publisher","first-page":"1046","DOI":"10.1007\/s10766-016-0464-z","volume":"45","author":"Moritz Kreutzer","year":"2016","unstructured":"Kreutzer, M., Thies, J., R\u00f6hrig-Z\u00f6llner, M., Pieper, A., Shahzad, F., Galgon, M., Basermann, A., Fehske, H., Hager, G., Wellein, G.: GHOST: building blocks for high performance sparse linear algebra on heterogeneous systems. In: International Journal of Parallel Programming, pp. 1\u201327 (2016)","journal-title":"International Journal of Parallel Programming"},{"issue":"1","key":"17_CR16","doi-asserted-by":"publisher","first-page":"123","DOI":"10.1049\/iet-gtd.2015.0499","volume":"10","author":"X Li","year":"2016","unstructured":"Li, X., Li, F.: Estimation of the largest eigenvalue in Chebyshev preconditioner for parallel conjugate gradient method-based power flow computation. IET Gener. Transm. Distrib. 10(1), 123\u2013130 (2016)","journal-title":"IET Gener. Transm. Distrib."},{"issue":"Suppl. C","key":"17_CR17","doi-asserted-by":"publisher","first-page":"87","DOI":"10.1016\/j.epsr.2014.05.005","volume":"116","author":"X Li","year":"2014","unstructured":"Li, X., Li, F.: GPU-based power flow analysis with Chebyshev preconditioner and conjugate gradient method. Electr. Power Syst. Res. 116(Suppl. C), 87\u201393 (2014). \nhttp:\/\/www.sciencedirect.com\/science\/article\/pii\/S0378779614001850","journal-title":"Electr. Power Syst. Res."},{"key":"17_CR18","doi-asserted-by":"crossref","unstructured":"Liu, X., Chow, E., Vaidyanathan, K., Smelyanskiy, M.: Improving the performance of dynamical simulations via multiple right-hand sides. In: Proceedings of the 2012 IEEE International Parallel and Distributed Processing Symposium, May 2012, pp. 36\u201347. IEEE Computer Society (2012)","DOI":"10.1109\/IPDPS.2012.14"},{"key":"17_CR19","unstructured":"McCalpin, J.D.: Memory bandwidth and machine balance in current high performance computers. In: IEEE Computer Society Technical Committee on Computer Architecture (TCCA) Newsletter, pp. 19\u201325, December 1995"},{"key":"17_CR20","doi-asserted-by":"publisher","first-page":"226","DOI":"10.1016\/j.jcp.2016.08.027","volume":"325","author":"A Pieper","year":"2016","unstructured":"Pieper, A., Kreutzer, M., Alvermann, A., Galgon, M., Fehske, H., Hager, G., Lang, B., Wellein, G.: High-performance implementation of Chebyshev filter diagonalization for interior eigenvalue computations. J. Comput. Phys. 325, 226\u2013243 (2016). \nhttp:\/\/www.sciencedirect.com\/science\/article\/pii\/S0021999116303837","journal-title":"J. Comput. Phys."},{"key":"17_CR21","doi-asserted-by":"publisher","first-page":"567","DOI":"10.1090\/S0025-5718-1984-0736453-8","volume":"42","author":"Y Saad","year":"1984","unstructured":"Saad, Y.: Chebyshev acceleration techniques for solving nonsymmetric eigenvalue problems. Math. Comput. 42, 567\u2013588 (1984)","journal-title":"Math. Comput."},{"key":"17_CR22","doi-asserted-by":"publisher","first-page":"066402","DOI":"10.1103\/PhysRevLett.108.066402","volume":"108","author":"G Schubert","year":"2012","unstructured":"Schubert, G., Fehske, H.: Metal-to-insulator transition and electron-hole puddle formation in disordered graphene nanoribbons. Phys. Rev. Lett. 108, 066402 (2012)","journal-title":"Phys. Rev. Lett."},{"key":"17_CR23","doi-asserted-by":"publisher","first-page":"201105","DOI":"10.1103\/PhysRevB.85.201105","volume":"85","author":"G Schubert","year":"2012","unstructured":"Schubert, G., Fehske, H., Fritz, L., Vojta, M.: Fate of topological-insulator surface states under strong disorder. Phys. Rev. B 85, 201105 (2012)","journal-title":"Phys. Rev. B"},{"key":"17_CR24","doi-asserted-by":"publisher","first-page":"126807","DOI":"10.1103\/PhysRevLett.108.126807","volume":"108","author":"M Sitte","year":"2012","unstructured":"Sitte, M., Rosch, A., Altman, E., Fritz, L.: Topological insulators in magnetic fields: Quantum Hall effect and edge channels with a nonquantized $$\\theta $$\u03b8 term. Phys. Rev. Lett. 108, 126807 (2012)","journal-title":"Phys. Rev. Lett."},{"key":"17_CR25","doi-asserted-by":"publisher","first-page":"2165","DOI":"10.1137\/S1064827500370883","volume":"23","author":"A Stathopoulos","year":"2002","unstructured":"Stathopoulos, A., Wu, K.: A block orthogonalization procedure with constant synchronization requirements. SIAM J. Sci. Comput. 23, 2165\u20132182 (2002)","journal-title":"SIAM J. Sci. Comput."},{"key":"17_CR26","doi-asserted-by":"crossref","unstructured":"Treibig, J., Hager, G., Wellein, G.: LIKWID: A lightweight performance-oriented tool suite for x86 multicore environments. In: Proceedings of PSTI2010, the First International Workshop on Parallel Software Tools and Tool Infrastructures, San Diego, CA (2010)","DOI":"10.1109\/ICPPW.2010.38"},{"key":"17_CR27","doi-asserted-by":"publisher","first-page":"275","DOI":"10.1103\/RevModPhys.78.275","volume":"78","author":"A Wei\u00dfe","year":"2006","unstructured":"Wei\u00dfe, A., Wellein, G., Alvermann, A., Fehske, H.: The kernel polynomial method. Rev. Mod. Phys. 78, 275\u2013306 (2006). \nhttps:\/\/link.aps.org\/doi\/10.1103\/RevModPhys.78.275","journal-title":"Rev. Mod. Phys."},{"issue":"4","key":"17_CR28","doi-asserted-by":"publisher","first-page":"65","DOI":"10.1145\/1498765.1498785","volume":"52","author":"S Williams","year":"2009","unstructured":"Williams, S., Waterman, A., Patterson, D.: Roofline: An insightful visual performance model for multicore architectures. Commun. ACM 52(4), 65\u201376 (2009). \nhttps:\/\/doi.org\/10.1145\/1498765.1498785","journal-title":"Commun. ACM"},{"issue":"1","key":"17_CR29","doi-asserted-by":"publisher","first-page":"172","DOI":"10.1016\/j.jcp.2006.03.017","volume":"219","author":"Y Zhou","year":"2006","unstructured":"Zhou, Y., Saad, Y., Tiago, M.L., Chelikowsky, J.R.: Self-consistent-field calculations using Chebyshev-filtered subspace iteration. J. Comput. Phys. 219(1), 172\u2013184 (2006). \nhttp:\/\/www.sciencedirect.com\/science\/article\/pii\/S002199910600146X","journal-title":"J. Comput. Phys."}],"container-title":["Lecture Notes in Computer Science","High Performance Computing"],"original-title":[],"link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-319-92040-5_17","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2018,5,28]],"date-time":"2018-05-28T08:01:44Z","timestamp":1527494504000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/978-3-319-92040-5_17"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018]]},"ISBN":["9783319920399","9783319920405"],"references-count":29,"URL":"https:\/\/doi.org\/10.1007\/978-3-319-92040-5_17","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018]]}}}