{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T07:44:37Z","timestamp":1740123877960,"version":"3.37.3"},"reference-count":39,"publisher":"Springer Science and Business Media LLC","issue":"3-4","license":[{"start":{"date-parts":[[2022,5,23]],"date-time":"2022-05-23T00:00:00Z","timestamp":1653264000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2022,5,23]],"date-time":"2022-05-23T00:00:00Z","timestamp":1653264000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/100010661","name":"horizon 2020 framework programme","doi-asserted-by":"publisher","award":["957210"],"award-info":[{"award-number":["957210"]}],"id":[{"id":"10.13039\/100010661","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Parallel Prog"],"published-print":{"date-parts":[[2022,8]]},"DOI":"10.1007\/s10766-022-00734-5","type":"journal-article","created":{"date-parts":[[2022,5,23]],"date-time":"2022-05-23T12:02:51Z","timestamp":1653307371000},"page":"405-432","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":3,"title":["A Methodology for Efficient Tile Size Selection for Affine Loop Kernels"],"prefix":"10.1007","volume":"50","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-9591-913X","authenticated-orcid":false,"given":"Vasilios","family":"Kelefouras","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Karim","family":"Djemame","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Georgios","family":"Keramidas","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Nikolaos","family":"Voros","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2022,5,23]]},"reference":[{"issue":"6","key":"734_CR1","doi-asserted-by":"publisher","first-page":"101","DOI":"10.1145\/1379022.1375595","volume":"43","author":"U Bondhugula","year":"2008","unstructured":"Bondhugula, U., Hartono, A., Ramanujam, J., Sadayappan, P.: A practical automatic polyhedral parallelizer and locality optimizer. SIGPLAN Notices 43(6), 101\u2013113 (2008). https:\/\/doi.org\/10.1145\/1379022.1375595","journal-title":"SIGPLAN Notices"},{"issue":"4","key":"734_CR2","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/2541228.2555292","volume":"10","author":"S Mehta","year":"2013","unstructured":"Mehta, S., Beeraka, G., Yew, P.C.: Tile size selection revisited. ACM Trans. Archit. Code Optim. 10(4), 1\u201327 (2013)","journal-title":"ACM Trans. Archit. Code Optim."},{"key":"734_CR3","doi-asserted-by":"crossref","unstructured":"Tavarageri, S., Pouchet, L.N., Ramanujam, J., Rountev, A., Sadayappan, P.: Dynamic selection of tile sizes. In: Proceedings of the 2011 18th International Conference on High Performance Computing, HIPC \u201911, p. 1\u201310. IEEE Computer Society (2011)","DOI":"10.1109\/HiPC.2011.6152742"},{"issue":"1\u20132","key":"734_CR4","doi-asserted-by":"publisher","first-page":"3","DOI":"10.1016\/S0167-8191(00)00087-9","volume":"27","author":"RC Whaley","year":"2001","unstructured":"Whaley, R.C., Petitet, A., Dongarra, J.J.: Automated empirical optimization of software and the ATLAS project. Parallel Comput. 27(1\u20132), 3\u201335 (2001)","journal-title":"Parallel Comput."},{"key":"734_CR5","doi-asserted-by":"crossref","unstructured":"Sarkar, V., Megiddo, N.: An analytical model for loop tiling and its solution. In: 2000 IEEE International Symposium on Performance Analysis of Systems and Software. ISPASS (Cat. No.00EX422), pp. 146\u2013153 (2000)","DOI":"10.1109\/ISPASS.2000.842294"},{"issue":"5","key":"734_CR6","doi-asserted-by":"publisher","first-page":"286","DOI":"10.1145\/381694.378859","volume":"36","author":"S Chatterjee","year":"2001","unstructured":"Chatterjee, S., Parker, E., Hanlon, P.J., Lebeck, A.R.: Exact analysis of the cache behavior of nested loops. ACM SIGPLAN Notices 36(5), 286\u2013297 (2001)","journal-title":"ACM SIGPLAN Notices"},{"key":"734_CR7","doi-asserted-by":"publisher","unstructured":"Narasimhan, K., Acharya, A., Baid, A., Bondhugula, U.: A practical tile size selection model for affine loop nests. In: Proceedings of the ACM International Conference on Supercomputing, ICS \u201921, p. 27\u201339. Association for Computing Machinery, New York, NY (2021). https:\/\/doi.org\/10.1145\/3447818.3462213","DOI":"10.1145\/3447818.3462213"},{"key":"734_CR8","doi-asserted-by":"publisher","unstructured":"Li, R., Sukumaran-Rajam, A., Veras, R., Low, T.M., Rastello, F., Rountev, A., Sadayappan, P.: Analytical cache modeling and tilesize optimization for tensor contractions. In: Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis, SC \u201919. Association for Computing Machinery, New York, NY (2019). https:\/\/doi.org\/10.1145\/3295500.3356218","DOI":"10.1145\/3295500.3356218"},{"issue":"3","key":"734_CR9","doi-asserted-by":"publisher","first-page":"279","DOI":"10.1023\/B:SUPE.0000011388.54204.8e","volume":"27","author":"Ch Hsu","year":"2004","unstructured":"Hsu, Ch., Kremer, U.: A quantitative analysis of tile size selection algorithms. J. Supercomput. 27(3), 279\u2013294 (2004). https:\/\/doi.org\/10.1023\/B:SUPE.0000011388.54204.8e","journal-title":"J. Supercomput."},{"issue":"3","key":"734_CR10","doi-asserted-by":"publisher","first-page":"804","DOI":"10.1007\/s11227-015-1613-7","volume":"72","author":"V Kelefouras","year":"2016","unstructured":"Kelefouras, V., Kritikakou, A., Mporas, I., Kolonias, V.: A high-performance matrix\u2013matrix multiplication methodology for CPU and GPU architectures. J. Supercomput. 72(3), 804\u2013844 (2016)","journal-title":"J. Supercomput."},{"key":"734_CR11","doi-asserted-by":"publisher","DOI":"10.1007\/s11227-014-1098-9","author":"VI Kelefouras","year":"2014","unstructured":"Kelefouras, V.I., Kritikakou, A., Goutis, C.: A Matrix\u2013Matrix Multiplication methodology for single\/multi-core architectures using SIMD. J. Supercomput. (2014). https:\/\/doi.org\/10.1007\/s11227-014-1098-9","journal-title":"J. Supercomput."},{"issue":"7","key":"734_CR12","doi-asserted-by":"publisher","first-page":"2644","DOI":"10.1007\/s11227-015-1409-9","volume":"71","author":"V Kelefouras","year":"2015","unstructured":"Kelefouras, V., Kritikakou, A., Papadima, E., Goutis, C.: A methodology for speeding up matrix vector multiplication for single\/multi-core architectures. J. Supercomput. 71(7), 2644\u20132667 (2015)","journal-title":"J. Supercomput."},{"issue":"12","key":"734_CR13","doi-asserted-by":"publisher","first-page":"6217","DOI":"10.1109\/TSP.2011.2168525","volume":"59","author":"VI Kelefouras","year":"2011","unstructured":"Kelefouras, V.I., Athanasiou, G.S., Alachiotis, N., Michail, H.E., Kritikakou, A.S., Goutis, C.E.: A methodology for speeding up fast Fourier transform focusing on memory architecture utilization. IEEE Trans. Signal Process. 59(12), 6217\u20136226 (2011)","journal-title":"IEEE Trans. Signal Process."},{"issue":"1","key":"734_CR14","doi-asserted-by":"publisher","first-page":"440","DOI":"10.1007\/s11227-021-03835-z","volume":"78","author":"Y Li","year":"2021","unstructured":"Li, Y., Sun, H., Pang, J.: Revisiting split tiling for stencil computations in polyhedral compilation. J. Supercomput. 78(1), 440\u2013470 (2021)","journal-title":"J. Supercomput."},{"key":"734_CR15","doi-asserted-by":"publisher","DOI":"10.1145\/3369382","author":"A Cohen","year":"2020","unstructured":"Cohen, A., Zhao, J.: Flextended tiles: a flexible extension of overlapped tiles for polyhedral compilation. ACM Trans. Archit. Code Optim. (2020). https:\/\/doi.org\/10.1145\/3369382","journal-title":"ACM Trans. Archit. Code Optim."},{"key":"734_CR16","doi-asserted-by":"publisher","unstructured":"Zhou, X., Giacalone, J.P., Garzar\u00e1n, M.J., Kuhn, R.H., Ni, Y., Padua, D.: Hierarchical overlapped tiling. In: Proceedings of the Tenth International Symposium on Code Generation and Optimization, CGO \u201912, p. 207-218. Association for Computing Machinery, New York, NY (2012). https:\/\/doi.org\/10.1145\/2259016.2259044","DOI":"10.1145\/2259016.2259044"},{"issue":"5","key":"734_CR17","doi-asserted-by":"publisher","first-page":"1285","DOI":"10.1109\/TPDS.2016.2615094","volume":"28","author":"U Bondhugula","year":"2017","unstructured":"Bondhugula, U., Bandishti, V., Pananilath, I.: Diamond tiling: tiling techniques to maximize parallelism for stencil computations. IEEE Trans. Parallel Distrib. Syst. 28(5), 1285\u20131298 (2017). https:\/\/doi.org\/10.1109\/TPDS.2016.2615094","journal-title":"IEEE Trans. Parallel Distrib. Syst."},{"key":"734_CR18","doi-asserted-by":"crossref","unstructured":"Alshboul, M., Tuck, J., Solihin, Y.: Wet: write efficient loop tiling for non-volatile main memory. In: Proceedings of the 57th ACM\/EDAC\/IEEE Design Automation Conference, DAC \u201920. IEEE Press (2020)","DOI":"10.1109\/DAC18072.2020.9218612"},{"key":"734_CR19","doi-asserted-by":"crossref","unstructured":"Hartono, A., Baskaran, M.M., Bastoul, C., Cohen, A., Krishnamoorthy, S., Norris, B., Ramanujam, J., Sadayappan, P.: Parametric multi-level tiling of imperfectly nested loops. In: Proceedings of the 23rd International Conference on Supercomputing, ICS \u201909, p. 147\u2013157. Association for Computing Machinery, New York, NY (2009)","DOI":"10.1145\/1542275.1542301"},{"key":"734_CR20","doi-asserted-by":"crossref","unstructured":"Baskaran, M.M., Hartono, A., Tavarageri, S., Henretty, T., Ramanujam, J., Sadayappan, P.: Parameterized tiling revisited. In: CGO \u201910, p. 200\u2013209. Association for Computing Machinery, New York, NY (2010)","DOI":"10.1145\/1772954.1772983"},{"key":"734_CR21","doi-asserted-by":"crossref","unstructured":"Hartono, A., Baskaran, M., Ramanujam, J., Sadayappan, P.: Dyntile: parametric tiled loop generation for parallel execution on multicore processors. In: 2010 IEEE International Symposium on Parallel Distributed Processing (IPDPS), pp. 1\u201312 (2010)","DOI":"10.1109\/IPDPS.2010.5470459"},{"issue":"1","key":"734_CR22","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/2160910.2160912","volume":"34","author":"L Renganarayanan","year":"2012","unstructured":"Renganarayanan, L., Kim, D., Strout, M.M., Rajopadhye, S.: Parameterized loop tiling. ACM Trans. Program. Lang. Syst. 34(1), 1\u201341 (2012)","journal-title":"ACM Trans. Program. Lang. Syst."},{"key":"734_CR23","unstructured":"Mehdi, A., B\u00e9atrice, C., St\u00e9phanie, E., Ronan, K., Onil, G., Serge, G., Janice, O., Fran\u00e7ois\u00a0Xavier, P., Gr\u00e9goire, P., Villalon., P.: Par4all : from convex array regions to heterogeneous computing. In: 2nd International Workshop on Polyhedral Compilation Techniques (2012)"},{"key":"734_CR24","unstructured":"Tavarageri, S., Hartono, A., Baskaran, M., Pouchet, L.N., Ramanujam, J., Sadayappan, P.: Parametric tiling of affine loop nests. In: 15th Workshop on Compilers for Parallel Computing (CPC\u201910). Vienna, Austria (2010)"},{"key":"734_CR25","doi-asserted-by":"crossref","unstructured":"Hammami, E., Slama, Y.: An overview on loop tiling techniques for code generation. In: 2017 IEEE\/ACS 14th International Conference on Computer Systems and Applications (AICCSA), pp. 280\u2013287 (2017)","DOI":"10.1109\/AICCSA.2017.168"},{"key":"734_CR26","doi-asserted-by":"crossref","unstructured":"Yuki, T., Renganarayanan, L., Rajopadhye, S., Anderson, C., Eichenberger, A.E., O\u2019Brien, K.: Automatic creation of tile size selection models. In: Proceedings of the 8th Annual IEEE\/ACM International Symposium on Code Generation and Optimization, CGO \u201910, p. 190\u2013199. Association for Computing Machinery, New York, NY (2010)","DOI":"10.1145\/1772954.1772982"},{"key":"734_CR27","doi-asserted-by":"publisher","DOI":"10.1145\/3293449","author":"Y Sato","year":"2019","unstructured":"Sato, Y., Yuki, T., Endo, T.: An autotuning framework for scalable execution of tiled code via iterative polyhedral compilation. ACM Trans. Archit. Code Optim. (2019). https:\/\/doi.org\/10.1145\/3293449","journal-title":"ACM Trans. Archit. Code Optim."},{"key":"734_CR28","doi-asserted-by":"crossref","unstructured":"Abella, J.: Near-optimal loop tiling by means of cache miss equations and genetic algorithms. In: Proceedings of the 2002 International Conference on Parallel Processing Workshops, ICPPW \u201902, p. 568. IEEE Computer Society (2002)","DOI":"10.1109\/ICPPW.2002.1039779"},{"key":"734_CR29","doi-asserted-by":"publisher","first-page":"249","DOI":"10.1007\/s11227-006-6367-9","volume":"37","author":"S Parsa","year":"2006","unstructured":"Parsa, S., Lotfi, S.: A new genetic algorithm for loop tiling. J. Supercomput. 37, 249\u2013269 (2006)","journal-title":"J. Supercomput."},{"key":"734_CR30","unstructured":"Chen, C., Chame, J., Hall, M.: Combining models and guided empirical search to optimize for multiple levels of the memory hierarchy. In: Proceedings of the International Symposium on Code Generation and Optimization, CGO \u201905, p. 111\u2013122. IEEE Computer Society (2005)"},{"key":"734_CR31","doi-asserted-by":"crossref","unstructured":"Shirako, J., Sharma, K., Fauzia, N., Pouchet, L.N., Ramanujam, J., Sadayappan, P., Sarkar, V.: Analytical bounds for optimal tile size selection. In: Proceedings of the 21st International Conference on Compiler Construction, CC\u201912, p. 101\u2013121. Springer-Verlag, Berlin, Heidelberg (2012)","DOI":"10.1007\/978-3-642-28652-0_6"},{"key":"734_CR32","doi-asserted-by":"publisher","unstructured":"Bao, B., Ding, C.: Defensive loop tiling for shared cache. In: Proceedings of the 2013 IEEE\/ACM International Symposium on Code Generation and Optimization (CGO), CGO \u201913, pp. 1\u201311. IEEE Computer Society, Washington, DC (2013). https:\/\/doi.org\/10.1109\/CGO.2013.6495008","DOI":"10.1109\/CGO.2013.6495008"},{"key":"734_CR33","doi-asserted-by":"publisher","DOI":"10.1145\/3202663","author":"V Kelefouras","year":"2018","unstructured":"Kelefouras, V., Georgios, K., Nikolaos, V.: Combining software cache partitioning and loop tiling for effective shared cache management. ACM Trans. Embed. Comput. Syst. (2018). https:\/\/doi.org\/10.1145\/3202663","journal-title":"ACM Trans. Embed. Comput. Syst."},{"key":"734_CR34","doi-asserted-by":"crossref","unstructured":"Nethercote, N., Walsh, R., Fitzhardinge, J.: Building workload characterization tools with valgrind. In: IISWC, p.\u00a02. IEEE Computer Society (2006)","DOI":"10.1109\/IISWC.2006.302723"},{"key":"734_CR35","doi-asserted-by":"publisher","DOI":"10.1145\/3158120","author":"W Bao","year":"2017","unstructured":"Bao, W., Krishnamoorthy, S., Pouchet, L.N., Sadayappan, P.: Analytical modeling of cache behavior for affine programs. Proc. ACM Program. Lang. (2017). https:\/\/doi.org\/10.1145\/3158120","journal-title":"Proc. ACM Program. Lang."},{"key":"734_CR36","doi-asserted-by":"publisher","unstructured":"Gysi, T., Grosser, T., Brandner, L., Hoefler, T.: A fast analytical model of fully associative caches. In: Proceedings of the 40th ACM SIGPLAN Conference on Programming Language Design and Implementation, PLDI 2019, p. 816\u2013829. Association for Computing Machinery, New York, NY (2019). https:\/\/doi.org\/10.1145\/3314221.3314606","DOI":"10.1145\/3314221.3314606"},{"issue":"7","key":"734_CR37","doi-asserted-by":"publisher","first-page":"1626","DOI":"10.1109\/TC.2013.38","volume":"63","author":"D Wang","year":"2014","unstructured":"Wang, D., Sun, X.H.: APC: a novel memory metric and measurement methodology for modern memory systems. IEEE Trans. Comput. 63(7), 1626\u20131639 (2014). https:\/\/doi.org\/10.1109\/TC.2013.38","journal-title":"IEEE Trans. Comput."},{"key":"734_CR38","unstructured":"Pouchet, L.: Polybench\/c. http:\/\/web.cse.ohio-state.edu\/~pouchet.2\/software\/polybench\/. Accessed 10 Oct 2020"},{"key":"734_CR39","unstructured":"Linux kernel profiling with perf. https:\/\/perf.wiki.kernel.org\/index.php\/Tutorial. Accessed 10 Oct 2020"}],"container-title":["International Journal of Parallel Programming"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10766-022-00734-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s10766-022-00734-5\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10766-022-00734-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,9,25]],"date-time":"2024-09-25T19:23:12Z","timestamp":1727292192000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s10766-022-00734-5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,5,23]]},"references-count":39,"journal-issue":{"issue":"3-4","published-print":{"date-parts":[[2022,8]]}},"alternative-id":["734"],"URL":"https:\/\/doi.org\/10.1007\/s10766-022-00734-5","relation":{},"ISSN":["0885-7458","1573-7640"],"issn-type":[{"type":"print","value":"0885-7458"},{"type":"electronic","value":"1573-7640"}],"subject":[],"published":{"date-parts":[[2022,5,23]]},"assertion":[{"value":"30 July 2021","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"30 April 2022","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"23 May 2022","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}