{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,6]],"date-time":"2026-03-06T18:46:20Z","timestamp":1772822780234,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":26,"publisher":"ACM","license":[{"start":{"date-parts":[[2024,8,12]],"date-time":"2024-08-12T00:00:00Z","timestamp":1723420800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"funder":[{"name":"the National Natural Science Foundation of China","award":["62002365"],"award-info":[{"award-number":["62002365"]}]},{"name":"the National Key Research and Development Program of China","award":["2023YFA1011704, 2021YFB0300101"],"award-info":[{"award-number":["2023YFA1011704, 2021YFB0300101"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2024,8,12]]},"DOI":"10.1145\/3673038.3673101","type":"proceedings-article","created":{"date-parts":[[2024,8,8]],"date-time":"2024-08-08T18:29:01Z","timestamp":1723141741000},"page":"1176-1186","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":3,"title":["Detailed Analysis and Optimization of Irregular-Shaped Matrix Multiplication on Multi-Core DSPs"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0008-9807-4062","authenticated-orcid":false,"given":"Haotian","family":"Mo","sequence":"first","affiliation":[{"name":"Laboratory of Digitizing Software for Frontier Equipment, National University of Defense Technology, China and National Key Laboratory of Parallel and Distributed Computing, National University of Defense Technology, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8286-6566","authenticated-orcid":false,"given":"Qinglin","family":"Wang","sequence":"additional","affiliation":[{"name":"Laboratory of Digitizing Software for Frontier Equipment, National University of Defense Technology, China and National Key Laboratory of Parallel and Distributed Computing, National University of Defense Technology, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-0848-652X","authenticated-orcid":false,"given":"Linyu","family":"Liao","sequence":"additional","affiliation":[{"name":"Laboratory of Digitizing Software for Frontier Equipment, National University of Defense Technology, China and National Key Laboratory of Parallel and Distributed Computing, National University of Defense Technology, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5007-9421","authenticated-orcid":false,"given":"Biao","family":"Li","sequence":"additional","affiliation":[{"name":"Laboratory of Digitizing Software for Frontier Equipment, National University of Defense Technology, China and National Key Laboratory of Parallel and Distributed Computing, National University of Defense Technology, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-3216-4189","authenticated-orcid":false,"given":"Lihua","family":"Chi","sequence":"additional","affiliation":[{"name":"Hunan GuoKe Computility Technology Co., Ltd, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3745-7541","authenticated-orcid":false,"given":"Jie","family":"Liu","sequence":"additional","affiliation":[{"name":"Laboratory of Digitizing Software for Frontier Equipment, National University of Defense Technology, China and National Key Laboratory of Parallel and Distributed Computing, National University of Defense Technology, China"}]}],"member":"320","published-online":{"date-parts":[[2024,8,12]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1109\/SBAC-PAD.2012.26"},{"key":"e_1_3_2_1_2_1","volume-title":"Tenth International Workshop on Frontiers in Handwriting Recognition. Suvisoft.","author":"Chellapilla Kumar","year":"2006","unstructured":"Kumar Chellapilla, Sidd Puri, and Patrice Simard. 2006. High performance convolutional neural networks for document processing. In Tenth International Workshop on Frontiers in Handwriting Recognition. Suvisoft."},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1109\/IPDPS.2016.81"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1145\/3330345.3330355"},{"key":"e_1_3_2_1_5_1","volume-title":"cudnn: Efficient primitives for deep learning. arXiv preprint arXiv:1410.0759","author":"Chetlur Sharan","year":"2014","unstructured":"Sharan Chetlur, Cliff Woolley, Philippe Vandermersch, Jonathan Cohen, John Tran, Bryan Catanzaro, and Evan Shelhamer. 2014. cudnn: Efficient primitives for deep learning. arXiv preprint arXiv:1410.0759 (2014)."},{"key":"e_1_3_2_1_6_1","volume-title":"5th NIPS workshop on optimization for machine learning, Vol.\u00a08.","author":"Drake Jonathan","year":"2012","unstructured":"Jonathan Drake and Greg Hamerly. 2012. Accelerated k-means with adaptive distance bounds. In 5th NIPS workshop on optimization for machine learning, Vol.\u00a08."},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1177\/1094342020965661"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1109\/SC.2018.00069"},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1145\/1377603.1377607"},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","DOI":"10.1109\/SC.2012.109"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"crossref","unstructured":"Kyuho\u00a0J. Lee. 2021. Chapter Seven - Architecture of neural processing unit for deep neural networks. In Hardware Accelerator Systems for Artificial Intelligence and Machine Learning Shiho Kim and Ganesh\u00a0Chandra Deka (Eds.). Advances in Computers Vol.\u00a0122. Elsevier 217\u2013245.","DOI":"10.1016\/bs.adcom.2020.11.001"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"crossref","unstructured":"Chendi Li Haipeng Jia Hang Cao Jianyu Yao Boqian Shi Chunyang Xiang Jinbo Sun Pengqi Lu and Yunquan Zhang. 2021. AutoTSMM: An Auto-tuning Framework for Building High-Performance Tall-and-Skinny Matrix-Matrix Multiplication on CPUs. In 2021 IEEE Intl Conf on Parallel Distributed Processing with Applications Big Data Cloud Computing Sustainable Computing Communications Social Computing Networking (ISPA\/BDCloud\/SocialCom\/SustainCom). 159\u2013166.","DOI":"10.1109\/ISPA-BDCloud-SocialCom-SustainCom52081.2021.00034"},{"key":"e_1_3_2_1_13_1","first-page":"2251","article-title":"Vectorization of Matrix Multiplication for Multi-Core Vector Processors","volume":"41","author":"Liu Zhong","year":"2018","unstructured":"Zhong Liu and Xi Tian. 2018. Vectorization of Matrix Multiplication for Multi-Core Vector Processors. Jisuanji Xuebao\/Chinese Journal of Computers 41, 10 (2018), 2251 \u2013 2264.","journal-title":"Jisuanji Xuebao\/Chinese Journal of Computers"},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPDS.2019.2906891"},{"key":"e_1_3_2_1_15_1","first-page":"57","article-title":"Optimizing parallel matrix transpose algorithm on multi-core digital signal processors (In Chinese)","volume":"45","author":"Pei Xiangdong","year":"2023","unstructured":"Xiangdong Pei, Qinglin Wang, Linyu Liao, Rongchun Li, Songzhu Mei, Jiu Liu, and Zhengbin Pang. 2023. Optimizing parallel matrix transpose algorithm on multi-core digital signal processors (In Chinese). Journal of National University of Defense Technology 45, 1 (2023), 57 \u2013 66.","journal-title":"Journal of National University of Defense Technology"},{"key":"e_1_3_2_1_16_1","volume-title":"Ism2: Optimizing irregular-shaped matrix-matrix multiplication on gpus. arXiv preprint arXiv:2002.03258","author":"Rivera Cody","year":"2020","unstructured":"Cody Rivera, Jieyang Chen, Nan Xiong, Shuaiwen\u00a0Leon Song, and Dingwen Tao. 2020. Ism2: Optimizing irregular-shaped matrix-matrix multiplication on gpus. arXiv preprint arXiv:2002.03258 (2020)."},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.jpdc.2021.02.013"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.3390\/electronics12010078"},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.15803\/ijnc.11.2_267"},{"key":"e_1_3_2_1_20_1","unstructured":"Abhiprayah Tiwari Vivek Kumar and Gaurav Mitra. 2018. High performance and energy optimal parallel programming on CPU and DSP based MPSoC. Ph.\u00a0D. Dissertation. IIIT-Delhi."},{"key":"e_1_3_2_1_21_1","first-page":"86","article-title":"Evaluating matrix multiplication-based convolution algorithm on multi-core digital signal processors (In Chinese)","volume":"45","author":"Wang Qinglin","year":"2023","unstructured":"Qinglin Wang, Xiangdong Pei, Linyu Liao, Haoxu Wang, Rongchun Li, Songzhu Mei, and Dongsheng Li. 2023. Evaluating matrix multiplication-based convolution algorithm on multi-core digital signal processors (In Chinese). Journal of National University of Defense Technology 45, 1 (2023), 86 \u2013 94.","journal-title":"Journal of National University of Defense Technology"},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN.2019.8852012"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1007\/s42514-020-00057-2"},{"key":"e_1_3_2_1_24_1","volume-title":"High performance dilated convolutions on multi-core DSPs. CCF Transactions on High Performance Computing","author":"Wang Yang","year":"2023","unstructured":"Yang Wang, Qinglin Wang, Xiangdong Pei, Songzhu Mei, Rongchun Li, and Jie Liu. 2023. High performance dilated convolutions on multi-core DSPs. CCF Transactions on High Performance Computing (2023), 1\u201316."},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1145\/3458817.3476217"},{"key":"e_1_3_2_1_26_1","volume-title":"Optimizing Irregular-Shaped Matrix-Matrix Multiplication on Multi-Core DSPs. In 2022 IEEE International Conference on Cluster Computing (CLUSTER). 451\u2013461","author":"Yin Shangfei","year":"2022","unstructured":"Shangfei Yin, Qinglin Wang, Ruochen Hao, Tianyang Zhou, Songzhu Mei, and Jie Liu. 2022. Optimizing Irregular-Shaped Matrix-Matrix Multiplication on Multi-Core DSPs. In 2022 IEEE International Conference on Cluster Computing (CLUSTER). 451\u2013461."}],"event":{"name":"ICPP '24: the 53rd International Conference on Parallel Processing","location":"Gotland Sweden","acronym":"ICPP '24"},"container-title":["Proceedings of the 53rd International Conference on Parallel Processing"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3673038.3673101","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3673038.3673101","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,9,23]],"date-time":"2025-09-23T17:32:01Z","timestamp":1758648721000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3673038.3673101"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,8,12]]},"references-count":26,"alternative-id":["10.1145\/3673038.3673101","10.1145\/3673038"],"URL":"https:\/\/doi.org\/10.1145\/3673038.3673101","relation":{},"subject":[],"published":{"date-parts":[[2024,8,12]]},"assertion":[{"value":"2024-08-12","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}