{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,20]],"date-time":"2025-12-20T08:39:32Z","timestamp":1766219972365,"version":"3.48.0"},"publisher-location":"New York, NY, USA","reference-count":52,"publisher":"ACM","funder":[{"DOI":"10.13039\/501100012166","name":"National Key Research and Development Program of China","doi-asserted-by":"publisher","award":["2023YFB3001503"],"award-info":[{"award-number":["2023YFB3001503"]}],"id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100012166","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62272474"],"award-info":[{"award-number":["62272474"]}],"id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"publisher"}]},{"name":"National Natural Science Foundation of China","award":["61972408"],"award-info":[{"award-number":["61972408"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,9,8]]},"DOI":"10.1145\/3754598.3754619","type":"proceedings-article","created":{"date-parts":[[2025,12,20]],"date-time":"2025-12-20T08:34:32Z","timestamp":1766219672000},"page":"146-156","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Optimizing Direct Convolutions on High-Performance Multi-Core DSPs"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-2805-0862","authenticated-orcid":false,"given":"Pengyu","family":"Wang","sequence":"first","affiliation":[{"name":"National University of Defense Technology, Changsha, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-5996-0087","authenticated-orcid":false,"given":"Xiaotian","family":"Chen","sequence":"additional","affiliation":[{"name":"National University of Defense Technology, Changsha, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3542-4869","authenticated-orcid":false,"given":"Jianbin","family":"Fang","sequence":"additional","affiliation":[{"name":"National University of Defense Technology, Changsha, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8364-9793","authenticated-orcid":false,"given":"Peng","family":"Zhang","sequence":"additional","affiliation":[{"name":"National University of Defense Technology, Changsha, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6906-4940","authenticated-orcid":false,"given":"Yonggang","family":"Che","sequence":"additional","affiliation":[{"name":"National University of Defense Technology, Changsha, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0317-8192","authenticated-orcid":false,"given":"Chun","family":"Huang","sequence":"additional","affiliation":[{"name":"National University of Defense Technology, Changsha, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3183-7228","authenticated-orcid":false,"given":"Jie","family":"Ren","sequence":"additional","affiliation":[{"name":"Shaanxi Normal University, Xi'an, China"}]}],"member":"320","published-online":{"date-parts":[[2025,12,20]]},"reference":[{"key":"e_1_3_3_2_2_2","unstructured":"ACL. https:\/\/github.com\/ARM-software\/ComputeLibrary."},{"key":"e_1_3_3_2_3_2","unstructured":"cuDNN. https:\/\/developer.nvidia.com\/cudnn."},{"key":"e_1_3_3_2_4_2","unstructured":"oneDNN. https:\/\/github.com\/oneapi-src\/oneDNN."},{"key":"e_1_3_3_2_5_2","unstructured":"OpenBLAS. https:\/\/github.com\/xianyi\/OpenBLAS."},{"key":"e_1_3_3_2_6_2","unstructured":"XNNPACK. https:\/\/github.com\/google\/XNNPACK."},{"key":"e_1_3_3_2_7_2","first-page":"5998","volume-title":"NIPS\u201917","year":"2017","unstructured":"A.Vaswani et\u00a0al. 2017. Attention is All you Need. In NIPS\u201917. 5998\u20136008."},{"key":"e_1_3_3_2_8_2","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2016.40"},{"key":"e_1_3_3_2_9_2","series-title":"Proceedings of Machine Learning Research","first-page":"815","volume-title":"Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017","volume":"70","author":"Cho Minsik","year":"2017","unstructured":"Minsik Cho and Daniel Brand. 2017. MEC: Memory-efficient Convolution for Deep Neural Network. In Proceedings of the 34th International Conference on Machine Learning, ICML 2017, Sydney, NSW, Australia, 6-11 August 2017(Proceedings of Machine Learning Research, Vol.\u00a070), Doina Precup and Yee\u00a0Whye Teh (Eds.). PMLR, 815\u2013824. http:\/\/proceedings.mlr.press\/v70\/cho17a.html"},{"key":"e_1_3_3_2_10_2","first-page":"342","volume-title":"Proceedings of the 28th ACM SIGPLAN Annual Symposium on Principles and Practice of Parallel Programming, PPoPP 2023, Montreal, QC, Canada, 25 February 2023 - 1 March 2023","author":"Limas\u00a0Santana Alexandre de","year":"2023","unstructured":"Alexandre de Limas\u00a0Santana, Adri\u00e0 Armejach, and Marc Casas. 2023. Efficient Direct Convolution Using Long SIMD Instructions. In Proceedings of the 28th ACM SIGPLAN Annual Symposium on Principles and Practice of Parallel Programming, PPoPP 2023, Montreal, QC, Canada, 25 February 2023 - 1 March 2023, Maryam\u00a0Mehri Dehnavi, Milind Kulkarni, and Sriram Krishnamoorthy (Eds.). ACM, 342\u2013353."},{"key":"e_1_3_3_2_11_2","unstructured":"Marat Dukhan. 2019. The indirect convolution algorithm. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/1907.02129 (2019)."},{"key":"e_1_3_3_2_12_2","first-page":"66:1\u201366:12","volume-title":"SC\u201918","year":"2018","unstructured":"E.Georganas et\u00a0al. 2018. Anatomy of high-performance deep learning convolutions on SIMD architectures. In SC\u201918. IEEE \/ ACM, 66:1\u201366:12."},{"key":"e_1_3_3_2_13_2","first-page":"222","volume-title":"IPDPS\u201920","year":"2020","unstructured":"E.Georganas et\u00a0al. 2020. Harnessing Deep Learning via a Single Building Block. In IPDPS\u201920. IEEE, 222\u2013233."},{"key":"e_1_3_3_2_14_2","first-page":"99","volume-title":"SBAC-PAD\u201920","author":"al. A.\u00a0Anderson\u00a0, et","year":"2020","unstructured":"A.\u00a0Anderson\u00a0, et al.2020. High-Performance Low-Memory Lowering: GEMM-based Algorithms for DNN Convolution. In SBAC-PAD\u201920. IEEE, 99\u2013106."},{"key":"e_1_3_3_2_15_2","doi-asserted-by":"crossref","unstructured":"Jian. Fang et\u00a0al. 2023. Programming bare-metal accelerators with heterogeneous threading models: a case study of Matrix-3000. Frontiers Inf. Technol. Electron. Eng. 24 4 (2023) 509\u2013520.","DOI":"10.1631\/FITEE.2200359"},{"key":"e_1_3_3_2_16_2","unstructured":"Victor Ferrari Rafael Sousa Marcio Pereira Jo\u00e3o\u00a0PL de Carvalho Jos\u00e9\u00a0Nelson Amaral Jos\u00e9 Moreira and Guido Araujo. 2023. Advancing Direct Convolution using Convolution Slicing Optimization and ISA Extensions. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2303.04739 (2023)."},{"key":"e_1_3_3_2_17_2","doi-asserted-by":"crossref","unstructured":"Kazushige Goto and Robert\u00a0A. van\u00a0de Geijn. 2008. Anatomy of high-performance matrix multiplication. ACM Trans. Math. Softw. 34 3 (2008) 12:1\u201312:25.","DOI":"10.1145\/1356052.1356053"},{"key":"e_1_3_3_2_18_2","doi-asserted-by":"publisher","unstructured":"Gabriel Haeser Oliver Hinder and Yinyu Ye. 2021. On the behavior of Lagrange multipliers in convex and nonconvex infeasible interior point methods. Math. Program. 186 1 (2021) 257\u2013288. 10.1007\/s10107-019-01454-4","DOI":"10.1007\/s10107-019-01454-4"},{"key":"e_1_3_3_2_19_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"e_1_3_3_2_20_2","doi-asserted-by":"crossref","unstructured":"Xiandong Huang Qinglin Wang Shuyu Lu Ruochen Hao Songzhu Mei and Jie Liu. 2022. Evaluating FFT-based Algorithms for Strided Convolutions on ARMv8 Architectures. SIGMETRICS Perform. Evaluation Rev. 49 3 (2022) 28\u201329.","DOI":"10.1145\/3529113.3529122"},{"key":"e_1_3_3_2_21_2","doi-asserted-by":"publisher","DOI":"10.1109\/SC.2012.109"},{"key":"e_1_3_3_2_22_2","first-page":"615","volume-title":"IPDPS\u201917","year":"2017","unstructured":"J.Fang et\u00a0al. 2017. swDNN: A Library for Accelerating Deep Learning Applications on Sunway TaihuLight. In IPDPS\u201917. IEEE Computer Society, 615\u2013624."},{"key":"e_1_3_3_2_23_2","doi-asserted-by":"publisher","DOI":"10.1145\/3498361.3538940"},{"key":"e_1_3_3_2_24_2","first-page":"5771","volume-title":"ICML\u201918","year":"2018","unstructured":"J.Zhang et\u00a0al. 2018. High Performance Zero-Memory Overhead Direct Convolutions. In ICML\u201918, Vol.\u00a080. PMLR, 5771\u20135780."},{"key":"e_1_3_3_2_25_2","doi-asserted-by":"publisher","unstructured":"Hyeonjin Kim and William\u00a0J. Song. 2023. LAS: Locality-Aware Scheduling for GEMM-Accelerated Convolutions in GPUs. IEEE Trans. Parallel Distributed Syst. 34 5 (2023) 1479\u20131494. 10.1109\/TPDS.2023.3247808","DOI":"10.1109\/TPDS.2023.3247808"},{"key":"e_1_3_3_2_26_2","doi-asserted-by":"publisher","unstructured":"Ivan Korostelev Joao P.\u00a0L. de Carvalho Jos\u00e9\u00a0E. Moreira and Jos\u00e9\u00a0Nelson Amaral. 2023. YaConv: Convolution with Low Cache Footprint. ACM Trans. Archit. Code Optim. 20 1 (2023) 18:1\u201318:18. 10.1145\/3570305","DOI":"10.1145\/3570305"},{"key":"e_1_3_3_2_27_2","first-page":"964","volume-title":"IPDPS\u201924","year":"2024","unstructured":"K.Yu et\u00a0al. 2024. Optimizing General Matrix Multiplications on Modern Multi-core DSPs. In IPDPS\u201924. IEEE, 964\u2013975."},{"key":"e_1_3_3_2_28_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.435"},{"key":"e_1_3_3_2_29_2","doi-asserted-by":"publisher","DOI":"10.1145\/3627535.3638471"},{"key":"e_1_3_3_2_30_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-39698-4_40"},{"key":"e_1_3_3_2_31_2","doi-asserted-by":"publisher","unstructured":"Sheng Ma Zhong Liu Shenggang Chen Libo Huang Yang Guo Zhiying Wang and Meidi Zhang. 2019. Coordinated DMA: Improving the DRAM Access Efficiency for Matrix Multiplication. IEEE Trans. Parallel Distributed Syst. 30 10 (2019) 2148\u20132164. 10.1109\/TPDS.2019.2906891","DOI":"10.1109\/TPDS.2019.2906891"},{"key":"e_1_3_3_2_32_2","doi-asserted-by":"publisher","DOI":"10.1145\/3453483.3454083"},{"key":"e_1_3_3_2_33_2","doi-asserted-by":"publisher","DOI":"10.1145\/3394885.3431534"},{"key":"e_1_3_3_2_34_2","first-page":"70:1\u201370:13","volume-title":"SC\u201923","year":"2023","unstructured":"P.Wang et\u00a0al. 2023. Optimizing Direct Convolutions on ARM Multi-Cores. In SC\u201923. ACM, 70:1\u201370:13."},{"key":"e_1_3_3_2_35_2","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA47549.2020.00015"},{"key":"e_1_3_3_2_36_2","unstructured":"Joseph Redmon and Ali Farhadi. 2018. YOLOv3: An Incremental Improvement. CoRR abs\/1804.02767 (2018). arXiv:https:\/\/arXiv.org\/abs\/1804.02767http:\/\/arxiv.org\/abs\/1804.02767"},{"key":"e_1_3_3_2_37_2","doi-asserted-by":"publisher","unstructured":"Shaoqing Ren Kaiming He Ross\u00a0B. Girshick and Jian Sun. 2017. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. IEEE Trans. Pattern Anal. Mach. Intell. 39 6 (2017) 1137\u20131149. 10.1109\/TPAMI.2016.2577031","DOI":"10.1109\/TPAMI.2016.2577031"},{"key":"e_1_3_3_2_38_2","doi-asserted-by":"publisher","DOI":"10.1145\/3445814.3446759"},{"key":"e_1_3_3_2_39_2","doi-asserted-by":"publisher","unstructured":"Evan Shelhamer Jonathan Long and Trevor Darrell. 2017. Fully Convolutional Networks for Semantic Segmentation. IEEE Trans. Pattern Anal. Mach. Intell. 39 4 (2017) 640\u2013651. 10.1109\/TPAMI.2016.2572683","DOI":"10.1109\/TPAMI.2016.2572683"},{"key":"e_1_3_3_2_40_2","volume-title":"3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings","author":"Simonyan Karen","year":"2015","unstructured":"Karen Simonyan and Andrew Zisserman. 2015. Very Deep Convolutional Networks for Large-Scale Image Recognition. In 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7-9, 2015, Conference Track Proceedings, Yoshua Bengio and Yann LeCun (Eds.)."},{"key":"e_1_3_3_2_41_2","doi-asserted-by":"publisher","DOI":"10.1145\/1067649.801719"},{"key":"e_1_3_3_2_42_2","doi-asserted-by":"publisher","DOI":"10.1109\/IPDPS.2014.110"},{"key":"e_1_3_3_2_43_2","doi-asserted-by":"publisher","DOI":"10.1145\/3037697.3037745"},{"key":"e_1_3_3_2_44_2","doi-asserted-by":"crossref","unstructured":"Xing Su Xiangke Liao Hao Jiang Canqun Yang and Jingling Xue. 2019. SCP: Shared Cache Partitioning for High-Performance GEMM. ACM Trans. Archit. Code Optim. 15 4 (2019) 43:1\u201343:21.","DOI":"10.1145\/3274654"},{"key":"e_1_3_3_2_45_2","doi-asserted-by":"publisher","unstructured":"Yaohua Wang Chen Li Chang Liu Sheng Liu Yuanwu Lei Jian Zhang Yang Zhang and Yang Guo. 2021. Advancing DSP into HPC AI and beyond: challenges mechanisms and future directions. CCF Trans. High Perform. Comput. 3 1 (2021) 114\u2013125. 10.1007\/S42514-020-00057-2","DOI":"10.1007\/S42514-020-00057-2"},{"key":"e_1_3_3_2_46_2","doi-asserted-by":"crossref","unstructured":"Yang Wang Qinglin Wang Xiangdong Pei Songzhu Mei Rongchun Li and Jie Liu. 2024. High performance dilated convolutions on multi-core DSPs. CCF Transactions on High Performance Computing 6 1 (2024) 78\u201393.","DOI":"10.1007\/s42514-023-00166-8"},{"key":"e_1_3_3_2_47_2","first-page":"209","volume-title":"International Conference on Algorithms and Architectures for Parallel Processing","author":"Wang Yang","year":"2023","unstructured":"Yang Wang, Qinglin Wang, Xiangdong Pei, Songzhu Mei, and Jie Liu. 2023. Optimizing Pointwise Convolutions on Multi-core DSPs. In International Conference on Algorithms and Architectures for Parallel Processing. Springer, 209\u2013223."},{"key":"e_1_3_3_2_48_2","doi-asserted-by":"publisher","unstructured":"Chao Yang Shuming Chen Jian Zhang Zhao Lv and Zhi Wang. 2019. A Novel DSP Architecture for Scientific Computing and Deep Learning. IEEE Access 7 (2019) 36413\u201336425. 10.1109\/ACCESS.2019.2905302","DOI":"10.1109\/ACCESS.2019.2905302"},{"key":"e_1_3_3_2_49_2","doi-asserted-by":"publisher","DOI":"10.1109\/IPDPS49936.2021.00019"},{"key":"e_1_3_3_2_50_2","doi-asserted-by":"publisher","DOI":"10.1109\/CLUSTER51413.2022.00055"},{"key":"e_1_3_3_2_51_2","first-page":"1746","volume-title":"EMNLP\u2019 20\u201914","year":"2014","unstructured":"Y.Kim. 2014. Convolutional Neural Networks for Sentence Classification. In EMNLP\u2019 20\u201914. ACL, 1746\u20131751."},{"key":"e_1_3_3_2_52_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.660"},{"key":"e_1_3_3_2_53_2","doi-asserted-by":"crossref","unstructured":"Tianli Zhao Qinghao Hu Xiangyu He Weixiang Xu Jiaxing Wang Cong Leng and Jian Cheng. 2023. ECBC: Efficient Convolution via Blocked Columnizing. IEEE Trans. Neural Networks Learn. Syst. 34 1 (2023) 433\u2013445.","DOI":"10.1109\/TNNLS.2021.3095276"}],"event":{"name":"ICPP '25: 54th International Conference on Parallel Processing","location":"San Diego CA USA","acronym":"ICPP '25"},"container-title":["Proceedings of the 54th International Conference on Parallel Processing"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3754598.3754619","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,20]],"date-time":"2025-12-20T08:35:21Z","timestamp":1766219721000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3754598.3754619"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,9,8]]},"references-count":52,"alternative-id":["10.1145\/3754598.3754619","10.1145\/3754598"],"URL":"https:\/\/doi.org\/10.1145\/3754598.3754619","relation":{},"subject":[],"published":{"date-parts":[[2025,9,8]]},"assertion":[{"value":"2025-12-20","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}