{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,11]],"date-time":"2026-02-11T12:47:45Z","timestamp":1770814065442,"version":"3.50.1"},"reference-count":40,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2025,11,18]],"date-time":"2025-11-18T00:00:00Z","timestamp":1763424000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,11,18]],"date-time":"2025-11-18T00:00:00Z","timestamp":1763424000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"name":"Basic Research Projects of Key Scientific Research Projects Plan in Henan Higher Education Institutions","award":["25ZX013"],"award-info":[{"award-number":["25ZX013"]}]},{"name":"Scientific Research Team Plan of the Zhengzhou University of Aeronautics","award":["23ZHTD01003"],"award-info":[{"award-number":["23ZHTD01003"]}]},{"name":"Science and Technology Innovation 2030","award":["2023ZD0120604"],"award-info":[{"award-number":["2023ZD0120604"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["CCF Trans. HPC"],"published-print":{"date-parts":[[2026,2]]},"DOI":"10.1007\/s42514-025-00253-y","type":"journal-article","created":{"date-parts":[[2025,11,18]],"date-time":"2025-11-18T09:06:28Z","timestamp":1763456788000},"page":"61-79","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Optimizing Standard Convolution for Diverse Precision on DCU"],"prefix":"10.1007","volume":"8","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-8015-6392","authenticated-orcid":false,"given":"Haobo","family":"Hua","sequence":"first","affiliation":[]},{"given":"Chuangzheng","family":"Hou","sequence":"additional","affiliation":[]},{"given":"Zhuxin","family":"Wen","sequence":"additional","affiliation":[]},{"given":"Xiangkai","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Xiaodong","family":"Yu","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0001-7673-2641","authenticated-orcid":false,"given":"Jiandong","family":"Shang","sequence":"additional","affiliation":[]},{"given":"Litao","family":"Zhang","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,11,18]]},"reference":[{"key":"253_CR1","doi-asserted-by":"crossref","unstructured":"Abdelfattah, A., Haidar, A., Tomov, S., Dongarra, J.: Novel hpc techniques to batch execution of many variable size blas computations on gpus. In: Proceedings of the International Conference on Supercomputing, 1\u201310 (2017)","DOI":"10.1145\/3079079.3079103"},{"key":"253_CR2","doi-asserted-by":"crossref","unstructured":"Abdelfattah, A., Tomov, S., Dongarra, J.: Fast batched matrix multiplication for small sizes using half-precision arithmetic on gpus. In: 2019 IEEE International Parallel and Distributed Processing Symposium (IPDPS), 111\u2013122. IEEE (2019)","DOI":"10.1109\/IPDPS.2019.00022"},{"key":"253_CR3","unstructured":"AMD ROCm documentation: AMD rocBLAS Next Generation BLAS Implementation for ROCm Platform. https:\/\/github.com\/ROCm\/rocBLAS"},{"key":"253_CR4","first-page":"1","volume":"2024","author":"K Cao","year":"2024","unstructured":"Cao, K., Wu, Q., Wang, L., Guo, H., Wang, N., Cheng, H., Tang, X., Liu, L., Li, D., Wu, H., et al.: Gpu-hadvppm4hip v1. 0: higher model accuracy on china\u2019s domestically gpu-like accelerator using heterogeneous compute interface for portability (hip) technology to accelerate the piecewise parabolic method (ppm) in an air quality model (camx v6. 10). Geosci. Model Dev. Discuss. 2024, 1\u201322 (2024)","journal-title":"Geosci. Model Dev. Discuss."},{"key":"253_CR5","unstructured":"Chellapilla, K., Puri, S., Simard, P.: High performance convolutional neural networks for document processing. In: Lorette, G. (ed.) Tenth International Workshop on Frontiers in Handwriting Recognition. Suvisoft, La Baule (France). Universit\u00e9 de Rennes 1. http:\/\/www.suvisoft.comhttps:\/\/inria.hal.science\/inria-00112631 (2006)"},{"key":"253_CR6","doi-asserted-by":"crossref","unstructured":"Chen, B., Ghiasi, G., Liu, H., Lin, T., Kalenichenko, D., Adam, H., Le, Q.V.: Mnasfpn: learning latency-aware pyramid architecture for object detection on mobile devices. CoRR arXiv:abs\/1912.01106 (2019)","DOI":"10.1109\/CVPR42600.2020.01362"},{"key":"253_CR7","doi-asserted-by":"crossref","unstructured":"Fan, W., Hua, H., Shang, J., Wen, Z., Guo, H., Zhang, L.: Optimizing 2d convolution for dcus. CCF Trans. High. Perform. Comput., 1\u201313 (2025)","DOI":"10.1007\/s42514-024-00205-y"},{"issue":"14","key":"253_CR8","doi-asserted-by":"publisher","first-page":"20176","DOI":"10.1007\/s11227-024-06234-2","volume":"80","author":"H Guo","year":"2024","unstructured":"Guo, H., Wang, H., Chen, W., Zhang, C., Han, Y., Zhu, S., Zhang, D., Guo, Y., Shang, J., Wan, T., Li, Q., Wu, G.: Optimizing sparse general matrix\u2013matrix multiplication for dcus. J. Supercomput. 80(14), 20176\u201320200 (2024). https:\/\/doi.org\/10.1007\/s11227-024-06234-2","journal-title":"J. Supercomput."},{"key":"253_CR9","doi-asserted-by":"publisher","DOI":"10.1016\/j.energy.2023.128179","volume":"282","author":"P Han","year":"2023","unstructured":"Han, P., Hua, H., Wang, H., Shang, J.: A graphic partition method based on nodes learning for energy pipelines network simulation. Energy 282, 128179 (2023)","journal-title":"Energy"},{"issue":"10","key":"253_CR10","doi-asserted-by":"publisher","first-page":"14085","DOI":"10.1007\/s11227-024-05996-z","volume":"80","author":"P Han","year":"2024","unstructured":"Han, P., Hua, H., Wang, H., Xue, F., Wu, C., Shang, J.: A universal parallel simulation framework for energy pipeline networks on high-performance computers. J. Supercomput. 80(10), 14085\u201314115 (2024)","journal-title":"J. Supercomput."},{"key":"253_CR11","unstructured":"He, K., Zhang, X., Ren, S., Sun, J.: Deep residual learning for image recognition. arXiv:abs\/1512.03385 (2015)"},{"key":"253_CR12","doi-asserted-by":"publisher","unstructured":"Iandola, F.N., Sheffield, D., Anderson, M.J., Phothilimthana, P.M., Keutzer, K.: Communication-minimizing 2d convolution in gpu registers. In: 2013 IEEE International Conference on Image Processing, 2116\u20132120. https:\/\/doi.org\/10.1109\/ICIP.2013.6738436 (2013)","DOI":"10.1109\/ICIP.2013.6738436"},{"issue":"1","key":"253_CR13","doi-asserted-by":"publisher","first-page":"109","DOI":"10.1145\/3200691.3178496","volume":"53","author":"Z Jia","year":"2018","unstructured":"Jia, Z., Zlateski, A., Durand, F., Li, K.: Optimizing n-dimensional, winograd-based convolution for manycore cpus. SIGPLAN Not. 53(1), 109\u2013123 (2018). https:\/\/doi.org\/10.1145\/3200691.3178496","journal-title":"SIGPLAN Not."},{"issue":"5","key":"253_CR14","doi-asserted-by":"publisher","first-page":"519","DOI":"10.1007\/s42514-023-00178-4","volume":"6","author":"J Jia","year":"2024","unstructured":"Jia, J., Lin, X., Lin, F., Liu, Y.: Dcu-chk: checkpointing for large-scale cpu-dcu heterogeneous computing systems. CCF Trans. High Perform. Comput. 6(5), 519\u2013532 (2024). https:\/\/doi.org\/10.1007\/s42514-023-00178-4","journal-title":"CCF Trans. High Perform. Comput."},{"key":"253_CR15","doi-asserted-by":"publisher","first-page":"70461","DOI":"10.1109\/ACCESS.2019.2918851","volume":"7","author":"M Jord\u00e0","year":"2019","unstructured":"Jord\u00e0, M., Valero-Lara, P., Pe\u00f1a, A.J.: Performance evaluation of cudnn convolution algorithms on nvidia volta gpus. IEEE Access 7, 70461\u201370473 (2019). https:\/\/doi.org\/10.1109\/ACCESS.2019.2918851","journal-title":"IEEE Access"},{"key":"253_CR16","doi-asserted-by":"publisher","unstructured":"Lavin, A., Gray, S.: Fast algorithms for convolutional neural networks. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 4013\u20134021. https:\/\/doi.org\/10.1109\/CVPR.2016.435 (2016)","DOI":"10.1109\/CVPR.2016.435"},{"key":"253_CR17","doi-asserted-by":"publisher","unstructured":"Li, Z., Jia, H., Zhang, Y., Chen, T., Yuan, L., Cao, L., Wang, X.: Autofft: a template-based fft codes auto-generation framework for arm and x86 cpus. In: Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis. SC \u201919. Association for Computing Machinery, New York, NY, USA. https:\/\/doi.org\/10.1145\/3295500.3356138 (2019)","DOI":"10.1145\/3295500.3356138"},{"key":"253_CR18","doi-asserted-by":"publisher","unstructured":"Li, X., Liang, Y., Yan, S., Jia, L., Li, Y.: A coordinated tiling and batching framework for efficient gemm on gpus. In: Proceedings of the 24th Symposium on Principles and Practice of Parallel Programming. PPoPP \u201919, pp. 229\u2013241. Association for Computing Machinery, New York, NY, USA. https:\/\/doi.org\/10.1145\/3293883.3295734 (2019)","DOI":"10.1145\/3293883.3295734"},{"issue":"2","key":"253_CR19","doi-asserted-by":"publisher","first-page":"206","DOI":"10.1007\/s42514-023-00153-z","volume":"6","author":"Y Liu","year":"2024","unstructured":"Liu, Y., Zhang, F., Pan, Z., Guo, X., Hu, Y., Zhang, X., Du, X.: Compressed data direct computing for chinese dataset on dcu. CCF Trans. High Perform. Comput. 6(2), 206\u2013220 (2024). https:\/\/doi.org\/10.1007\/s42514-023-00153-z","journal-title":"CCF Trans. High Perform. Comput."},{"issue":"6","key":"253_CR20","doi-asserted-by":"publisher","first-page":"646","DOI":"10.1007\/s42514-024-00200-3","volume":"6","author":"Z Liu","year":"2024","unstructured":"Liu, Z., Hao, M., Zhang, W., Lu, G., Tian, X., Yang, S., Xie, M., Dai, J., Yuan, C., Wang, D., Yang, H.: Optimizing depthwise separable convolution on dcu. CCF Trans. High Perform. Comput. 6(6), 646\u2013664 (2024). https:\/\/doi.org\/10.1007\/s42514-024-00200-3","journal-title":"CCF Trans. High Perform. Comput."},{"issue":"1","key":"253_CR21","doi-asserted-by":"publisher","first-page":"70","DOI":"10.1109\/TPDS.2021.3084813","volume":"33","author":"G Lu","year":"2022","unstructured":"Lu, G., Zhang, W., Wang, Z.: Optimizing depthwise separable convolution operations on gpus. IEEE Trans. Parallel Distrib. Syst. 33(1), 70\u201387 (2022). https:\/\/doi.org\/10.1109\/TPDS.2021.3084813","journal-title":"IEEE Trans. Parallel Distrib. Syst."},{"issue":"1","key":"253_CR22","doi-asserted-by":"publisher","DOI":"10.1088\/1742-6596\/2258\/1\/012065","volume":"2258","author":"K Ma","year":"2022","unstructured":"Ma, K., Han, L., Shang, J.-D., Xie, J.-M., Zhang, H.: Optimized realization of quantum fourier transform for domestic dcu accelerator. J. Phys: Conf. Ser. 2258(1), 012065 (2022). https:\/\/doi.org\/10.1088\/1742-6596\/2258\/1\/012065. (Publisher: IOP Publishing)","journal-title":"J. Phys: Conf. Ser."},{"key":"253_CR23","unstructured":"Mathieu, M., Henaff, M., LeCun, Y.: Fast training of convolutional networks through FFTs. arxiv:abs\/1312.5851 (2014)"},{"key":"253_CR24","unstructured":"NVIDIA Corporation: Cutlass. https:\/\/github.com\/NVIDIA\/cutlass\/blob\/main\/include\/cute\/swizzle.hpp"},{"key":"253_CR25","unstructured":"NVIDIA CUDA Documentation: Inline PTX Assembly in CUDA. https:\/\/docs.nvidia.com\/cuda\/inline-ptx-assembly\/index.html"},{"key":"253_CR26","unstructured":"NVIDIA CUDA Documentation: NVIDIA CUBLAS Library Documentation. https:\/\/docs.nvidia.com\/cuda\/cublas\/index.html"},{"issue":"5","key":"253_CR27","doi-asserted-by":"publisher","first-page":"745","DOI":"10.1007\/s11227-025-07195-w","volume":"81","author":"J Shang","year":"2025","unstructured":"Shang, J., Wen, Z., Hua, H., Guo, H., Wu, G., Fan, W., Guo, Y., Qin, G.: Vbats: an adaptive strategy for grouped gemm on gpus. J. Supercomput. 81(5), 745 (2025)","journal-title":"J. Supercomput."},{"key":"253_CR28","unstructured":"Tan, M., Le, Q.V.: EfficientNet: rethinking model scaling for convolutional neural networks. arxiv:abs\/1905.11946 (2020)"},{"key":"253_CR29","doi-asserted-by":"publisher","unstructured":"Tokunaga, H., Teramoto, Y., Yoshizawa, A., Bise, R.: Adaptive weighting multi-field-of-view cnn for semantic segmentation in pathology. In: 2019 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 12589\u201312598 (2019). https:\/\/doi.org\/10.1109\/CVPR.2019.01288","DOI":"10.1109\/CVPR.2019.01288"},{"key":"253_CR30","doi-asserted-by":"crossref","unstructured":"Vasudevan, A., Anderson, A., Gregg, D.: Parallel multi channel convolution using general matrix multiplication. arxiv:abs\/1704.04428 (2017)","DOI":"10.1109\/ASAP.2017.7995254"},{"key":"253_CR31","unstructured":"Wang, S., Gong, Y., Xing, J., Huang, L., Huang, C., Hu, W.: Rdsnet: a new deep architecture for reciprocal object detection and instance segmentation. CoRR arXiv:abs\/1912.05070 (2019)"},{"issue":"2","key":"253_CR32","doi-asserted-by":"publisher","first-page":"1741","DOI":"10.1007\/s11227-021-03936-9","volume":"78","author":"R Wang","year":"2022","unstructured":"Wang, R., Yang, Z., Xu, H., Lu, L.: A high-performance batched matrix multiplication framework for gpus under unbalanced input distribution. J. Supercomput. 78(2), 1741\u20131758 (2022). https:\/\/doi.org\/10.1007\/s11227-021-03936-9","journal-title":"J. Supercomput."},{"issue":"4","key":"253_CR33","doi-asserted-by":"publisher","first-page":"65","DOI":"10.1145\/1498765.1498785","volume":"52","author":"S Williams","year":"2009","unstructured":"Williams, S., Waterman, A., Patterson, D.: Roofline: an insightful visual performance model for multicore architectures. Commun. ACM 52(4), 65\u201376 (2009). https:\/\/doi.org\/10.1145\/1498765.1498785","journal-title":"Commun. ACM"},{"key":"253_CR34","doi-asserted-by":"publisher","unstructured":"Wu, D., Li, J., Yin, R., Hsiao, H., Kim, Y., Miguel, J.S.: Ugemm: unary computing architecture for gemm applications. In: 2020 ACM\/IEEE 47th Annual International Symposium on Computer Architecture (ISCA), 377\u2013390. https:\/\/doi.org\/10.1109\/ISCA45697.2020.00040 (2020)","DOI":"10.1109\/ISCA45697.2020.00040"},{"key":"253_CR35","doi-asserted-by":"publisher","unstructured":"Yan, D., Wang, W., Chu, X.: Optimizing batched winograd convolution on gpus. In: Proceedings of the 25th ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming. PPoPP \u201920, pp. 32\u201344. Association for Computing Machinery, New York, NY, USA. https:\/\/doi.org\/10.1145\/3332466.3374520 (2020)","DOI":"10.1145\/3332466.3374520"},{"key":"253_CR36","unstructured":"Yang, C., An, Z., Zhu, H., Hu, X., Xu, K., Li, C., Diao, B., Xu, Y.: Gated convolutional networks with hybrid connectivity for image classification. CoRR arXiv:abs\/1908.09699 (2019)"},{"key":"253_CR37","doi-asserted-by":"publisher","unstructured":"Zhong, Z., Lin, Z.Q., Bidart, R., Hu, X., Daya, I.B., Li, Z., Zheng, W.-S., Li, J., Wong, A.: Squeeze-and-attention networks for semantic segmentation. In: 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 13062\u201313071. https:\/\/doi.org\/10.1109\/CVPR42600.2020.01308 (2020)","DOI":"10.1109\/CVPR42600.2020.01308"},{"issue":"1","key":"253_CR38","doi-asserted-by":"publisher","DOI":"10.1088\/1742-6596\/2558\/1\/012003","volume":"2558","author":"Q-W Zhou","year":"2023","unstructured":"Zhou, Q.-W., Li, J.-N., Zhao, R.-C., Han, L., Wang, X.: Compilation optimization of dcu-oriented openmp thread scheduling. J. Phys: Conf. Ser. 2558(1), 012003 (2023). https:\/\/doi.org\/10.1088\/1742-6596\/2558\/1\/012003. (Publisher: IOP Publishing)","journal-title":"J. Phys: Conf. Ser."},{"key":"253_CR39","doi-asserted-by":"publisher","unstructured":"Zlateski, A., Jia, Z., Li, K., Durand, F.: The anatomy of efficient fft and winograd convolutions on modern cpus. In: Proceedings of the ACM International Conference on Supercomputing. ICS \u201919, pp. 414\u2013424. Association for Computing Machinery, New York, NY, USA. https:\/\/doi.org\/10.1145\/3330345.3330382 (2019)","DOI":"10.1145\/3330345.3330382"},{"key":"253_CR40","doi-asserted-by":"crossref","unstructured":"Zoran, D., Chrzanowski, M., Huang, P., Gowal, S., Mott, A., Kohli, P.: Towards robust image classification using sequential attention models. CoRR arXiv:abs\/1912.02184 (2019)","DOI":"10.1109\/CVPR42600.2020.00950"}],"container-title":["CCF Transactions on High Performance Computing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s42514-025-00253-y.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s42514-025-00253-y","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s42514-025-00253-y.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,9]],"date-time":"2026-02-09T08:55:27Z","timestamp":1770627327000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s42514-025-00253-y"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,18]]},"references-count":40,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2026,2]]}},"alternative-id":["253"],"URL":"https:\/\/doi.org\/10.1007\/s42514-025-00253-y","relation":{},"ISSN":["2524-4922","2524-4930"],"issn-type":[{"value":"2524-4922","type":"print"},{"value":"2524-4930","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,11,18]]},"assertion":[{"value":"28 July 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"15 September 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"18 November 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"On behalf of all authors, the corresponding author states that there is no Conflict of interest.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}