{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,11]],"date-time":"2026-03-11T01:46:00Z","timestamp":1773193560365,"version":"3.50.1"},"reference-count":65,"publisher":"IEEE","license":[{"start":{"date-parts":[[2023,2,1]],"date-time":"2023-02-01T00:00:00Z","timestamp":1675209600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,2,1]],"date-time":"2023-02-01T00:00:00Z","timestamp":1675209600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100018903","name":"Baidu","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100018903","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023,2]]},"DOI":"10.1109\/hpca56546.2023.10071018","type":"proceedings-article","created":{"date-parts":[[2023,3,24]],"date-time":"2023-03-24T17:42:55Z","timestamp":1679679775000},"page":"1113-1126","source":"Crossref","is-referenced-by-count":40,"title":["Chimera: An Analytical Optimizing Framework for Effective Compute-intensive Operators Fusion"],"prefix":"10.1109","author":[{"given":"Size","family":"Zheng","sequence":"first","affiliation":[{"name":"Peking University"}]},{"given":"Siyuan","family":"Chen","sequence":"additional","affiliation":[{"name":"Peking University"}]},{"given":"Peidi","family":"Song","sequence":"additional","affiliation":[{"name":"Peking University"}]},{"given":"Renze","family":"Chen","sequence":"additional","affiliation":[{"name":"Peking University"}]},{"given":"Xiuhong","family":"Li","sequence":"additional","affiliation":[{"name":"Sensetime Research"}]},{"given":"Shengen","family":"Yan","sequence":"additional","affiliation":[{"name":"Sensetime Research"}]},{"given":"Dahua","family":"Lin","sequence":"additional","affiliation":[{"name":"The Chinese University of Hong Kong"}]},{"given":"Jingwen","family":"Leng","sequence":"additional","affiliation":[{"name":"Shanghai Jiao Tong University"}]},{"given":"Yun","family":"Liang","sequence":"additional","affiliation":[{"name":"Peking University"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Huawei Compute Architecture for Neural Networks (CANN)"},{"key":"ref2","article-title":"Intel oneAPI Deep Neural Network Library"},{"key":"ref3","article-title":"Intel oneAPI Math Kernel Library"},{"key":"ref4","article-title":"Nvidia Ampere Whitepaper"},{"key":"ref5","article-title":"Nvidia CuBLAS"},{"key":"ref6","article-title":"Nvidia CuDNN"},{"key":"ref7","article-title":"Nvidia CUTLASS"},{"key":"ref8","article-title":"Nvidia TensorRT"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1145\/3306346.3322967"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/micro.2016.7783725"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1145\/2688500.2688521"},{"key":"ref12","article-title":"Tiramisu: A polyhedral compiler for expressing fast and portable code","volume-title":"CoRR","volume":"abs\/1804.10694","author":"Baghdadi","year":"2018"},{"key":"ref13","article-title":"Language models are few-shot learners","author":"Brown","year":"2020"},{"key":"ref14","first-page":"578","article-title":"TVM: an automated end-to-end optimizing compiler for deep learning","volume-title":"13th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2018","author":"Chen"},{"key":"ref15","first-page":"3393","article-title":"Learning to optimize tensor programs","volume-title":"Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS 2018","author":"Chen"},{"key":"ref16","article-title":"BERT: pre-training of deep bidirectional transformers for language understanding","volume-title":"CoRR","volume":"abs\/1810.04805","author":"Devlin","year":"2018"},{"key":"ref17","article-title":"An image is worth 16x16 words: Transformers for image recognition at scale","volume-title":"9th International Conference on Learning Representations, ICLR 2021, Virtual Event","author":"Dosovitskiy"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1145\/3297858.3304014"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr.2016.90"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1145\/3445814.3446762"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/isca52012.2021.00050"},{"key":"ref22","article-title":"Squeezenet: Alexnet-level accuracy with 50x fewer parameters and\u00a1 0.5 mb model size","author":"Iandola","year":"2016"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/3341301.3359630"},{"key":"ref24","first-page":"1106","article-title":"Imagenet classification with deep convolutional neural networks","volume-title":"Advances in Neural Information Processing Systems 25: 26th Annual Conference on Neural Information Processing Systems 2012. Proceedings of a meeting held","author":"Krizhevsky"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/cgo.2004.1281665"},{"key":"ref26","article-title":"Analytical characterization and design space exploration for optimization of cnns","volume-title":"CoRR","volume":"abs\/2101.09808","author":"Li","year":"2021"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1145\/3445814.3446759"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1145\/3293883.3295734"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/tpds.2014.2313342"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/hpca51647.2021.00071"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/2925987"},{"key":"ref32","first-page":"881","article-title":"Rammer: Enabling holistic deep learning compiler optimizations with rtasks","volume-title":"14th {USENIX} Symposium on Operating Systems Design and Implementation ({OSDI} 20)","author":"Ma"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/fpl53798.2021.00010"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1145\/2897824.2925952"},{"key":"ref35","article-title":"A tensor compiler for unified machine learning prediction serving","volume-title":"CoRR","volume":"abs\/2010.04804","author":"Nakandala","year":"2020"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1145\/3453483.3454083"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/ispass.2019.00042"},{"key":"ref38","first-page":"8024","article-title":"Pytorch: An imperative style, high-performance deep learning library","volume-title":"Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019","author":"Paszke"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1145\/2491956.2462176"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr.2016.91"},{"key":"ref41","article-title":"Yolov3: An incremental improvement","author":"Redmon","year":"2018"},{"key":"ref42","first-page":"91","article-title":"Faster R-CNN: towards real-time object detection with region proposal networks","volume-title":"Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015","author":"Ren"},{"key":"ref43","article-title":"Relay: A high-level IR for deep learning","volume-title":"CoRR","volume":"abs\/1904.08368","author":"Roesch","year":"2019"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1145\/3352460.3358302"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1145\/3297858.3304072"},{"key":"ref46","article-title":"Mlp-mixer: An all-mlp architecture for vision","volume-title":"CoRR","volume":"abs\/2105.01601","author":"Tolstikhin","year":"2021"},{"key":"ref47","article-title":"Tensor comprehensions: Framework-agnostic high-performance machine learning abstractions","volume-title":"CoRR","volume":"abs\/1802.04730","author":"Vasilache","year":"2018"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/sc.2014.21"},{"key":"ref50","doi-asserted-by":"crossref","first-page":"219","DOI":"10.1007\/978-3-030-57675-2_14","article-title":"Accelerating deep learning inference with cross-layer data reuse on gpus","volume-title":"Euro-Par 2020: Parallel Processing - 26th International Conference on Parallel and Distributed Computing","volume":"12247","author":"Wang"},{"key":"ref51","article-title":"Fixynn: Energy-efficient real-time mobile computer vision hardware acceleration via transfer learning","volume-title":"Proceedings of Machine Learning and Systems 2019, MLSys 2019","author":"Whatmough"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1145\/3061639.3062244"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/isca52012.2021.00086"},{"key":"ref54","article-title":"Bolt: Bridging the gap between auto-tuners and hardware-native performance","volume-title":"Proceedings of Machine Learning and Systems 2022, MLSys 2022","author":"Xing"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1145\/3373376.3378514"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1145\/3453483.3454106"},{"key":"ref57","first-page":"863","article-title":"Ansor: Generating high-performance tensor programs for deep learning","volume-title":"14th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2020, Virtual Event","author":"Zheng"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/hpca53966.2022.00042"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/TPDS.2021.3138862"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1145\/3470496.3527440"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1145\/3373376.3378508"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1145\/3123939.3123978"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1145\/3503222.3507723"},{"key":"ref64","article-title":"Fusionstitching: boosting memory intensive computations for deep learning workloads","author":"Zheng","year":"2020"},{"key":"ref65","first-page":"233","article-title":"{ROLLER}: Fast and efficient tensor compilation for deep learning","volume-title":"16th USENIX Symposium on Operating Systems Design and Implementation (OSDI 22)","author":"Zhu"}],"event":{"name":"2023 IEEE International Symposium on High-Performance Computer Architecture (HPCA)","location":"Montreal, QC, Canada","start":{"date-parts":[[2023,2,25]]},"end":{"date-parts":[[2023,3,1]]}},"container-title":["2023 IEEE International Symposium on High-Performance Computer Architecture (HPCA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10070856\/10070923\/10071018.pdf?arnumber=10071018","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,2,13]],"date-time":"2024-02-13T13:21:20Z","timestamp":1707830480000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10071018\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,2]]},"references-count":65,"URL":"https:\/\/doi.org\/10.1109\/hpca56546.2023.10071018","relation":{},"subject":[],"published":{"date-parts":[[2023,2]]}}}