{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,14]],"date-time":"2026-03-14T09:41:28Z","timestamp":1773481288800,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":70,"publisher":"ACM","license":[{"start":{"date-parts":[[2022,6,11]],"date-time":"2022-06-11T00:00:00Z","timestamp":1654905600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"name":"Science and Technology Commission of Shanghai Municipality, China","award":["20DZ1100800"],"award-info":[{"award-number":["20DZ1100800"]}]},{"name":"National Natural Science Foundation of China (NSFC)","award":["U21B2017"],"award-info":[{"award-number":["U21B2017"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2022,6,18]]},"DOI":"10.1145\/3470496.3527440","type":"proceedings-article","created":{"date-parts":[[2022,5,31]],"date-time":"2022-05-31T19:06:01Z","timestamp":1654023961000},"page":"874-887","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":56,"title":["AMOS"],"prefix":"10.1145","author":[{"given":"Size","family":"Zheng","sequence":"first","affiliation":[{"name":"Peking University, Beijing, China"}]},{"given":"Renze","family":"Chen","sequence":"additional","affiliation":[{"name":"Peking University, Beijing, China"}]},{"given":"Anjiang","family":"Wei","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Yicheng","family":"Jin","sequence":"additional","affiliation":[{"name":"Peking University, Beijing, China"}]},{"given":"Qin","family":"Han","sequence":"additional","affiliation":[{"name":"Peking University, Beijing, China"}]},{"given":"Liqiang","family":"Lu","sequence":"additional","affiliation":[{"name":"Peking University, Beijing, China"}]},{"given":"Bingyang","family":"Wu","sequence":"additional","affiliation":[{"name":"Peking University, Beijing, China"}]},{"given":"Xiuhong","family":"Li","sequence":"additional","affiliation":[{"name":"Shanghai AI Lab, China"}]},{"given":"Shengen","family":"Yan","sequence":"additional","affiliation":[{"name":"SenseTime Research, Beijing, China"}]},{"given":"Yun","family":"Liang","sequence":"additional","affiliation":[{"name":"Peking University, Beijing, China"}]}],"member":"320","published-online":{"date-parts":[[2022,6,11]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"TensorFlow: A System for Large-Scale Machine Learning. In 12th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2016","author":"Abadi Mart\u00edn","year":"2016","unstructured":"Mart\u00edn Abadi , Paul Barham , Jianmin Chen , Zhifeng Chen , Andy Davis , Jeffrey Dean , Matthieu Devin , Sanjay Ghemawat , Geoffrey Irving , Michael Isard , Manjunath Kudlur , Josh Levenberg , Rajat Monga , Sherry Moore , Derek Gordon Murray , Benoit Steiner , Paul A. Tucker , Vijay Vasudevan , Pete Warden , Martin Wicke , Yuan Yu , and Xiaoqiang Zheng . 2016 . TensorFlow: A System for Large-Scale Machine Learning. In 12th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2016 , Savannah, GA, USA, November 2--4 , 2016. 265--283. https:\/\/www.usenix.org\/conference\/osdi16\/technical-sessions\/presentation\/abadi Mart\u00edn Abadi, Paul Barham, Jianmin Chen, Zhifeng Chen, Andy Davis, Jeffrey Dean, Matthieu Devin, Sanjay Ghemawat, Geoffrey Irving, Michael Isard, Manjunath Kudlur, Josh Levenberg, Rajat Monga, Sherry Moore, Derek Gordon Murray, Benoit Steiner, Paul A. Tucker, Vijay Vasudevan, Pete Warden, Martin Wicke, Yuan Yu, and Xiaoqiang Zheng. 2016. TensorFlow: A System for Large-Scale Machine Learning. In 12th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2016, Savannah, GA, USA, November 2--4, 2016. 265--283. https:\/\/www.usenix.org\/conference\/osdi16\/technical-sessions\/presentation\/abadi"},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1145\/3306346.3322967"},{"key":"e_1_3_2_1_3_1","unstructured":"ARM. 2022. Mali Bifrost architecture white paper. https:\/\/www.hotchips.org\/wp-content\/uploads\/hc_archives\/hc28\/HC28.22-Monday-Epub\/HC28.22.10-GPU-HPC-Epub\/HC28.22.110-Bifrost-JemDavies-ARM-v04-9.pdf  ARM. 2022. Mali Bifrost architecture white paper. https:\/\/www.hotchips.org\/wp-content\/uploads\/hc_archives\/hc28\/HC28.22-Monday-Epub\/HC28.22.10-GPU-HPC-Epub\/HC28.22.110-Bifrost-JemDavies-ARM-v04-9.pdf"},{"key":"e_1_3_2_1_4_1","volume-title":"Emanuele Del Sozzo, Abdurrahman Akkas, Yunming Zhang, Patricia Suriana, Shoaib Kamil, and Saman P. Amarasinghe.","author":"Baghdadi Riyadh","year":"2018","unstructured":"Riyadh Baghdadi , Jessica Ray , Malek Ben Romdhane , Emanuele Del Sozzo, Abdurrahman Akkas, Yunming Zhang, Patricia Suriana, Shoaib Kamil, and Saman P. Amarasinghe. 2018 . Tiramisu : A Polyhedral Compiler for Expressing Fast and Portable Code. CoRR abs\/1804.10694 (2018). arXiv:1804.10694 http:\/\/arxiv.org\/abs\/1804.10694 Riyadh Baghdadi, Jessica Ray, Malek Ben Romdhane, Emanuele Del Sozzo, Abdurrahman Akkas, Yunming Zhang, Patricia Suriana, Shoaib Kamil, and Saman P. Amarasinghe. 2018. Tiramisu: A Polyhedral Compiler for Expressing Fast and Portable Code. CoRR abs\/1804.10694 (2018). arXiv:1804.10694 http:\/\/arxiv.org\/abs\/1804.10694"},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"publisher","DOI":"10.1145\/1375581.1375595"},{"key":"e_1_3_2_1_6_1","unstructured":"Tom B Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan Prafulla Dhariwal Arvind Neelakantan Pranav Shyam Girish Sastry Amanda Askell etal 2020. Language models are few-shot learners. arXiv preprint arXiv:2005.14165 (2020).  Tom B Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan Prafulla Dhariwal Arvind Neelakantan Pranav Shyam Girish Sastry Amanda Askell et al. 2020. Language models are few-shot learners. arXiv preprint arXiv:2005.14165 (2020)."},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2017.2699184"},{"key":"e_1_3_2_1_8_1","volume-title":"MXNet: A Flexible and Efficient Machine Learning Library for Heterogeneous Distributed Systems. CoRR abs\/1512.01274","author":"Chen Tianqi","year":"2015","unstructured":"Tianqi Chen , Mu Li , Yutian Li , Min Lin , Naiyan Wang , Minjie Wang , Tianjun Xiao , Bing Xu , Chiyuan Zhang , and Zheng Zhang . 2015. MXNet: A Flexible and Efficient Machine Learning Library for Heterogeneous Distributed Systems. CoRR abs\/1512.01274 ( 2015 ). arXiv:1512.01274 http:\/\/arxiv.org\/abs\/1512.01274 Tianqi Chen, Mu Li, Yutian Li, Min Lin, Naiyan Wang, Minjie Wang, Tianjun Xiao, Bing Xu, Chiyuan Zhang, and Zheng Zhang. 2015. MXNet: A Flexible and Efficient Machine Learning Library for Heterogeneous Distributed Systems. CoRR abs\/1512.01274 (2015). arXiv:1512.01274 http:\/\/arxiv.org\/abs\/1512.01274"},{"key":"e_1_3_2_1_9_1","volume-title":"TVM: An Automated End-to-End Optimizing Compiler for Deep Learning. In 13th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2018","author":"Chen Tianqi","year":"2018","unstructured":"Tianqi Chen , Thierry Moreau , Ziheng Jiang , Lianmin Zheng , Eddie Q. Yan , Haichen Shen , Meghan Cowan , Leyuan Wang , Yuwei Hu , Luis Ceze , Carlos Guestrin , and Arvind Krishnamurthy . 2018 . TVM: An Automated End-to-End Optimizing Compiler for Deep Learning. In 13th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2018 , Carlsbad, CA, USA, October 8--10 , 2018. 578--594. https:\/\/www.usenix.org\/conference\/osdi18\/presentation\/chen Tianqi Chen, Thierry Moreau, Ziheng Jiang, Lianmin Zheng, Eddie Q. Yan, Haichen Shen, Meghan Cowan, Leyuan Wang, Yuwei Hu, Luis Ceze, Carlos Guestrin, and Arvind Krishnamurthy. 2018. TVM: An Automated End-to-End Optimizing Compiler for Deep Learning. In 13th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2018, Carlsbad, CA, USA, October 8--10, 2018. 578--594. https:\/\/www.usenix.org\/conference\/osdi18\/presentation\/chen"},{"key":"e_1_3_2_1_10_1","volume-title":"Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018","author":"Chen Tianqi","year":"2018","unstructured":"Tianqi Chen , Lianmin Zheng , Eddie Q. Yan , Ziheng Jiang , Thierry Moreau , Luis Ceze , Carlos Guestrin , and Arvind Krishnamurthy . 2018 . Learning to Optimize Tensor Programs . In Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018 , NeurIPS 2018, 3--8 December 2018, Montr\u00e9al, Canada. 3393--3404. http:\/\/papers.nips.cc\/paper\/7599-learning-to-optimize-tensor-programs Tianqi Chen, Lianmin Zheng, Eddie Q. Yan, Ziheng Jiang, Thierry Moreau, Luis Ceze, Carlos Guestrin, and Arvind Krishnamurthy. 2018. Learning to Optimize Tensor Programs. In Advances in Neural Information Processing Systems 31: Annual Conference on Neural Information Processing Systems 2018, NeurIPS 2018, 3--8 December 2018, Montr\u00e9al, Canada. 3393--3404. http:\/\/papers.nips.cc\/paper\/7599-learning-to-optimize-tensor-programs"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1145\/3445814.3446692"},{"key":"e_1_3_2_1_12_1","volume-title":"Xception: Deep Learning with Depthwise Separable Convolutions. CoRR abs\/1610.02357","author":"Chollet Fran\u00e7ois","year":"2016","unstructured":"Fran\u00e7ois Chollet . 2016 . Xception: Deep Learning with Depthwise Separable Convolutions. CoRR abs\/1610.02357 (2016). arXiv:1610.02357 http:\/\/arxiv.org\/abs\/1610.02357 Fran\u00e7ois Chollet. 2016. Xception: Deep Learning with Depthwise Separable Convolutions. CoRR abs\/1610.02357 (2016). arXiv:1610.02357 http:\/\/arxiv.org\/abs\/1610.02357"},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1145\/3330345.3331057"},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1145\/3358198"},{"key":"e_1_3_2_1_15_1","volume-title":"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. CoRR abs\/1810.04805","author":"Devlin Jacob","year":"2018","unstructured":"Jacob Devlin , Ming-Wei Chang , Kenton Lee , and Kristina Toutanova . 2018 . BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. CoRR abs\/1810.04805 (2018). arXiv:1810.04805 http:\/\/arxiv.org\/abs\/1810.04805 Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2018. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. CoRR abs\/1810.04805 (2018). arXiv:1810.04805 http:\/\/arxiv.org\/abs\/1810.04805"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"publisher","DOI":"10.1145\/77626.79170"},{"key":"e_1_3_2_1_17_1","volume-title":"Borivoje Nikolic, Ion Stoica, and Krste Asanovic.","author":"Genc Hasan","year":"2019","unstructured":"Hasan Genc , Ameer Haj-Ali , Vighnesh Iyer , Alon Amid , Howard Mao , John Wright , Colin Schmidt , Jerry Zhao , Albert J. Ou , Max Banister , Yakun Sophia Shao , Borivoje Nikolic, Ion Stoica, and Krste Asanovic. 2019 . Gemmini : An Agile Systolic Array Generator Enabling Systematic Evaluations of Deep-Learning Architectures. CoRR abs\/1911.09925 (2019). arXiv:1911.09925 http:\/\/arxiv.org\/abs\/1911.09925 Hasan Genc, Ameer Haj-Ali, Vighnesh Iyer, Alon Amid, Howard Mao, John Wright, Colin Schmidt, Jerry Zhao, Albert J. Ou, Max Banister, Yakun Sophia Shao, Borivoje Nikolic, Ion Stoica, and Krste Asanovic. 2019. Gemmini: An Agile Systolic Array Generator Enabling Systematic Evaluations of Deep-Learning Architectures. CoRR abs\/1911.09925 (2019). arXiv:1911.09925 http:\/\/arxiv.org\/abs\/1911.09925"},{"key":"e_1_3_2_1_18_1","volume-title":"XLA: Domain-specific compiler for linear algebra to optimize tensorflow computations. https:\/\/www.tensorflow.org\/xla\/jit","year":"2022","unstructured":"Google. 2022 . XLA: Domain-specific compiler for linear algebra to optimize tensorflow computations. https:\/\/www.tensorflow.org\/xla\/jit Google. 2022. XLA: Domain-specific compiler for linear algebra to optimize tensorflow computations. https:\/\/www.tensorflow.org\/xla\/jit"},{"key":"e_1_3_2_1_19_1","volume-title":"ProTuner: Tuning Programs with Monte Carlo Tree Search. CoRR abs\/2005.13685","author":"Haj-Ali Ameer","year":"2020","unstructured":"Ameer Haj-Ali , Hasan Genc , Qijing Huang , William Moses , John Wawrzynek , Krste Asanovic , and Ion Stoica . 2020. ProTuner: Tuning Programs with Monte Carlo Tree Search. CoRR abs\/2005.13685 ( 2020 ). arXiv:2005.13685 https:\/\/arxiv.org\/abs\/2005.13685 Ameer Haj-Ali, Hasan Genc, Qijing Huang, William Moses, John Wawrzynek, Krste Asanovic, and Ion Stoica. 2020. ProTuner: Tuning Programs with Monte Carlo Tree Search. CoRR abs\/2005.13685 (2020). arXiv:2005.13685 https:\/\/arxiv.org\/abs\/2005.13685"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"e_1_3_2_1_21_1","volume-title":"6th International Conference on Learning Representations, ICLR","author":"Hinton Geoffrey E.","year":"2018","unstructured":"Geoffrey E. Hinton , Sara Sabour , and Nicholas Frosst . 2018. Matrix capsules with EM routing . In 6th International Conference on Learning Representations, ICLR 2018 , Vancouver, BC , Canada, April 30 - May 3, 2018, Conference Track Proceedings. OpenReview .net. https:\/\/openreview.net\/forum?id=HJWLfGWRb Geoffrey E. Hinton, Sara Sabour, and Nicholas Frosst. 2018. Matrix capsules with EM routing. In 6th International Conference on Learning Representations, ICLR 2018, Vancouver, BC, Canada, April 30 - May 3, 2018, Conference Track Proceedings. OpenReview.net. https:\/\/openreview.net\/forum?id=HJWLfGWRb"},{"key":"e_1_3_2_1_22_1","volume-title":"MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. CoRR abs\/1704.04861","author":"Howard Andrew G.","year":"2017","unstructured":"Andrew G. Howard , Menglong Zhu , Bo Chen , Dmitry Kalenichenko , Weijun Wang , Tobias Weyand , Marco Andreetto , and Hartwig Adam . 2017. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. CoRR abs\/1704.04861 ( 2017 ). arXiv:1704.04861 http:\/\/arxiv.org\/abs\/1704.04861 Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. 2017. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. CoRR abs\/1704.04861 (2017). arXiv:1704.04861 http:\/\/arxiv.org\/abs\/1704.04861"},{"key":"e_1_3_2_1_23_1","volume-title":"MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. CoRR abs\/1704.04861","author":"Howard Andrew G.","year":"2017","unstructured":"Andrew G. Howard , Menglong Zhu , Bo Chen , Dmitry Kalenichenko , Weijun Wang , Tobias Weyand , Marco Andreetto , and Hartwig Adam . 2017. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. CoRR abs\/1704.04861 ( 2017 ). arXiv:1704.04861 http:\/\/arxiv.org\/abs\/1704.04861 Andrew G. Howard, Menglong Zhu, Bo Chen, Dmitry Kalenichenko, Weijun Wang, Tobias Weyand, Marco Andreetto, and Hartwig Adam. 2017. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. CoRR abs\/1704.04861 (2017). arXiv:1704.04861 http:\/\/arxiv.org\/abs\/1704.04861"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA52012.2021.00050"},{"key":"e_1_3_2_1_25_1","unstructured":"Intel. 2022. oneAPI Deep Neural Network Library. https:\/\/github.com\/oneapi-src\/oneDNN  Intel. 2022. oneAPI Deep Neural Network Library. https:\/\/github.com\/oneapi-src\/oneDNN"},{"key":"e_1_3_2_1_26_1","volume-title":"Dissecting the NVIDIA Volta GPU Architecture via Microbenchmarking. CoRR abs\/1804.06826","author":"Jia Zhe","year":"2018","unstructured":"Zhe Jia , Marco Maggioni , Benjamin Staiger , and Daniele Paolo Scarpazza . 2018. Dissecting the NVIDIA Volta GPU Architecture via Microbenchmarking. CoRR abs\/1804.06826 ( 2018 ). arXiv:1804.06826 http:\/\/arxiv.org\/abs\/1804.06826 Zhe Jia, Marco Maggioni, Benjamin Staiger, and Daniele Paolo Scarpazza. 2018. Dissecting the NVIDIA Volta GPU Architecture via Microbenchmarking. CoRR abs\/1804.06826 (2018). arXiv:1804.06826 http:\/\/arxiv.org\/abs\/1804.06826"},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.1145\/3079856.3080246"},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1109\/MM.2020.2985963"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1109\/CGO.2004.1281665"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"publisher","DOI":"10.1145\/3197517.3201383"},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1145\/3293883.3295734"},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA51647.2021.00071"},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA52012.2021.00062"},{"key":"e_1_3_2_1_34_1","volume-title":"Rammer: Enabling Holistic Deep Learning Compiler Optimizations with rTasks. In 14th {USENIX} Symposium on Operating Systems Design and Implementation ({OSDI} 20). 881--897.","author":"Ma Lingxiao","year":"2020","unstructured":"Lingxiao Ma , Zhiqiang Xie , Zhi Yang , Jilong Xue , Youshan Miao , Wei Cui , Wenxiang Hu , Fan Yang , Lintao Zhang , and Lidong Zhou . 2020 . Rammer: Enabling Holistic Deep Learning Compiler Optimizations with rTasks. In 14th {USENIX} Symposium on Operating Systems Design and Implementation ({OSDI} 20). 881--897. Lingxiao Ma, Zhiqiang Xie, Zhi Yang, Jilong Xue, Youshan Miao, Wei Cui, Wenxiang Hu, Fan Yang, Lintao Zhang, and Lidong Zhou. 2020. Rammer: Enabling Holistic Deep Learning Compiler Optimizations with rTasks. In 14th {USENIX} Symposium on Operating Systems Design and Implementation ({OSDI} 20). 881--897."},{"key":"e_1_3_2_1_35_1","volume-title":"Weightnet: Revisiting the design space of weight networks. arXiv preprint arXiv:2007.11823","author":"Ma Ningning","year":"2020","unstructured":"Ningning Ma , Xiangyu Zhang , Jiawei Huang , and Jian Sun . 2020 . Weightnet: Revisiting the design space of weight networks. arXiv preprint arXiv:2007.11823 (2020). Ningning Ma, Xiangyu Zhang, Jiawei Huang, and Jian Sun. 2020. Weightnet: Revisiting the design space of weight networks. arXiv preprint arXiv:2007.11823 (2020)."},{"key":"e_1_3_2_1_36_1","volume-title":"S2","author":"Manavski Svetlin A","year":"2008","unstructured":"Svetlin A Manavski and Giorgio Valle . 2008. CUDA compatible GPU cards as efficient hardware accelerators for Smith-Waterman sequence alignment. BMC bioinformatics 9 , S2 ( 2008 ), S10. Svetlin A Manavski and Giorgio Valle. 2008. CUDA compatible GPU cards as efficient hardware accelerators for Smith-Waterman sequence alignment. BMC bioinformatics 9, S2 (2008), S10."},{"key":"e_1_3_2_1_37_1","volume-title":"Erwin Laure, Ivy Bo Peng, and Jeffrey S. Vetter.","author":"Markidis Stefano","year":"2018","unstructured":"Stefano Markidis , Steven Wei Der Chien , Erwin Laure, Ivy Bo Peng, and Jeffrey S. Vetter. 2018 . NVIDIA Tensor Core Programmability, Performance & Precision. CoRR abs\/1803.04014 (2018). arXiv:1803.04014 http:\/\/arxiv.org\/abs\/1803.04014 Stefano Markidis, Steven Wei Der Chien, Erwin Laure, Ivy Bo Peng, and Jeffrey S. Vetter. 2018. NVIDIA Tensor Core Programmability, Performance & Precision. CoRR abs\/1803.04014 (2018). arXiv:1803.04014 http:\/\/arxiv.org\/abs\/1803.04014"},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.1145\/2897824.2925952"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.1145\/2658993"},{"key":"e_1_3_2_1_40_1","unstructured":"Nvidia. 2022. Ampere architecture white paper. https:\/\/www.nvidia.com\/content\/dam\/en-zz\/Solutions\/Data-Center\/nvidia-ampere-architecture-whitepaper.pdf  Nvidia. 2022. Ampere architecture white paper. https:\/\/www.nvidia.com\/content\/dam\/en-zz\/Solutions\/Data-Center\/nvidia-ampere-architecture-whitepaper.pdf"},{"key":"e_1_3_2_1_41_1","unstructured":"Nvidia. 2022. CuBLAS. https:\/\/developer.nvidia.com\/cublas  Nvidia. 2022. CuBLAS. https:\/\/developer.nvidia.com\/cublas"},{"key":"e_1_3_2_1_42_1","unstructured":"Nvidia. 2022. CuDNN. https:\/\/developer.nvidia.com\/cudnn  Nvidia. 2022. CuDNN. https:\/\/developer.nvidia.com\/cudnn"},{"key":"e_1_3_2_1_43_1","unstructured":"Nvidia. 2022. CUTLASS. https:\/\/github.com\/NVIDIA\/cutlass  Nvidia. 2022. CUTLASS. https:\/\/github.com\/NVIDIA\/cutlass"},{"key":"e_1_3_2_1_44_1","unstructured":"Nvidia. 2022. Deep Learning Performance Guide. https:\/\/docs.nvidia.com\/deeplearning\/performance\/dl-performance-convolutional\/index.html  Nvidia. 2022. Deep Learning Performance Guide. https:\/\/docs.nvidia.com\/deeplearning\/performance\/dl-performance-convolutional\/index.html"},{"key":"e_1_3_2_1_45_1","unstructured":"Nvidia. 2022. Turing architecture white paper. https:\/\/www.nvidia.com\/content\/dam\/en-zz\/Solutions\/design-visualization\/technologies\/turing-architecture\/NVIDIA-Turing-Architecture-Whitepaper.pdf  Nvidia. 2022. Turing architecture white paper. https:\/\/www.nvidia.com\/content\/dam\/en-zz\/Solutions\/design-visualization\/technologies\/turing-architecture\/NVIDIA-Turing-Architecture-Whitepaper.pdf"},{"key":"e_1_3_2_1_46_1","unstructured":"Nvidia. 2022. Volta architecture white paper. https:\/\/images.nvidia.com\/content\/volta-architecture\/pdf\/volta-architecture-whitepaper.pdf  Nvidia. 2022. Volta architecture white paper. https:\/\/images.nvidia.com\/content\/volta-architecture\/pdf\/volta-architecture-whitepaper.pdf"},{"key":"e_1_3_2_1_47_1","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2019.00042"},{"key":"e_1_3_2_1_48_1","volume-title":"High-Performance Deep Learning Library. In Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019","author":"Paszke Adam","year":"2019","unstructured":"Adam Paszke , Sam Gross , Francisco Massa , Adam Lerer , James Bradbury , Gregory Chanan , Trevor Killeen , Zeming Lin , Natalia Gimelshein , Luca Antiga , Alban Desmaison , Andreas K\u00f6pf , Edward Yang , Zachary DeVito , Martin Raison , Alykhan Tejani , Sasank Chilamkurthy , Benoit Steiner , Lu Fang , Junjie Bai , and Soumith Chintala . 2019 . PyTorch: An Imperative Style , High-Performance Deep Learning Library. In Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019 , NeurIPS 2019, 8--14 December 2019, Vancouver, BC, Canada. 8024--8035. http:\/\/papers.nips.cc\/paper\/9015-pytorch-an-imperative-style-high-performance-deep-learning-library Adam Paszke, Sam Gross, Francisco Massa, Adam Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Zeming Lin, Natalia Gimelshein, Luca Antiga, Alban Desmaison, Andreas K\u00f6pf, Edward Yang, Zachary DeVito, Martin Raison, Alykhan Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai, and Soumith Chintala. 2019. PyTorch: An Imperative Style, High-Performance Deep Learning Library. In Advances in Neural Information Processing Systems 32: Annual Conference on Neural Information Processing Systems 2019, NeurIPS 2019, 8--14 December 2019, Vancouver, BC, Canada. 8024--8035. http:\/\/papers.nips.cc\/paper\/9015-pytorch-an-imperative-style-high-performance-deep-learning-library"},{"key":"e_1_3_2_1_49_1","doi-asserted-by":"publisher","DOI":"10.1145\/2491956.2462176"},{"key":"e_1_3_2_1_50_1","volume-title":"Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015","author":"Ren Shaoqing","year":"2015","unstructured":"Shaoqing Ren , Kaiming He , Ross B. Girshick , and Jian Sun . 2015 . Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015 , December 7 --12 , 2015, Montreal, Quebec, Canada, Corinna Cortes, Neil D. Lawrence, Daniel D. Lee, Masashi Sugiyama, and Roman Garnett (Eds.). 91--99. http:\/\/papers.nips.cc\/paper\/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks Shaoqing Ren, Kaiming He, Ross B. Girshick, and Jian Sun. 2015. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. In Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015, December 7--12, 2015, Montreal, Quebec, Canada, Corinna Cortes, Neil D. Lawrence, Daniel D. Lee, Masashi Sugiyama, and Roman Garnett (Eds.). 91--99. http:\/\/papers.nips.cc\/paper\/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks"},{"key":"e_1_3_2_1_51_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00474"},{"key":"e_1_3_2_1_52_1","doi-asserted-by":"publisher","DOI":"10.1145\/3310273.3321559"},{"key":"e_1_3_2_1_53_1","doi-asserted-by":"publisher","DOI":"10.1145\/3433103"},{"key":"e_1_3_2_1_54_1","doi-asserted-by":"publisher","DOI":"10.1145\/3315508.3329973"},{"key":"e_1_3_2_1_55_1","volume-title":"Tensor Comprehensions: Framework-Agnostic High-Performance Machine Learning Abstractions. CoRR abs\/1802.04730","author":"Vasilache Nicolas","year":"2018","unstructured":"Nicolas Vasilache , Oleksandr Zinenko , Theodoros Theodoridis , Priya Goyal , Zachary DeVito , William S. Moses , Sven Verdoolaege , Andrew Adams , and Albert Cohen . 2018 . Tensor Comprehensions: Framework-Agnostic High-Performance Machine Learning Abstractions. CoRR abs\/1802.04730 (2018). arXiv:1802.04730 http:\/\/arxiv.org\/abs\/1802.04730 Nicolas Vasilache, Oleksandr Zinenko, Theodoros Theodoridis, Priya Goyal, Zachary DeVito, William S. Moses, Sven Verdoolaege, Andrew Adams, and Albert Cohen. 2018. Tensor Comprehensions: Framework-Agnostic High-Performance Machine Learning Abstractions. CoRR abs\/1802.04730 (2018). arXiv:1802.04730 http:\/\/arxiv.org\/abs\/1802.04730"},{"key":"e_1_3_2_1_56_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-15582-6_49"},{"key":"e_1_3_2_1_57_1","doi-asserted-by":"publisher","DOI":"10.1145\/2400682.2400713"},{"key":"e_1_3_2_1_58_1","doi-asserted-by":"publisher","DOI":"10.1109\/CGO51591.2021.9370330"},{"key":"e_1_3_2_1_59_1","volume-title":"On Multiplicative Integration with Recurrent Neural Networks. In Advances in Neural Information Processing Systems 29: Annual Conference on Neural Information Processing Systems 2016","author":"Wu Yuhuai","year":"2016","unstructured":"Yuhuai Wu , Saizheng Zhang , Ying Zhang , Yoshua Bengio , and Ruslan Salakhutdinov . 2016 . On Multiplicative Integration with Recurrent Neural Networks. In Advances in Neural Information Processing Systems 29: Annual Conference on Neural Information Processing Systems 2016 , December 5 --10 , 2016, Barcelona, Spain, Daniel D. Lee, Masashi Sugiyama, Ulrike von Luxburg, Isabelle Guyon, and Roman Garnett (Eds.). 2856--2864. http:\/\/papers.nips.cc\/paper\/6215-on-multiplicative-integration-with-recurrent-neural-networks Yuhuai Wu, Saizheng Zhang, Ying Zhang, Yoshua Bengio, and Ruslan Salakhutdinov. 2016. On Multiplicative Integration with Recurrent Neural Networks. In Advances in Neural Information Processing Systems 29: Annual Conference on Neural Information Processing Systems 2016, December 5--10, 2016, Barcelona, Spain, Daniel D. Lee, Masashi Sugiyama, Ulrike von Luxburg, Isabelle Guyon, and Roman Garnett (Eds.). 2856--2864. http:\/\/papers.nips.cc\/paper\/6215-on-multiplicative-integration-with-recurrent-neural-networks"},{"key":"e_1_3_2_1_60_1","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA52012.2021.00086"},{"key":"e_1_3_2_1_61_1","volume-title":"Condconv: Conditionally parameterized convolutions for efficient inference. In Advances in Neural Information Processing Systems. 1307--1318.","author":"Yang Brandon","year":"2019","unstructured":"Brandon Yang , Gabriel Bender , Quoc V Le , and Jiquan Ngiam . 2019 . Condconv: Conditionally parameterized convolutions for efficient inference. In Advances in Neural Information Processing Systems. 1307--1318. Brandon Yang, Gabriel Bender, Quoc V Le, and Jiquan Ngiam. 2019. Condconv: Conditionally parameterized convolutions for efficient inference. In Advances in Neural Information Processing Systems. 1307--1318."},{"key":"e_1_3_2_1_62_1","doi-asserted-by":"publisher","DOI":"10.1145\/3373376.3378514"},{"key":"e_1_3_2_1_63_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCD50377.2020.00108"},{"key":"e_1_3_2_1_64_1","volume-title":"Stripe: Tensor Compilation via the Nested Polyhedral Model. CoRR abs\/1903.06498","author":"Zerrell Tim","year":"2019","unstructured":"Tim Zerrell and Jeremy Bruestle . 2019 . Stripe: Tensor Compilation via the Nested Polyhedral Model. CoRR abs\/1903.06498 (2019). arXiv:1903.06498 http:\/\/arxiv.org\/abs\/1903.06498 Tim Zerrell and Jeremy Bruestle. 2019. Stripe: Tensor Compilation via the Nested Polyhedral Model. CoRR abs\/1903.06498 (2019). arXiv:1903.06498 http:\/\/arxiv.org\/abs\/1903.06498"},{"key":"e_1_3_2_1_65_1","volume-title":"ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices. CoRR abs\/1707.01083","author":"Zhang Xiangyu","year":"2017","unstructured":"Xiangyu Zhang , Xinyu Zhou , Mengxiao Lin , and Jian Sun . 2017. ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices. CoRR abs\/1707.01083 ( 2017 ). arXiv:1707.01083 http:\/\/arxiv.org\/abs\/1707.01083 Xiangyu Zhang, Xinyu Zhou, Mengxiao Lin, and Jian Sun. 2017. ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices. CoRR abs\/1707.01083 (2017). arXiv:1707.01083 http:\/\/arxiv.org\/abs\/1707.01083"},{"key":"e_1_3_2_1_66_1","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA52012.2021.00085"},{"key":"e_1_3_2_1_67_1","doi-asserted-by":"publisher","DOI":"10.1145\/3453483.3454106"},{"key":"e_1_3_2_1_68_1","volume-title":"Ansor: Generating High-Performance Tensor Programs for Deep Learning. In 14th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2020","author":"Zheng Lianmin","year":"2020","unstructured":"Lianmin Zheng , Chengfan Jia , Minmin Sun , Zhao Wu , Cody Hao Yu , Ameer Haj-Ali , Yida Wang , Jun Yang , Danyang Zhuo , Koushik Sen , Joseph E. Gonzalez , and Ion Stoica . 2020 . Ansor: Generating High-Performance Tensor Programs for Deep Learning. In 14th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2020 , Virtual Event, November 4--6 , 2020. USENIX Association, 863--879. https:\/\/www.usenix.org\/conference\/osdi20\/presentation\/zheng Lianmin Zheng, Chengfan Jia, Minmin Sun, Zhao Wu, Cody Hao Yu, Ameer Haj-Ali, Yida Wang, Jun Yang, Danyang Zhuo, Koushik Sen, Joseph E. Gonzalez, and Ion Stoica. 2020. Ansor: Generating High-Performance Tensor Programs for Deep Learning. In 14th USENIX Symposium on Operating Systems Design and Implementation, OSDI 2020, Virtual Event, November 4--6, 2020. USENIX Association, 863--879. https:\/\/www.usenix.org\/conference\/osdi20\/presentation\/zheng"},{"key":"e_1_3_2_1_69_1","volume-title":"NeoFlow: A Flexible Framework for Enabling Efficient Compilation for High Performance DNN Training","author":"Zheng Size","year":"2021","unstructured":"Size Zheng , Renze Chen , Yicheng Jin , Anjiang Wei , Bingyang Wu , Xiuhong Li , Shengen Yan , and Yun Liang . 2021. NeoFlow: A Flexible Framework for Enabling Efficient Compilation for High Performance DNN Training . IEEE Transactions on Parallel and Distributed Systems ( 2021 ). Size Zheng, Renze Chen, Yicheng Jin, Anjiang Wei, Bingyang Wu, Xiuhong Li, Shengen Yan, and Yun Liang. 2021. NeoFlow: A Flexible Framework for Enabling Efficient Compilation for High Performance DNN Training. IEEE Transactions on Parallel and Distributed Systems (2021)."},{"key":"e_1_3_2_1_70_1","doi-asserted-by":"publisher","DOI":"10.1145\/3373376.3378508"}],"event":{"name":"ISCA '22: The 49th Annual International Symposium on Computer Architecture","location":"New York New York","acronym":"ISCA '22","sponsor":["SIGARCH ACM Special Interest Group on Computer Architecture","IEEE CS TCAA IEEE CS technical committee on architectural acoustics"]},"container-title":["Proceedings of the 49th Annual International Symposium on Computer Architecture"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3470496.3527440","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3470496.3527440","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T20:18:54Z","timestamp":1750191534000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3470496.3527440"}},"subtitle":["enabling &lt;u&gt;a&lt;\/u&gt;utomatic &lt;u&gt;m&lt;\/u&gt;apping for tensor computations &lt;u&gt;o&lt;\/u&gt;n &lt;u&gt;s&lt;\/u&gt;patial accelerators with hardware abstraction"],"short-title":[],"issued":{"date-parts":[[2022,6,11]]},"references-count":70,"alternative-id":["10.1145\/3470496.3527440","10.1145\/3470496"],"URL":"https:\/\/doi.org\/10.1145\/3470496.3527440","relation":{},"subject":[],"published":{"date-parts":[[2022,6,11]]},"assertion":[{"value":"2022-06-11","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}