{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,5]],"date-time":"2026-06-05T15:36:25Z","timestamp":1780673785249,"version":"3.54.1"},"reference-count":69,"publisher":"IEEE","license":[{"start":{"date-parts":[[2023,2,1]],"date-time":"2023-02-01T00:00:00Z","timestamp":1675209600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,2,1]],"date-time":"2023-02-01T00:00:00Z","timestamp":1675209600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/100000001","name":"National Science Foundation","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2023,2]]},"DOI":"10.1109\/hpca56546.2023.10071121","type":"proceedings-article","created":{"date-parts":[[2023,3,24]],"date-time":"2023-03-24T17:42:55Z","timestamp":1679679775000},"page":"624-637","source":"Crossref","is-referenced-by-count":23,"title":["KRISP: Enabling Kernel-wise RIght-sizing for Spatial Partitioned GPU Inference Servers"],"prefix":"10.1109","author":[{"given":"Marcus","family":"Chow","sequence":"first","affiliation":[{"name":"University of California,Department of Computer Science &#x0026; Engineering,Riverside"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ali","family":"Jahanshahi","sequence":"additional","affiliation":[{"name":"University of California,Department of Computer Science &#x0026; Engineering,Riverside"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Daniel","family":"Wong","sequence":"additional","affiliation":[{"name":"University of California,Department of Computer Science &#x0026; Engineering,Riverside"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Tensorflow: Large-scale machine learning on heterogeneous distributed systems","author":"Abadi","year":"2016"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/iccd.2014.6974717"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/aspdac.2014.6742976"},{"key":"ref4","article-title":"Amd migraphx\u2019s documentation"},{"key":"ref5","article-title":"Performance database"},{"key":"ref6","volume-title":"Stream management hip api"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/RTSS.2017.00017"},{"key":"ref8","article-title":"Techniques for shared resource management in systems with throughput processors","volume-title":"Ph.D. dissertation","author":"Ausavarungnirun","year":"2017"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1145\/3296957.3173169"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/MC.2007.443"},{"key":"ref11","article-title":"Multi-model machine learning inference serving with gpu spatial partitioning","author":"Choi","year":"2021"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2019.00032"},{"key":"ref13","first-page":"613","article-title":"Clipper: A {Low-Latency} in online prediction serving system","volume-title":"14th USENIX Symposium on Networked Systems Design and Implementation (NSDI 17)","author":"Crankshaw"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1145\/3419111.3421284"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/isca45697.2020.00087"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1016\/j.peva.2021.102234"},{"key":"ref17","first-page":"443","article-title":"Serving {DNNs} ity like clockwork: Performance predictabil-from the bottom up","volume-title":"14th USENIX Symposium on Operating Systems Design and Implementation (OSDI 20)","author":"Gujarati"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA45697.2020.00084"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2018.00058"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1145\/2749469.2749472"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2018.00059"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/3472883.3486993"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.243"},{"key":"ref25","article-title":"Squeezenet: Alexnet-level accuracy with 50x fewer parameters and< 0.5 mb model size","author":"Iandola","year":"2016"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1145\/3530390.3532735"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/LCA.2020.3023723"},{"key":"ref28","article-title":"Dynamic space-time scheduling for gpu inference","author":"Jain","year":"2018"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1145\/2818950.2818979"},{"key":"ref30","article-title":"Help me to problems with setting up pytorch-gpgpu-sim"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/PACT.2013.6618813"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA53966.2022.00019"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA45697.2020.00047"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.51130\/graphicon-2020-2-2-2"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1145\/3489517.3530510"},{"key":"ref36","first-page":"5731","article-title":"Boosting the throughput and accelerator utilization of specialized cnn inference beyond increasing batch size","volume-title":"International Conference on Machine Learning","author":"Kosaian"},{"key":"ref37","article-title":"One weird trick for parallelizing convolutional neural networks","author":"Krizhevsky","year":"2014"},{"key":"ref38","article-title":"Albert: A lite bert for self-supervised learning of language representations","author":"Lan","year":"2019"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2019.00028"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1145\/3037697.3037709"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01264-9_8"},{"key":"ref42","first-page":"289","article-title":"Themis: Fair and efficient {GPU} cluster scheduling","volume-title":"17th USENIX Symposium on Networked Systems Design and Implementation (NSDI 20)","author":"Mahajan"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1145\/2897937.2898103"},{"key":"ref44","article-title":"Graphics processing dispatch from user mode","author":"McCrary","year":"2015"},{"key":"ref45","article-title":"multi-process service"},{"key":"ref46","article-title":"nvidia multi-instance gpu user guide - nvidia developer"},{"key":"ref47","article-title":"Volta mps execution resource provisioning"},{"key":"ref48","article-title":"Nvidia tensorrt","year":"2022"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/RTAS48715.2020.000-5"},{"key":"ref50","article-title":"Tensorflow-serving: Flexible, high-performance ml serving","author":"Olston","year":"2017"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1145\/3453417.3453432"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1145\/2490301.2451160"},{"key":"ref53","article-title":"Pytorch: An imperative style, high-performance deep learning library","volume":"32","author":"Paszke","year":"2019","journal-title":"Advances in neural information processing systems"},{"key":"ref54","article-title":"torchserve"},{"key":"ref55","article-title":"Modeling modern gpu applications in gem5","author":"Roarty","year":"2020"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1145\/3079856.3080203"},{"key":"ref56","first-page":"397","article-title":"{INFaaS}: Automated model-less inference serving","volume-title":"2021 USENIX Annual Technical Conference (USENIX ATC 21)","author":"Romero"},{"key":"ref57","article-title":"Very deep convolutional networks for large-scale image recognition","author":"Simonyan","year":"2014"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/SBAC-PAD.2014.43"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/hpca.2016.7446078"},{"key":"ref61","article-title":"MLaaS in the wild: Workload analysis and scheduling in Large-Scale heterogeneous GPU clusters","volume-title":"19th USENIX Symposium on Networked Systems Design and Implementation (NSDI 22)","author":"Weng"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2016.49"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2012.20"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2014.6835925"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.634"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/isca.2016.29"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1145\/3079856.3080224"},{"key":"ref68","article-title":"A survey of multi-tenant deep learning inference on gpu","author":"Yu","year":"2022"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1145\/3205289.3205311"}],"event":{"name":"2023 IEEE International Symposium on High-Performance Computer Architecture (HPCA)","location":"Montreal, QC, Canada","start":{"date-parts":[[2023,2,25]]},"end":{"date-parts":[[2023,3,1]]}},"container-title":["2023 IEEE International Symposium on High-Performance Computer Architecture (HPCA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10070856\/10070923\/10071121.pdf?arnumber=10071121","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,2,13]],"date-time":"2024-02-13T14:34:23Z","timestamp":1707834863000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10071121\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,2]]},"references-count":69,"URL":"https:\/\/doi.org\/10.1109\/hpca56546.2023.10071121","relation":{},"subject":[],"published":{"date-parts":[[2023,2]]}}}