{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,8]],"date-time":"2026-02-08T09:03:07Z","timestamp":1770541387201,"version":"3.49.0"},"reference-count":76,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"3","license":[{"start":{"date-parts":[[2022,7,1]],"date-time":"2022-07-01T00:00:00Z","timestamp":1656633600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2022,7,1]],"date-time":"2022-07-01T00:00:00Z","timestamp":1656633600000},"content-version":"am","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2022,7,1]],"date-time":"2022-07-01T00:00:00Z","timestamp":1656633600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,7,1]],"date-time":"2022-07-01T00:00:00Z","timestamp":1656633600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"RGC ECS","award":["26213818"],"award-info":[{"award-number":["26213818"]}]},{"DOI":"10.13039\/501100008982","name":"National Science Foundation","doi-asserted-by":"publisher","award":["CCF-1756013"],"award-info":[{"award-number":["CCF-1756013"]}],"id":[{"id":"10.13039\/501100008982","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100008982","name":"National Science Foundation","doi-asserted-by":"publisher","award":["IIS-1838024"],"award-info":[{"award-number":["IIS-1838024"]}],"id":[{"id":"10.13039\/501100008982","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Hong Kong PhD Fellowship Scheme"},{"name":"Huawei PhD Fellowship Scheme"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Cloud Comput."],"published-print":{"date-parts":[[2022,7,1]]},"DOI":"10.1109\/tcc.2020.3006751","type":"journal-article","created":{"date-parts":[[2020,7,2]],"date-time":"2020-07-02T20:39:26Z","timestamp":1593722366000},"page":"1765-1779","source":"Crossref","is-referenced-by-count":33,"title":["Enabling Cost-Effective, SLO-Aware Machine Learning Inference Serving on Public Cloud"],"prefix":"10.1109","volume":"10","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-9245-6712","authenticated-orcid":false,"given":"Chengliang","family":"Zhang","sequence":"first","affiliation":[{"name":"Department of Computer Science and Engineering, Hong Kong University of Science and Technology, Clear Water Bay, Kowloon, Hong Kong"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6797-9028","authenticated-orcid":false,"given":"Minchen","family":"Yu","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Engineering, Hong Kong University of Science and Technology, Clear Water Bay, Kowloon, Hong Kong"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2990-229X","authenticated-orcid":false,"given":"Wei","family":"Wang","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Engineering, Hong Kong University of Science and Technology, Clear Water Bay, Kowloon, Hong Kong"}]},{"given":"Feng","family":"Yan","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Engineering, University of Nevada, Reno, NV, USA"}]}],"member":"263","reference":[{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1145\/2287036.2287044"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/NOMS.2012.6211900"},{"key":"ref16","article-title":"Amazon web services","year":"2018"},{"key":"ref17","article-title":"AWS autoscaling","year":"2018"},{"key":"ref18","article-title":"Build, train, and deploy machine learning models at scale","year":"2018"},{"key":"ref19","article-title":"Configuring Lambda functions","year":"2018"},{"key":"ref20","article-title":"Dynamic scaling for Amazon EC2 auto scaling","year":"2018"},{"key":"ref21","article-title":"Load testing for variant automatic scaling","year":"2018"},{"key":"ref22","article-title":"New Amazon EC2 spot pricing model: Simplified purchasing without bidding and fewer interruptions","year":"2018"},{"key":"ref23","article-title":"Target tracking scaling policies for Amazon EC2 auto scaling","year":"2018"},{"key":"ref24","article-title":"Use elastic inference with MXNet","year":"2019"},{"key":"ref25","article-title":"Intel shipping Nervana neural network processor"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-09581-3_9"},{"key":"ref28","article-title":"New for AWS lambda \u2013 predictable start-up times with provisioned concurrency"},{"key":"ref29","article-title":"Amazon EC2 reserved instances","year":"2018"},{"key":"ref30","article-title":"Burstable performance instances","year":"2018"},{"key":"ref31","article-title":"Right sizing: Provisioning instances to match workloads","year":"2018"},{"key":"ref32","article-title":"MXNet model server","year":"2018"},{"key":"ref33","article-title":"Announcing the azure functions premium plan for enterprise serverless workloads"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1002\/cpe.2864"},{"key":"ref35","first-page":"1","article-title":"Theano: Deep learning on GPUs with Python","volume-title":"Proc. Neural Inf. Process. Syst. Big Learn. Workshop","author":"Bergstra"},{"key":"ref36","article-title":"Statistical machine learning makes automatic control practical for internet datacenters","volume-title":"Proc. Conf. Hot Topics Cloud Comput.","author":"Bod\u00edk"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1016\/j.peva.2009.09.003"},{"key":"ref38","article-title":"Keras: Deep learning library for Theano and TensorFlow","author":"Chollet","year":"2015"},{"key":"ref39","first-page":"613","article-title":"Clipper: A low-latency online prediction serving system","volume-title":"Proc. 14th USENIX Conf. Netw. Syst. Des. Implementation","author":"Crankshaw"},{"key":"ref40","article-title":"How long does AWS Lambda keep your idle functions around before a cold start?","author":"Cui","year":"2018"},{"key":"ref41","article-title":"Im afraid youre thinking about AWS lambda cold starts all wrong","author":"Cui","year":"2018"},{"key":"ref42","first-page":"5","article-title":"Model-based resource provisioning in a web service utility","volume-title":"Proc. USENIX Symp. Internet Technol. Syst.","author":"Doyle"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/SCC.2012.47"},{"key":"ref44","article-title":"Serverless warmup plugin"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1016\/0166-5316(93)90035-S"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1049\/cp:19991218"},{"key":"ref47","article-title":"Google cloud","year":"2018"},{"key":"ref48","article-title":"Google cloud autoscaling","year":"2018"},{"key":"ref49","article-title":"Kubernetes horizontal scaling","year":"2018"},{"key":"ref50","article-title":"Cloud TPU performance guide","year":"2019"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1145\/3135974.3135993"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1016\/j.future.2012.05.018"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1145\/3064176.3064182"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1145\/2749246.2749275"},{"key":"ref56","article-title":"ZooKeeper: Wait-free coordination for internet-scale systems","volume-title":"Proc. USENIX Conf. USENIX Annu. Tech. Conf.","author":"Hunt"},{"key":"ref57","article-title":"Multi-tenant GPU clusters for deep learning workloads: Analysis and implications","author":"Jeon","year":"2018"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P17-4012"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CLOUD.2018.00062"},{"key":"ref60","first-page":"611","article-title":"PRETZEL: Opening the black box of machine learning prediction serving systems","volume-title":"Proc. 13th USENIX Conf. Operating Syst. Des. Implementation","author":"Lee"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/UCC.2015.39"},{"key":"ref62","article-title":"Regularizing and optimizing LSTM language models","author":"Merity","year":"2017"},{"key":"ref63","article-title":"Microsoft Azure cloud computing platform & services","year":"2018"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/SEAMS.2015.22"},{"key":"ref65","article-title":"NVIDIA TensorRT","year":"2018"},{"key":"ref66","article-title":"TensorFlow-Serving: Flexible, high-performance ML serving","author":"Olston","year":"2017"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1145\/3190508.3190517"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1016\/j.future.2008.11.002"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1016\/j.jnca.2016.03.001"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1145\/3148149"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/MASCOTS.2012.22"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/CLOUD.2011.42"},{"key":"ref73","volume-title":"CUDA by Example: An Introduction to General-Purpose GPU Programming","author":"Sanders","year":"2010"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1145\/2741948.2741953"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1145\/3341301.3359658"},{"key":"ref76","first-page":"802","article-title":"Convolutional LSTM network: A machine learning approach for precipitation nowcasting","volume-title":"Proc. 28th Int. Conf. Neural Inf. Process. Syst.","author":"Shi"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1007\/s11227-017-2044-4"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v31i1.11231"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.308"},{"key":"ref80","article-title":"TensorFlow Serving batching guide","year":"2018"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N18-5002"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1145\/1342171.1342172"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1145\/3064176.3064220"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.14778\/3282495.3282499"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/CLOUD.2017.43"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/SC.2016.25"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1109\/IPDPS47924.2020.00051"},{"key":"ref88","first-page":"1049","article-title":"MArk: Exploiting cloud services for cost-effective, SLO-aware machine learning inference serving","volume-title":"Proc. USENIX Conf. Usenix Annu. Tech. Conf.","author":"Zhang"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1145\/3127479.3127490"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00907"}],"container-title":["IEEE Transactions on Cloud Computing"],"original-title":[],"link":[{"URL":"https:\/\/ieeexplore.ieee.org\/ielam\/6245519\/9875145\/9132666-aam.pdf","content-type":"application\/pdf","content-version":"am","intended-application":"syndication"},{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6245519\/9875145\/09132666.pdf?arnumber=9132666","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,1,9]],"date-time":"2024-01-09T22:26:19Z","timestamp":1704839179000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9132666\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,7,1]]},"references-count":76,"journal-issue":{"issue":"3"},"URL":"https:\/\/doi.org\/10.1109\/tcc.2020.3006751","relation":{},"ISSN":["2168-7161","2372-0018"],"issn-type":[{"value":"2168-7161","type":"electronic"},{"value":"2372-0018","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022,7,1]]}}}