{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,27]],"date-time":"2026-05-27T18:33:03Z","timestamp":1779906783541,"version":"3.53.1"},"reference-count":36,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2020,1,1]],"date-time":"2020-01-01T00:00:00Z","timestamp":1577836800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2020,1,1]],"date-time":"2020-01-01T00:00:00Z","timestamp":1577836800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2020,1,1]],"date-time":"2020-01-01T00:00:00Z","timestamp":1577836800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61802446"],"award-info":[{"award-number":["61802446"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Parallel Distrib. Syst."],"published-print":{"date-parts":[[2020]]},"DOI":"10.1109\/tpds.2020.3041474","type":"journal-article","created":{"date-parts":[[2020,12,1]],"date-time":"2020-12-01T22:13:10Z","timestamp":1606860790000},"page":"1-1","source":"Crossref","is-referenced-by-count":26,"title":["Model Parallelism Optimization for Distributed Inference via Decoupled CNN Structure"],"prefix":"10.1109","author":[{"given":"Jiangsu","family":"Du","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xin","family":"Zhu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Minghua","family":"Shen","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yunfei","family":"Du","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yutong","family":"Lu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Nong","family":"Xiao","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xiangke","family":"Liao","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref33","first-page":"103","article-title":"GPipe: Efficient training of giant neural networks using pipeline parallelism","author":"huang","year":"2019","journal-title":"Proc Annu Conf Neural Inf Process Syst"},{"key":"ref32","article-title":"Parallelizing across multiple CPU\/GPUs to speed up deep learning inference at the edge","author":"wang","year":"0"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/3297858.3304009"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1145\/3225058.3225069"},{"key":"ref36","article-title":"One weird trick for parallelizing convolutional neural networks","author":"krizhevsky","year":"2014","journal-title":"arXiv abs\/1404 5997"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/TCAD.2019.2944584"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1145\/3341301.3359646"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00291"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1145\/2906388.2906393"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.4236\/wsn.2011.31003"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA.2018.00018"},{"key":"ref14","first-page":"8024","article-title":"PyTorch: An imperative style, high-performance deep learning library","author":"paszke","year":"2019","journal-title":"Proc Annu Conf Neural Inf Process Syst"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"ref16","first-page":"1337","article-title":"Deep learning with COTS HPC systems","author":"coates","year":"2013","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref17","article-title":"Arm compute library","year":"0"},{"key":"ref18","article-title":"Open MPI: Open source high performance computing","year":"0"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01264-9_8"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1145\/3126908.3126912"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.3390\/s18051530"},{"key":"ref27","first-page":"578","article-title":"TVM: An automated end-to-end optimizing compiler for deep learning","author":"chen","year":"2018","journal-title":"Proc 13th USENIX Symp Operating Syst Des Implementation"},{"key":"ref3","first-page":"7543","article-title":"Improving neural network quantization without retraining using outlier channel splitting","author":"zhao","year":"2019","journal-title":"Proc 36th Int Conf Mach Learn"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.23919\/DATE.2017.7927211"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1016\/j.jpdc.2019.07.009"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1145\/3125640"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref7","first-page":"1","article-title":"Very deep convolutional networks for large-scale image recognition","author":"simonyan","year":"0","journal-title":"Proc 3rd Int Conf Learn Representations"},{"key":"ref2","first-page":"1","article-title":"Pruning convolutional neural networks for resource efficient inference","author":"molchanov","year":"0","journal-title":"Proc 5th Int Conf Learn Representations"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00716"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1145\/2820975.2820980"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.155"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00821"},{"key":"ref21","article-title":"Orange Pi","year":"0"},{"key":"ref24","first-page":"1025","article-title":"Optimizing CNN Model Inference on CPUs","author":"liu","year":"2019","journal-title":"Proc USENIX Annu Tech Conf"},{"key":"ref23","first-page":"45:1","article-title":"uLayer: Low latency on-device inference using cooperative single-layer acceleration and processor-friendly quantization","author":"kim","year":"0","journal-title":"Proc 14th EuroSys Conf"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/TPDS.2019.2939785"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1145\/3337821.3337839"}],"container-title":["IEEE Transactions on Parallel and Distributed Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/71\/4359390\/09275375.pdf?arnumber=9275375","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,5,10]],"date-time":"2022-05-10T14:50:30Z","timestamp":1652194230000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9275375\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2020]]},"references-count":36,"URL":"https:\/\/doi.org\/10.1109\/tpds.2020.3041474","relation":{},"ISSN":["1045-9219","1558-2183","2161-9883"],"issn-type":[{"value":"1045-9219","type":"print"},{"value":"1558-2183","type":"electronic"},{"value":"2161-9883","type":"electronic"}],"subject":[],"published":{"date-parts":[[2020]]}}}