{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T23:34:58Z","timestamp":1780356898956,"version":"3.54.1"},"reference-count":117,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"4","license":[{"start":{"date-parts":[[2021,12,1]],"date-time":"2021-12-01T00:00:00Z","timestamp":1638316800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"},{"start":{"date-parts":[[2021,12,1]],"date-time":"2021-12-01T00:00:00Z","timestamp":1638316800000},"content-version":"am","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE J. Emerg. Sel. Topics Circuits Syst."],"published-print":{"date-parts":[[2021,12]]},"DOI":"10.1109\/jetcas.2021.3129415","type":"journal-article","created":{"date-parts":[[2021,11,25]],"date-time":"2021-11-25T20:26:15Z","timestamp":1637871975000},"page":"532-547","source":"Crossref","is-referenced-by-count":60,"title":["A Survey on the Optimization of Neural Network Accelerators for Micro-AI On-Device Inference"],"prefix":"10.1109","volume":"11","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-9550-7917","authenticated-orcid":false,"given":"Arnab Neelim","family":"Mazumder","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7703-5020","authenticated-orcid":false,"given":"Jian","family":"Meng","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9983-6929","authenticated-orcid":false,"given":"Hasib-Al","family":"Rashid","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Utteja","family":"Kallakuri","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0579-2268","authenticated-orcid":false,"given":"Xin","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4551-7789","authenticated-orcid":false,"given":"Jae-Sun","family":"Seo","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5551-2124","authenticated-orcid":false,"given":"Tinoosh","family":"Mohsenin","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1111\/j.1467-9868.2005.00532.x"},{"key":"ref38","article-title":"Pruning filters for efficient ConvNets","author":"li","year":"2016","journal-title":"arXiv 1608 08710"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/JSSC.2019.2963616"},{"key":"ref32","first-page":"1","article-title":"Lookahead: A far-sighted alternative of magnitude-based pruning","author":"park","year":"2019","journal-title":"Proc Int Conf Learn Represent"},{"key":"ref31","article-title":"The state of sparsity in deep neural networks","author":"gale","year":"2019","journal-title":"arXiv 1902 09574"},{"key":"ref30","article-title":"To prune, or not to prune: Exploring the efficacy of pruning for model compression","author":"zhu","year":"2017","journal-title":"arXiv 1710 01878"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/JSSC.2020.2992900"},{"key":"ref36","first-page":"2074","article-title":"Learning structured sparsity in deep neural networks","volume":"29","author":"wen","year":"2016","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/MM.2019.2943047"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/JSSC.2020.2992886"},{"key":"ref28","article-title":"Winner-take-all autoencoders","author":"makhzani","year":"2014","journal-title":"arXiv 1409 2752"},{"key":"ref27","first-page":"1929","article-title":"Dropout: A simple way to prevent neural networks from overfitting","volume":"15","author":"srivastava","year":"2014","journal-title":"J Mach Learn Res"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.155"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/JETCAS.2021.3127932"},{"key":"ref22","article-title":"The lottery ticket hypothesis: Finding sparse, trainable neural networks","author":"frankle","year":"2018","journal-title":"arXiv 1803 03635"},{"key":"ref21","author":"hassibi","year":"1993","journal-title":"Second order derivatives for network pruning Optimal Brain Surgeon"},{"key":"ref24","article-title":"Learning both weights and connections for efficient neural networks","author":"han","year":"2015","journal-title":"ArXiv 1506 02626"},{"key":"ref23","article-title":"Stabilizing the lottery ticket hypothesis","author":"frankle","year":"2019","journal-title":"arXiv 1903 01611"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1109\/ASAP52443.2021.00045"},{"key":"ref26","article-title":"Progressive DNN compression: A key to achieve ultra-high weight pruning and quantization rates using ADMM","author":"ye","year":"2019","journal-title":"arXiv 1903 09769"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1109\/TVLSI.2021.3060041"},{"key":"ref25","article-title":"Learning sparse networks using targeted dropout","author":"gomez","year":"2019","journal-title":"arXiv 1905 13678"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/JSSC.2016.2616357"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1016\/j.neunet.2018.01.010"},{"key":"ref59","article-title":"Mixed precision quantization of ConvNets via differentiable neural architecture search","author":"wu","year":"2018","journal-title":"arXiv 1812 00090"},{"key":"ref58","article-title":"KDLSQ-BERT: A quantized bert combining knowledge distillation with learned step size quantization","author":"jin","year":"2021","journal-title":"arXiv 2101 05938"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46493-0_32"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01216-8_20"},{"key":"ref55","article-title":"Additive powers-of-two quantization: An efficient non-uniform discretization for neural networks","author":"li","year":"2019","journal-title":"arXiv 1909 13144"},{"key":"ref54","first-page":"1","article-title":"Binarized neural networks","volume":"29","author":"hubara","year":"2016","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref53","first-page":"3123","article-title":"BinaryConnect: Training deep neural networks with binary weights during propagations","author":"courbariaux","year":"2015","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref52","article-title":"DoReFa-Net: Training low bitwidth convolutional neural networks with low bitwidth gradients","author":"zhou","year":"2016","journal-title":"arXiv 1606 06160 [cs]"},{"key":"ref40","article-title":"StructADMM: A systematic, high-efficiency framework of structured weight pruning for DNNs","author":"zhang","year":"2018","journal-title":"arXiv 1807 11091"},{"key":"ref4","first-page":"1","article-title":"Visual question answering: A deep interactive framework for post-disaster management and damage assessment","author":"sarkar","year":"2021","journal-title":"Proc UMBC Student Collection"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/SMARTCOMP52413.2021.00027"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8683430"},{"key":"ref5","article-title":"Hey Siri: An on-device DNN-powered voice trigger for Apple&#x2019;s personal assistant","volume":"1","year":"2017","journal-title":"Mach Learn J"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ISVLSI.2019.00012"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/TVLSI.2021.3110250"},{"key":"ref7","article-title":"Hello edge: Keyword spotting on microcontrollers","author":"zhang","year":"2017","journal-title":"arXiv 1711 07128"},{"key":"ref9","article-title":"Neural architecture search with reinforcement learning","author":"zoph","year":"2016","journal-title":"arXiv 1611 01578"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58607-2_14"},{"key":"ref45","first-page":"1886","article-title":"Channel gating neural networks","author":"hua","year":"2019","journal-title":"Proc 33rd Int Conf Neural Inf Process Syst"},{"key":"ref48","first-page":"1","article-title":"Batch-shaping for learning conditional channel gated networks","author":"bejnordi","year":"2019","journal-title":"Proc Int Conf Learn Represent"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58539-6_9"},{"key":"ref42","first-page":"784","article-title":"AMC: Automl for model compression and acceleration on mobile devices","author":"he","year":"2018","journal-title":"Proc Eur Conf Comput Vis (ECCV)"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00159"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/TCSII.2021.3069011"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/JSTSP.2020.2971418"},{"key":"ref73","article-title":"SpArSe: Sparse architecture search for CNNs on resource-constrained microcontrollers","author":"fedorov","year":"2019","journal-title":"arXiv 1905 12107"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00716"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1038\/s42256-021-00356-5"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1145\/3373087.3375887"},{"key":"ref76","article-title":"MCUNet: Tiny deep learning on IoT devices","author":"lin","year":"2020","journal-title":"arXiv 2007 10319"},{"key":"ref77","article-title":"TensorFlow lite micro: Embedded machine learning on TinyML systems","author":"david","year":"2020","journal-title":"arXiv 2010 08678"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.3390\/s19245541"},{"key":"ref75","article-title":"Memory-driven mixed low precision quantization for enabling deep network inference on microcontrollers","author":"rusci","year":"2019","journal-title":"arXiv 1905 13082"},{"key":"ref78","article-title":"CMSIS-NN: Efficient neural network kernels for Arm Cortex-M CPUs","author":"lai","year":"2018","journal-title":"arXiv 1801 06601 [cs]"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1109\/MDAT.2021.3079318"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00881"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00038"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-66770-2_22"},{"key":"ref63","article-title":"HAWQ-v2: Hessian aware trace-weighted quantization of neural networks","author":"dong","year":"2019","journal-title":"arXiv 1911 03852"},{"key":"ref64","first-page":"11875","article-title":"HAWQ-V3: Dyadic neural network quantization","author":"yao","year":"2021","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref65","first-page":"578","article-title":"TVM: An automated end-to-end optimizing compiler for deep learning","author":"chen","year":"2018","journal-title":"Proc of USENIX Symp on Operating Systems Design and Implementation (OSDI)"},{"key":"ref66","article-title":"Glow: Generative flow with invertible $1\\times1$\n convolutions","author":"kingma","year":"2018","journal-title":"arXiv 1807 03039"},{"key":"ref67","year":"2021","journal-title":"XLA Optimizing Compiler for Machine Learning"},{"key":"ref68","article-title":"Intel nGraph: An intermediate representation, compiler, and executor for deep learning","author":"cyphers","year":"2018","journal-title":"arXiv 1801 08058"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.3390\/fi12070113"},{"key":"ref69","year":"2021","journal-title":"NVIDIA\/TensorRT TensorRT is a C++ Library for High Performance Inference on NVIDIA GPUs and Deep Learning Accelerators"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2017.2761740"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN.2017.7966166"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1109\/TVLSI.2018.2825145"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1145\/3431920.3439296"},{"key":"ref94","article-title":"Very efficient training of convolutional neural networks using fast Fourier transform and overlap-and-add","author":"highlander","year":"2016","journal-title":"arXiv 1601 06815"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1145\/3020078.3021744"},{"key":"ref93","doi-asserted-by":"publisher","DOI":"10.23919\/DATE.2018.8342166"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1145\/3020078.3021741"},{"key":"ref92","article-title":"CuDNN: Efficient primitives for deep learning","author":"chetlur","year":"2014","journal-title":"Arxiv 1410 0759"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.3390\/electronics10091025"},{"key":"ref91","article-title":"Fast convolutional nets with fbfft: A GPU performance evaluation","author":"vasilache","year":"2014","journal-title":"arXiv 1412 7580"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.1109\/FPL53798.2021.00010"},{"key":"ref90","article-title":"Fast training of convolutional networks through FFTs","author":"mathieu","year":"2013","journal-title":"Arxiv 1312 5851"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1145\/3174243.3174253"},{"key":"ref102","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2018.2852335"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.23919\/FPL.2017.8056850"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1145\/3359983"},{"key":"ref110","first-page":"144","article-title":"A 7 nm 4-core AI chip with 25.6 TFLOPS hybrid FP8 training, 102.4 TOPS INT4 inference and workload-aware throttling","volume":"64","author":"agrawal","year":"2021","journal-title":"IEEE Int Solid-State Circuits Conf (ISSCC) Dig Tech Papers"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2019.8683512"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1109\/FPL50879.2020.00050"},{"key":"ref96","doi-asserted-by":"publisher","DOI":"10.1145\/3005448"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.435"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01246-5_2"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00907"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01252-6_32"},{"key":"ref13","article-title":"Efficient multi-objective neural architecture search via Lamarckian evolution","author":"elsken","year":"2018","journal-title":"arXiv 1804 09081"},{"key":"ref14","article-title":"MONAS: Multi-objective neural architecture search using reinforcement learning","author":"hsu","year":"2018","journal-title":"arXiv 1806 10332"},{"key":"ref15","article-title":"Resource-efficient neural architect","author":"zhou","year":"2018","journal-title":"arXiv 1806 07912"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00293"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/TCAD.2017.2705069"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.1587\/transinf.2021EDP7054"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/DAC18072.2020.9218596"},{"key":"ref81","first-page":"291","article-title":"fpgaConvNet: Automated mapping of convolutional neural networks on FPGAs","author":"venieris","year":"2017","journal-title":"Proc ACM\/SIGDA Int Symp Field-Program Gate Arrays"},{"key":"ref18","first-page":"7105","article-title":"NAS-Bench-101: Towards reproducible neural architecture search","author":"ying","year":"2019","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1145\/3240765.3240775"},{"key":"ref19","first-page":"1","article-title":"A fast method to fine-tune neural networks for the least energy consumption on FPGAs","author":"hosseini","year":"2021","journal-title":"Proc UMBC Student Collection"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/FPL.2018.00075"},{"key":"ref114","doi-asserted-by":"publisher","DOI":"10.1109\/ASSCC.2018.8579342"},{"key":"ref113","article-title":"NN2CAM: Automated neural network mapping for multi-precision edge processing on FPGA-based cameras","author":"jokic","year":"2021","journal-title":"arXiv 2106 12840"},{"key":"ref116","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2017.09.046"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1145\/3061639.3062244"},{"key":"ref115","doi-asserted-by":"publisher","DOI":"10.1109\/OJCAS.2020.3043737"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1109\/SOCC49529.2020.9524796"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/ICET49382.2020.9119500"},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/ISCAS.2017.8050816"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1145\/3020078.3021745"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1145\/3174243.3174261"}],"container-title":["IEEE Journal on Emerging and Selected Topics in Circuits and Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/5503868\/9647029\/09627710.pdf?arnumber=9627710","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,3,8]],"date-time":"2022-03-08T21:47:08Z","timestamp":1646776028000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9627710\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,12]]},"references-count":117,"journal-issue":{"issue":"4"},"URL":"https:\/\/doi.org\/10.1109\/jetcas.2021.3129415","relation":{},"ISSN":["2156-3357","2156-3365"],"issn-type":[{"value":"2156-3357","type":"print"},{"value":"2156-3365","type":"electronic"}],"subject":[],"published":{"date-parts":[[2021,12]]}}}