{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T10:21:58Z","timestamp":1740133318167,"version":"3.37.3"},"reference-count":41,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"8","license":[{"start":{"date-parts":[[2018,8,1]],"date-time":"2018-08-01T00:00:00Z","timestamp":1533081600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"}],"funder":[{"name":"HiPer Consortium, Israel Innovation Authority, Jerusalem, Israel"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. VLSI Syst."],"published-print":{"date-parts":[[2018,8]]},"DOI":"10.1109\/tvlsi.2018.2817564","type":"journal-article","created":{"date-parts":[[2018,4,16]],"date-time":"2018-04-16T18:03:20Z","timestamp":1523901800000},"page":"1413-1426","source":"Crossref","is-referenced-by-count":4,"title":["SiMT-DSP: A Massively Multithreaded DSP Architecture"],"prefix":"10.1109","volume":"26","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-1182-3486","authenticated-orcid":false,"given":"Ben","family":"Perach","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0341-2743","authenticated-orcid":false,"given":"Shlomo","family":"Weiss","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1145\/2155620.2155656"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2007.30"},{"journal-title":"Whitepaper NVIDIA Next Generation CUDA Compute Architecture Fermi","year":"2016","key":"ref33"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1145\/2656206"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/951710.951714"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO.2002.1176257"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/IPDPS.2014.21"},{"journal-title":"Whitepaper NVIDIA GeForce GTX 1080 Gaming Perfected","year":"2016","key":"ref36"},{"journal-title":"Whitepaper NVIDIA GeForce GTX 980 Featuring Maxwell The Most Advanced GPU Ever Made","year":"2016","key":"ref35"},{"journal-title":"Whitepaper NVIDIA&#x2019;s Next Generation CUDA Compute Architecture Kepler TM GK110 the Fastest Most Efficient HPC Architecture Ever Built v1 0","year":"2016","key":"ref34"},{"article-title":"The OpenCL specification","year":"2014","author":"howes","key":"ref10"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2016.59"},{"journal-title":"Embedded DSP Processor Design Application Specific Instruction Set Processors","year":"2008","author":"liu","key":"ref11"},{"journal-title":"CUDA by Example An Introduction to General-Purpose GPU Programming","year":"2010","author":"sanders","key":"ref12"},{"journal-title":"AMD Graphics Core Next GCN Architecture White Paper","year":"2012","key":"ref13"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/MM.2014.61"},{"journal-title":"SpyGlass","year":"2017","key":"ref15"},{"journal-title":"Design Compiler Graphical","year":"2017","key":"ref16"},{"journal-title":"CUDA Occupancy Calculator","year":"2017","key":"ref17"},{"journal-title":"Programming Massively Parallel Processors A Hands-on Approach","year":"2010","author":"kirk","key":"ref18"},{"key":"ref19","first-page":"73","article-title":"Optimization principles and application performance evaluation of a multithreaded GPU using CUDA","author":"ryoo","year":"2008","journal-title":"Proc 13th ACM SIGPLAN Symp Principles Pract Parallel Program"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/MM.2007.29"},{"journal-title":"Nvidia cuDNN","year":"2018","key":"ref4"},{"journal-title":"TMS320C6000 power consumption summary","year":"2003","key":"ref27"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2004.01.013"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/HPCC.2012.119"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/ICETC.2010.5529952"},{"key":"ref5","doi-asserted-by":"crossref","first-page":"154","DOI":"10.1145\/1618452.1618500","article-title":"Real-time parallel hashing on the GPU","volume":"28","author":"alcantara","year":"2009","journal-title":"ACM Trans Graph"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1145\/1964179.1964189"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CLUSTER.2011.52"},{"key":"ref2","article-title":"Deep learning with limited numerical precision","volume":"abs 1502 2551","author":"gupta","year":"2015","journal-title":"CoRR"},{"journal-title":"Cuda","year":"2018","key":"ref9"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP.2015.7178146"},{"journal-title":"GeForce 8800 GPU Architecture Technical Brief","year":"2006","key":"ref20"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1145\/2024723.2000093"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/SC.2008.5213922"},{"year":"2016","key":"ref24"},{"key":"ref41","first-page":"1","article-title":"Performance upper bound analysis and optimization of SGEMM on Fermi and Kepler GPUs","author":"lai","year":"2013","journal-title":"Proc IEEE\/ACM Int Symp Code Generat Optim (CGO)"},{"journal-title":"Desktop Graphics Card Comparison Guide","year":"2017","key":"ref23"},{"journal-title":"TMS320C6414 TMS320C6415 TMS320C6416 Fixed-Point Digital Signal Processors","year":"2005","key":"ref26"},{"journal-title":"IBM PowerPC970FX RISC Microprocessor&#x2014;Data Sheet","year":"2006","key":"ref25"}],"container-title":["IEEE Transactions on Very Large Scale Integration (VLSI) Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/92\/8419046\/08338370.pdf?arnumber=8338370","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,26]],"date-time":"2022-01-26T15:24:04Z","timestamp":1643210644000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8338370\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,8]]},"references-count":41,"journal-issue":{"issue":"8"},"URL":"https:\/\/doi.org\/10.1109\/tvlsi.2018.2817564","relation":{},"ISSN":["1063-8210","1557-9999"],"issn-type":[{"type":"print","value":"1063-8210"},{"type":"electronic","value":"1557-9999"}],"subject":[],"published":{"date-parts":[[2018,8]]}}}