{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,4,4]],"date-time":"2024-04-04T01:04:02Z","timestamp":1712192642590},"reference-count":83,"publisher":"IEEE","license":[{"start":{"date-parts":[[2024,3,2]],"date-time":"2024-03-02T00:00:00Z","timestamp":1709337600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,3,2]],"date-time":"2024-03-02T00:00:00Z","timestamp":1709337600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100012166","name":"National Key Research and Development Program of China","doi-asserted-by":"publisher","award":["2023YFB4502702"]},{"DOI":"10.13039\/501100001809","name":"Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62332021"]},{"DOI":"10.13039\/501100012226","name":"Fundamental Research Funds for the Central Universities","doi-asserted-by":"publisher"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,3,2]]},"DOI":"10.1109\/hpca57654.2024.00031","type":"proceedings-article","created":{"date-parts":[[2024,4,2]],"date-time":"2024-04-02T18:36:37Z","timestamp":1712082997000},"source":"Crossref","is-referenced-by-count":0,"title":["StreamPIM: Streaming Matrix Computation in Racetrack Memory"],"prefix":"10.1109","author":[{"given":"Yuda","family":"An","sequence":"first","affiliation":[{"name":"Peking University,Computer Hardware and System Evolution Laboratory"}]},{"given":"Yunxiao","family":"Tang","sequence":"additional","affiliation":[{"name":"Peking University,Computer Hardware and System Evolution Laboratory"}]},{"given":"Shushu","family":"Yi","sequence":"additional","affiliation":[{"name":"Peking University,Computer Hardware and System Evolution Laboratory"}]},{"given":"Li","family":"Peng","sequence":"additional","affiliation":[{"name":"Peking University,Computer Hardware and System Evolution Laboratory"}]},{"given":"Xiurui","family":"Pan","sequence":"additional","affiliation":[{"name":"Peking University,Computer Hardware and System Evolution Laboratory"}]},{"given":"Guangyu","family":"Sun","sequence":"additional","affiliation":[{"name":"Peking University,Computer Hardware and System Evolution Laboratory"}]},{"given":"Zhaochu","family":"Luo","sequence":"additional","affiliation":[{"name":"Peking University,Computer Hardware and System Evolution Laboratory"}]},{"given":"Qiao","family":"Li","sequence":"additional","affiliation":[{"name":"Xiamen University,Computer Hardware and System Evolution Laboratory"}]},{"given":"Jie","family":"Zhang","sequence":"additional","affiliation":[{"name":"Peking University,Computer Hardware and System Evolution Laboratory"}]}],"member":"263","reference":[{"key":"ref1","volume-title":"Amd ryzen\u2122 9 5950x desktop processors","year":"2020"},{"key":"ref2","volume-title":"Geforce rtx 3080 family","year":"2021"},{"key":"ref3","volume":"abs\/1605.08695","author":"Abadi","year":"2016","journal-title":"Tensorflow: A system for large-scale machine learning"},{"key":"ref4","doi-asserted-by":"crossref","DOI":"10.1145\/2694344.2694381","article-title":"Page placement strategies for gpus within heterogeneous memory systems","volume-title":"Proceedings of the Twentieth International Conference on Architectural Support for Programming Languages and Operating Systems","author":"Agarwal","year":"2015"},{"key":"ref5","doi-asserted-by":"crossref","first-page":"1278","DOI":"10.1109\/ICECDS.2017.8389648","article-title":"Implementation of cordic algorithm and design of high speed cordic algorithm","volume-title":"2017 International Conference on Energy, Communication, Data Analytics and Soft Computing (ICECDS)","author":"Anas","year":"2017"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/TCAD.2019.2907886"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.4314\/gjmas.v6i2.21415"},{"key":"ref8","first-page":"1510","article-title":"Review on multiplexing techniques in bandwidth utilization","volume":"18","author":"Baharudin","year":"2013","journal-title":"Middle-East Journal of Scientific Research"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1145\/2837614.2837656"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1145\/2024716.2024718"},{"key":"ref11","volume":"abs\/2005.14165","author":"Brown","year":"2020","journal-title":"Language models are few-shot learners"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1116\/1.3301579"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ISPA.2014.11"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2016.13"},{"key":"ref15","doi-asserted-by":"crossref","first-page":"111","DOI":"10.1109\/SISPAD54002.2021.9592547","article-title":"Memory technology 2021: Trends & challenges","volume-title":"2021 International Conference on Simulation of Semiconductor Processes and Devices (SISPAD)","author":"Choe","year":"2021"},{"key":"ref16","volume":"abs\/1810.04805","author":"Devlin","year":"2019","journal-title":"Bert: Pre-training of deep bidirectional transformers for language understanding"},{"key":"ref17","doi-asserted-by":"crossref","first-page":"554","DOI":"10.1145\/1391469.1391610","article-title":"Circuit and microarchitecture evaluation of 3d stacking magnetic ram (mram) as a universal memory replacement","volume-title":"2008 45th ACM\/IEEE Design Automation Conference","author":"Dong","year":"2008"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/TCAD.2012.2185930"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1145\/3240765.3240811"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS.2014.6844484"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ISVLSI.2018.00103"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1103\/PhysRevB.78.140403"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/PACT.2011.14"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ISSCC.2014.6757323"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/IEDM.2005.1609379"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1145\/2902961.2902967"},{"key":"ref27","first-page":"1","article-title":"Modeling and analysis of domain wall dynamics for robust and low-power embedded memory","volume-title":"2014 51st ACM\/EDAC\/IEEE Design Automation Conference (DAC)","author":"Iyengar","year":"2014"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/s10586-014-0400-1"},{"key":"ref29","doi-asserted-by":"crossref","first-page":"1411","DOI":"10.23919\/DATE.2018.8342233","article-title":"Adaptive approximation in arithmetic circuits: A low-power unsigned divider design","volume-title":"2018 Design, Automation & Test in Europe Conference & Exhibition (DATE)","author":"Jiang","year":"2018"},{"key":"ref30","volume-title":"Co-architecting controllers and dram to enhance dram process scaling","author":"Kang","year":"2014"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/TMAG.2017.2703863"},{"key":"ref32","doi-asserted-by":"crossref","first-page":"31","DOI":"10.1109\/NORCHP.2006.329238","article-title":"High performance, low latency fpga based floating point adder and multiplier units in a virtex 4","volume-title":"2006 NORCHIP","author":"Karlstrom","year":"2006"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/MM.2011.89"},{"key":"ref34","doi-asserted-by":"crossref","first-page":"43","DOI":"10.1109\/LCA.2019.2899306","article-title":"Rtsim: A cycle-accurate simulator for racetrack memories","volume":"18","author":"Khan","year":"2019","journal-title":"IEEE Computer Architecture Letters"},{"key":"ref35","doi-asserted-by":"crossref","first-page":"2585","DOI":"10.1109\/TC.2023.3257509","article-title":"Downshift: Tuning shift reduction with reliability for racetrack memories","volume":"72","author":"Khan","year":"2023","journal-title":"IEEE Transactions on Computers"},{"key":"ref36","volume-title":"Architectural techniques to enhance dram scaling","author":"Kim","year":"2018"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2014.6853210"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2012.6237032"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/IEDM.2010.5703395"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/IEDM.2007.4419061"},{"key":"ref41","volume-title":"mlbench: Machine Learning Benchmark Problems, 2021, r package version 2.1-3.1","author":"Leisch"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/NAS.2015.7255222"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1145\/2897937.2898064"},{"key":"ref44","doi-asserted-by":"crossref","DOI":"10.1002\/aisy.202270041","article-title":"Implementation of highly reliable and energyefficient nonvolatile in-memory computing using multistate domain wall spin\u2013orbit torque device","volume":"4","author":"Lin","year":"2022","journal-title":"Advanced Intelligent Systems"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/ISPA\/IUCC.2017.00061"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-020-2061-y"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1103\/PhysRevApplied.15.034077"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1145\/2485922.2485929"},{"key":"ref49","volume-title":"Memory channel that supports near memory and far memory access","author":"NALE","year":"2017"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1093\/comjnl\/bxu147"},{"key":"ref51","doi-asserted-by":"crossref","DOI":"10.1145\/3458817.3476209","article-title":"Efficient large-scale language model training on gpu clusters using megatron-lm","volume-title":"Proceedings of the International Conference for High Performance Computing, Networking, Storage and Analysis","author":"Narayanan","year":"2021"},{"key":"ref52","doi-asserted-by":"crossref","first-page":"850","DOI":"10.1016\/j.compeleceng.2008.04.013","article-title":"A novel implementation of radix-4 floating-point division\/square-root using comparison multiples","volume":"36","author":"Nikmehr","year":"2010","journal-title":"Comput. Electr. Eng."},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO56248.2022.00060"},{"key":"ref54","doi-asserted-by":"crossref","first-page":"1095","DOI":"10.1109\/TC.2022.3188206","article-title":"Toward comprehensive shifting fault tolerance for domain-wall memories with piett","volume":"72","author":"Ollivier","year":"2023","journal-title":"IEEE Transactions on Computers"},{"key":"ref55","volume":"abs\/2303.08774","year":"2023","journal-title":"Gpt-4 technical report"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/DRC.2009.5354890"},{"key":"ref57","doi-asserted-by":"crossref","DOI":"10.1145\/3489517.3530538","article-title":"Smart: on simultaneously marching racetracks to improve the performance of racetrack-based main memory","volume-title":"Proceedings of the 59th ACM\/IEEE Design Automation Conference","author":"Peng","year":"2022"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/ISVLSI.2012.82"},{"key":"ref59","volume-title":"Polybench: the polyhedral benchmark suite","author":"Pouchet","year":"2012"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1007\/s00778-015-0405-2"},{"key":"ref61","volume-title":"Dynamic partial power down of memory-side cache in a 2-level memory hierarchy","author":"RAMANUJAN","year":"2021"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1147\/rd.524.0465"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/TNANO.2020.3014091"},{"key":"ref64","first-page":"273","article-title":"Ambit: In-memory accelerator for bulk bitwise operations using commodity dram technology","volume-title":"2017 50th Annual IEEE\/ACM International Symposium on Microarchitecture (MICRO)","author":"Seshadri","year":"2017"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/ISCA.2016.12"},{"key":"ref66","volume-title":"Mcuda: An efficient implementation of cuda kernels on multi-cores","author":"Stratton","year":"2011"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/CCGrid.2016.31"},{"key":"ref68","first-page":"1018","article-title":"From device to system: Cross-layer design exploration of racetrack memory","volume-title":"2015 Design, Automation & Test in Europe Conference & Exhibition (DATE)","author":"Sun","year":"2015"},{"key":"ref69","first-page":"1","article-title":"Cross-layer racetrack memory design for ultra high density and low power consumption","volume-title":"2013 50th ACM\/EDAC\/IEEE Design Automation Conference (DAC)","author":"Sun","year":"2013"},{"key":"ref70","doi-asserted-by":"crossref","first-page":"635","DOI":"10.1109\/TNANO.2016.2570248","article-title":"Logic design within memristive memories using memristor-aided logic (magic)","volume":"15","author":"Talati","year":"2016","journal-title":"IEEE Transactions on Nanotechnology"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1088\/0022-3727\/48\/27\/275003"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1145\/2333660.2333707"},{"key":"ref73","doi-asserted-by":"crossref","first-page":"1825","DOI":"10.7873\/DATE.2013.365","article-title":"Dwm-tapestri - an energy efficient all-spin cache using domain wall shift based writes","volume-title":"2013 Design, Automation & Test in Europe Conference & Exhibition (DATE)","author":"Venkatesan","year":"2013"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/SC.2014.73"},{"key":"ref75","doi-asserted-by":"crossref","DOI":"10.1002\/advs.202270194","article-title":"Synergy of spin-orbit torque and built-in field in magnetic tunnel junctions with tilted magnetic anisotropy: Toward tunable and reliable spintronic neurons (adv. sci. 30\/2022","volume":"9","author":"Wang","year":"2022","journal-title":"Advanced Science"},{"key":"ref76","first-page":"99","article-title":"A new algorithm for designing square root calculators based on fpga with pipeline technology","volume-title":"2009 Ninth International Conference on Hybrid Intelligent Systems","volume":"1","author":"Wang","year":"2009"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.7873\/DATE.2014.196"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/HPCA47549.2020.00033"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1038\/nnano.2008.160"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/ASPDAC.2014.6742888"},{"key":"ref81","first-page":"32","article-title":"Energy-efficient nonvolatile reconfigurable logic using spin hall effect-based lookup tables","volume":"16","author":"Zand","year":"2017","journal-title":"IEEE Transactions on Nanotechnology"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/ASPDAC.2015.7058988"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1109\/ICCAD.2015.7372592"}],"event":{"name":"2024 IEEE International Symposium on High-Performance Computer Architecture (HPCA)","location":"Edinburgh, United Kingdom","start":{"date-parts":[[2024,3,2]]},"end":{"date-parts":[[2024,3,6]]}},"container-title":["2024 IEEE International Symposium on High-Performance Computer Architecture (HPCA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10476359\/10476395\/10476415.pdf?arnumber=10476415","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,4,3]],"date-time":"2024-04-03T05:36:40Z","timestamp":1712122600000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10476415\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,3,2]]},"references-count":83,"URL":"http:\/\/dx.doi.org\/10.1109\/hpca57654.2024.00031","relation":{},"subject":[],"published":{"date-parts":[[2024,3,2]]}}}