{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,24]],"date-time":"2026-02-24T08:47:46Z","timestamp":1771922866498,"version":"3.50.1"},"reference-count":72,"publisher":"IEEE","license":[{"start":{"date-parts":[[2026,1,31]],"date-time":"2026-01-31T00:00:00Z","timestamp":1769817600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,1,31]],"date-time":"2026-01-31T00:00:00Z","timestamp":1769817600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026,1,31]]},"DOI":"10.1109\/cgo68049.2026.11395237","type":"proceedings-article","created":{"date-parts":[[2026,2,23]],"date-time":"2026-02-23T20:46:32Z","timestamp":1771879592000},"page":"520-534","source":"Crossref","is-referenced-by-count":0,"title":["PASTA: A Modular Program Analysis Tool Framework for Accelerators"],"prefix":"10.1109","author":[{"given":"Mao","family":"Lin","sequence":"first","affiliation":[{"name":"University of California,Merced,USA"}]},{"given":"Hyeran","family":"Jeon","sequence":"additional","affiliation":[{"name":"University of California,Merced,USA"}]},{"given":"Keren","family":"Zhou","sequence":"additional","affiliation":[{"name":"George Mason University,USA"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Nvidia nsight systems","author":"Corporation"},{"key":"ref2","article-title":"Rocprofiler documentation","author":"Corporation"},{"key":"ref3","article-title":"Pytorch profiler","author":"Team"},{"key":"ref4","article-title":"Tensorflow profiler: Profile model performance","author":"Team"},{"key":"ref5","article-title":"Omniperf documentation","author":"Corporation"},{"key":"ref6","article-title":"Nvidia cuda profiling tools interface (cupti) - cuda toolkit","author":"Corporation"},{"key":"ref7","article-title":"oneapi: A new era of heterogeneous computing","author":"Corporation"},{"key":"ref8","volume-title":"PyTorch: an imperative style, high-performance deep learning library","author":"Paszke","year":"2019"},{"key":"ref9","first-page":"265","article-title":"Tensorflow: a system for large-scale machine learning","volume-title":"Proceedings of the 12th USENIX Conference on Operating Systems Design and Implementation","author":"Abadi"},{"key":"ref10","article-title":"Compute sanitizer api reference manual","author":"Corporation"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1145\/3352460.3358307"},{"key":"ref12","article-title":"Rocprofiler-sdk documentation","author":"Corporation"},{"key":"ref13","article-title":"Xprof (tpu execution profiler)","author":"Team"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1145\/3582016.3582044"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/SC41405.2020.00093"},{"key":"ref16","article-title":"Deepcontext: A context-aware, cross-platform, and cross-framework tool for performance profiling and analysis of deep learning workloads","author":"Zhao","year":"2024"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO61859.2024.00064"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/sc41406.2024.00063"},{"key":"ref19","article-title":"Nvidia nsight compute","author":"Corporation"},{"key":"ref20","article-title":"Intel vtune profiler user guide","author":"Corporation"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1145\/3295500.3356213"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1145\/3503222.3507708"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/3168831"},{"issue":"6","key":"ref24","first-page":"685","article-title":"Hpctoolkit: tools for performance analysis of optimized parallel programs","volume-title":"Concurr. Comput.: Pract. Exper","volume":"22","author":"Adhianto","year":"2010"},{"key":"ref25","article-title":"Machine learning frameworks","author":"Gonzalez"},{"key":"ref26","article-title":"Deep dive into deep learning frameworks: A technical perspective","author":"Enoh"},{"key":"ref27","article-title":"jax.profiler module","author":"Team"},{"key":"ref28","article-title":"Dlprof user guide","author":"Corporation"},{"key":"ref29","first-page":"783","article-title":"Rl-scope: Cross-stack profiling for deep reinforcement learning workloads","volume-title":"Proceedings of Machine Learning and Systems","volume":"3","author":"Gleeson"},{"key":"ref30","first-page":"104","article-title":"Hotline profiler: Automatic annotation and a multi-scale timeline for visualizing time-use in dnn training","volume-title":"Proceedings of Machine Learning and Systems","volume":"5","author":"Snider"},{"key":"ref31","article-title":"Nvidia nvbit tools \u2013 mem_race"},{"key":"ref32","article-title":"Nvidia compute sanitizer samples memorytracker","author":"Corporation","year":"2025"},{"key":"ref33","article-title":"Nvidia cudnn: Cuda deep neural network library","author":"Corporation"},{"key":"ref34","article-title":"Nvidia cublas: Basic linear algebra on nvidia gpus","author":"Corporation"},{"key":"ref35","article-title":"Pytorch-direct: Enabling gpu centric data access for very large graph neural network training with irregular accesses","author":"Min","year":"2021"},{"key":"ref36","article-title":"Pytorch cuda caching allocator","author":"Team"},{"key":"ref37","article-title":"C10 api memoryreportinginfobase","author":"Team"},{"key":"ref38","article-title":"Distributeddataparallel","author":"Team"},{"key":"ref39","article-title":"vllm architecture overview - worker","author":"Team"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1145\/3458817.3476209"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1145\/3065386"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"issue":"8","key":"ref43","first-page":"9","article-title":"Language models are unsupervised multitask learners","volume":"1","author":"Radford","year":"2019","journal-title":"OpenAI blog"},{"key":"ref44","article-title":"Bert: Pre-training of deep bidirectional transformers for language understanding","author":"Devlin","year":"2018"},{"key":"ref45","article-title":"Robust speech recognition via large-scale weak supervision","volume-title":"Proceedings of the 40th International Conference on Machine Learning","author":"Radford"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/IPDPS47924.2020.00054"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1145\/3307650.3322224"},{"key":"ref48","article-title":"Working set size"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1145\/3373376.3378530"},{"key":"ref50","first-page":"551","article-title":"ZeRO-Offload: Democratizing Billion-Scale model training","volume-title":"2021 USENIX Annual Technical Conference (USENIX ATC 21)","author":"Ren"},{"key":"ref51","first-page":"17 573","article-title":"POET: Training neural networks on tiny devices with integrated rematerialization and paging","volume-title":"Proceedings of the 39th International Conference on Machine Learning","volume":"162","author":"Patil"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1145\/3669940.3707256"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1145\/3721146.3721955"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1145\/3712285.3759816"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/IPDPS64566.2025.00097"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1145\/3712285.3759805"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/TCAD.2022.3179323"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1145\/3689031.3717476"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1145\/3458817.3480855"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/ISPASS57527.2023.00032"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO61859.2024.00030"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1145\/3695053.3731047"},{"key":"ref63","article-title":"A guide to pytorch\u2019s cuda caching allocator","author":"DeVito"},{"key":"ref64","article-title":"Pytorch hip caching allocator masquerading as cuda","author":"Team"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/sc41406.2024.00040"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1145\/3453483.3454083"},{"key":"ref67","article-title":"Megatron-lm gpt2 345m","author":"Corporation"},{"key":"ref68","article-title":"Megatron-lm: Training multi-billion parameter language models using model parallelism","author":"Shoeybi","year":"2019"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1145\/3464974.3468453"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-11164-3_6"},{"key":"ref71","article-title":"The ebpf runtime in the linux kernel","author":"Gbadamosi","year":"2024"},{"key":"ref72","article-title":"Pasta: A modular program analysis tool framework for accelerators","author":"Lin","year":"2025"}],"event":{"name":"2026 IEEE\/ACM International Symposium on Code Generation and Optimization (CGO)","location":"Sydney, Australia","start":{"date-parts":[[2026,1,31]]},"end":{"date-parts":[[2026,2,4]]}},"container-title":["2026 IEEE\/ACM International Symposium on Code Generation and Optimization (CGO)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11395173\/11394837\/11395237.pdf?arnumber=11395237","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,24]],"date-time":"2026-02-24T07:42:31Z","timestamp":1771918951000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11395237\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,1,31]]},"references-count":72,"URL":"https:\/\/doi.org\/10.1109\/cgo68049.2026.11395237","relation":{},"subject":[],"published":{"date-parts":[[2026,1,31]]}}}