{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,23]],"date-time":"2026-04-23T08:00:45Z","timestamp":1776931245101,"version":"3.51.2"},"publisher-location":"New York, NY, USA","reference-count":89,"publisher":"ACM","license":[{"start":{"date-parts":[[2025,10,17]],"date-time":"2025-10-17T00:00:00Z","timestamp":1760659200000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"DOI":"10.13039\/100000001","name":"NSF (National Science Foundation)","doi-asserted-by":"publisher","award":["2503010, 2402696, 2238665, 2504353, 2112562"],"award-info":[{"award-number":["2503010, 2402696, 2238665, 2504353, 2112562"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,18]]},"DOI":"10.1145\/3725843.3756078","type":"proceedings-article","created":{"date-parts":[[2025,10,17]],"date-time":"2025-10-17T17:19:56Z","timestamp":1760721596000},"page":"445-460","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["LLM.265: Video Codecs are Secretly Tensor Codecs"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-2668-6456","authenticated-orcid":false,"given":"Ceyu","family":"Xu","sequence":"first","affiliation":[{"name":"Duke University, Durham, North Carolina, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-6297-1599","authenticated-orcid":false,"given":"Yongji","family":"Wu","sequence":"additional","affiliation":[{"name":"Duke University, Durham, North Carolina, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0335-5512","authenticated-orcid":false,"given":"Xinyu","family":"Yang","sequence":"additional","affiliation":[{"name":"Carnegie Mellon University, Pittsburgh, Pennsylvania, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-9166-6476","authenticated-orcid":false,"given":"Beidi","family":"Chen","sequence":"additional","affiliation":[{"name":"Carnegie Mellon University, Pittsburgh, Pennsylvania, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1034-2736","authenticated-orcid":false,"given":"Matthew","family":"Lentz","sequence":"additional","affiliation":[{"name":"Duke University, Durham, North Carolina, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0611-3941","authenticated-orcid":false,"given":"Danyang","family":"Zhuo","sequence":"additional","affiliation":[{"name":"Duke University, Durham, North Carolina, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3574-3440","authenticated-orcid":false,"given":"Lisa Wu","family":"Wills","sequence":"additional","affiliation":[{"name":"Duke University, Durham, North Carolina, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,10,17]]},"reference":[{"key":"e_1_3_3_2_2_2","unstructured":"AI@Meta. 2024. Llama 3 Model Card. https:\/\/github.com\/meta-llama\/llama3\/blob\/main\/MODEL_CARD.md"},{"key":"e_1_3_3_2_3_2","doi-asserted-by":"crossref","unstructured":"Jason Ansel Edward Yang Horace He Natalia Gimelshein Animesh Jain Michael Voznesensky Bin Bao Peter Bell David Berard Evgeni Burovski et\u00a0al. 2024. PyTorch 2: Faster Machine Learning Through Dynamic Python Bytecode Transformation and Graph Compilation. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2312.06632 (2024).","DOI":"10.1145\/3620665.3640366"},{"key":"e_1_3_3_2_4_2","unstructured":"Saleh Ashkboos Maximilian\u00a0L. Croci Marcelo\u00a0Gennari do Nascimento Torsten Hoefler and James Hensman. 2024. SliceGPT: Compress Large Language Models by Deleting Rows and Columns. arxiv:https:\/\/arXiv.org\/abs\/2401.15024\u00a0[cs.LG]"},{"key":"e_1_3_3_2_5_2","unstructured":"Saleh Ashkboos Amirkeivan Mohtashami Maximilian\u00a0L. Croci Bo Li Martin Jaggi Dan Alistarh Torsten Hoefler and James Hensman. 2024. QuaRot: Outlier-Free 4-Bit Inference in Rotated LLMs. arxiv:https:\/\/arXiv.org\/abs\/2404.00456\u00a0[cs.LG]"},{"key":"e_1_3_3_2_6_2","volume-title":"Samsung 10nm 8nm and 7nm at VLSIT","author":"TechInsights Scotten\u00a0Jones at","year":"2025","unstructured":"Scotten\u00a0Jones at TechInsights. 2025. Samsung 10nm 8nm and 7nm at VLSIT. https:\/\/semiwiki.com\/semiconductor-manufacturers\/samsung-foundry\/7442-samsung-10nm-8nm-and-7nm-at-vlsit\/"},{"key":"e_1_3_3_2_7_2","unstructured":"Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang et\u00a0al. 2025. Qwen2. 5-vl technical report. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2502.13923 (2025)."},{"key":"e_1_3_3_2_8_2","unstructured":"Ron Banner Itay Hubara Elad Hoffer and Daniel Soudry. 2018. Scalable methods for 8-bit training of neural networks. Advances in neural information processing systems 31 (2018)."},{"key":"e_1_3_3_2_9_2","first-page":"2397","volume-title":"International Conference on Machine Learning","author":"Biderman Stella","year":"2023","unstructured":"Stella Biderman, Hailey Schoelkopf, Quentin\u00a0Gregory Anthony, Herbie Bradley, Kyle O\u2019Brien, Eric Hallahan, Mohammad\u00a0Aflah Khan, Shivanshu Purohit, USVSN\u00a0Sai Prashanth, Edward Raff, et\u00a0al. 2023. Pythia: A suite for analyzing large language models across training and scaling. In International Conference on Machine Learning. PMLR, 2397\u20132430."},{"key":"e_1_3_3_2_10_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i05.6239"},{"key":"e_1_3_3_2_11_2","unstructured":"Jerry Chee Yaohui Cai Volodymyr Kuleshov and Christopher\u00a0M De\u00a0Sa. 2024. Quip: 2-bit quantization of large language models with guarantees. Advances in Neural Information Processing Systems 36 (2024)."},{"key":"e_1_3_3_2_12_2","unstructured":"Jianmin Chen Xinghao Pan Rajat Monga Samy Bengio and Rafal Jozefowicz. 2016. Revisiting distributed synchronous SGD. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/1604.00981 (2016)."},{"key":"e_1_3_3_2_13_2","doi-asserted-by":"publisher","DOI":"10.1109\/MSE.2017.7945071"},{"key":"e_1_3_3_2_14_2","unstructured":"Peter Clark Isaac Cowhey Oren Etzioni Tushar Khot Ashish Sabharwal Carissa Schoenick and Oyvind Tafjord. 2018. Think you have solved question answering? try arc the ai2 reasoning challenge. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/1803.05457 (2018)."},{"key":"e_1_3_3_2_15_2","volume-title":"NVIDIA Video Codec SDK, version 13.0","author":"Corporation NVIDIA","year":"2025","unstructured":"NVIDIA Corporation. 2025. NVIDIA Video Codec SDK, version 13.0. https:\/\/developer.nvidia.com\/video-codec-sdk"},{"key":"e_1_3_3_2_16_2","unstructured":"DataCanary hilfialkaff Lili Jiang Meg Risdal Nikhil Dandekar and tomtung. 2017. Quora Question Pairs. https:\/\/kaggle.com\/competitions\/quora-question-pairs"},{"key":"e_1_3_3_2_17_2","unstructured":"Jeffrey Dean Greg Corrado Rajat Monga Kai Chen Matthieu Devin Mark Mao Marc\u2019aurelio Ranzato Andrew Senior Paul Tucker Ke Yang et\u00a0al. 2012. Large scale distributed deep networks. Advances in neural information processing systems 25 (2012)."},{"key":"e_1_3_3_2_18_2","unstructured":"DeepSeek-AI Aixin Liu Bei Feng Bing Xue Bingxuan Wang Bochao Wu Chengda Lu Chenggang Zhao Chengqi Deng Chenyu Zhang Chong Ruan Damai Dai Daya Guo Dejian Yang Deli Chen Dongjie Ji Erhang Li Fangyun Lin Fucong Dai Fuli Luo Guangbo Hao Guanting Chen Guowei Li H. Zhang Han Bao Hanwei Xu Haocheng Wang Haowei Zhang Honghui Ding Huajian Xin Huazuo Gao Hui Li Hui Qu J.\u00a0L. Cai Jian Liang Jianzhong Guo Jiaqi Ni Jiashi Li Jiawei Wang Jin Chen Jingchang Chen Jingyang Yuan Junjie Qiu Junlong Li Junxiao Song Kai Dong Kai Hu Kaige Gao Kang Guan Kexin Huang Kuai Yu Lean Wang Lecong Zhang Lei Xu Leyi Xia Liang Zhao Litong Wang Liyue Zhang Meng Li Miaojun Wang Mingchuan Zhang Minghua Zhang Minghui Tang Mingming Li Ning Tian Panpan Huang Peiyi Wang Peng Zhang Qiancheng Wang Qihao Zhu Qinyu Chen Qiushi Du R.\u00a0J. Chen R.\u00a0L. Jin Ruiqi Ge Ruisong Zhang Ruizhe Pan Runji Wang Runxin Xu Ruoyu Zhang Ruyi Chen S.\u00a0S. Li Shanghao Lu Shangyan Zhou Shanhuang Chen Shaoqing Wu Shengfeng Ye Shengfeng Ye Shirong Ma Shiyu Wang Shuang Zhou Shuiping Yu Shunfeng Zhou Shuting Pan T. Wang Tao Yun Tian Pei Tianyu Sun W.\u00a0L. Xiao Wangding Zeng Wanjia Zhao Wei An Wen Liu Wenfeng Liang Wenjun Gao Wenqin Yu Wentao Zhang X.\u00a0Q. Li Xiangyue Jin Xianzu Wang Xiao Bi Xiaodong Liu Xiaohan Wang Xiaojin Shen Xiaokang Chen Xiaokang Zhang Xiaosha Chen Xiaotao Nie Xiaowen Sun Xiaoxiang Wang Xin Cheng Xin Liu Xin Xie Xingchao Liu Xingkai Yu Xinnan Song Xinxia Shan Xinyi Zhou Xinyu Yang Xinyuan Li Xuecheng Su Xuheng Lin Y.\u00a0K. Li Y.\u00a0Q. Wang Y.\u00a0X. Wei Y.\u00a0X. Zhu Yang Zhang Yanhong Xu Yanhong Xu Yanping Huang Yao Li Yao Zhao Yaofeng Sun Yaohui Li Yaohui Wang Yi Yu Yi Zheng Yichao Zhang Yifan Shi Yiliang Xiong Ying He Ying Tang Yishi Piao Yisong Wang Yixuan Tan Yiyang Ma Yiyuan Liu Yongqiang Guo Yu Wu Yuan Ou Yuchen Zhu Yuduan Wang Yue Gong Yuheng Zou Yujia He Yukun Zha Yunfan Xiong Yunxian Ma Yuting Yan Yuxiang Luo Yuxiang You Yuxuan Liu Yuyang Zhou Z.\u00a0F. Wu Z.\u00a0Z. Ren Zehui Ren Zhangli Sha Zhe Fu Zhean Xu Zhen Huang Zhen Zhang Zhenda Xie Zhengyan Zhang Zhewen Hao Zhibin Gou Zhicheng Ma Zhigang Yan Zhihong Shao Zhipeng Xu Zhiyu Wu Zhongyu Zhang Zhuoshu Li Zihui Gu Zijia Zhu Zijun Liu Zilin Li Ziwei Xie Ziyang Song Ziyi Gao and Zizheng Pan. 2025. DeepSeek-V3 Technical Report. arxiv:https:\/\/arXiv.org\/abs\/2412.19437\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2412.19437"},{"key":"e_1_3_3_2_19_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"e_1_3_3_2_20_2","unstructured":"Tim Dettmers Mike Lewis Younes Belkada and Luke Zettlemoyer. 2022. LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale. arxiv:https:\/\/arXiv.org\/abs\/2208.07339\u00a0[cs.LG]"},{"key":"e_1_3_3_2_21_2","unstructured":"Tim Dettmers Artidoro Pagnoni Ari Holtzman and Luke Zettlemoyer. 2023. QLoRA: Efficient Finetuning of Quantized LLMs. arxiv:https:\/\/arXiv.org\/abs\/2305.14314\u00a0[cs.LG]"},{"key":"e_1_3_3_2_22_2","unstructured":"Harry Dong Xinyu Yang Zhenyu Zhang Zhangyang Wang Yuejie Chi and Beidi Chen. 2024. Get More with LESS: Synthesizing Recurrence with KV Cache Compression for Efficient LLM Inference. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2402.09398 (2024)."},{"key":"e_1_3_3_2_23_2","unstructured":"Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai Thomas Unterthiner Mostafa Dehghani Matthias Minderer Georg Heigold Sylvain Gelly et\u00a0al. 2020. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2010.11929 (2020)."},{"key":"e_1_3_3_2_24_2","unstructured":"Yibo Fan. 2023. H.264 Video Encoder IP Core. https:\/\/github.com\/openasic-org\/xk264"},{"key":"e_1_3_3_2_25_2","unstructured":"Yibo Fan. 2023. H.265 Video Encoder IP Core. https:\/\/github.com\/openasic-org\/xk265"},{"key":"e_1_3_3_2_26_2","unstructured":"Elias Frantar Saleh Ashkboos Torsten Hoefler and Dan Alistarh. 2023. GPTQ: Accurate Post-Training Quantization for Generative Pre-trained Transformers. arxiv:https:\/\/arXiv.org\/abs\/2210.17323\u00a0[cs.LG]"},{"key":"e_1_3_3_2_27_2","unstructured":"Leo Gao Stella Biderman Sid Black Laurence Golding Travis Hoppe Charles Foster Jason Phang Horace He Anish Thite Noa Nabeshima et\u00a0al. 2020. The pile: An 800gb dataset of diverse text for language modeling. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2101.00027 (2020)."},{"key":"e_1_3_3_2_28_2","doi-asserted-by":"publisher","unstructured":"Leo Gao Jonathan Tow Baber Abbasi Stella Biderman Sid Black Anthony DiPofi Charles Foster Laurence Golding Jeffrey Hsu Alain Le\u00a0Noac\u2019h Haonan Li Kyle McDonell Niklas Muennighoff Chris Ociepa Jason Phang Laria Reynolds Hailey Schoelkopf Aviya Skowron Lintang Sutawika Eric Tang Anish Thite Ben Wang Kevin Wang and Andy Zou. 2023. A framework for few-shot language model evaluation. 10.5281\/zenodo.10256836","DOI":"10.5281\/zenodo.10256836"},{"key":"e_1_3_3_2_29_2","unstructured":"Cong Guo Chen Zhang Jingwen Leng Zihan Liu Fan Yang Yunxin Liu Minyi Guo and Yuhao Zhu. 2022. ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural Network Quantization. arxiv:https:\/\/arXiv.org\/abs\/2208.14286\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2208.14286"},{"key":"e_1_3_3_2_30_2","unstructured":"Song Han Huizi Mao and William\u00a0J Dally. 2015. Deep compression: Compressing deep neural networks with pruning trained quantization and huffman coding. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/1510.00149 (2015)."},{"key":"e_1_3_3_2_31_2","unstructured":"Aaron Harlap Deepak Narayanan Amar Phanishayee Vivek Seshadri Nikhil Devanur Greg Ganger and Phil Gibbons. 2018. Pipedream: Fast and efficient pipeline parallel dnn training. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/1806.03377 (2018)."},{"key":"e_1_3_3_2_32_2","unstructured":"Yanping Huang Youlong Cheng Ankur Bapna Orhan Firat Dehao Chen Mia Chen HyoukJoong Lee Jiquan Ngiam Quoc\u00a0V Le Yonghui Wu et\u00a0al. 2019. Gpipe: Efficient training of giant neural networks using pipeline parallelism. Advances in neural information processing systems 32 (2019)."},{"key":"e_1_3_3_2_33_2","unstructured":"Nvidia Inc.2024. Nemotron-4 340B Technical Report. (2024)."},{"key":"e_1_3_3_2_34_2","volume-title":"HEVC Test Model (HM)","author":"Union International Telecommunication","year":"2023","unstructured":"International Telecommunication Union. 2023. HEVC Test Model (HM). Technical Report. https:\/\/hevc.hhi.fraunhofer.de\/"},{"key":"e_1_3_3_2_35_2","volume-title":"ITU-T Recommendation H.264: Advanced Video Coding for Generic Audiovisual Services","author":"Union International Telecommunication","year":"2023","unstructured":"International Telecommunication Union. 2023. ITU-T Recommendation H.264: Advanced Video Coding for Generic Audiovisual Services. Technical Report. International Telecommunication Union. https:\/\/www.itu.int\/rec\/T-REC-H.264"},{"key":"e_1_3_3_2_36_2","volume-title":"ITU-T Recommendation H.265: High Efficiency Video Coding","author":"Union International Telecommunication","year":"2023","unstructured":"International Telecommunication Union. 2023. ITU-T Recommendation H.265: High Efficiency Video Coding. Technical Report. International Telecommunication Union. https:\/\/www.itu.int\/rec\/T-REC-H.265"},{"key":"e_1_3_3_2_37_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00286"},{"key":"e_1_3_3_2_38_2","doi-asserted-by":"publisher","DOI":"10.1145\/3579371.3589350"},{"key":"e_1_3_3_2_39_2","unstructured":"Syed\u00a0Ali Khayam. 2003. The discrete cosine transform (DCT): theory and application. Michigan State University 114 1 (2003) 31."},{"key":"e_1_3_3_2_40_2","unstructured":"Sehoon Kim Coleman Hooper Amir Gholami Zhen Dong Xiuyu Li Sheng Shen Michael\u00a0W Mahoney and Kurt Keutzer. 2023. Squeezellm: Dense-and-sparse quantization. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2306.07629 (2023)."},{"key":"e_1_3_3_2_41_2","doi-asserted-by":"publisher","DOI":"10.1145\/3620665.3640356"},{"key":"e_1_3_3_2_42_2","unstructured":"Conglong Li Ammar\u00a0Ahmad Awan Hanlin Tang Samyam Rajbhandari and Yuxiong He. 2021. 1-bit LAMB: Communication Efficient Large-Scale Large-Batch Training with LAMB\u2019s Convergence Speed. arxiv:https:\/\/arXiv.org\/abs\/2104.06069"},{"key":"e_1_3_3_2_43_2","unstructured":"Ji Lin Jiaming Tang Haotian Tang Shang Yang Wei-Ming Chen Wei-Chen Wang Guangxuan Xiao Xingyu Dang Chuang Gan and Song Han. 2024. AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration. arxiv:https:\/\/arXiv.org\/abs\/2306.00978\u00a0[cs.CL]"},{"key":"e_1_3_3_2_44_2","unstructured":"Yujun Lin Song Han Huizi Mao Yu Wang and William\u00a0J Dally. 2017. Deep gradient compression: Reducing the communication bandwidth for distributed training. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/1712.01887 (2017)."},{"key":"e_1_3_3_2_45_2","unstructured":"Yujun Lin Haotian Tang Shang Yang Zhekai Zhang Guangxuan Xiao Chuang Gan and Song Han. 2024. QServe: W4A8KV4 Quantization and System Co-design for Efficient LLM Serving. arxiv:https:\/\/arXiv.org\/abs\/2405.04532"},{"key":"e_1_3_3_2_46_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.39"},{"key":"e_1_3_3_2_47_2","unstructured":"Yuan Liu Haodong Duan Yuanhan Zhang Bo Li Songyang Zhang Wangbo Zhao Yike Yuan Jiaqi Wang Conghui He Ziwei Liu Kai Chen and Dahua Lin. 2024. MMBench: Is Your Multi-modal Model an All-around Player? arxiv:https:\/\/arXiv.org\/abs\/2307.06281\u00a0[cs.CV] https:\/\/arxiv.org\/abs\/2307.06281"},{"key":"e_1_3_3_2_48_2","unstructured":"Zechun Liu Barlas Oguz Changsheng Zhao Ernie Chang Pierre Stock Yashar Mehdad Yangyang Shi Raghuraman Krishnamoorthi and Vikas Chandra. 2023. Llm-qat: Data-free quantization aware training for large language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2305.17888 (2023)."},{"key":"e_1_3_3_2_49_2","unstructured":"Zechun Liu Changsheng Zhao Igor Fedorov Bilge Soran Dhruv Choudhary Raghuraman Krishnamoorthi Vikas Chandra Yuandong Tian and Tijmen Blankevoort. 2024. SpinQuant\u2013LLM quantization with learned rotations. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2405.16406 (2024)."},{"key":"e_1_3_3_2_50_2","unstructured":"Anton Lozhkov Raymond Li Loubna\u00a0Ben Allal Federico Cassano Joel Lamy-Poirier Nouamane Tazi Ao Tang Dmytro Pykhtar Jiawei Liu Yuxiang Wei Tianyang Liu Max Tian Denis Kocetkov Arthur Zucker Younes Belkada Zijian Wang Qian Liu Dmitry Abulkhanov Indraneil Paul Zhuang Li Wen-Ding Li Megan Risdal Jia Li Jian Zhu Terry\u00a0Yue Zhuo Evgenii Zheltonozhskii Nii Osae\u00a0Osae Dade Wenhao Yu Lucas Krau\u00df Naman Jain Yixuan Su Xuanli He Manan Dey Edoardo Abati Yekun Chai Niklas Muennighoff Xiangru Tang Muhtasham Oblokulov Christopher Akiki Marc Marone Chenghao Mou Mayank Mishra Alex Gu Binyuan Hui Tri Dao Armel Zebaze Olivier Dehaene Nicolas Patry Canwen Xu Julian McAuley Han Hu Torsten Scholak Sebastien Paquet Jennifer Robinson Carolyn\u00a0Jane Anderson Nicolas Chapados Mostofa Patwary Nima Tajbakhsh Yacine Jernite Carlos\u00a0Mu\u00f1oz Ferrandis Lingming Zhang Sean Hughes Thomas Wolf Arjun Guha Leandro von Werra and Harm de Vries. 2024. StarCoder 2 and The Stack v2: The Next Generation. arxiv:https:\/\/arXiv.org\/abs\/2402.19173"},{"key":"e_1_3_3_2_51_2","unstructured":"Maggie Phil Culliton and Wei Chen. 2020. Tweet Sentiment Extraction. https:\/\/kaggle.com\/competitions\/tweet-sentiment-extraction. Kaggle."},{"key":"e_1_3_3_2_52_2","doi-asserted-by":"publisher","unstructured":"D. Marpe H. Schwarz and T. Wiegand. 2003. Context-based adaptive binary arithmetic coding in the H.264\/AVC video compression standard. IEEE Transactions on Circuits and Systems for Video Technology 13 7 (2003) 620\u2013636. 10.1109\/TCSVT.2003.815173","DOI":"10.1109\/TCSVT.2003.815173"},{"key":"e_1_3_3_2_53_2","unstructured":"Stephen Merity Caiming Xiong James Bradbury and Richard Socher. 2016. Pointer Sentinel Mixture Models. arxiv:https:\/\/arXiv.org\/abs\/1609.07843\u00a0[cs.CL]"},{"key":"e_1_3_3_2_54_2","doi-asserted-by":"crossref","unstructured":"Todor Mihaylov Peter Clark Tushar Khot and Ashish Sabharwal. 2018. Can a suit of armor conduct electricity? a new dataset for open book question answering. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/1809.02789 (2018).","DOI":"10.18653\/v1\/D18-1260"},{"key":"e_1_3_3_2_55_2","doi-asserted-by":"publisher","DOI":"10.1109\/PCS.2013.6737765"},{"key":"e_1_3_3_2_56_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00141"},{"key":"e_1_3_3_2_57_2","unstructured":"nccl 2024. NCCL Tests. https:\/\/github.com\/NVIDIA\/nccl-tests."},{"key":"e_1_3_3_2_58_2","unstructured":"nccl 2024. The NVIDIA Collective Communication Library (NCCL). https:\/\/developer.nvidia.com\/nccl."},{"key":"e_1_3_3_2_59_2","unstructured":"Jianmo Ni Gustavo\u00a0Hern\u00e1ndez \u00c1brego Noah Constant Ji Ma Keith\u00a0B. Hall Daniel Cer and Yinfei Yang. 2021. Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text Models. arxiv:https:\/\/arXiv.org\/abs\/2108.08877\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2108.08877"},{"key":"e_1_3_3_2_60_2","unstructured":"NVIDIA Corporation. 2024. NVIDIA Video Codec SDK. https:\/\/developer.nvidia.com\/video-codec-sdk"},{"key":"e_1_3_3_2_61_2","unstructured":"OpenAI Josh Achiam Steven Adler Sandhini Agarwal Lama Ahmad Ilge Akkaya Florencia\u00a0Leoni Aleman Diogo Almeida Janko Altenschmidt Sam Altman Shyamal Anadkat Red Avila Igor Babuschkin Suchir Balaji Valerie Balcom Paul Baltescu Haiming Bao Mohammad Bavarian Jeff Belgum Irwan Bello Jake Berdine Gabriel Bernadett-Shapiro Christopher Berner Lenny Bogdonoff Oleg Boiko Madelaine Boyd Anna-Luisa Brakman Greg Brockman Tim Brooks Miles Brundage Kevin Button Trevor Cai Rosie Campbell Andrew Cann Brittany Carey Chelsea Carlson Rory Carmichael Brooke Chan Che Chang Fotis Chantzis Derek Chen Sully Chen Ruby Chen Jason Chen Mark Chen Ben Chess Chester Cho Casey Chu Hyung\u00a0Won Chung Dave Cummings Jeremiah Currier Yunxing Dai Cory Decareaux Thomas Degry Noah Deutsch Damien Deville Arka Dhar David Dohan Steve Dowling Sheila Dunning Adrien Ecoffet Atty Eleti Tyna Eloundou David Farhi Liam Fedus Niko Felix Sim\u00f3n\u00a0Posada Fishman Juston Forte Isabella Fulford Leo Gao Elie Georges Christian Gibson Vik Goel Tarun Gogineni Gabriel Goh Rapha Gontijo-Lopes Jonathan Gordon Morgan Grafstein Scott Gray Ryan Greene Joshua Gross Shixiang\u00a0Shane Gu Yufei Guo Chris Hallacy Jesse Han Jeff Harris Yuchen He Mike Heaton Johannes Heidecke Chris Hesse Alan Hickey Wade Hickey Peter Hoeschele Brandon Houghton Kenny Hsu Shengli Hu Xin Hu Joost Huizinga Shantanu Jain Shawn Jain Joanne Jang Angela Jiang Roger Jiang Haozhun Jin Denny Jin Shino Jomoto Billie Jonn Heewoo Jun Tomer Kaftan \u0141ukasz Kaiser Ali Kamali Ingmar Kanitscheider Nitish\u00a0Shirish Keskar Tabarak Khan Logan Kilpatrick Jong\u00a0Wook Kim Christina Kim Yongjik Kim Jan\u00a0Hendrik Kirchner Jamie Kiros Matt Knight Daniel Kokotajlo \u0141ukasz Kondraciuk Andrew Kondrich Aris Konstantinidis Kyle Kosic Gretchen Krueger Vishal Kuo Michael Lampe Ikai Lan Teddy Lee Jan Leike Jade Leung Daniel Levy Chak\u00a0Ming Li Rachel Lim Molly Lin Stephanie Lin Mateusz Litwin Theresa Lopez Ryan Lowe Patricia Lue Anna Makanju Kim Malfacini Sam Manning Todor Markov Yaniv Markovski Bianca Martin Katie Mayer Andrew Mayne Bob McGrew Scott\u00a0Mayer McKinney Christine McLeavey Paul McMillan Jake McNeil David Medina Aalok Mehta Jacob Menick Luke Metz Andrey Mishchenko Pamela Mishkin Vinnie Monaco Evan Morikawa Daniel Mossing Tong Mu Mira Murati Oleg Murk David M\u00e9ly Ashvin Nair Reiichiro Nakano Rajeev Nayak Arvind Neelakantan Richard Ngo Hyeonwoo Noh Long Ouyang Cullen O\u2019Keefe Jakub Pachocki Alex Paino Joe Palermo Ashley Pantuliano Giambattista Parascandolo Joel Parish Emy Parparita Alex Passos Mikhail Pavlov Andrew Peng Adam Perelman Filipe de Avila Belbute\u00a0Peres Michael Petrov Henrique\u00a0Ponde de Oliveira\u00a0Pinto Michael Pokorny Michelle Pokrass Vitchyr\u00a0H. Pong Tolly Powell Alethea Power Boris Power Elizabeth Proehl Raul Puri Alec Radford Jack Rae Aditya Ramesh Cameron Raymond Francis Real Kendra Rimbach Carl Ross Bob Rotsted Henri Roussez Nick Ryder Mario Saltarelli Ted Sanders Shibani Santurkar Girish Sastry Heather Schmidt David Schnurr John Schulman Daniel Selsam Kyla Sheppard Toki Sherbakov Jessica Shieh Sarah Shoker Pranav Shyam Szymon Sidor Eric Sigler Maddie Simens Jordan Sitkin Katarina Slama Ian Sohl Benjamin Sokolowsky Yang Song Natalie Staudacher Felipe\u00a0Petroski Such Natalie Summers Ilya Sutskever Jie Tang Nikolas Tezak Madeleine\u00a0B. Thompson Phil Tillet Amin Tootoonchian Elizabeth Tseng Preston Tuggle Nick Turley Jerry Tworek Juan Felipe\u00a0Cer\u00f3n Uribe Andrea Vallone Arun Vijayvergiya Chelsea Voss Carroll Wainwright Justin\u00a0Jay Wang Alvin Wang Ben Wang Jonathan Ward Jason Wei CJ Weinmann Akila Welihinda Peter Welinder Jiayi Weng Lilian Weng Matt Wiethoff Dave Willner Clemens Winter Samuel Wolrich Hannah Wong Lauren Workman Sherwin Wu Jeff Wu Michael Wu Kai Xiao Tao Xu Sarah Yoo Kevin Yu Qiming Yuan Wojciech Zaremba Rowan Zellers Chong Zhang Marvin Zhang Shengjia Zhao Tianhao Zheng Juntang Zhuang William Zhuk and Barret Zoph. 2024. GPT-4 Technical Report. arxiv:https:\/\/arXiv.org\/abs\/2303.08774"},{"key":"e_1_3_3_2_62_2","unstructured":"OsenLogic. 2024. Osen Loigc OSD10 H.264\/AVC Baseline Video Decoder. https:\/\/github.com\/ICscholar\/H264_decoder-verilog-Cpp"},{"key":"e_1_3_3_2_63_2","unstructured":"Davide Paglieri Saurabh Dash Tim Rockt\u00e4schel and Jack Parker-Holder. 2024. Outliers and Calibration Sets have Diminishing Effect on Quantization of Modern LLMs. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2405.20835 (2024)."},{"key":"e_1_3_3_2_64_2","unstructured":"Keivalya Pandya and Mehfuza Holia. 2023. Automating Customer Service using LangChain: Building custom open-source GPT Chatbot for organizations. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2310.05421 (2023)."},{"key":"e_1_3_3_2_65_2","doi-asserted-by":"publisher","DOI":"10.1109\/MICRO56248.2022.00073"},{"key":"e_1_3_3_2_66_2","unstructured":"Stanislas Polu and Ilya Sutskever. 2020. Generative language modeling for automated theorem proving. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2009.03393 (2020)."},{"key":"e_1_3_3_2_67_2","volume-title":"2011 AAAI Spring Symposium Series","author":"Roemmele Melissa","year":"2011","unstructured":"Melissa Roemmele, Cosmin\u00a0Adrian Bejan, and Andrew\u00a0S Gordon. 2011. Choice of plausible alternatives: An evaluation of commonsense causal reasoning. In 2011 AAAI Spring Symposium Series."},{"key":"e_1_3_3_2_68_2","unstructured":"Bita\u00a0Darvish Rouhani Ritchie Zhao Ankit More Mathew Hall Alireza Khodamoradi Summer Deng Dhruv Choudhary Marius Cornea Eric Dellinger Kristof Denolf Stosic Dusan Venmugil Elango Maximilian Golub Alexander Heinecke Phil James-Roxby Dharmesh Jani Gaurav Kolhe Martin Langhammer Ada Li Levi Melnick Maral Mesmakhosroshahi Andres Rodriguez Michael Schulte Rasoul Shafipour Lei Shao Michael Siu Pradeep Dubey Paulius Micikevicius Maxim Naumov Colin Verrilli Ralph Wittig Doug Burger and Eric Chung. 2023. Microscaling Data Formats for Deep Learning. arxiv:https:\/\/arXiv.org\/abs\/2310.10537\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2310.10537"},{"key":"e_1_3_3_2_69_2","unstructured":"Baptiste Rozi\u00e8re Jonas Gehring Fabian Gloeckle Sten Sootla Itai Gat Xiaoqing\u00a0Ellen Tan Yossi Adi Jingyu Liu Romain Sauvestre Tal Remez J\u00e9r\u00e9my Rapin Artyom Kozhevnikov Ivan Evtimov Joanna Bitton Manish Bhatt Cristian\u00a0Canton Ferrer Aaron Grattafiori Wenhan Xiong Alexandre D\u00e9fossez Jade Copet Faisal Azhar Hugo Touvron Louis Martin Nicolas Usunier Thomas Scialom and Gabriel Synnaeve. 2024. Code Llama: Open Foundation Models for Code. arxiv:https:\/\/arXiv.org\/abs\/2308.12950"},{"key":"e_1_3_3_2_70_2","doi-asserted-by":"crossref","unstructured":"Keisuke Sakaguchi Ronan\u00a0Le Bras Chandra Bhagavatula and Yejin Choi. 2021. Winogrande: An adversarial winograd schema challenge at scale. Commun. ACM 64 9 (2021) 99\u2013106.","DOI":"10.1145\/3474381"},{"key":"e_1_3_3_2_71_2","doi-asserted-by":"crossref","unstructured":"Moritz Schubotz Philipp Scharpf Kaushal Dudhat Yash Nagar Felix Hamborg and Bela Gipp. 2018. Introducing MathQA: a Math-Aware question answering system. Information Discovery and Delivery 46 4 (2018) 214\u2013224.","DOI":"10.1108\/IDD-06-2018-0022"},{"key":"e_1_3_3_2_72_2","unstructured":"Tianqi Shi. 2024. H265 decoder write in verilog verified on Xilinx ZYNQ7035. https:\/\/github.com\/tishi43\/h265_decoder"},{"key":"e_1_3_3_2_73_2","doi-asserted-by":"publisher","DOI":"10.1145\/3575693.3575712"},{"key":"e_1_3_3_2_74_2","doi-asserted-by":"publisher","unstructured":"Gary\u00a0J. Sullivan Jens-Rainer Ohm Woo-Jin Han and Thomas Wiegand. 2012. Overview of the High Efficiency Video Coding (HEVC) Standard. IEEE Transactions on Circuits and Systems for Video Technology 22 12 (2012) 1649\u20131668. 10.1109\/TCSVT.2012.2221191","DOI":"10.1109\/TCSVT.2012.2221191"},{"key":"e_1_3_3_2_75_2","unstructured":"Hanshi Sun Zhuoming Chen Xinyu Yang Yuandong Tian and Beidi Chen. 2024. Triforce: Lossless acceleration of long sequence generation with hierarchical speculative decoding. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2404.11912 (2024)."},{"key":"e_1_3_3_2_76_2","unstructured":"Mingjie Sun Zhuang Liu Anna Bair and J\u00a0Zico Kolter. 2023. A simple and effective pruning approach for large language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2306.11695 (2023)."},{"key":"e_1_3_3_2_77_2","unstructured":"Yuxuan Sun Ruikang Liu Haoli Bai Han Bao Kang Zhao Yuening Li Jiaxin Hu Xianzhi Yu Lu Hou Chun Yuan Xin Jiang Wulong Liu and Jun Yao. 2025. FlatQuant: Flatness Matters for LLM Quantization. arxiv:https:\/\/arXiv.org\/abs\/2410.09426\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2410.09426"},{"key":"e_1_3_3_2_78_2","unstructured":"Hanlin Tang Shaoduo Gan Ammar\u00a0Ahmad Awan Samyam Rajbhandari Conglong Li Xiangru Lian Ji Liu Ce Zhang and Yuxiong He. 2021. 1-bit Adam: Communication Efficient Large-Scale Training with Adam\u2019s Convergence Speed. arxiv:https:\/\/arXiv.org\/abs\/2102.02888"},{"key":"e_1_3_3_2_79_2","unstructured":"Hugo Touvron Louis Martin Kevin Stone Peter Albert Amjad Almahairi Yasmine Babaei Nikolay Bashlykov Soumya Batra Prajjwal Bhargava Shruti Bhosale et\u00a0al. 2023. Llama 2: Open foundation and fine-tuned chat models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2307.09288 (2023)."},{"key":"e_1_3_3_2_80_2","doi-asserted-by":"publisher","DOI":"10.1117\/12.775472"},{"key":"e_1_3_3_2_81_2","unstructured":"Albert Tseng Jerry Chee Qingyao Sun Volodymyr Kuleshov and Christopher De\u00a0Sa. 2024. Quip#: Even better LLM quantization with hadamard incoherence and lattice codebooks. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2402.04396 (2024)."},{"key":"e_1_3_3_2_82_2","doi-asserted-by":"crossref","unstructured":"Alex Wang Amanpreet Singh Julian Michael Felix Hill Omer Levy and Samuel\u00a0R Bowman. 2018. GLUE: A multi-task benchmark and analysis platform for natural language understanding. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/1804.07461 (2018).","DOI":"10.18653\/v1\/W18-5446"},{"key":"e_1_3_3_2_83_2","first-page":"739","volume-title":"20th USENIX Symposium on Networked Systems Design and Implementation (NSDI 23)","author":"Wang Weiyang","year":"2023","unstructured":"Weiyang Wang, Moein Khazraee, Zhizhen Zhong, Manya Ghobadi, Zhihao Jia, Dheevatsa Mudigere, Ying Zhang, and Anthony Kewitsch. 2023. { TopoOpt} : Co-optimizing Network Topology and Parallelization Strategy for Distributed Training Jobs. In 20th USENIX Symposium on Networked Systems Design and Implementation (NSDI 23). 739\u2013767."},{"key":"e_1_3_3_2_84_2","unstructured":"Jason Wei Yi Tay Rishi Bommasani Colin Raffel Barret Zoph Sebastian Borgeaud Dani Yogatama Maarten Bosma Denny Zhou Donald Metzler et\u00a0al. 2022. Emergent abilities of large language models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2206.07682 (2022)."},{"key":"e_1_3_3_2_85_2","doi-asserted-by":"publisher","DOI":"10.1109\/ispass57527.2023.00035"},{"key":"e_1_3_3_2_86_2","unstructured":"Guangxuan Xiao Ji Lin Mickael Seznec Hao Wu Julien Demouth and Song Han. 2024. SmoothQuant: Accurate and Efficient Post-Training Quantization for Large Language Models. arxiv:https:\/\/arXiv.org\/abs\/2211.10438\u00a0[cs.CL]"},{"key":"e_1_3_3_2_87_2","unstructured":"Yuzhuang Xu Xu Han Zonghan Yang Shuo Wang Qingfu Zhu Zhiyuan Liu Weidong Liu and Wanxiang Che. 2024. OneBit: Towards Extremely Low-bit Large Language Models. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2402.11295 (2024)."},{"key":"e_1_3_3_2_88_2","doi-asserted-by":"crossref","unstructured":"Rowan Zellers Ari Holtzman Yonatan Bisk Ali Farhadi and Yejin Choi. 2019. Hellaswag: Can a machine really finish your sentence?arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/1905.07830 (2019).","DOI":"10.18653\/v1\/P19-1472"},{"key":"e_1_3_3_2_89_2","unstructured":"Jingzhao Zhang Tianxing He Suvrit Sra and Ali Jadbabaie. 2019. Why gradient clipping accelerates training: A theoretical justification for adaptivity. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/1905.11881 (2019)."},{"key":"e_1_3_3_2_90_2","unstructured":"Zhenyu Zhang Ying Sheng Tianyi Zhou Tianlong Chen Lianmin Zheng Ruisi Cai Zhao Song Yuandong Tian Christopher R\u00e9 Clark Barrett et\u00a0al. 2024. H2o: Heavy-hitter oracle for efficient generative inference of large language models. Advances in Neural Information Processing Systems 36 (2024)."}],"event":{"name":"MICRO 2025: 58th IEEE\/ACM International Symposium on Microarchitecture","location":"Seoul Korea","acronym":"MICRO 2025","sponsor":["SIGMICRO ACM Special Interest Group on Microarchitectural Research and Processing"]},"container-title":["Proceedings of the 58th IEEE\/ACM International Symposium on Microarchitecture"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3725843.3756078","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3725843.3756078","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,26]],"date-time":"2026-01-26T21:42:52Z","timestamp":1769463772000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3725843.3756078"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,17]]},"references-count":89,"alternative-id":["10.1145\/3725843.3756078","10.1145\/3725843"],"URL":"https:\/\/doi.org\/10.1145\/3725843.3756078","relation":{},"subject":[],"published":{"date-parts":[[2025,10,17]]},"assertion":[{"value":"2025-10-17","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}