{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,17]],"date-time":"2026-07-17T22:26:57Z","timestamp":1784327217331,"version":"3.55.0"},"reference-count":63,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"1","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Artif. Intell."],"published-print":{"date-parts":[[2026,1]]},"DOI":"10.1109\/tai.2025.3569516","type":"journal-article","created":{"date-parts":[[2025,5,13]],"date-time":"2025-05-13T13:49:44Z","timestamp":1747144184000},"page":"22-39","source":"Crossref","is-referenced-by-count":39,"title":["Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence"],"prefix":"10.1109","volume":"7","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-0836-4266","authenticated-orcid":false,"given":"Timothy R.","family":"McIntosh","sequence":"first","affiliation":[{"name":"Cyberoo Pty Ltd., Surrey Hills, NSW, Australia"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9416-1435","authenticated-orcid":false,"given":"Teo","family":"Susnjak","sequence":"additional","affiliation":[{"name":"Massey University, Auckland, New Zealand"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0059-0376","authenticated-orcid":false,"given":"Nalin","family":"Arachchilage","sequence":"additional","affiliation":[{"name":"RMIT University, Melbourne, VIC, Australia"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3047-1148","authenticated-orcid":false,"given":"Tong","family":"Liu","sequence":"additional","affiliation":[{"name":"Massey University, Auckland, New Zealand"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-3930-7381","authenticated-orcid":false,"given":"Dan","family":"Xu","sequence":"additional","affiliation":[{"name":"RMIT University, Melbourne, VIC, Australia"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1399-7175","authenticated-orcid":false,"given":"Paul","family":"Watters","sequence":"additional","affiliation":[{"name":"Cyberstronomy Pty Ltd., Ballarat, VIC, Australia"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9994-3778","authenticated-orcid":false,"given":"Malka N.","family":"Halgamuge","sequence":"additional","affiliation":[{"name":"RMIT University, Melbourne, VIC, Australia"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1145\/3605943"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.3390\/technologies13020051"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1145\/3641289"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1145\/3670691"},{"key":"ref5","article-title":"Evaluating Large Language Models Trained on Code","author":"Chen","year":"2021"},{"issue":"254","key":"ref6","first-page":"1","article-title":"Promptbench: A unified library for evaluation of large language models","volume":"25","author":"Zhu","year":"2024","journal-title":"J. of Mach. Learn. Res."},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/TAI.2023.3332837"},{"key":"ref8","article-title":"Holistic evaluation of language models","author":"Liang","year":"2022"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1080\/19439962.2014.940478"},{"issue":"5","key":"ref10","first-page":"1","article-title":"Beyond the imitation game: Quantifying and extrapolating the capabilities of language models","volume":"2023","author":"Srivastava","year":"2023","journal-title":"Trans. on Mach. Learn. Res."},{"key":"ref11","article-title":"Legalbench: A collaboratively built benchmark for measuring legal reasoning in large language models","volume":"36","author":"Guha","year":"2024","journal-title":"Proc. Adv. Neural Inf. Process. Syst."},{"key":"ref12","article-title":"KOLA: Carefully benchmarking world knowledge of large language models","author":"Yu","year":"2023"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-naacl.149"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TSE.2019.2927908"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CCGrid54584.2022.00077"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2867951"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TSE.2021.3071193"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1016\/j.iot.2020.100273"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.2965078"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ASE51524.2021.9678776"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1145\/3615355"},{"key":"ref22","first-page":"2361","article-title":"Measuring and modeling the label dynamics of online","volume-title":"Proc. 29th USENIX Secur. Symp. (USENIX Secur.),","author":"Zhu","year":"2020"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1145\/3479393"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1145\/3626772.3661346"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/w18-5446"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i19.30160"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TCDS.2024.3377445"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1016\/j.artint.2024.104145"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1016\/j.cose.2024.103964"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1145\/3637528.3671467"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/3655103.3655110"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2022.3229593"},{"key":"ref33","article-title":"Multilingual jailbreak challenges in large language models","author":"Deng","year":"2023"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1145\/3630106.3659048"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/COMTECH.2017.8065754"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1016\/j.chb.2019.08.004"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2023.122442"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.128"},{"key":"ref39","article-title":"Jailbroken: How does LLM safety training fail?","author":"Wei","year":"2023","journal-title":"Proc. 37th Conf. Neural Inf. Process. Syst."},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.eacl-long.5"},{"key":"ref41","article-title":"Measuring massive multitask language understanding","author":"Hendrycks","year":"2020"},{"key":"ref42","article-title":"Chain-of-thought hub: a continuous effort to measure large language models\u2019 reasoning performance","author":"Fu","year":"2023"},{"key":"ref43","article-title":"ARB: Advanced reasoning benchmark for large language models","author":"Sawada","year":"2023"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i16.29767"},{"key":"ref45","article-title":"C-Eval: A multi-level multi-discipline Chinese evaluation suite for foundation models","author":"Huang","year":"2023"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.148"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-023-06291-2"},{"key":"ref48","article-title":"M3KE: A massive multi-level multi-subject knowledge evaluation benchmark for Chinese large language models","author":"Liu","year":"2023"},{"key":"ref49","article-title":"On the tool manipulation capability of open-sourced large language models","volume-title":"Proc. Found. Models for Decision Making Workshop (NeurIPS)","author":"Xu","year":"2023"},{"key":"ref50","article-title":"SciBench: Evaluating college-level scientific problem-solving abilities of large language models","author":"Wang","year":"2023"},{"key":"ref51","article-title":"ToolAlpaca: Generalized tool learning for language models with 3000 simulated cases","author":"Tang","year":"2023"},{"key":"ref52","article-title":"ToolLLM: Facilitating large language models to master 16000+ real-world APIS","author":"Qin","year":"2023"},{"key":"ref53","article-title":"AgentBench: Evaluating LLMs as agents","author":"Liu","year":"2023"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.187"},{"key":"ref55","article-title":"BOLAA: Benchmarking and orchestrating LLM-augmented autonomous agents","author":"Liu","year":"2023"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.397"},{"key":"ref57","article-title":"Challenges in evaluating AI systems","author":"Ganguli","year":"2023"},{"key":"ref58","article-title":"Don\u2019t make your LLM an evaluation benchmark cheater","author":"Zhou","year":"2023"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1016\/j.neunet.2009.06.034"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1145\/3571730"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1145\/3605764.3623985"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1145\/3544548.3581388"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.findings-acl.703"}],"container-title":["IEEE Transactions on Artificial Intelligence"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/9078688\/11329125\/11002710.pdf?arnumber=11002710","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,6]],"date-time":"2026-01-06T05:27:44Z","timestamp":1767677264000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11002710\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,1]]},"references-count":63,"journal-issue":{"issue":"1"},"URL":"https:\/\/doi.org\/10.1109\/tai.2025.3569516","relation":{},"ISSN":["2691-4581"],"issn-type":[{"value":"2691-4581","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,1]]}}}