{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,22]],"date-time":"2026-05-22T04:07:19Z","timestamp":1779422839162,"version":"3.53.1"},"publisher-location":"New York, NY, USA","reference-count":28,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,5,26]],"date-time":"2026-05-26T00:00:00Z","timestamp":1779753600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,5,26]]},"DOI":"10.1145\/3786335.3813160","type":"proceedings-article","created":{"date-parts":[[2026,5,22]],"date-time":"2026-05-22T03:16:22Z","timestamp":1779419782000},"page":"785-799","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["The Verifier Tax: Horizon Dependent Safety--Success Tradeoffs in Tool Using LLM Agents"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-8583-2208","authenticated-orcid":false,"given":"Tanmay","family":"Sah","sequence":"first","affiliation":[{"name":"Data Science, Harrisburg University of Science and Technology, Harrisburg, Pennsylvania, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5651-8365","authenticated-orcid":false,"given":"Vishal","family":"Srivastava","sequence":"additional","affiliation":[{"name":"Johns Hopkins University, Baltimore, Maryland, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-9190-9143","authenticated-orcid":false,"given":"Dolly","family":"Sah","sequence":"additional","affiliation":[{"name":"University of Utah, Salt Lake City, Utah, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7894-478X","authenticated-orcid":false,"given":"Kayden","family":"Jordan","sequence":"additional","affiliation":[{"name":"Harrisburg University of Science and Technology, Harrisburg, Pennsylvania, USA"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,5,26]]},"reference":[{"key":"e_1_3_3_1_2_2","unstructured":"Salaheddin Alzu\u2019bi Baran Nama Arda Kaz Anushri Eswaran Weiyuan Chen Sarvesh Khetan Rishab Bala Tu Vu and Sewoong Oh. 2026. ROMA: Recursive Open Meta-Agent Framework for Long-Horizon Multi-Agent Systems. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2602.01848 (2026)."},{"key":"e_1_3_3_1_3_2","unstructured":"Yuntao Bai Saurav Kadavath Sandipan Kundu Amanda Askell Jackson Kernion Andy Jones Anna Chen Anna Goldie Azalia Mirhoseini Cameron McKinnon et\u00a0al. 2022. Constitutional ai: Harmlessness from ai feedback. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2212.08073 (2022)."},{"key":"e_1_3_3_1_4_2","unstructured":"Aarya Doshi Yining Hong Congying Xu Eunsuk Kang Alexandros Kapravelos and Christian K\u00e4stner. 2026. Towards Verifiably Safe Tool Use for LLM Agents. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2601.08012 (2026)."},{"key":"e_1_3_3_1_5_2","unstructured":"Runnan Fang Yuan Liang Xiaobin Wang Jialong Wu Shuofei Qiao Pengjun Xie Fei Huang Huajun Chen and Ningyu Zhang. 2025. Memp: Exploring agent procedural memory. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2508.06433 (2025)."},{"key":"e_1_3_3_1_6_2","unstructured":"Yuval Felendler Parth\u00a0A Gandhi Idan Habler Yuval Elovici and Asaf Shabtai. 2026. From Tool Orchestration to Code Execution: A Study of MCP Design Choices. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2602.15945 (2026)."},{"key":"e_1_3_3_1_7_2","unstructured":"Team GLM : Aohan Zeng Bin Xu Bowen Wang Chenhui Zhang Da Yin Dan Zhang Diego Rojas Guanyu Feng Hanlin Zhao Hanyu Lai Hao Yu Hongning Wang Jiadai Sun Jiajie Zhang Jiale Cheng Jiayi Gui Jie Tang Jing Zhang Jingyu Sun Juanzi Li Lei Zhao Lindong Wu Lucen Zhong Mingdao Liu Minlie Huang Peng Zhang Qinkai Zheng Rui Lu Shuaiqi Duan Shudan Zhang Shulin Cao Shuxun Yang Weng\u00a0Lam Tam Wenyi Zhao Xiao Liu Xiao Xia Xiaohan Zhang Xiaotao Gu Xin Lv Xinghan Liu Xinyi Liu Xinyue Yang Xixuan Song Xunkai Zhang Yifan An Yifan Xu Yilin Niu Yuantao Yang Yueyan Li Yushi Bai Yuxiao Dong Zehan Qi Zhaoyu Wang Zhen Yang Zhengxiao Du Zhenyu Hou and Zihan Wang. 2024. ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools. arxiv:https:\/\/arXiv.org\/abs\/2406.12793\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2406.12793"},{"key":"e_1_3_3_1_8_2","unstructured":"Hakan Inan Kartikeya Upasani Jianfeng Chi Rashi Rungta Krithika Iyer Yuning Mao Michael Tontchev Qing Hu Brian Fuller Davide Testuggine et\u00a0al. 2023. Llama guard: Llm-based input-output safeguard for human-ai conversations. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2312.06674 (2023)."},{"key":"e_1_3_3_1_9_2","unstructured":"Ehud Karpas Omri Abend Yonatan Belinkov Barak Lenz Opher Lieber Nir Ratner Yoav Shoham Hofit Bata Yoav Levine Kevin Leyton-Brown et\u00a0al. 2022. MRKL Systems: A modular neuro-symbolic architecture that combines large language models external knowledge sources and discrete reasoning. CoRR abs\/2205.00445 (2022)."},{"key":"e_1_3_3_1_10_2","unstructured":"Woosuk Kwon Zhuohan Li Siyuan Zhuang Ying Sheng Lianmin Zheng Cody\u00a0Hao Yu Joseph\u00a0E. Gonzalez Hao Zhang and Ion Stoica. 2023. Efficient Memory Management for Large Language Model Serving with PagedAttention. arxiv:https:\/\/arXiv.org\/abs\/2309.06180\u00a0[cs.LG] https:\/\/arxiv.org\/abs\/2309.06180"},{"key":"e_1_3_3_1_11_2","unstructured":"Xiao Liu Hao Yu Hanchen Zhang Yifan Xu Xuanyu Lei Hanyu Lai Yu Gu Hangliang Ding Kaiwen Men Kejuan Yang et\u00a0al. 2023. Agentbench: Evaluating llms as agents. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2308.03688 (2023)."},{"key":"e_1_3_3_1_12_2","unstructured":"Aman Madaan Niket Tandon Prakhar Gupta Skyler Hallinan Luyu Gao Sarah Wiegreffe Uri Alon Nouha Dziri Shrimai Prabhumoye Yiming Yang et\u00a0al. 2023. Self-refine: Iterative refinement with self-feedback 2023. URL https:\/\/arxiv. org\/abs\/2303.17651 (2023)."},{"key":"e_1_3_3_1_13_2","doi-asserted-by":"publisher","DOI":"10.1145\/3711896.3736570"},{"key":"e_1_3_3_1_14_2","unstructured":"Subhrangshu Nandi Arghya Datta Nikhil Vichare Indranil Bhattacharya Huzefa Raja Jing Xu Shayan Ray Giuseppe Carenini Abhi Srivastava Aaron Chan et\u00a0al. 2025. Sop-bench: Complex industrial sops for evaluating llm agents. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2506.08119 (2025)."},{"key":"e_1_3_3_1_15_2","doi-asserted-by":"crossref","unstructured":"Sid Nayak Adelmo Morrison\u00a0Orozco Marina Have Jackson Zhang Vittal Thirumalai Darren Chen Aditya Kapoor Eric Robinson Karthik Gopalakrishnan James Harrison et\u00a0al. 2024. Long-horizon planning for multi-agent robots in partially observable environments. Advances in Neural Information Processing Systems 37 (2024) 67929\u201367967.","DOI":"10.52202\/079017-2169"},{"key":"e_1_3_3_1_16_2","unstructured":"OpenAI : Sandhini Agarwal Lama Ahmad Jason Ai Sam Altman Andy Applebaum Edwin Arbus Rahul\u00a0K. Arora Yu Bai Bowen Baker Haiming Bao Boaz Barak Ally Bennett Tyler Bertao Nivedita Brett Eugene Brevdo Greg Brockman Sebastien Bubeck Che Chang Kai Chen Mark Chen Enoch Cheung Aidan Clark Dan Cook Marat Dukhan Casey Dvorak Kevin Fives Vlad Fomenko Timur Garipov Kristian Georgiev Mia Glaese Tarun Gogineni Adam Goucher Lukas Gross Katia\u00a0Gil Guzman John Hallman Jackie Hehir Johannes Heidecke Alec Helyar Haitang Hu Romain Huet Jacob Huh Saachi Jain Zach Johnson Chris Koch Irina Kofman Dominik Kundel Jason Kwon Volodymyr Kyrylov Elaine\u00a0Ya Le Guillaume Leclerc James\u00a0Park Lennon Scott Lessans Mario Lezcano-Casado Yuanzhi Li Zhuohan Li Ji Lin Jordan Liss Lily Liu Jiancheng Liu Kevin Lu Chris Lu Zoran Martinovic Lindsay McCallum Josh McGrath Scott McKinney Aidan McLaughlin Song Mei Steve Mostovoy Tong Mu Gideon Myles Alexander Neitz Alex Nichol Jakub Pachocki Alex Paino Dana Palmie Ashley Pantuliano Giambattista Parascandolo Jongsoo Park Leher Pathak Carolina Paz Ludovic Peran Dmitry Pimenov Michelle Pokrass Elizabeth Proehl Huida Qiu Gaby Raila Filippo Raso Hongyu Ren Kimmy Richardson David Robinson Bob Rotsted Hadi Salman Suvansh Sanjeev Max Schwarzer D. Sculley Harshit Sikchi Kendal Simon Karan Singhal Yang Song Dane Stuckey Zhiqing Sun Philippe Tillet Sam Toizer Foivos Tsimpourlas Nikhil Vyas Eric Wallace Xin Wang Miles Wang Olivia Watkins Kevin Weil Amy Wendling Kevin Whinnery Cedric Whitney Hannah Wong Lin Yang Yu Yang Michihiro Yasunaga Kristen Ying Wojciech Zaremba Wenting Zhan Cyril Zhang Brian Zhang Eddie Zhang and Shengjia Zhao. 2025. gpt-oss-120b & gpt-oss-20b Model Card. arxiv:https:\/\/arXiv.org\/abs\/2508.10925\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2508.10925"},{"key":"e_1_3_3_1_17_2","unstructured":"Qwen : An Yang Baosong Yang Beichen Zhang Binyuan Hui Bo Zheng Bowen Yu Chengyuan Li Dayiheng Liu Fei Huang Haoran Wei Huan Lin Jian Yang Jianhong Tu Jianwei Zhang Jianxin Yang Jiaxi Yang Jingren Zhou Junyang Lin Kai Dang Keming Lu Keqin Bao Kexin Yang Le Yu Mei Li Mingfeng Xue Pei Zhang Qin Zhu Rui Men Runji Lin Tianhao Li Tianyi Tang Tingyu Xia Xingzhang Ren Xuancheng Ren Yang Fan Yang Su Yichang Zhang Yu Wan Yuqiong Liu Zeyu Cui Zhenru Zhang and Zihan Qiu. 2025. Qwen2.5 Technical Report. arxiv:https:\/\/arXiv.org\/abs\/2412.15115\u00a0[cs.CL] https:\/\/arxiv.org\/abs\/2412.15115"},{"key":"e_1_3_3_1_18_2","unstructured":"Maohao Ran Zhenglin Wan Cooper Lin Yanting Zhang Hongyu Xin Hongwei Fan Yibo Xu Beier Luo Yaxin Zhou Wangbo Zhao et\u00a0al. 2026. CaveAgent: Transforming LLMs into Stateful Runtime Operators. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2601.01569 (2026)."},{"key":"e_1_3_3_1_19_2","doi-asserted-by":"crossref","unstructured":"Timo Schick Jane Dwivedi-Yu Roberto Dess\u00ec Roberta Raileanu Maria Lomeli Eric Hambro Luke Zettlemoyer Nicola Cancedda and Thomas Scialom. 2023. Toolformer: Language models can teach themselves to use tools. Advances in neural information processing systems 36 (2023) 68539\u201368551.","DOI":"10.52202\/075280-2997"},{"key":"e_1_3_3_1_20_2","doi-asserted-by":"crossref","unstructured":"Noah Shinn Federico Cassano Ashwin Gopinath Karthik Narasimhan and Shunyu Yao. 2023. Reflexion: Language agents with verbal reinforcement learning. Advances in Neural Information Processing Systems 36 (2023) 8634\u20138652.","DOI":"10.52202\/075280-0377"},{"key":"e_1_3_3_1_21_2","unstructured":"Mohit Shridhar Xingdi Yuan Marc-Alexandre C\u00f4t\u00e9 Yonatan Bisk Adam Trischler and Matthew Hausknecht. 2020. Alfworld: Aligning text and embodied environments for interactive learning. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2010.03768 (2020)."},{"key":"e_1_3_3_1_22_2","unstructured":"Ruoyao Wen Hao Li Chaowei Xiao and Ning Zhang. 2026. AgentSys: Secure and Dynamic LLM Agents Through Explicit Hierarchical Memory Management. arxiv:https:\/\/arXiv.org\/abs\/2602.07398\u00a0[cs.CR] https:\/\/arxiv.org\/abs\/2602.07398"},{"key":"e_1_3_3_1_23_2","unstructured":"Zibo Xiao Jun Sun and Junjie Chen. 2026. AIR: Improving Agent Safety through Incident Response. arxiv:https:\/\/arXiv.org\/abs\/2602.11749\u00a0[cs.AI] https:\/\/arxiv.org\/abs\/2602.11749"},{"key":"e_1_3_3_1_24_2","unstructured":"Ruihan Yang Fanghua Ye Jian Li Siyu Yuan Yikai Zhang Zhaopeng Tu Xiaolong Li and Deqing Yang. 2025. The lighthouse of language: Enhancing llm agents via critique-guided improvement. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2503.16024 (2025)."},{"key":"e_1_3_3_1_25_2","unstructured":"Shunyu Yao Noah Shinn Pedram Razavi and Karthik Narasimhan. 2024. \u03c4 -bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2406.12045 (2024)."},{"key":"e_1_3_3_1_26_2","volume-title":"The eleventh international conference on learning representations","author":"Yao Shunyu","year":"2022","unstructured":"Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik\u00a0R Narasimhan, and Yuan Cao. 2022. React: Synergizing reasoning and acting in language models. In The eleventh international conference on learning representations."},{"key":"e_1_3_3_1_27_2","unstructured":"Weichen Zhang Yiyou Sun Pohao Huang Jiayue Pu Heyue Lin and Dawn Song. 2025. MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2507.21017 (2025)."},{"key":"e_1_3_3_1_28_2","unstructured":"Zhexin Zhang Shiyao Cui Yida Lu Jingzhuo Zhou Junxiao Yang Hongning Wang and Minlie Huang. 2024. Agent-safetybench: Evaluating the safety of llm agents. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2412.14470 (2024)."},{"key":"e_1_3_3_1_29_2","unstructured":"Shuyan Zhou Frank\u00a0F Xu Hao Zhu Xuhui Zhou Robert Lo Abishek Sridhar Xianyi Cheng Tianyue Ou Yonatan Bisk Daniel Fried et\u00a0al. 2023. Webarena: A realistic web environment for building autonomous agents. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2307.13854 (2023)."}],"event":{"name":"CAIS '26: ACM Conference on AI and Agentic Systems","location":"San Jose CA USA","acronym":"CAIS '26"},"container-title":["Proceedings of the ACM Conference on AI and Agentic Systems"],"original-title":[],"deposited":{"date-parts":[[2026,5,22]],"date-time":"2026-05-22T03:24:35Z","timestamp":1779420275000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3786335.3813160"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,5,26]]},"references-count":28,"alternative-id":["10.1145\/3786335.3813160","10.1145\/3786335"],"URL":"https:\/\/doi.org\/10.1145\/3786335.3813160","relation":{},"subject":[],"published":{"date-parts":[[2026,5,26]]},"assertion":[{"value":"2026-05-26","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}