{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,29]],"date-time":"2026-05-29T13:13:22Z","timestamp":1780060402010,"version":"3.54.0"},"publisher-location":"New York, NY, USA","reference-count":66,"publisher":"ACM","license":[{"start":{"date-parts":[[2026,6,20]],"date-time":"2026-06-20T00:00:00Z","timestamp":1781913600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/legalcode"}],"funder":[{"name":"National Natural Science Foundation of China","award":["62272261"],"award-info":[{"award-number":["62272261"]}]},{"name":"Wuxi Research Institute of Applied Technologies, Tsinghua University","award":["20242001120"],"award-info":[{"award-number":["20242001120"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,6,21]]},"DOI":"10.1145\/3745756.3809249","type":"proceedings-article","created":{"date-parts":[[2026,5,29]],"date-time":"2026-05-29T12:52:21Z","timestamp":1780059141000},"page":"960-978","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Mobile GUI Agents under Real-world Threats: Are We There Yet?"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-5959-8604","authenticated-orcid":false,"given":"Guohong","family":"Liu","sequence":"first","affiliation":[{"name":"Institute for AI Industry Research (AIR), Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-2069-711X","authenticated-orcid":false,"given":"Jialei","family":"Ye","sequence":"additional","affiliation":[{"name":"University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-3759-6247","authenticated-orcid":false,"given":"Jiacheng","family":"Liu","sequence":"additional","affiliation":[{"name":"Peking University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-4327-1920","authenticated-orcid":false,"given":"Wei","family":"Liu","sequence":"additional","affiliation":[{"name":"MiLM Plus, Xiaomi Inc., Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-9392-6657","authenticated-orcid":false,"given":"Pengzhi","family":"Gao","sequence":"additional","affiliation":[{"name":"MiLM Plus, Xiaomi Inc., Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2383-226X","authenticated-orcid":false,"given":"Jian","family":"Luan","sequence":"additional","affiliation":[{"name":"MiLM Plus, Xiaomi Inc., Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1591-2526","authenticated-orcid":false,"given":"Yuanchun","family":"Li","sequence":"additional","affiliation":[{"name":"Institute for AI Industry Research (AIR), Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7352-8955","authenticated-orcid":false,"given":"Yunxin","family":"Liu","sequence":"additional","affiliation":[{"name":"Institute for AI Industry Research (AIR), Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,6,20]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"crossref","unstructured":"Naveed Akhtar and Ajmal Mian. 2018. Threat of Adversarial Attacks on Deep Learning in Computer Vision: A Survey. arXiv:1801.00553 [cs.CV] https:\/\/arxiv.org\/abs\/1801.00553","DOI":"10.1109\/ACCESS.2018.2807385"},{"key":"e_1_3_2_1_2_1","volume-title":"Cheng Li, Du Li, Elton Zheng, Jeff Rasley, Shaden Smith, Olatunji Ruwase, and Yuxiong He.","author":"Aminabadi Reza Yazdani","year":"2022","unstructured":"Reza Yazdani Aminabadi, Samyam Rajbhandari, Minjia Zhang, Ammar Ahmad Awan, Cheng Li, Du Li, Elton Zheng, Jeff Rasley, Shaden Smith, Olatunji Ruwase, and Yuxiong He. 2022. DeepSpeed Inference: Enabling Efficient Inference of Transformer Models at Unprecedented Scale. arXiv:2207.00032 [cs.LG] https:\/\/arxiv.org\/abs\/2207.00032"},{"key":"e_1_3_2_1_3_1","unstructured":"Maksym Andriushchenko Alexandra Souly Mateusz Dziemian Derek Duenas Maxwell Lin Justin Wang Dan Hendrycks Andy Zou Zico Kolter Matt Fredrikson Eric Winsor Jerome Wynne Yarin Gal and Xander Davies. 2025. AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents. arXiv:2410.09024 [cs.LG] https:\/\/arxiv.org\/abs\/2410.09024"},{"key":"e_1_3_2_1_4_1","unstructured":"Anthropic. 2025. Introducing Computer Use a New Claude 3.5 Sonnet and Claude 3.5 Haiku \\ Anthropic. https:\/\/www.anthropic.com\/news\/3-5-models-and-computer-use."},{"key":"e_1_3_2_1_5_1","volume-title":"Roundy","author":"Apruzzese Giovanni","year":"2022","unstructured":"Giovanni Apruzzese, Hyrum S. Anderson, Savino Dambra, David Freeman, Fabio Pierazzi, and Kevin A. Roundy. 2022. \"Real Attackers Don't Compute Gradients\": Bridging the Gap Between Adversarial ML Research and Practice. arXiv:2212.14315 [cs.CR] https:\/\/arxiv.org\/abs\/2212.14315"},{"key":"e_1_3_2_1_6_1","unstructured":"Shuai Bai Keqin Chen Xuejing Liu Jialin Wang Wenbin Ge Sibo Song Kai Dang Peng Wang Shijie Wang Jun Tang Humen Zhong Yuanzhi Zhu Mingkun Yang Zhaohai Li Jianqiang Wan Pengfei Wang Wei Ding Zheren Fu Yiheng Xu Jiabo Ye Xi Zhang Tianbao Xie Zesen Cheng Hang Zhang Zhibo Yang Haiyang Xu and Junyang Lin. 2025. Qwen2.5-VL Technical Report. arXiv:2502.13923 [cs.CV] https:\/\/arxiv.org\/abs\/2502.13923"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"crossref","unstructured":"Nicholas Carlini and David Wagner. 2018. Audio Adversarial Examples: Targeted Attacks on Speech-to-Text. arXiv:1801.01944 [cs.LG] https:\/\/arxiv.org\/abs\/1801.01944","DOI":"10.1109\/SPW.2018.00009"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","unstructured":"Ada Chen Yongjiang Wu Junyuan Zhang Jingyu Xiao Shu Yang Jen-tse Huang Kun Wang Wenxuan Wang and Shuai Wang. 2025. A Survey on the Safety and Security Threats of Computer-Using Agents: JARVIS or Ultron? arXiv:2505.10924 [cs] 10.48550\/arXiv.2505.10924","DOI":"10.48550\/arXiv.2505.10924"},{"key":"e_1_3_2_1_9_1","volume-title":"Kun Wang, Wenxuan Wang, and Shuai Wang.","author":"Chen Ada","year":"2025","unstructured":"Ada Chen, Yongjiang Wu, Junyuan Zhang, Jingyu Xiao, Shu Yang, Jen tse Huang, Kun Wang, Wenxuan Wang, and Shuai Wang. 2025. A Survey on the Safety and Security Threats of Computer-Using Agents: JARVIS or Ultron? arXiv:2505.10924 [cs.CL] https:\/\/arxiv.org\/abs\/2505.10924"},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"crossref","unstructured":"Kanzhi Cheng Qiushi Sun Yougang Chu Fangzhi Xu Yantao Li Jianbing Zhang and Zhiyong Wu. 2024. SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents. arXiv:2401.10935 [cs.HC] https:\/\/arxiv.org\/abs\/2401.10935","DOI":"10.18653\/v1\/2024.acl-long.505"},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","unstructured":"Gaole Dai Shiqi Jiang Ting Cao Yuanchun Li Yuqing Yang Rui Tan Mo Li and Lili Qiu. 2025. Advancing Mobile GUI Agents: A Verifier-Driven Approach to Practical Deployment. arXiv:2503.15937 [cs] 10.48550\/arXiv.2503.15937","DOI":"10.48550\/arXiv.2503.15937"},{"key":"e_1_3_2_1_12_1","unstructured":"Google DeepMind. 2025. Project Astra. https:\/\/deepmind.google\/models\/project-astra\/."},{"key":"e_1_3_2_1_13_1","unstructured":"DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song Ruoyu Zhang Runxin Xu Qihao Zhu Shirong Ma Peiyi Wang Xiao Bi Xiaokang Zhang Xingkai Yu Yu Wu Z. F. Wu Zhibin Gou Zhihong Shao Zhuoshu Li Ziyi Gao Aixin Liu Bing Xue Bingxuan Wang Bochao Wu Bei Feng Chengda Lu Chenggang Zhao Chengqi Deng Chenyu Zhang Chong Ruan Damai Dai Deli Chen Dongjie Ji Erhang Li Fangyun Lin Fucong Dai Fuli Luo Guangbo Hao Guanting Chen Guowei Li H. Zhang Han Bao Hanwei Xu Haocheng Wang Honghui Ding Huajian Xin Huazuo Gao Hui Qu Hui Li Jianzhong Guo Jiashi Li Jiawei Wang Jingchang Chen Jingyang Yuan Junjie Qiu Junlong Li J. L. Cai Jiaqi Ni Jian Liang Jin Chen Kai Dong Kai Hu Kaige Gao Kang Guan Kexin Huang Kuai Yu Lean Wang Lecong Zhang Liang Zhao Litong Wang Liyue Zhang Lei Xu Leyi Xia Mingchuan Zhang Minghua Zhang Minghui Tang Meng Li Miaojun Wang Mingming Li Ning Tian Panpan Huang Peng Zhang Qiancheng Wang Qinyu Chen Qiushi Du Ruiqi Ge Ruisong Zhang Ruizhe Pan Runji Wang R. J. Chen R. L. Jin Ruyi Chen Shanghao Lu Shangyan Zhou Shanhuang Chen Shengfeng Ye Shiyu Wang Shuiping Yu Shunfeng Zhou Shuting Pan S. S. Li Shuang Zhou Shaoqing Wu Shengfeng Ye Tao Yun Tian Pei Tianyu Sun T. Wang Wangding Zeng Wanjia Zhao Wen Liu Wenfeng Liang Wenjun Gao Wenqin Yu Wentao Zhang W. L. Xiao Wei An Xiaodong Liu Xiaohan Wang Xiaokang Chen Xiaotao Nie Xin Cheng Xin Liu Xin Xie Xingchao Liu Xinyu Yang Xinyuan Li Xuecheng Su Xuheng Lin X. Q. Li Xiangyue Jin Xiaojin Shen Xiaosha Chen Xiaowen Sun Xiaoxiang Wang Xinnan Song Xinyi Zhou Xianzu Wang Xinxia Shan Y. K. Li Y. Q. Wang Y. X. Wei Yang Zhang Yanhong Xu Yao Li Yao Zhao Yaofeng Sun Yaohui Wang Yi Yu Yichao Zhang Yifan Shi Yiliang Xiong Ying He Yishi Piao Yisong Wang Yixuan Tan Yiyang Ma Yiyuan Liu Yongqiang Guo Yuan Ou Yuduan Wang Yue Gong Yuheng Zou Yujia He Yunfan Xiong Yuxiang Luo Yuxiang You Yuxuan Liu Yuyang Zhou Y. X. Zhu Yanhong Xu Yanping Huang Yaohui Li Yi Zheng Yuchen Zhu Yunxian Ma Ying Tang Yukun Zha Yuting Yan Z. Z. Ren Zehui Ren Zhangli Sha Zhe Fu Zhean Xu Zhenda Xie Zhengyan Zhang Zhewen Hao Zhicheng Ma Zhigang Yan Zhiyu Wu Zihui Gu Zijia Zhu Zijun Liu Zilin Li Ziwei Xie Ziyang Song Zizheng Pan Zhen Huang Zhipeng Xu Zhongyu Zhang and Zhen Zhang. 2025. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948 [cs.CL] https:\/\/arxiv.org\/abs\/2501.12948"},{"key":"e_1_3_2_1_14_1","unstructured":"Xiang Deng Yu Gu Boyuan Zheng Shijie Chen Samuel Stevens Boshi Wang Huan Sun and Yu Su. 2023. Mind2Web: Towards a Generalist Agent for the Web. arXiv:2306.06070 [cs.CL] https:\/\/arxiv.org\/abs\/2306.06070"},{"key":"e_1_3_2_1_15_1","unstructured":"Google. 2025. Introducing the Gemini 2.5 Computer Use Model. https:\/\/blog.google\/technology\/google-deepmind\/gemini-computer-use-model\/."},{"key":"e_1_3_2_1_16_1","unstructured":"Boyu Gou Ruohan Wang Boyuan Zheng Yanan Xie Cheng Chang Yiheng Shu Huan Sun and Yu Su. 2024. Navigating the Digital World as Humans Do: Universal Visual Grounding for GUI Agents. arXiv:2410.05243 [cs.AI] https:\/\/arxiv.org\/abs\/2410.05243"},{"key":"e_1_3_2_1_17_1","unstructured":"Hongliang He Wenlin Yao Kaixin Ma Wenhao Yu Yong Dai Hongming Zhang Zhenzhong Lan and Dong Yu. 2024. WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models. arXiv:2401.13919 [cs.CL] https:\/\/arxiv.org\/abs\/2401.13919"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"crossref","unstructured":"Wenyi Hong Weihan Wang Qingsong Lv Jiazheng Xu Wenmeng Yu Junhui Ji Yan Wang Zihan Wang Yuxuan Zhang Juanzi Li Bin Xu Yuxiao Dong Ming Ding and Jie Tang. 2024. CogAgent: A Visual Language Model for GUI Agents. arXiv:2312.08914 [cs.CV] https:\/\/arxiv.org\/abs\/2312.08914","DOI":"10.1109\/CVPR52733.2024.01354"},{"key":"e_1_3_2_1_19_1","unstructured":"Edward J. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang and Weizhu Chen. 2021. LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685 [cs.CL] https:\/\/arxiv.org\/abs\/2106.09685"},{"key":"e_1_3_2_1_20_1","volume-title":"MOTIF: A Large Malware Reference Dataset with Ground Truth Family Labels. arXiv:2111.15031 [cs.LG] https:\/\/arxiv.org\/abs\/2111.15031","author":"Joyce Robert J.","year":"2021","unstructured":"Robert J. Joyce, Dev Amlani, Charles Nicholas, and Edward Raff. 2021. MOTIF: A Large Malware Reference Dataset with Ground Truth Family Labels. arXiv:2111.15031 [cs.LG] https:\/\/arxiv.org\/abs\/2111.15031"},{"key":"e_1_3_2_1_21_1","volume-title":"Po-Yu Huang","author":"Koh Jing Yu","year":"2024","unstructured":"Jing Yu Koh, Robert Lo, Lawrence Jang, Vikram Duvvur, Ming Chong Lim, Po-Yu Huang, Graham Neubig, Shuyan Zhou, Ruslan Salakhutdinov, and Daniel Fried. 2024. VisualWebArena: Evaluating Multimodal Agents on Realistic Visual Web Tasks. arXiv:2401.13649 [cs.LG] https:\/\/arxiv.org\/abs\/2401.13649"},{"key":"e_1_3_2_1_22_1","volume-title":"Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, and Jie Tang.","author":"Lai Hanyu","year":"2024","unstructured":"Hanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, and Jie Tang. 2024. AutoWebGLM: A Large Language Model-based Web Navigating Agent. arXiv:2404.03648 [cs.CL] https:\/\/arxiv.org\/abs\/2404.03648"},{"key":"e_1_3_2_1_23_1","volume-title":"W. Bradley Knox, and Kimin Lee.","author":"Lee Juyong","year":"2024","unstructured":"Juyong Lee, Dongyoon Hahm, June Suk Choi, W. Bradley Knox, and Kimin Lee. 2024. MobileSafetyBench: Evaluating Safety of Autonomous Agents in Mobile Device Control. arXiv:2410.17520 [cs.LG] https:\/\/arxiv.org\/abs\/2410.17520"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","unstructured":"Jungjae Lee Dongjae Lee Chihun Choi Youngmin Im Jaeyoung Wi Kihong Heo Sangeun Oh Sunjae Lee and Insik Shin. 2025. VeriSafe Agent: Safeguarding Mobile GUI Agent via Logic-based Action Verification. arXiv:2503.18492 [cs] 10.48550\/arXiv.2503.18492","DOI":"10.48550\/arXiv.2503.18492"},{"key":"e_1_3_2_1_25_1","volume-title":"Hojun Choi, Steven Y. Ko, Sangeun Oh, and Insik Shin.","author":"Lee Sunjae","year":"2024","unstructured":"Sunjae Lee, Junyoung Choi, Jungjae Lee, Munim Hasan Wasi, Hojun Choi, Steven Y. Ko, Sangeun Oh, and Insik Shin. 2024. Explore, Select, Derive, and Recall: Augmenting LLM with Human-like Memory for Mobile Task Automation. arXiv:2312.03003 [cs.HC] https:\/\/arxiv.org\/abs\/2312.03003"},{"key":"e_1_3_2_1_26_1","unstructured":"Ido Levy Ben Wiesel Sami Marreed Alon Oved Avi Yaeli and Segev Shlomov. 2025. ST-WebAgentBench: A Benchmark for Evaluating Safety and Trustworthiness in Web Agents. arXiv:2410.06703 [cs.AI] https:\/\/arxiv.org\/abs\/2410.06703"},{"key":"e_1_3_2_1_27_1","unstructured":"Wei Li William Bishop Alice Li Chris Rawles Folawiyo Campbell-Ajala Divya Tyamagundlu and Oriana Riva. 2024. On the Effects of Data Scale on UI Control Agents. arXiv:2406.03679 [cs.AI] https:\/\/arxiv.org\/abs\/2406.03679"},{"key":"e_1_3_2_1_28_1","unstructured":"Yang Li Jiacong He Xin Zhou Yuan Zhang and Jason Baldridge. 2020. Mapping Natural Language Instructions to Mobile UI Action Sequences. arXiv:2005.03776 [cs.CL] https:\/\/arxiv.org\/abs\/2005.03776"},{"key":"e_1_3_2_1_29_1","unstructured":"Yuanchun Li Hao Wen Weijun Wang Xiangyu Li Yizhen Yuan Guohong Liu Jiacheng Liu Wenxing Xu Xiang Wang Yi Sun Rui Kong Yile Wang Hanfei Geng Jian Luan Xuefeng Jin Zilong Ye Guanjing Xiong Fan Zhang Xiang Li Mengwei Xu Zhijun Li Peng Li Yang Liu Ya-Qin Zhang and Yunxin Liu. 2024. Personal LLM Agents: Insights and Survey about the Capability Efficiency and Security. arXiv:2401.05459 [cs.HC] https:\/\/arxiv.org\/abs\/2401.05459"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"publisher","unstructured":"Xinbei Ma Yiting Wang Yao Yao Tongxin Yuan Aston Zhang Zhuosheng Zhang and Hai Zhao. 2024. Caution for the Environment: Multimodal Agents Are Susceptible to Environmental Distractions. arXiv:2408.02544 10.48550\/arXiv.2408.02544","DOI":"10.48550\/arXiv.2408.02544"},{"key":"e_1_3_2_1_31_1","unstructured":"Gr\u00e9goire Mialon Cl\u00e9mentine Fourrier Craig Swift Thomas Wolf Yann LeCun and Thomas Scialom. 2023. GAIA: a benchmark for General AI Assistants. arXiv:2311.12983 [cs.CL] https:\/\/arxiv.org\/abs\/2311.12983"},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"crossref","unstructured":"Dang Nguyen Jian Chen Yu Wang Gang Wu Namyong Park Zhengmian Hu Hanjia Lyu Junda Wu Ryan Aponte Yu Xia Xintong Li Jing Shi Hongjie Chen Viet Dac Lai Zhouhang Xie Sungchul Kim Ruiyi Zhang Tong Yu Mehrab Tanjim Nesreen K. Ahmed Puneet Mathur Seunghyun Yoon Lina Yao Branislav Kveton Thien Huu Nguyen Trung Bui Tianyi Zhou Ryan A. Rossi and Franck Dernoncourt. 2024. GUI Agents: A Survey. arXiv:2412.13501 [cs.AI] https:\/\/arxiv.org\/abs\/2412.13501","DOI":"10.18653\/v1\/2025.findings-acl.1158"},{"key":"e_1_3_2_1_33_1","unstructured":"OpenAI. 2025. Computer-Use Agent. https:\/\/openai.com\/zh-Hans-CN\/index\/computer-using-agent\/."},{"key":"e_1_3_2_1_34_1","unstructured":"Vaney Patel. 2025. TikTok Owner ByteDance Unveils AI Phone Assistant \u2014 China's Challenge To The iPhone. https:\/\/www.ibtimes.co.uk\/tiktok-owner-bytedance-unveils-ai-phone-assistant-chinas-challenge-iphone-1759633."},{"key":"e_1_3_2_1_35_1","unstructured":"Yujia Qin Yining Ye Junjie Fang Haoming Wang Shihao Liang Shizuo Tian Junda Zhang Jiahao Li Yunxin Li Shijue Huang Wanjun Zhong Kuanye Li Jiale Yang Yu Miao Woyu Lin Longxiang Liu Xu Jiang Qianli Ma Jingyu Li Xiaojun Xiao Kai Cai Chuang Li Yaowei Zheng Chaolin Jin Chen Li Xiao Zhou Minchao Wang Haoli Chen Zhaojian Li Haihua Yang Haifeng Liu Feng Lin Tao Peng Xin Liu and Guang Shi. 2025. UI-TARS: Pioneering Automated GUI Interaction with Native Agents. arXiv:2501.12326 [cs.AI] https:\/\/arxiv.org\/abs\/2501.12326"},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"publisher","unstructured":"Christopher Rawles Sarah Clinckemaillie Yifan Chang Jonathan Waltz Gabrielle Lau Marybeth Fair Alice Li William Bishop Wei Li Folawiyo Campbell-Ajala Daniel Toyama Robert Berry Divya Tyamagundlu Timothy Lillicrap and Oriana Riva. 2024. AndroidWorld: A Dynamic Benchmarking Environment for Autonomous Agents. arXiv:2405.14573 10.48550\/arXiv.2405.14573","DOI":"10.48550\/arXiv.2405.14573"},{"key":"e_1_3_2_1_37_1","unstructured":"Christopher Rawles Alice Li Daniel Rodriguez Oriana Riva and Timothy Lillicrap. 2023. Android in the Wild: A Large-Scale Dataset for Android Device Control. arXiv:2307.10088 [cs.LG] https:\/\/arxiv.org\/abs\/2307.10088"},{"key":"e_1_3_2_1_38_1","unstructured":"Yangjun Ruan Honghua Dong Andrew Wang Silviu Pitis Yongchao Zhou Jimmy Ba Yann Dubois Chris J. Maddison and Tatsunori Hashimoto. 2024. Identifying the Risks of LM Agents with an LM-Emulated Sandbox. arXiv:2309.15817 [cs.AI] https:\/\/arxiv.org\/abs\/2309.15817"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"crossref","unstructured":"Xinyue Shen Zeyuan Chen Michael Backes Yun Shen and Yang Zhang. 2024. \"Do Anything Now\": Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models. arXiv:2308.03825 [cs.CR] https:\/\/arxiv.org\/abs\/2308.03825","DOI":"10.1145\/3658644.3670388"},{"key":"e_1_3_2_1_40_1","volume-title":"Proceedings of the 34th International Conference on Machine Learning (Proceedings of Machine Learning Research","volume":"3144","author":"Shi Tianlin","year":"2017","unstructured":"Tianlin Shi, Andrej Karpathy, Linxi Fan, Jonathan Hernandez, and Percy Liang. 2017. World of Bits: An Open-Domain Platform for Web-Based Agents. In Proceedings of the 34th International Conference on Machine Learning (Proceedings of Machine Learning Research, Vol. 70), Doina Precup and Yee Whye Teh (Eds.). PMLR, Sydney, NSW, Australia, 3135\u20133144. https:\/\/proceedings.mlr.press\/v70\/shi17a.html"},{"key":"e_1_3_2_1_41_1","unstructured":"Yucheng Shi Wenhao Yu Wenlin Yao Wenhu Chen and Ninghao Liu. 2025. Towards Trustworthy GUI Agents: A Survey. arXiv:2503.23434 [cs.LG] https:\/\/arxiv.org\/abs\/2503.23434"},{"key":"e_1_3_2_1_42_1","doi-asserted-by":"publisher","unstructured":"Qiushi Sun Mukai Li Zhoumianze Liu Zhihui Xie Fangzhi Xu Zhangyue Yin Kanzhi Cheng Zehao Li Zichen Ding Qi Liu Zhiyong Wu Zhuosheng Zhang Ben Kao and Lingpeng Kong. 2025. OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows. arXiv:2510.24411 [cs] 10.48550\/arXiv.2510.24411","DOI":"10.48550\/arXiv.2510.24411"},{"key":"e_1_3_2_1_43_1","unstructured":"Andrew Tarantola. 2024. Apple Intelligence Acts as a Personal AI Agent across All Your Apps."},{"key":"e_1_3_2_1_44_1","volume-title":"Alejandra Zambrano, Arkil Patel, Esin Durmus, Spandana Gella, Karolina Sta\u0144czak, and Siva Reddy.","author":"Tur Ada Defne","year":"2025","unstructured":"Ada Defne Tur, Nicholas Meade, Xing Han L\u00f9, Alejandra Zambrano, Arkil Patel, Esin Durmus, Spandana Gella, Karolina Sta\u0144czak, and Siva Reddy. 2025. SafeArena: Evaluating the Safety of Autonomous Web Agents. arXiv:2503.04957 [cs.LG] https:\/\/arxiv.org\/abs\/2503.04957"},{"key":"e_1_3_2_1_45_1","volume-title":"UGIF: UI Grounded Instruction Following. arXiv:2211.07615 [cs.CL] https:\/\/arxiv.org\/abs\/2211.07615","author":"Venkatesh Sagar Gubbi","year":"2023","unstructured":"Sagar Gubbi Venkatesh, Partha Talukdar, and Srini Narayanan. 2023. UGIF: UI Grounded Instruction Following. arXiv:2211.07615 [cs.CL] https:\/\/arxiv.org\/abs\/2211.07615"},{"key":"e_1_3_2_1_46_1","volume-title":"Xuhui Zhou, Zora Zhiruo Wang, Nouha Dziri, Graham Neubig, and Maarten Sap.","author":"Vijayvargiya Sanidhya","year":"2025","unstructured":"Sanidhya Vijayvargiya, Aditya Bharat Soni, Xuhui Zhou, Zora Zhiruo Wang, Nouha Dziri, Graham Neubig, and Maarten Sap. 2025. OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety. arXiv:2507.06134 [cs.AI] https:\/\/arxiv.org\/abs\/2507.06134"},{"key":"e_1_3_2_1_47_1","unstructured":"Haoming Wang Haoyang Zou Huatong Song Jiazhan Feng Junjie Fang Junting Lu Longxiang Liu Qinyu Luo Shihao Liang Shijue Huang Wanjun Zhong Yining Ye Yujia Qin Yuwen Xiong Yuxin Song Zhiyong Wu Aoyan Li Bo Li Chen Dun Chong Liu Daoguang Zan Fuxing Leng Hanbin Wang Hao Yu Haobin Chen Hongyi Guo Jing Su Jingjia Huang Kai Shen Kaiyu Shi Lin Yan Peiyao Zhao Pengfei Liu Qinghao Ye Renjie Zheng Shulin Xin Wayne Xin Zhao Wen Heng Wenhao Huang Wenqian Wang Xiaobo Qin Yi Lin Youbin Wu Zehui Chen Zihao Wang Baoquan Zhong Xinchun Zhang Xujing Li Yuanfan Li Zhongkai Zhao Chengquan Jiang Faming Wu Haotian Zhou Jinlin Pang Li Han Qi Liu Qianli Ma Siyao Liu Songhua Cai Wenqi Fu Xin Liu Yaohui Wang Zhi Zhang Bo Zhou Guoliang Li Jiajun Shi Jiale Yang Jie Tang Li Li Qihua Han Taoran Lu Woyu Lin Xiaokang Tong Xinyao Li Yichi Zhang Yu Miao Zhengxuan Jiang Zili Li Ziyuan Zhao Chenxin Li Dehua Ma Feng Lin Ge Zhang Haihua Yang Hangyu Guo Hongda Zhu Jiaheng Liu Junda Du Kai Cai Kuanye Li Lichen Yuan Meilan Han Minchao Wang Shuyue Guo Tianhao Cheng Xiaobo Ma Xiaojun Xiao Xiaolong Huang Xinjie Chen Yidi Du Yilin Chen Yiwen Wang Zhaojian Li Zhenzhu Yang Zhiyuan Zeng Chaolin Jin Chen Li Hao Chen Haoli Chen Jian Chen Qinghao Zhao and Guang Shi. 2025. UI-TARS-2 Technical Report: Advancing GUI Agent with Multi-Turn Reinforcement Learning. arXiv:2509.02544 [cs.AI] https:\/\/arxiv.org\/abs\/2509.02544"},{"key":"e_1_3_2_1_48_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11704-024-40231-1"},{"key":"e_1_3_2_1_49_1","volume-title":"Shiqi Jiang, Yunhao Liu, Yaqin Zhang, and Yunxin Liu.","author":"Wen Hao","year":"2024","unstructured":"Hao Wen, Yuanchun Li, Guohong Liu, Shanhui Zhao, Tao Yu, Toby Jia-Jun Li, Shiqi Jiang, Yunhao Liu, Yaqin Zhang, and Yunxin Liu. 2024. AutoDroid: LLM-powered Task Automation in Android. arXiv:2308.15272 [cs.AI] https:\/\/arxiv.org\/abs\/2308.15272"},{"key":"e_1_3_2_1_50_1","doi-asserted-by":"crossref","unstructured":"Hao Wen Shizuo Tian Borislav Pavlov Wenjie Du Yixuan Li Ge Chang Shanhui Zhao Jiacheng Liu Yunxin Liu Ya-Qin Zhang and Yuanchun Li. 2024. AutoDroid-V2: Boosting SLM-based GUI Agents via Code Generation. arXiv:2412.18116 [cs.AI] https:\/\/arxiv.org\/abs\/2412.18116","DOI":"10.1145\/3711875.3729134"},{"key":"e_1_3_2_1_51_1","volume-title":"Ruslan Salakhutdinov, Daniel Fried, and Aditi Raghunathan.","author":"Wu Chen Henry","year":"2025","unstructured":"Chen Henry Wu, Rishi Shah, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, and Aditi Raghunathan. 2025. Dissecting Adversarial Robustness of Multimodal LM Agents. arXiv:2406.12814 [cs.LG] https:\/\/arxiv.org\/abs\/2406.12814"},{"key":"e_1_3_2_1_52_1","volume-title":"Ruslan Salakhutdinov, Daniel Fried, and Aditi Raghunathan.","author":"Wu Chen Henry","year":"2025","unstructured":"Chen Henry Wu, Rishi Shah, Jing Yu Koh, Ruslan Salakhutdinov, Daniel Fried, and Aditi Raghunathan. 2025. Dissecting Adversarial Robustness of Multimodal LM Agents. arXiv:2406.12814 [cs.LG] https:\/\/arxiv.org\/abs\/2406.12814"},{"key":"e_1_3_2_1_53_1","volume-title":"Paul Pu Liang, and Yu Qiao","author":"Wu Zhiyong","year":"2024","unstructured":"Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, and Yu Qiao. 2024. OS-ATLAS: A Foundation Action Model for Generalist GUI Agents. arXiv:2410.23218 [cs.CL] https:\/\/arxiv.org\/abs\/2410.23218"},{"key":"e_1_3_2_1_54_1","volume-title":"Zhoujun Cheng, Dongchan Shin, Fangyu Lei, Yitao Liu, Yiheng Xu, Shuyan Zhou, Silvio Savarese, Caiming Xiong, Victor Zhong, and Tao Yu.","author":"Xie Tianbao","year":"2024","unstructured":"Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li, Siheng Zhao, Ruisheng Cao, Toh Jing Hua, Zhoujun Cheng, Dongchan Shin, Fangyu Lei, Yitao Liu, Yiheng Xu, Shuyan Zhou, Silvio Savarese, Caiming Xiong, Victor Zhong, and Tao Yu. 2024. OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments. arXiv:2404.07972 [cs.AI] https:\/\/arxiv.org\/abs\/2404.07972"},{"key":"e_1_3_2_1_55_1","doi-asserted-by":"crossref","unstructured":"Mingzhe Xing Rongkai Zhang Hui Xue Qi Chen Fan Yang and Zhen Xiao. 2024. Understanding the Weakness of Large Language Model Agents within a Complex Android Environment. arXiv:2402.06596 [cs.AI] https:\/\/arxiv.org\/abs\/2402.06596","DOI":"10.1145\/3637528.3671650"},{"key":"e_1_3_2_1_56_1","unstructured":"Chejian Xu Mintong Kang Jiawei Zhang Zeyi Liao Lingbo Mo Mengqi Yuan Huan Sun and Bo Li. 2024. AdvWeb: Controllable Black-box Attacks on VLM-powered Web Agents. arXiv:2410.17401 [cs.CR] https:\/\/arxiv.org\/abs\/2410.17401"},{"key":"e_1_3_2_1_57_1","unstructured":"Yuhao Yang Yue Wang Dongxu Li Ziyang Luo Bei Chen Chao Huang and Junnan Li. 2024. Aria-UI: Visual Grounding for GUI Instructions. arXiv:2412.16256 [cs.HC] https:\/\/arxiv.org\/abs\/2412.16256"},{"key":"e_1_3_2_1_58_1","unstructured":"Chaoyun Zhang Shilin He Jiaxu Qian Bowen Li Liqun Li Si Qin Yu Kang Minghua Ma Guyue Liu Qingwei Lin Saravan Rajmohan Dongmei Zhang and Qi Zhang. 2025. Large Language Model-Brained GUI Agents: A Survey. arXiv:2411.18279 [cs.AI] https:\/\/arxiv.org\/abs\/2411.18279"},{"key":"e_1_3_2_1_59_1","doi-asserted-by":"crossref","unstructured":"Li Zhang Shihe Wang Xianqing Jia Zhihan Zheng Yunhe Yan Longxi Gao Yuanchun Li and Mengwei Xu. 2024. LlamaTouch: A Faithful and Scalable Testbed for Mobile UI Task Automation. arXiv:2404.16054 [cs.HC] https:\/\/arxiv.org\/abs\/2404.16054","DOI":"10.1145\/3654777.3676382"},{"key":"e_1_3_2_1_60_1","unstructured":"Yanzhe Zhang Tao Yu and Diyi Yang. 2024. Attacking Vision-Language Computer Agents via Pop-ups. arXiv:2411.02391 [cs.CL] https:\/\/arxiv.org\/abs\/2411.02391"},{"key":"e_1_3_2_1_61_1","unstructured":"Zhexin Zhang Shiyao Cui Yida Lu Jingzhuo Zhou Junxiao Yang Hongning Wang and Minlie Huang. 2025. Agent-SafetyBench: Evaluating the Safety of LLM Agents. arXiv:2412.14470 [cs.CL] https:\/\/arxiv.org\/abs\/2412.14470"},{"key":"e_1_3_2_1_62_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.757"},{"key":"e_1_3_2_1_63_1","unstructured":"Boyuan Zheng Boyu Gou Jihyung Kil Huan Sun and Yu Su. 2024. GPT-4V(ision) is a Generalist Web Agent if Grounded. arXiv:2401.01614 [cs.IR] https:\/\/arxiv.org\/abs\/2401.01614"},{"key":"e_1_3_2_1_64_1","unstructured":"Boyuan Zheng Zeyi Liao Scott Salisbury Zeyuan Liu Michael Lin Qinyuan Zheng Zifan Wang Xiang Deng Dawn Song Huan Sun and Yu Su. 2025. WebGuard: Building a Generalizable Guardrail for Web Agents. arXiv:2507.14293 [cs.AI] https:\/\/arxiv.org\/abs\/2507.14293"},{"key":"e_1_3_2_1_65_1","unstructured":"Shuyan Zhou Frank F. Xu Hao Zhu Xuhui Zhou Robert Lo Abishek Sridhar Xianyi Cheng Tianyue Ou Yonatan Bisk Daniel Fried Uri Alon and Graham Neubig. 2024. WebArena: A Realistic Web Environment for Building Autonomous Agents. arXiv:2307.13854 [cs.AI] https:\/\/arxiv.org\/abs\/2307.13854"},{"key":"e_1_3_2_1_66_1","volume-title":"Yejin Choi, Niloofar Mireshghallah, Ronan Le Bras, and Maarten Sap.","author":"Zhou Xuhui","year":"2025","unstructured":"Xuhui Zhou, Hyunwoo Kim, Faeze Brahman, Liwei Jiang, Hao Zhu, Ximing Lu, Frank Xu, Bill Yuchen Lin, Yejin Choi, Niloofar Mireshghallah, Ronan Le Bras, and Maarten Sap. 2025. HAICOSYSTEM: An Ecosystem for Sandboxing Safety Risks in Human-AI Interactions. arXiv:2409.16427 [cs.AI] https:\/\/arxiv.org\/abs\/2409.16427"}],"event":{"name":"MobiSys '26: 24th Annual International Conference on Mobile Systems, Applications and Services","location":"University of Cambridge Cambridge United Kingdom","acronym":"MobiSys '26","sponsor":["SIGMOBILE ACM Special Interest Group on Mobility of Systems, Users, Data and Computing","SIGOPS ACM Special Interest Group on Operating Systems"]},"container-title":["Proceedings of the 24th Annual International Conference on Mobile Systems, Applications and Services"],"original-title":[],"deposited":{"date-parts":[[2026,5,29]],"date-time":"2026-05-29T12:54:26Z","timestamp":1780059266000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3745756.3809249"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,6,20]]},"references-count":66,"alternative-id":["10.1145\/3745756.3809249","10.1145\/3745756"],"URL":"https:\/\/doi.org\/10.1145\/3745756.3809249","relation":{},"subject":[],"published":{"date-parts":[[2026,6,20]]},"assertion":[{"value":"2026-06-20","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}