{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,12]],"date-time":"2025-12-12T01:56:44Z","timestamp":1765504604111,"version":"3.48.0"},"publisher-location":"New York, NY, USA","reference-count":38,"publisher":"ACM","funder":[{"name":"National Science Foundation of China","award":["No.61876004"],"award-info":[{"award-number":["No.61876004"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,11,10]]},"DOI":"10.1145\/3746252.3761392","type":"proceedings-article","created":{"date-parts":[[2025,11,8]],"date-time":"2025-11-08T00:29:28Z","timestamp":1762561768000},"page":"280-290","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["CCAgent: Coordinating Collaborative Data Scaling for Operating System Agents via Web3"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-6369-3543","authenticated-orcid":false,"given":"Liang","family":"Chen","sequence":"first","affiliation":[{"name":"Peking University, National Key Laboratory for Multimedia Information Processing, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0502-4426","authenticated-orcid":false,"given":"Haozhe","family":"Zhao","sequence":"additional","affiliation":[{"name":"Peking University, National Key Laboratory for Multimedia Information Processing, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-3854-8807","authenticated-orcid":false,"given":"Yinzhen","family":"Huang","sequence":"additional","affiliation":[{"name":"BUAA, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-8017-9584","authenticated-orcid":false,"given":"Yang","family":"Luo","sequence":"additional","affiliation":[{"name":"BUAA, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-6167-7587","authenticated-orcid":false,"given":"Tsekai","family":"Lin","sequence":"additional","affiliation":[{"name":"University of Toronto, Toronto, Canada"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-1843-8245","authenticated-orcid":false,"given":"Weichu","family":"Xie","sequence":"additional","affiliation":[{"name":"Beijing Institute of Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-7931-4550","authenticated-orcid":false,"given":"Ruoyu","family":"Wu","sequence":"additional","affiliation":[{"name":"Peking University, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8792-3593","authenticated-orcid":false,"given":"Peiyi","family":"Wang","sequence":"additional","affiliation":[{"name":"Peking University, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3876-2284","authenticated-orcid":false,"given":"Runxin","family":"Xu","sequence":"additional","affiliation":[{"name":"DeepSeek AI, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-6663-4861","authenticated-orcid":false,"given":"Ming","family":"Wu","sequence":"additional","affiliation":[{"name":"Zero Gravity Labs, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2824-6750","authenticated-orcid":false,"given":"Baobao","family":"Chang","sequence":"additional","affiliation":[{"name":"Peking University, Beijing, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,11,10]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities. ArXiv preprint","author":"Bai Jinze","year":"2023","unstructured":"Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, and Jingren Zhou. 2023. Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities. ArXiv preprint, Vol. abs\/2308.12966 (2023)."},{"key":"e_1_3_2_1_2_1","volume-title":"arXiv preprint arXiv:2502.13923","author":"Bai Shuai","year":"2025","unstructured":"Shuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, and Junyang Lin. 2025. Qwen2.5-VL Technical Report. arXiv preprint arXiv:2502.13923 (2025)."},{"key":"e_1_3_2_1_3_1","unstructured":"Patrick Burns Niklas Eetemadfar Matthew E. Taylor and Yu Su. 2024. MobileSafetyBench: Evaluating Safety of Mobile Control Agents. arXiv:2405.10323 [cs.AI] https:\/\/arxiv.org\/abs\/2405.10323"},{"key":"e_1_3_2_1_4_1","unstructured":"Liang Chen Zekun Wang Shuhuai Ren Lei Li Haozhe Zhao Yunshui Li Zefan Cai Hongcheng Guo Lei Zhang Yizhe Xiong Yichi Zhang Ruoyu Wu Qingxiu Dong Ge Zhang Jian Yang Lingwei Meng Shujie Hu Yulong Chen Junyang Lin Shuai Bai Andreas Vlachos Xu Tan Minjia Zhang Wen Xiao Aaron Yee Tianyu Liu and Baobao Chang. 2024. Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey. arXiv:2412.18619 [cs.CL] https:\/\/arxiv.org\/abs\/2412.18619"},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"crossref","unstructured":"Kanzhi Cheng Qiushi Sun Yougang Chu Fangzhi Xu Yantao Li Jianbing Zhang and Zhiyong Wu. 2024. SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents. arXiv:2401.10935 [cs.HC] https:\/\/arxiv.org\/abs\/2401.10935","DOI":"10.18653\/v1\/2024.acl-long.505"},{"key":"e_1_3_2_1_6_1","unstructured":"Common Crawl Foundation. 2007-2024. Common Crawl. https:\/\/commoncrawl.org."},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"crossref","unstructured":"Xiang Deng Yu Gu Boyuan Zheng Shijie Chen Samuel Stevens Boshi Wang Huan Sun and Yu Su. 2023. Mind2Web: Towards a Generalist Agent for the Web. arXiv:2306.06070 [cs.CL] https:\/\/arxiv.org\/abs\/2306.06070","DOI":"10.3390\/electronics12102306"},{"key":"e_1_3_2_1_8_1","unstructured":"Yu Fu Sijie Chen Hong Huang Guangsheng Bao Jingqi Yao Zhicheng Yang Ziyu Guo Yanbin Jiang Pengfei Liu and Weihang Guo. 2024. GUI-WORLD: A Dataset and Benchmark for Evaluating GUI Task Execution Agents. arXiv:2405.15881 [cs.HC] https:\/\/arxiv.org\/abs\/2405.15881"},{"key":"e_1_3_2_1_9_1","unstructured":"Hongliang He Wenlin Yao Kaixin Ma Wenhao Yu Yong Dai Hongming Zhang Zhenzhong Lan and Dong Yu. 2024. WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models. arXiv:2401.13919 [cs.CL] https:\/\/arxiv.org\/abs\/2401.13919"},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"crossref","unstructured":"Wenyi Hong Weihan Wang Qingsong Lv Jiazheng Xu Wenmeng Yu Junhui Ji Yan Wang Zihan Wang Yuxuan Zhang Juanzi Li Bin Xu Yuxiao Dong Ming Ding and Jie Tang. 2024. CogAgent: A Visual Language Model for GUI Agents. arXiv:2312.08914 [cs.CV] https:\/\/arxiv.org\/abs\/2312.08914","DOI":"10.1109\/CVPR52733.2024.01354"},{"key":"e_1_3_2_1_11_1","unstructured":"Xueyu Hu Tao Xiong Biao Yi Zishu Wei Ruixuan Xiao Yurun Chen Jiasheng Ye Meiling Tao Xiangxin Zhou Ziyu Zhao et al. 2024a. OS Agents: A Survey on MLLM-based Agents for Computer Phone and Browser Use."},{"key":"e_1_3_2_1_12_1","unstructured":"Xueyu Hu Tao Xiong Biao Yi Zishu Wei Ruixuan Xiao Yurun Chen Jiasheng Ye Meiling Tao Xiangxin Zhou Ziyu Zhao et al. 2024b. OS Agents: A Survey on MLLM-based Agents for Computer Phone and Browser Use."},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1145\/3701716.3717526"},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1145\/3600006.3613165"},{"key":"e_1_3_2_1_15_1","unstructured":"Kaixin Li Ziyang Meng Hongzhan Lin Ziyang Luo Yuchen Tian Jing Ma Zhiyong Huang and Tat-Seng Chua. 2025. ScreenSpot-Pro: GUI Grounding for Professional High-Resolution Computer Use. arXiv:2504.07981 [cs.CV] https:\/\/arxiv.org\/abs\/2504.07981"},{"key":"e_1_3_2_1_16_1","unstructured":"Kevin Qinghong Lin Linjie Li Difei Gao Zhengyuan Yang Shiwei Wu Zechen Bai Weixian Lei Lijuan Wang and Mike Zheng Shou. 2024. ShowUI: One Vision-Language-Action Model for GUI Visual Agent. arXiv:2411.17465 [cs.CV] https:\/\/arxiv.org\/abs\/2411.17465"},{"key":"e_1_3_2_1_17_1","unstructured":"Yadong Lu Jianwei Yang Yelong Shen and Ahmed Awadallah. 2024. OmniParser for Pure Vision Based GUI Agent. arXiv:2408.00203 [cs.CV] https:\/\/arxiv.org\/abs\/2408.00203"},{"key":"e_1_3_2_1_18_1","first-page":"I","volume":"2025","author":"Lu Zhengxi","unstructured":"Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Han Xiao, Shuai Ren, Guanjing Xiong, and Hongsheng Li. 2025a. UI-R1: Enhancing Action Prediction of GUI Agents by Reinforcement Learning. arXiv:2503.21620 [cs.AI] https:\/\/arxiv.org\/abs\/2503.21620","journal-title":"Hongsheng Li."},{"key":"e_1_3_2_1_19_1","first-page":"I","volume":"2025","author":"Lu Zhengxi","unstructured":"Zhengxi Lu, Yuxiang Chai, Yaxuan Guo, Xi Yin, Liang Liu, Hao Wang, Han Xiao, Shuai Ren, Guanjing Xiong, and Hongsheng Li. 2025b. UI-R1: Enhancing Efficient Action Prediction of GUI Agents by Reinforcement Learning. arXiv:2503.21620 [cs.AI] https:\/\/arxiv.org\/abs\/2503.21620","journal-title":"Hongsheng Li."},{"key":"e_1_3_2_1_20_1","volume-title":"Explorer: Synthesizing Goal-Oriented Web Trajectories using Large Language Models. arXiv:2402.17098 [cs.AI] https:\/\/arxiv.org\/abs\/2402.17098","author":"Ma Yao","year":"2024","unstructured":"Yao Ma, Hongyu Ren, Zihan Wang, Jialu Liu, Ziyi Zhou, Zhitao He, Huazheng Wang, and Jiliang Tang. 2024. Explorer: Synthesizing Goal-Oriented Web Trajectories using Large Language Models. arXiv:2402.17098 [cs.AI] https:\/\/arxiv.org\/abs\/2402.17098"},{"key":"e_1_3_2_1_21_1","volume-title":"AIOS: LLM Agent Operating System. arXiv:2403.16971 [cs.OS] https:\/\/arxiv.org\/abs\/2403.16971","author":"Mei Kai","year":"2025","unstructured":"Kai Mei, Xi Zhu, Wujiang Xu, Wenyue Hua, Mingyu Jin, Zelong Li, Shuyuan Xu, Ruosong Ye, Yingqiang Ge, and Yongfeng Zhang. 2025. AIOS: LLM Agent Operating System. arXiv:2403.16971 [cs.OS] https:\/\/arxiv.org\/abs\/2403.16971"},{"key":"e_1_3_2_1_22_1","volume-title":"A peer-to-peer electronic cash system. Bitcoin.-URL: https:\/\/bitcoin.org\/bitcoin.pdf","author":"Nakamoto Satoshi","year":"2008","unstructured":"Satoshi Nakamoto and A Bitcoin. 2008. A peer-to-peer electronic cash system. Bitcoin.-URL: https:\/\/bitcoin.org\/bitcoin.pdf, Vol. 4, 2 (2008), 15."},{"key":"e_1_3_2_1_23_1","unstructured":"Reiichiro Nakano Jacob Hilton Suchir Balaji Jeff Wu Long Ouyang Christina Kim Christopher Hesse Shantanu Jain Vineet Kosaraju William Saunders Xu Jiang Karl Cobbe Tyna Eloundou Gretchen Krueger Kevin Button Matthew Knight Benjamin Chess and John Schulman. 2022. WebGPT: Browser-assisted question-answering with human feedback. arXiv:2112.09332 [cs.CL] https:\/\/arxiv.org\/abs\/2112.09332"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"crossref","unstructured":"Dang Nguyen Jian Chen Yu Wang Gang Wu Namyong Park Zhengmian Hu Hanjia Lyu Junda Wu Ryan Aponte Yu Xia Xintong Li Jing Shi Hongjie Chen Viet Dac Lai Zhouhang Xie Sungchul Kim Ruiyi Zhang Tong Yu Mehrab Tanjim Nesreen K. Ahmed Puneet Mathur Seunghyun Yoon Lina Yao Branislav Kveton Thien Huu Nguyen Trung Bui Tianyi Zhou Ryan A. Rossi and Franck Dernoncourt. 2024. GUI Agents: A Survey. arXiv:2412.13501 [cs.AI] https:\/\/arxiv.org\/abs\/2412.13501","DOI":"10.18653\/v1\/2025.findings-acl.1158"},{"key":"e_1_3_2_1_25_1","unstructured":"OpenAI. 2022. Introducing ChatGPT. (2022)."},{"key":"e_1_3_2_1_26_1","unstructured":"Yujia Qin Shihao Liang Yining Ye Kunlun Zhu Lan Yan Yaxi Lu Yankai Lin Xin Cong Xiangru Tang Bill Qian Sihan Zhao Lauren Hong Runchu Tian Ruobing Xie Jie Zhou Mark Gerstein Dahai Li Zhiyuan Liu and Maosong Sun. 2023. ToolLLM: Facilitating Large Language Models to Master 16000 Real-world APIs. arXiv:2307.16789 [cs.AI]"},{"key":"e_1_3_2_1_27_1","unstructured":"Yujia Qin Yining Ye Junjie Fang Haoming Wang Shihao Liang Shizuo Tian Junda Zhang Jiahao Li Yunxin Li Shijue Huang et al. 2025a. UI-TARS: Pioneering Automated GUI Interaction with Native Agents. arXiv preprint arXiv:2501.12326 (2025)."},{"key":"e_1_3_2_1_28_1","unstructured":"Yujia Qin Yining Ye Junjie Fang Haoming Wang Shihao Liang Shizuo Tian Junda Zhang Jiahao Li Yunxin Li Shijue Huang Wanjun Zhong Kuanye Li Jiale Yang Yu Miao Woyu Lin Longxiang Liu Xu Jiang Qianli Ma Jingyu Li Xiaojun Xiao Kai Cai Chuang Li Yaowei Zheng Chaolin Jin Chen Li Xiao Zhou Minchao Wang Haoli Chen Zhaojian Li Haihua Yang Haifeng Liu Feng Lin Tao Peng Xin Liu and Guang Shi. 2025b. UI-TARS: Pioneering Automated GUI Interaction with Native Agents. arXiv:2501.12326 [cs.AI] https:\/\/arxiv.org\/abs\/2501.12326"},{"key":"e_1_3_2_1_29_1","unstructured":"Christopher Rawles Alice Li Daniel Rodriguez Oriana Riva and Timothy Lillicrap. 2023. Android in the Wild: A Large-Scale Dataset for Android Device Control. arXiv:2307.10088 [cs.LG] https:\/\/arxiv.org\/abs\/2307.10088"},{"key":"e_1_3_2_1_30_1","volume-title":"Llama: Open and efficient foundation language models. ArXiv preprint","author":"Touvron Hugo","year":"2023","unstructured":"Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timoth\u00e9e Lacroix, Baptiste Rozi\u00e8re, Naman Goyal, Eric Hambro, Faisal Azhar, et al., 2023. Llama: Open and efficient foundation language models. ArXiv preprint, Vol. abs\/2302.13971 (2023)."},{"key":"e_1_3_2_1_31_1","volume-title":"Yasheng Wang, Xin Wang, and Yining Wang.","author":"Wang Hang","year":"2024","unstructured":"Hang Wang, Ruibo Liu, Shangqing Tu, Peng Liu, Ziru Chen, Jason Liu, Dakuo Wang, Salla Franz\u00e9n, Peter Alexander Gloor, Yasheng Wang, Xin Wang, and Yining Wang. 2024. CRAB: A Comprehensive Benchmark for Cross-Environment Agent Behavior Evaluation. arXiv:2405.07703 [cs.AI] https:\/\/arxiv.org\/abs\/2405.07703"},{"key":"e_1_3_2_1_32_1","unstructured":"Zhiyong Wu Chengcheng Han Zichen Ding Zhenmin Weng Zhoumianze Liu Shunyu Yao Tao Yu and Lingpeng Kong. 2024a. OS-Copilot: Towards Generalist Computer Agents with Self-Improvement. arXiv:2402.07456 [cs.AI] https:\/\/arxiv.org\/abs\/2402.07456"},{"key":"e_1_3_2_1_33_1","volume-title":"Paul Pu Liang, and Yu Qiao","author":"Wu Zhiyong","year":"2024","unstructured":"Zhiyong Wu, Zhenyu Wu, Fangzhi Xu, Yian Wang, Qiushi Sun, Chengyou Jia, Kanzhi Cheng, Zichen Ding, Liheng Chen, Paul Pu Liang, and Yu Qiao. 2024b. OS-ATLAS: A Foundation Action Model for Generalist GUI Agents. arXiv:2410.23218 [cs.CL] https:\/\/arxiv.org\/abs\/2410.23218"},{"key":"e_1_3_2_1_34_1","unstructured":"Yuhao Yang Yue Wang Dongxu Li Ziyang Luo Bei Chen Chao Huang and Junnan Li. 2024. Aria-UI: Visual Grounding for GUI Instructions. arXiv:2412.16256 [cs.HC] https:\/\/arxiv.org\/abs\/2412.16256"},{"key":"e_1_3_2_1_35_1","unstructured":"Boyuan Zhang Peter Li Jingkang Yang Zhiyong Wu Zhidong Gao Feng Gao Tiancheng Jia Sijia Chen Yunfei Chu Tian Ouyang Yijing Shi Letian Zhang Ziyu Zhang Xinyu Wang Jingtong Zhang Lin Zhao Shengyao Tong Junda Liu Pengfei Liu Yin Zhang and Zhou Jun. 2024b. OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web. arXiv:2402.17553 [cs.AI] https:\/\/arxiv.org\/abs\/2402.17553"},{"key":"e_1_3_2_1_36_1","volume-title":"UFO: A UI-Focused Agent for Windows OS Interaction. arXiv:2402.07939 [cs.HC] https:\/\/arxiv.org\/abs\/2402.07939","author":"Zhang Chaoyun","year":"2024","unstructured":"Chaoyun Zhang, Liqun Li, Shilin He, Xu Zhang, Bo Qiao, Si Qin, Minghua Ma, Yu Kang, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang, and Qi Zhang. 2024a. UFO: A UI-Focused Agent for Windows OS Interaction. arXiv:2402.07939 [cs.HC] https:\/\/arxiv.org\/abs\/2402.07939"},{"key":"e_1_3_2_1_37_1","unstructured":"Boyuan Zheng Boyu Gou Jihyung Kil Huan Sun and Yu Su. 2024. UGround: Grounding Through Understanding in UI Navigation. arXiv:2410.05243 [cs.CV] https:\/\/arxiv.org\/abs\/2410.05243"},{"key":"e_1_3_2_1_38_1","volume-title":"Insight: A Comprehensive Dataset and Benchmark for GUI Modeling and Automation. arXiv:2305.16409 [cs.SE] https:\/\/arxiv.org\/abs\/2305.16409","author":"Zhong Wenyu","year":"2023","unstructured":"Wenyu Zhong, Zheng-Jun Zha, Zhaohua Chen, Min Zhou, Zeren Zhang, and Ting Zhang. 2023. Insight: A Comprehensive Dataset and Benchmark for GUI Modeling and Automation. arXiv:2305.16409 [cs.SE] https:\/\/arxiv.org\/abs\/2305.16409"}],"event":{"name":"CIKM '25: The 34th ACM International Conference on Information and Knowledge Management","sponsor":["SIGIR ACM Special Interest Group on Information Retrieval","SIGWEB ACM Special Interest Group on Hypertext, Hypermedia, and Web"],"location":"Seoul Republic of Korea","acronym":"CIKM '25"},"container-title":["Proceedings of the 34th ACM International Conference on Information and Knowledge Management"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746252.3761392","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,12]],"date-time":"2025-12-12T01:53:21Z","timestamp":1765504401000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746252.3761392"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,10]]},"references-count":38,"alternative-id":["10.1145\/3746252.3761392","10.1145\/3746252"],"URL":"https:\/\/doi.org\/10.1145\/3746252.3761392","relation":{},"subject":[],"published":{"date-parts":[[2025,11,10]]},"assertion":[{"value":"2025-11-10","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}