{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,4]],"date-time":"2026-05-04T05:50:09Z","timestamp":1777873809527,"version":"3.51.4"},"publisher-location":"New York, NY, USA","reference-count":79,"publisher":"ACM","funder":[{"DOI":"10.13039\/501100006374","name":"National Key Research and Development Program of China","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100006374","id-type":"DOI","asserted-by":"publisher"}]},{"name":"National Natural Science Foundation of China"},{"DOI":"10.13039\/501100006374","name":"China Postdoctoral Science Foundation","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100006374","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,8,3]]},"DOI":"10.1145\/3711896.3737196","type":"proceedings-article","created":{"date-parts":[[2025,8,3]],"date-time":"2025-08-03T21:05:41Z","timestamp":1754255141000},"page":"4566-4577","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Benchmarking and Advancing Large Language Models for Local Life Services"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-8960-4246","authenticated-orcid":false,"given":"Xiaochong","family":"Lan","sequence":"first","affiliation":[{"name":"Department of Electronic Engineering, BNRist, Tsinghua University, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3279-7117","authenticated-orcid":false,"given":"Jie","family":"Feng","sequence":"additional","affiliation":[{"name":"Department of Electronic Engineering, BNRist, Tsinghua University, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5170-8645","authenticated-orcid":false,"given":"Jiahuan","family":"Lei","sequence":"additional","affiliation":[{"name":"Meituan, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0733-5757","authenticated-orcid":false,"given":"Xinlei","family":"Shi","sequence":"additional","affiliation":[{"name":"Meituan, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5617-1659","authenticated-orcid":false,"given":"Yong","family":"Li","sequence":"additional","affiliation":[{"name":"Department of Electronic Engineering, BNRist, Tsinghua University, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,8,3]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"Nguyen Bach, Amit Bahree, Arash Bakhtiari, Jianmin Bao, Harkirat Behl, et al.","author":"Abdin Marah","year":"2024","unstructured":"Marah Abdin, Jyoti Aneja, Hany Awadalla, Ahmed Awadallah, Ammar Ahmad Awan, Nguyen Bach, Amit Bahree, Arash Bakhtiari, Jianmin Bao, Harkirat Behl, et al. 2024a. Phi-3 technical report: A highly capable language model locally on your phone. arXiv preprint arXiv:2404.14219 (2024)."},{"key":"e_1_3_2_1_2_1","unstructured":"Marah Abdin Jyoti Aneja Harkirat Behl S\u00e9bastien Bubeck Ronen Eldan Suriya Gunasekar Michael Harrison Russell J Hewett Mojan Javaheripi Piero Kauffmann et al. 2024b. Phi-4 technical report. arXiv preprint arXiv:2412.08905 (2024)."},{"key":"e_1_3_2_1_3_1","volume-title":"Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al.","author":"Achiam Josh","year":"2023","unstructured":"Josh Achiam, Steven Adler, Sandhini Agarwal, Lama Ahmad, Ilge Akkaya, Florencia Leoni Aleman, Diogo Almeida, Janko Altenschmidt, Sam Altman, Shyamal Anadkat, et al. 2023. Gpt-4 technical report. arXiv preprint arXiv:2303.08774 (2023)."},{"key":"e_1_3_2_1_4_1","unstructured":"Moonshot AI. 2024. Moonshot-v1. https:\/\/platform.moonshot.cn\/docs\/api\/chat\/."},{"key":"e_1_3_2_1_5_1","volume-title":"Transforming healthcare education: Harnessing large language models for frontline health worker capacity building using retrieval-augmented generation. medRxiv","author":"Ghadban Yasmina Al","year":"2023","unstructured":"Yasmina Al Ghadban, Huiqi Lu, Uday Adavi, Ankita Sharma, Sridevi Gara, Neelanjana Das, Bhaskar Kumar, Renu John, Praveen Devarsetty, and Jane E Hirst. 2023. Transforming healthcare education: Harnessing large language models for frontline health worker capacity building using retrieval-augmented generation. medRxiv (2023), 2023-12."},{"key":"e_1_3_2_1_6_1","unstructured":"AI Anthropic. 2024. Introducing the Next Generation of Claude."},{"key":"e_1_3_2_1_7_1","volume-title":"Stephen McAleer, Albert Q Jiang, Jia Deng, Stella Biderman, and Sean Welleck.","author":"Azerbayev Zhangir","year":"2023","unstructured":"Zhangir Azerbayev, Hailey Schoelkopf, Keiran Paster, Marco Dos Santos, Stephen McAleer, Albert Q Jiang, Jia Deng, Stella Biderman, and Sean Welleck. 2023. Llemma: An open language model for mathematics. arXiv preprint arXiv:2310.10631 (2023)."},{"key":"e_1_3_2_1_8_1","volume-title":"Oceangpt: A large language model for ocean science tasks. arXiv preprint arXiv:2310.02031","author":"Bi Zhen","year":"2023","unstructured":"Zhen Bi, Ningyu Zhang, Yida Xue, Yixin Ou, Daxiong Ji, Guozhou Zheng, and Huajun Chen. 2023. Oceangpt: A large language model for ocean science tasks. arXiv preprint arXiv:2310.02031 (2023)."},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i05.6239"},{"key":"e_1_3_2_1_10_1","unstructured":"Tom Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared D Kaplan Prafulla Dhariwal Arvind Neelakantan Pranav Shyam Girish Sastry Amanda Askell et al. 2020. Language models are few-shot learners. Advances in neural information processing systems Vol. 33 (2020) 1877-1901."},{"key":"e_1_3_2_1_11_1","unstructured":"Bytedance. 2024. Doubao Pro. https:\/\/www.volcengine.com\/."},{"key":"e_1_3_2_1_12_1","volume-title":"Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al.","author":"Chen Mark","year":"2021","unstructured":"Mark Chen, Jerry Tworek, Heewoo Jun, Qiming Yuan, Henrique Ponde De Oliveira Pinto, Jared Kaplan, Harri Edwards, Yuri Burda, Nicholas Joseph, Greg Brockman, et al. 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374 (2021)."},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1145\/3555585"},{"key":"e_1_3_2_1_14_1","unstructured":"Jingtao Ding Yunke Zhang Yu Shang Yuheng Zhang Zefang Zong Jie Feng Yuan Yuan Hongyuan Su Nian Li Nicholas Sukiennik et al. 2024. Understanding World or Predicting Future? A Comprehensive Survey of World Models. arXiv preprint arXiv:2411.14499 (2024)."},{"key":"e_1_3_2_1_15_1","volume-title":"CityGPT: Empowering Urban Spatial Cognition of Large Language Models. arXiv preprint arXiv:2406.13948","author":"Feng Jie","year":"2024","unstructured":"Jie Feng, Yuwei Du, Tianhui Liu, Siqi Guo, Yuming Lin, and Yong Li. 2024a. CityGPT: Empowering Urban Spatial Cognition of Large Language Models. arXiv preprint arXiv:2406.13948 (2024)."},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"crossref","unstructured":"Jie Feng Yuwei Du Jie Zhao and Yong Li. 2025 a. AgentMove: A large language model based agentic framework for zero-shot next location prediction. In NAACL.","DOI":"10.18653\/v1\/2025.naacl-long.61"},{"key":"e_1_3_2_1_17_1","volume-title":"Smart Cities, and Earth Science. arXiv:2504.09848","author":"Feng Jie","year":"2025","unstructured":"Jie Feng, Jinwei Zeng, Qingyue Long, Hongyi Chen, Jie Zhao, Yanxin Xi, Zhilun Zhou, Yuan Yuan, Shengyuan Wang, Qingbin Zeng, et al. 2025 b. A Survey of Large Language Model-Powered Spatial Intelligence Across Scales: Advances in Embodied Agents, Smart Cities, and Earth Science. arXiv:2504.09848 (2025)."},{"key":"e_1_3_2_1_18_1","unstructured":"Jie Feng Jun Zhang Tianhui Liu Xin Zhang Tianjian Ouyang Junbo Yan Yuwei Du Siqi Guo and Yong Li. 2024b. CityBench: Evaluating the Capabilities of Large Language Models for Urban Tasks. (2024)."},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.1057\/s41599-024-03611-3"},{"key":"e_1_3_2_1_20_1","volume-title":"S3: Social-network simulation system with large language model-empowered agents. arXiv preprint arXiv:2307.14984","author":"Gao Chen","year":"2023","unstructured":"Chen Gao, Xiaochong Lan, Zhihong Lu, Jinzhu Mao, Jinghua Piao, Huandong Wang, Depeng Jin, and Yong Li. 2023. S3: Social-network simulation system with large language model-empowered agents. arXiv preprint arXiv:2307.14984 (2023)."},{"key":"e_1_3_2_1_21_1","volume-title":"Scaling synthetic data creation with 1,000,000,000 personas. arXiv preprint arXiv:2406.20094","author":"Ge Tao","year":"2024","unstructured":"Tao Ge, Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, and Dong Yu. 2024. Scaling synthetic data creation with 1,000,000,000 personas. arXiv preprint arXiv:2406.20094 (2024)."},{"key":"e_1_3_2_1_22_1","volume-title":"Chatglm: A family of large language models from glm-130b to glm-4 all tools. arXiv preprint arXiv:2406.12793","author":"Aohan Zeng Team GLM","year":"2024","unstructured":"Team GLM, Aohan Zeng, Bin Xu, Bowen Wang, Chenhui Zhang, Da Yin, Dan Zhang, Diego Rojas, Guanyu Feng, Hanlin Zhao, et al. 2024. Chatglm: A family of large language models from glm-130b to glm-4 all tools. arXiv preprint arXiv:2406.12793 (2024)."},{"key":"e_1_3_2_1_23_1","unstructured":"Aaron Grattafiori Abhimanyu Dubey Abhinav Jauhri Abhinav Pandey Abhishek Kadian Ahmad Al-Dahle Aiesha Letman Akhil Mathur Alan Schelten Alex Vaughan et al. 2024. The llama 3 herd of models. arXiv e-prints (2024) arXiv-2407."},{"key":"e_1_3_2_1_24_1","volume-title":"Accelerate: Training and inference at scale made simple, efficient and adaptable. https:\/\/github.com\/huggingface\/accelerate.","author":"Gugger Sylvain","year":"2022","unstructured":"Sylvain Gugger, Lysandre Debut, Thomas Wolf, Philipp Schmid, Zachary Mueller, Sourab Mangrulkar, Marc Sun, and Benjamin Bossan. 2022. Accelerate: Training and inference at scale made simple, efficient and adaptable. https:\/\/github.com\/huggingface\/accelerate."},{"key":"e_1_3_2_1_25_1","volume-title":"Brandon Waldon, Daniel Rockmore, Diego Zambrano, et al.","author":"Guha Neel","year":"2024","unstructured":"Neel Guha, Julian Nyarko, Daniel Ho, Christopher R\u00e9, Adam Chilton, Alex Chohlas-Wood, Austin Peters, Brandon Waldon, Daniel Rockmore, Diego Zambrano, et al. 2024. Legalbench: A collaboratively built benchmark for measuring legal reasoning in large language models. Advances in Neural Information Processing Systems, Vol. 36 (2024)."},{"key":"e_1_3_2_1_26_1","unstructured":"Daya Guo Dejian Yang Haowei Zhang Junxiao Song Ruoyu Zhang Runxin Xu Qihao Zhu Shirong Ma Peiyi Wang Xiao Bi et al. 2025. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948 (2025)."},{"key":"e_1_3_2_1_27_1","volume-title":"HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction. arXiv preprint arXiv:2410.09112","author":"Hao Qianyue","year":"2024","unstructured":"Qianyue Hao, Jingyang Fan, Fengli Xu, Jian Yuan, and Yong Li. 2024. HLM-Cite: Hybrid Language Model Workflow for Text-based Scientific Citation Prediction. arXiv preprint arXiv:2410.09112 (2024)."},{"key":"e_1_3_2_1_28_1","volume-title":"2025 a. RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning. arXiv preprint arXiv:2505.14140","author":"Hao Qianyue","year":"2025","unstructured":"Qianyue Hao, Sibo Li, Jian Yuan, and Yong Li. 2025 a. RL of Thoughts: Navigating LLM Reasoning with Inference-time Reinforcement Learning. arXiv preprint arXiv:2505.14140 (2025)."},{"key":"e_1_3_2_1_29_1","volume-title":"2025 b. LLM-Explorer: A Plug-in Reinforcement Learning Policy Exploration Enhancement Driven by Large Language Models. arXiv preprint arXiv:2505.15293","author":"Hao Qianyue","year":"2025","unstructured":"Qianyue Hao, Yiwen Song, Qingmin Liao, Jian Yuan, and Yong Li. 2025 b. LLM-Explorer: A Plug-in Reinforcement Learning Policy Exploration Enhancement Driven by Large Language Models. arXiv preprint arXiv:2505.15293 (2025)."},{"key":"e_1_3_2_1_30_1","volume-title":"Measuring mathematical problem solving with the math dataset. arXiv preprint arXiv:2103.03874","author":"Hendrycks Dan","year":"2021","unstructured":"Dan Hendrycks, Collin Burns, Saurav Kadavath, Akul Arora, Steven Basart, Eric Tang, Dawn Song, and Jacob Steinhardt. 2021. Measuring mathematical problem solving with the math dataset. arXiv preprint arXiv:2103.03874 (2021)."},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-56060-6_24"},{"key":"e_1_3_2_1_32_1","unstructured":"Binyuan Hui Jian Yang Zeyu Cui Jiaxi Yang Dayiheng Liu Lei Zhang Tianyu Liu Jiajun Zhang Bowen Yu Keming Lu et al. 2024. Qwen2. 5-coder technical report. arXiv preprint arXiv:2409.12186 (2024)."},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1007\/s10639-023-11834-1"},{"key":"e_1_3_2_1_34_1","volume-title":"MoralBench: Moral Evaluation of LLMs. arXiv preprint arXiv:2406.04428","author":"Ji Jianchao","year":"2024","unstructured":"Jianchao Ji, Yutong Chen, Mingyu Jin, Wujiang Xu, Wenyue Hua, and Yongfeng Zhang. 2024. MoralBench: Moral Evaluation of LLMs. arXiv preprint arXiv:2406.04428 (2024)."},{"key":"e_1_3_2_1_35_1","volume-title":"Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, et al.","author":"Jiang Albert Q","year":"2023","unstructured":"Albert Q Jiang, Alexandre Sablayrolles, Arthur Mensch, Chris Bamford, Devendra Singh Chaplot, Diego de las Casas, Florian Bressand, Gianna Lengyel, Guillaume Lample, Lucile Saulnier, et al. 2023. Mistral 7B. arXiv preprint arXiv:2310.06825 (2023)."},{"key":"e_1_3_2_1_36_1","unstructured":"Yilun Jin Zheng Li Chenwei Zhang Tianyu Cao Yifan Gao Pratik Jayarao Mao Li Xin Liu Ritesh Sarkhel Xianfeng Tang et al. 2024. Shopping mmlu: A massive multi-task online shopping benchmark for large language models. arXiv preprint arXiv:2410.20745 (2024)."},{"key":"e_1_3_2_1_37_1","volume-title":"Evaluating gpt-4 and chatgpt on japanese medical licensing examinations. arXiv preprint arXiv:2303.18027","author":"Kasai Jungo","year":"2023","unstructured":"Jungo Kasai, Yuhei Kasai, Keisuke Sakaguchi, Yutaro Yamada, and Dragomir Radev. 2023. Evaluating gpt-4 and chatgpt on japanese medical licensing examinations. arXiv preprint arXiv:2303.18027 (2023)."},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"crossref","unstructured":"Enkelejda Kasneci Kathrin Se\u00dfler Stefan K\u00fcchemann Maria Bannert Daryna Dementieva Frank Fischer Urs Gasser Georg Groh Stephan G\u00fcnnemann Eyke H\u00fcllermeier et al. 2023. ChatGPT for good? On opportunities and challenges of large language models for education. Learning and individual differences Vol. 103 (2023) 102274.","DOI":"10.1016\/j.lindif.2023.102274"},{"key":"e_1_3_2_1_39_1","volume-title":"Depression detection on social media with large language models. arXiv preprint arXiv:2403.10750","author":"Lan Xiaochong","year":"2024","unstructured":"Xiaochong Lan, Yiming Cheng, Li Sheng, Chen Gao, and Yong Li. 2024a. Depression detection on social media with large language models. arXiv preprint arXiv:2403.10750 (2024)."},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"publisher","DOI":"10.1609\/icwsm.v18i1.31360"},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"publisher","DOI":"10.1145\/3580305.3599874"},{"key":"e_1_3_2_1_42_1","first-page":"3843","article-title":"Solving quantitative reasoning problems with language models","volume":"35","author":"Lewkowycz Aitor","year":"2022","unstructured":"Aitor Lewkowycz, Anders Andreassen, David Dohan, Ethan Dyer, Henryk Michalewski, Vinay Ramasesh, Ambrose Slone, Cem Anil, Imanol Schlag, Theo Gutman-Solo, et al. 2022. Solving quantitative reasoning problems with language models. Advances in Neural Information Processing Systems, Vol. 35 (2022), 3843-3857.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_1_43_1","volume-title":"Econagent: large language model-empowered agents for simulating macroeconomic activities. arXiv preprint arXiv:2310.10436","author":"Li Nian","year":"2023","unstructured":"Nian Li, Chen Gao, Mingyu Li, Yong Li, and Qingmin Liao. 2023a. Econagent: large language model-empowered agents for simulating macroeconomic activities. arXiv preprint arXiv:2310.10436 (2023)."},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.829"},{"key":"e_1_3_2_1_45_1","volume-title":"A survey of graph meets large language model: Progress and future directions. arXiv preprint arXiv:2311.12399","author":"Li Yuhan","year":"2023","unstructured":"Yuhan Li, Zhixun Li, Peisong Wang, Jia Li, Xiangguo Sun, Hong Cheng, and Jeffrey Xu Yu. 2023b. A survey of graph meets large language model: Progress and future directions. arXiv preprint arXiv:2311.12399 (2023)."},{"key":"e_1_3_2_1_46_1","doi-asserted-by":"publisher","DOI":"10.7759\/cureus.40895"},{"key":"e_1_3_2_1_47_1","unstructured":"Zhixun Li Bin Cao Rui Jiao Liang Wang Ding Wang Yang Liu Dingshuo Chen Jia Li Qiang Liu Yu Rong et al. 2025. Materials Generation in the Era of Artificial Intelligence: A Comprehensive Survey. arXiv preprint arXiv:2505.16379 (2025)."},{"key":"e_1_3_2_1_48_1","first-page":"30306","article-title":"d. Gslb: The graph structure learning benchmark","volume":"36","author":"Li Zhixun","year":"2023","unstructured":"Zhixun Li, Liang Wang, Xin Sun, Yifan Luo, Yanqiao Zhu, Dingshuo Chen, Yingtao Luo, Xiangxin Zhou, Qiang Liu, Shu Wu, et al. 2023 d. Gslb: The graph structure learning benchmark. Advances in Neural Information Processing Systems, Vol. 36 (2023), 30306-30318.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_1_49_1","doi-asserted-by":"publisher","DOI":"10.1145\/3534678.3539114"},{"key":"e_1_3_2_1_50_1","first-page":"364","volume-title":"MRGRP: Empowering Courier Route Prediction in Food Delivery Service with Multi-Relational Graph. In Companion Proceedings of the ACM on Web Conference","author":"Liu Chang","year":"2025","unstructured":"Chang Liu, Huan Yan, Hongjie Sui, Haomin Wen, Yuan Yuan, Yuyang Han, Hongsen Liao, Xuetao Ding, Jinghua Hao, and Yong Li. 2025. MRGRP: Empowering Courier Route Prediction in Food Delivery Service with Multi-Relational Graph. In Companion Proceedings of the ACM on Web Conference 2025. 364-373."},{"key":"e_1_3_2_1_51_1","unstructured":"OpenAI. 2022. Introducing ChatGPT. https:\/\/openai.com\/blog\/chatgpt\/."},{"key":"e_1_3_2_1_52_1","volume-title":"Synatra: Turning indirect knowledge into direct demonstrations for digital agents at scale. arXiv preprint arXiv:2409.15637","author":"Ou Tianyue","year":"2024","unstructured":"Tianyue Ou, Frank F Xu, Aman Madaan, Jiarui Liu, Robert Lo, Abishek Sridhar, Sudipta Sengupta, Dan Roth, Graham Neubig, and Shuyan Zhou. 2024. Synatra: Turning indirect knowledge into direct demonstrations for digital agents at scale. arXiv preprint arXiv:2409.15637 (2024)."},{"key":"e_1_3_2_1_53_1","volume-title":"Di Zhou, et al.","author":"Piao Jinghua","year":"2025","unstructured":"Jinghua Piao, Yuwei Yan, Jun Zhang, Nian Li, Junbo Yan, Xiaochong Lan, Zhihong Lu, Zhiheng Zheng, Jing Yi Wang, Di Zhou, et al. 2025. AgentSociety: Large-Scale Simulation of LLM-Driven Generative Agents Advances Understanding of Human Behaviors and Society. arXiv preprint arXiv:2502.08691 (2025)."},{"key":"e_1_3_2_1_54_1","doi-asserted-by":"publisher","DOI":"10.1145\/3447548.3467178"},{"key":"e_1_3_2_1_55_1","volume-title":"Communicative agents for software development. arXiv preprint arXiv:2307.07924","author":"Qian Chen","year":"2023","unstructured":"Chen Qian, Xin Cong, Cheng Yang, Weize Chen, Yusheng Su, Juyuan Xu, Zhiyuan Liu, and Maosong Sun. 2023. Communicative agents for software development. arXiv preprint arXiv:2307.07924, Vol. 6, 3 (2023)."},{"key":"e_1_3_2_1_56_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.810"},{"key":"e_1_3_2_1_57_1","volume-title":"Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, and Samuel R Bowman.","author":"Rein David","year":"2023","unstructured":"David Rein, Betty Li Hou, Asa Cooper Stickland, Jackson Petty, Richard Yuanzhe Pang, Julien Dirani, Julian Michael, and Samuel R Bowman. 2023. Gpqa: A graduate-level google-proof q&a benchmark. arXiv preprint arXiv:2311.12022 (2023)."},{"key":"e_1_3_2_1_58_1","first-page":"172","volume-title":"Nature","volume":"620","author":"Singhal Karan","year":"2023","unstructured":"Karan Singhal, Shekoofeh Azizi, Tao Tu, S Sara Mahdavi, Jason Wei, Hyung Won Chung, Nathan Scales, Ajay Tanwani, Heather Cole-Lewis, Stephen Pfohl, et al. 2023. Large language models encode clinical knowledge. Nature, Vol. 620, 7972 (2023), 172-180."},{"key":"e_1_3_2_1_59_1","volume-title":"Abubakar Abid, Adam Fisch, Adam R Brown, Adam Santoro, Aditya Gupta, Adri\u00e0 Garriga-Alonso, et al.","author":"Srivastava Aarohi","year":"2022","unstructured":"Aarohi Srivastava, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R Brown, Adam Santoro, Aditya Gupta, Adri\u00e0 Garriga-Alonso, et al. 2022. Beyond the imitation game: Quantifying and extrapolating the capabilities of language models. arXiv preprint arXiv:2206.04615 (2022)."},{"key":"e_1_3_2_1_60_1","volume-title":"Commonsenseqa: A question answering challenge targeting commonsense knowledge. arXiv preprint arXiv:1811.00937","author":"Talmor Alon","year":"2018","unstructured":"Alon Talmor, Jonathan Herzig, Nicholas Lourie, and Jonathan Berant. 2018. Commonsenseqa: A question answering challenge targeting commonsense knowledge. arXiv preprint arXiv:1811.00937 (2018)."},{"key":"e_1_3_2_1_61_1","volume-title":"Kabilan Elangovan, Laura Gutierrez, Ting Fang Tan, and Daniel Shu Wei Ting.","author":"Thirunavukarasu Arun James","year":"2023","unstructured":"Arun James Thirunavukarasu, Darren Shu Jeng Ting, Kabilan Elangovan, Laura Gutierrez, Ting Fang Tan, and Daniel Shu Wei Ting. 2023. Large language models in medicine. Nature medicine, Vol. 29, 8 (2023), 1930-1940."},{"key":"e_1_3_2_1_62_1","first-page":"476","volume-title":"Nature","volume":"625","author":"Trinh Trieu H","year":"2024","unstructured":"Trieu H Trinh, Yuhuai Wu, Quoc V Le, He He, and Thang Luong. 2024. Solving olympiad geometry without human demonstrations. Nature, Vol. 625, 7995 (2024), 476-482."},{"key":"e_1_3_2_1_63_1","volume-title":"Glue: A multi-task benchmark and analysis platform for natural language understanding. arXiv preprint arXiv:1804.07461","author":"Wang Alex","year":"2018","unstructured":"Alex Wang. 2018. Glue: A multi-task benchmark and analysis platform for natural language understanding. arXiv preprint arXiv:1804.07461 (2018)."},{"key":"e_1_3_2_1_64_1","volume-title":"Superglue: A stickier benchmark for general-purpose language understanding systems. Advances in neural information processing systems","author":"Wang Alex","year":"2019","unstructured":"Alex Wang, Yada Pruksachatkun, Nikita Nangia, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel Bowman. 2019. Superglue: A stickier benchmark for general-purpose language understanding systems. Advances in neural information processing systems, Vol. 32 (2019)."},{"key":"e_1_3_2_1_65_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11704-024-40231-1"},{"key":"e_1_3_2_1_66_1","unstructured":"Jason Wei Yi Tay Rishi Bommasani Colin Raffel Barret Zoph Sebastian Borgeaud Dani Yogatama Maarten Bosma Denny Zhou Donald Metzler et al. 2022. Emergent abilities of large language models. arXiv preprint arXiv:2206.07682 (2022)."},{"key":"e_1_3_2_1_67_1","volume-title":"Bloomberggpt: A large language model for finance. arXiv preprint arXiv:2303.17564","author":"Wu Shijie","year":"2023","unstructured":"Shijie Wu, Ozan Irsoy, Steven Lu, Vadim Dabravolski, Mark Dredze, Sebastian Gehrmann, Prabhanjan Kambadur, David Rosenberg, and Gideon Mann. 2023. Bloomberggpt: A large language model for finance. arXiv preprint arXiv:2303.17564 (2023)."},{"key":"e_1_3_2_1_68_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11432-024-4222-0"},{"key":"e_1_3_2_1_69_1","unstructured":"Fengli Xu Qianyue Hao Zefang Zong Jingwei Wang Yunke Zhang Jingyi Wang Xiaochong Lan Jiahui Gong Tianjian Ouyang Fanjin Meng et al. 2025. Towards Large Reasoning Models: A Survey of Reinforced Reasoning with Large Language Models. arXiv preprint arXiv:2501.09686 (2025)."},{"key":"e_1_3_2_1_70_1","unstructured":"An Yang Baosong Yang Beichen Zhang Binyuan Hui Bo Zheng Bowen Yu Chengyuan Li Dayiheng Liu Fei Huang Haoran Wei et al. 2024. Qwen2. 5 technical report. arXiv preprint arXiv:2412.15115 (2024)."},{"key":"e_1_3_2_1_71_1","volume-title":"Challenge LLMs to Reason About Reasoning: A Benchmark to Unveil Cognitive Depth in LLMs. arXiv preprint arXiv:2312.17080","author":"Zeng Zhongshen","year":"2023","unstructured":"Zhongshen Zeng, Pengguang Chen, Haiyun Jiang, and Jiaya Jia. 2023. Challenge LLMs to Reason About Reasoning: A Benchmark to Unveil Cognitive Depth in LLMs. arXiv preprint arXiv:2312.17080 (2023)."},{"key":"e_1_3_2_1_72_1","volume-title":"Jeffrey Xu Yu, and Tianlong Chen","author":"Zhang Guibin","year":"2024","unstructured":"Guibin Zhang, Yanwei Yue, Zhixun Li, Sukwon Yun, Guancheng Wan, Kun Wang, Dawei Cheng, Jeffrey Xu Yu, and Tianlong Chen. 2024b. Cut the crap: An economical communication pipeline for llm-based multi-agent systems. arXiv preprint arXiv:2410.02506 (2024)."},{"key":"e_1_3_2_1_73_1","volume-title":"SmartAgent: Chain-of-User-Thought for Embodied Personalized Agent in Cyber World. arXiv preprint arXiv:2412.07472","author":"Zhang Jiaqi","year":"2024","unstructured":"Jiaqi Zhang, Chen Gao, Liyuan Zhang, Yong Li, and Hongzhi Yin. 2024a. SmartAgent: Chain-of-User-Thought for Embodied Personalized Agent in Cyber World. arXiv preprint arXiv:2412.07472 (2024)."},{"key":"e_1_3_2_1_74_1","volume-title":"A survey on large language models for software engineering. arXiv preprint arXiv:2312.15223","author":"Zhang Quanjun","year":"2023","unstructured":"Quanjun Zhang, Chunrong Fang, Yang Xie, Yaxin Zhang, Yun Yang, Weisong Sun, Shengcheng Yu, and Zhenyu Chen. 2023. A survey on large language models for software engineering. arXiv preprint arXiv:2312.15223 (2023)."},{"key":"e_1_3_2_1_75_1","unstructured":"Yu Zheng Yuan Yuan Yong Li and Paolo Santi. [n. d.]. Probing Neural Topology of Large Language Models. ( [n. d.])."},{"key":"e_1_3_2_1_76_1","volume-title":"Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning. arXiv preprint arXiv:2411.14497","author":"Zhou Hang","year":"2024","unstructured":"Hang Zhou, Yehui Tang, Haochen Qin, Yujie Yang, Renren Jin, Deyi Xiong, Kai Han, and Yunhe Wang. 2024. Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning. arXiv preprint arXiv:2411.14497 (2024)."},{"key":"e_1_3_2_1_77_1","unstructured":"Qihao Zhu Daya Guo Zhihong Shao Dejian Yang Peiyi Wang Runxin Xu Y Wu Yukun Li Huazuo Gao Shirong Ma et al. 2024. DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence. arXiv preprint arXiv:2406.11931 (2024)."},{"key":"e_1_3_2_1_78_1","volume-title":"Large language models for information retrieval: A survey. arXiv preprint arXiv:2308.07107","author":"Zhu Yutao","year":"2023","unstructured":"Yutao Zhu, Huaying Yuan, Shuting Wang, Jiongnan Liu, Wenhan Liu, Chenlong Deng, Haonan Chen, Zheng Liu, Zhicheng Dou, and Ji-Rong Wen. 2023. Large language models for information retrieval: A survey. arXiv preprint arXiv:2308.07107 (2023)."},{"key":"e_1_3_2_1_79_1","doi-asserted-by":"publisher","DOI":"10.1162\/coli_a_00502"}],"event":{"name":"KDD '25: The 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining","location":"Toronto ON Canada","acronym":"KDD '25","sponsor":["SIGKDD ACM Special Interest Group on Knowledge Discovery in Data","SIGMOD ACM Special Interest Group on Management of Data"]},"container-title":["Proceedings of the 31st ACM SIGKDD Conference on Knowledge Discovery and Data Mining V.2"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3711896.3737196","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,30]],"date-time":"2026-04-30T18:22:04Z","timestamp":1777573324000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3711896.3737196"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,8,3]]},"references-count":79,"alternative-id":["10.1145\/3711896.3737196","10.1145\/3711896"],"URL":"https:\/\/doi.org\/10.1145\/3711896.3737196","relation":{},"subject":[],"published":{"date-parts":[[2025,8,3]]},"assertion":[{"value":"2025-08-03","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}