{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,4]],"date-time":"2026-07-04T08:18:37Z","timestamp":1783153117023,"version":"3.54.6"},"publisher-location":"New York, NY, USA","reference-count":72,"publisher":"ACM","funder":[{"name":"National Natural Science Foundation of China","award":["62272467"],"award-info":[{"award-number":["62272467"]}]},{"name":"China Postdoctoral Science Foundation","award":["2025T180440"],"award-info":[{"award-number":["2025T180440"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,4,13]]},"DOI":"10.1145\/3774904.3792460","type":"proceedings-article","created":{"date-parts":[[2026,4,27]],"date-time":"2026-04-27T12:38:33Z","timestamp":1777293513000},"page":"2219-2230","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["DeepAgent: A General Reasoning Agent with Scalable Toolsets"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0003-0708-418X","authenticated-orcid":false,"given":"Xiaoxi","family":"Li","sequence":"first","affiliation":[{"name":"Renmin University of China, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4951-9420","authenticated-orcid":false,"given":"Wenxiang","family":"Jiao","sequence":"additional","affiliation":[{"name":"Xiaohongshu Inc., Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6458-1586","authenticated-orcid":false,"given":"Jiarui","family":"Jin","sequence":"additional","affiliation":[{"name":"Xiaohongshu Inc., Shanghai, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2318-0281","authenticated-orcid":false,"given":"Guanting","family":"Dong","sequence":"additional","affiliation":[{"name":"Renmin University of China, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-4808-1534","authenticated-orcid":false,"given":"Jiajie","family":"Jin","sequence":"additional","affiliation":[{"name":"Renmin University of China, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-6252-0618","authenticated-orcid":false,"given":"Yinuo","family":"Wang","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3243-487X","authenticated-orcid":false,"given":"Hao","family":"Wang","sequence":"additional","affiliation":[{"name":"Xiaohongshu Inc., Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9432-3251","authenticated-orcid":false,"given":"Yutao","family":"Zhu","sequence":"additional","affiliation":[{"name":"Renmin University of China, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9777-9676","authenticated-orcid":false,"given":"Ji-Rong","family":"Wen","sequence":"additional","affiliation":[{"name":"Renmin University of China, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-5703-1424","authenticated-orcid":false,"given":"Yuan","family":"Lu","sequence":"additional","affiliation":[{"name":"Xiaohongshu Inc., Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9781-948X","authenticated-orcid":false,"given":"Zhicheng","family":"Dou","sequence":"additional","affiliation":[{"name":"Renmin University of China, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,4,12]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2502.13923"},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2503.09567"},{"key":"e_1_3_2_1_3_1","unstructured":"Yifei Chen Guanting Dong and Zhicheng Dou. 2025a. Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning. arXiv:2509.23285 [cs.AI] https:\/\/arxiv.org\/abs\/2509.23285"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","unstructured":"DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song Ruoyu Zhang Runxin Xu Qihao Zhu Shirong Ma Peiyi Wang Xiao Bi Xiaokang Zhang Xingkai Yu Yu Wu Z. F. Wu Zhibin Gou Zhihong Shao Zhuoshu Li Ziyi Gao Aixin Liu Bing Xue Bingxuan Wang Bochao Wu Bei Feng Chengda Lu Chenggang Zhao Chengqi Deng Chenyu Zhang Chong Ruan Damai Dai Deli Chen Dongjie Ji Erhang Li Fangyun Lin Fucong Dai Fuli Luo Guangbo Hao Guanting Chen Guowei Li H. Zhang Han Bao Hanwei Xu Haocheng Wang Honghui Ding Huajian Xin Huazuo Gao Hui Qu Hui Li Jianzhong Guo Jiashi Li Jiawei Wang Jingchang Chen Jingyang Yuan Junjie Qiu Junlong Li J. L. Cai Jiaqi Ni Jian Liang Jin Chen Kai Dong Kai Hu Kaige Gao Kang Guan Kexin Huang Kuai Yu Lean Wang Lecong Zhang Liang Zhao Litong Wang Liyue Zhang Lei Xu Leyi Xia Mingchuan Zhang Minghua Zhang Minghui Tang Meng Li Miaojun Wang Mingming Li Ning Tian Panpan Huang Peng Zhang Qiancheng Wang Qinyu Chen Qiushi Du Ruiqi Ge Ruisong Zhang Ruizhe Pan Runji Wang R. J. Chen R. L. Jin Ruyi Chen Shanghao Lu Shangyan Zhou Shanhuang Chen Shengfeng Ye Shiyu Wang Shuiping Yu Shunfeng Zhou Shuting Pan and S. S. Li. 2025. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. CoRR Vol. abs\/2501.12948 (2025). arXiv:2501.12948 doi:10.48550\/ARXIV.2501.12948","DOI":"10.48550\/ARXIV.2501.12948"},{"key":"e_1_3_2_1_5_1","unstructured":"Guanting Dong Licheng Bao Zhongyuan Wang Kangzhi Zhao Xiaoxi Li Jiajie Jin Jinghan Yang Hangyu Mao Fuzheng Zhang Kun Gai Guorui Zhou Yutao Zhu Ji-Rong Wen and Zhicheng Dou. 2025a. Agentic Entropy-Balanced Policy Optimization. arXiv:2510.14545 [cs.LG] https:\/\/arxiv.org\/abs\/2510.14545"},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2505.16410"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.acl-long.179"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2507.19849"},{"key":"e_1_3_2_1_9_1","unstructured":"Runnan Fang Shihao Cai Baixuan Li Jialong Wu Guangyu Li Wenbiao Yin Xinyu Wang Xiaobin Wang Liangcai Su Zhen Zhang Shibin Wu Zhengwei Tao Yong Jiang Pengjun Xie Fei Huang and Jingren Zhou. 2025. Towards General Agentic Intelligence via Environment Scaling. arXiv:2509.13311 [cs.CL] https:\/\/arxiv.org\/abs\/2509.13311"},{"key":"e_1_3_2_1_10_1","unstructured":"Jiazhan Feng Shijue Huang Xingwei Qu Ge Zhang Yujia Qin Baoquan Zhong Chengquan Jiang Jinxin Chi and Wanjun Zhong. 2025. ReTool: Reinforcement Learning for Strategic Tool Use in LLMs. arXiv:2504.11536 [cs.CL] https:\/\/arxiv.org\/abs\/2504.11536"},{"key":"e_1_3_2_1_11_1","volume-title":"Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning.","author":"He Zhiwei","year":"2025","unstructured":"Zhiwei He, Tian Liang, Jiahao Xu, Qiuzhi Liu, Xingyu Chen, Yue Wang, Linfeng Song, Dian Yu, Zhenwen Liang, Wenxuan Wang, Zhuosheng Zhang, Rui Wang, Zhaopeng Tu, Haitao Mi, and Dong Yu. 2025. DeepMath-103K: A Large-Scale, Challenging, Decontaminated, and Verifiable Mathematical Dataset for Advancing Reasoning. (2025). arXiv:2504.11456 [cs.CL] https:\/\/arxiv.org\/abs\/2504.11456"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2503.23278"},{"key":"e_1_3_2_1_13_1","unstructured":"Mengkang Hu Tianxing Chen Qiguang Chen Yao Mu Wenqi Shao and Ping Luo. 2024. HiAgent: Hierarchical Working Memory Management for Solving Long-Horizon Agent Tasks with Large Language Model. arXiv:2408.09559 [cs.CL] https:\/\/arxiv.org\/abs\/2408.09559"},{"key":"e_1_3_2_1_14_1","unstructured":"Mengkang Hu Bowei Xia Yuran Wu Ailing Yu Yude Zou Qiguang Chen Shijian Wang Jiarui Jin Kexin Li Wenxiang Jiao Yuan Lu and Ping Luo. 2025a. Agent2World: Learning to Generate Symbolic World Models via Adaptive Multi-Agent Feedback. arXiv:2512.22336 [cs.AI] https:\/\/arxiv.org\/abs\/2512.22336"},{"key":"e_1_3_2_1_15_1","unstructured":"Mengkang Hu Pu Zhao Can Xu Qingfeng Sun Jianguang Lou Qingwei Lin Ping Luo and Saravan Rajmohan. 2025b. AgentGen: Enhancing Planning Abilities for Large Language Model based Agent via Environment and Task Generation. arXiv:2408.00764 [cs.CL] https:\/\/arxiv.org\/abs\/2408.00764"},{"key":"e_1_3_2_1_16_1","unstructured":"Aaron Jaech Adam Kalai Adam Lerer Adam Richardson Ahmed El-Kishky Aiden Low Alec Helyar Aleksander Madry Alex Beutel Alex Carney et al. 2024. OpenAI o1 System Card. arXiv preprint arXiv:2412.16720 (2024)."},{"key":"e_1_3_2_1_17_1","unstructured":"Dongfu Jiang Yi Lu Zhuofeng Li Zhiheng Lyu Ping Nie Haozhe Wang Alex Su Hui Chen Kai Zou Chao Du Tianyu Pang and Wenhu Chen. 2025. VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use. arXiv:2509.01055 [cs.AI] https:\/\/arxiv.org\/abs\/2509.01055"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2503.09516"},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2408.02479"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.acl-long.176"},{"key":"e_1_3_2_1_21_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2507.02652"},{"key":"e_1_3_2_1_22_1","unstructured":"Jiajie Jin Yuyao Zhang Yimeng Xu Hongjin Qian Yutao Zhu and Zhicheng Dou. 2025d. FinSight: Towards Real-World Financial Deep Research. arXiv:2510.16844 [cs.CL] https:\/\/arxiv.org\/abs\/2510.16844"},{"key":"e_1_3_2_1_23_1","volume-title":"ACON: Optimizing Context Compression for Long-horizon LLM Agents. arXiv:2510.00615 [cs.AI] https:\/\/arxiv.org\/abs\/2510.00615","author":"Kang Minki","year":"2025","unstructured":"Minki Kang, Wei-Ning Chen, Dongge Han, Huseyin A. Inan, Lukas Wutschitz, Yanzhi Chen, Robert Sim, and Saravan Rajmohan. 2025. ACON: Optimizing Context Compression for Long-horizon LLM Agents. arXiv:2510.00615 [cs.AI] https:\/\/arxiv.org\/abs\/2510.00615"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.18653\/V1\/2023.EMNLP-MAIN.187"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2501.05366"},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2504.21776"},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.acl-long.819"},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1609\/AAAI.V38I8.28714"},{"key":"e_1_3_2_1_29_1","unstructured":"Xuefeng Li Haoyang Zou and Pengfei Liu. 2025 e. ToRL: Scaling Tool-Integrated RL. arXiv:2503.23383 [cs.CL] https:\/\/arxiv.org\/abs\/2503.23383"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2502.17419"},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2509.06501"},{"key":"e_1_3_2_1_32_1","volume-title":"Weixun Wang, Hao Zhu, Weiyan Shi, Diyi Yang, Michael Shieh, Yee Whye Teh, Wee Sun Lee, and Min Lin.","author":"Liu Zichen","year":"2025","unstructured":"Zichen Liu, Anya Sims, Keyu Duan, Changyu Chen, Simon Yu, Xiangxin Zhou, Haotian Xu, Shaopan Xiong, Bo Liu, Chenmien Tan, Chuen Yang Beh, Weixun Wang, Hao Zhu, Weiyan Shi, Diyi Yang, Michael Shieh, Yee Whye Teh, Wee Sun Lee, and Min Lin. 2025b. GEM: A Gym for Agentic LLMs. arXiv:2510.01051 [cs.LG] https:\/\/arxiv.org\/abs\/2510.01051"},{"key":"e_1_3_2_1_33_1","volume-title":"The Twelfth International Conference on Learning Representations, ICLR 2024","author":"Mialon Gr\u00e9goire","year":"2024","unstructured":"Gr\u00e9goire Mialon, Cl\u00e9mentine Fourrier, Thomas Wolf, Yann LeCun, and Thomas Scialom. 2024. GAIA: a benchmark for General AI Assistants. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024. OpenReview.net. https:\/\/openreview.net\/forum?id=fibxvahvs3"},{"key":"e_1_3_2_1_34_1","unstructured":"OpenAI. 2025. Introducing deep research. https:\/\/openai.com\/index\/introducing-deep-research."},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2501.14249"},{"key":"e_1_3_2_1_36_1","volume-title":"Replication Journey: A Strategic Progress Report-Part 1. arXiv preprint arXiv:2410.18982","author":"Qin Yiwei","year":"2024","unstructured":"Yiwei Qin, Xuefeng Li, Haoyang Zou, Yixiu Liu, Shijie Xia, Zhen Huang, Yixin Ye, Weizhe Yuan, Hector Liu, Yuanzhi Li, et al., 2024a. O1 Replication Journey: A Strategic Progress Report-Part 1. arXiv preprint arXiv:2410.18982 (2024)."},{"key":"e_1_3_2_1_37_1","volume-title":"The Twelfth International Conference on Learning Representations, ICLR 2024","author":"Qin Yujia","year":"2024","unstructured":"Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Lauren Hong, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, and Maosong Sun. 2024b. ToolLLM: Facilitating Large Language Models to Master 16000 Real-world APIs. In The Twelfth International Conference on Learning Representations, ICLR 2024, Vienna, Austria, May 7-11, 2024. OpenReview.net. https:\/\/openreview.net\/forum?id=dHng2O0Jjr"},{"key":"e_1_3_2_1_38_1","volume-title":"The Thirteenth International Conference on Learning Representations, ICLR 2025","author":"Qu Changle","year":"2025","unstructured":"Changle Qu, Sunhao Dai, Xiaochi Wei, Hengyi Cai, Shuaiqiang Wang, Dawei Yin, Jun Xu, and Ji-Rong Wen. 2025a. From Exploration to Mastery: Enabling LLMs to Master Tools via Self-Driven Interactions. In The Thirteenth International Conference on Learning Representations, ICLR 2025, Singapore, April 24-28, 2025. OpenReview.net. https:\/\/openreview.net\/forum?id=QKBu1BOAwd"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.1007\/S11704-024-40678-2"},{"key":"e_1_3_2_1_40_1","unstructured":"Qwen: An Yang Baosong Yang Beichen Zhang Binyuan Hui Bo Zheng Bowen Yu Chengyuan Li Dayiheng Liu Fei Huang Haoran Wei Huan Lin Jian Yang Jianhong Tu Jianwei Zhang Jianxin Yang Jiaxi Yang Jingren Zhou Junyang Lin Kai Dang Keming Lu Keqin Bao Kexin Yang Le Yu Mei Li Mingfeng Xue Pei Zhang Qin Zhu Rui Men Runji Lin Tianhao Li Tingyu Xia Xingzhang Ren Xuancheng Ren Yang Fan Yang Su Yichang Zhang Yu Wan Yuqiong Liu Zeyu Cui Zhenru Zhang and Zihan Qiu. 2024. Qwen2.5 Technical Report. arXiv:2412.15115 [cs.CL] https:\/\/arxiv.org\/abs\/2412.15115"},{"key":"e_1_3_2_1_41_1","volume-title":"HybridFlow: A Flexible and Efficient RLHF Framework. arXiv preprint arXiv: 2409.19256","author":"Sheng Guangming","year":"2024","unstructured":"Guangming Sheng, Chi Zhang, Zilingfeng Ye, Xibin Wu, Wang Zhang, Ru Zhang, Yanghua Peng, Haibin Lin, and Chuan Wu. 2024. HybridFlow: A Flexible and Efficient RLHF Framework. arXiv preprint arXiv: 2409.19256 (2024)."},{"key":"e_1_3_2_1_42_1","volume-title":"ACL 2025","author":"Shi Zhengliang","year":"2025","unstructured":"Zhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, and Zhaochun Ren. 2025. Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models. In Findings of the Association for Computational Linguistics, ACL 2025, Vienna, Austria, July 27 - August 1, 2025, Wanxiang Che, Joyce Nabende, Ekaterina Shutova, and Mohammad Taher Pilehvar (Eds.). Association for Computational Linguistics, 24497-24524. https:\/\/aclanthology.org\/2025.findings-acl.1258\/"},{"key":"e_1_3_2_1_43_1","volume-title":"Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023","author":"Shinn Noah","year":"2023","unstructured":"Noah Shinn, Federico Cassano, Ashwin Gopinath, Karthik Narasimhan, and Shunyu Yao. 2023. Reflexion: language agents with verbal reinforcement learning. In Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023, Alice Oh, Tristan Naumann, Amir Globerson, Kate Saenko, Moritz Hardt, and Sergey Levine (Eds.). http:\/\/papers.nips.cc\/paper_files\/paper\/2023\/hash\/1b44b878bb782e6954cd888628510e90-Abstract-Conference.html"},{"key":"e_1_3_2_1_44_1","volume-title":"Advances in Neural Information Processing Systems","volume":"36","author":"Shinn Noah","year":"2024","unstructured":"Noah Shinn, Federico Cassano, Ashwin Gopinath, Karthik Narasimhan, and Shunyu Yao. 2024. Reflexion: Language agents with verbal reinforcement learning. Advances in Neural Information Processing Systems, Vol. 36 (2024)."},{"key":"e_1_3_2_1_45_1","volume-title":"ALFWorld: Aligning Text and Embodied Environments for Interactive Learning. In 9th International Conference on Learning Representations, ICLR 2021","author":"Shridhar Mohit","year":"2021","unstructured":"Mohit Shridhar, Xingdi Yuan, Marc-Alexandre C\u00f4t\u00e9, Yonatan Bisk, Adam Trischler, and Matthew J. Hausknecht. 2021. ALFWorld: Aligning Text and Embodied Environments for Interactive Learning. In 9th International Conference on Learning Representations, ICLR 2021, Virtual Event, Austria, May 3-7, 2021. OpenReview.net. https:\/\/openreview.net\/forum?id=0IOX0YcCdTn"},{"key":"e_1_3_2_1_46_1","unstructured":"Xiaoshuai Song Haofei Chang Guanting Dong Yutao Zhu Zhicheng Dou and Ji-Rong Wen. 2026. EnvScaler: Scaling Tool-Interactive Environments for LLM Agent via Programmatic Synthesis. arXiv:2601.05808 [cs.CL] https:\/\/arxiv.org\/abs\/2601.05808"},{"key":"e_1_3_2_1_47_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2306.06624"},{"key":"e_1_3_2_1_48_1","unstructured":"Weiwei Sun Miao Lu Zhan Ling Kang Liu Xuesong Yao Yiming Yang and Jiecao Chen. 2025. Scaling Long-Horizon LLM Agent via Context-Folding. arXiv:2510.11967 [cs.CL] https:\/\/arxiv.org\/abs\/2510.11967"},{"key":"e_1_3_2_1_49_1","unstructured":"Jiejun Tan Zhicheng Dou Yan Yu Jiehan Cheng Qiang Ju Jian Xie and Ji-Rong Wen. 2025. HierSearch: A Hierarchical Enterprise Deep Search Framework Integrating Local and Web Searches. arXiv:2508.08088 [cs.IR] https:\/\/arxiv.org\/abs\/2508.08088"},{"key":"e_1_3_2_1_50_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2507.15061"},{"key":"e_1_3_2_1_51_1","volume-title":"Qwq: Reflect deeply on the boundaries of the unknown. Hugging Face","author":"Team Qwen","year":"2024","unstructured":"Qwen Team. 2024. Qwq: Reflect deeply on the boundaries of the unknown. Hugging Face (2024)."},{"key":"e_1_3_2_1_52_1","doi-asserted-by":"publisher","DOI":"10.18653\/V1\/2023.ACL-LONG.147"},{"key":"e_1_3_2_1_53_1","volume-title":"The Thirteenth International Conference on Learning Representations, ICLR 2025","author":"Wang Renxi","year":"2025","unstructured":"Renxi Wang, Xudong Han, Lei Ji, Shu Wang, Timothy Baldwin, and Haonan Li. 2025b. ToolGen: Unified Tool Retrieval and Calling via Generation. In The Thirteenth International Conference on Learning Representations, ICLR 2025, Singapore, April 24-28, 2025. OpenReview.net. https:\/\/openreview.net\/forum?id=XLMAMmowdY"},{"key":"e_1_3_2_1_54_1","volume-title":"Synthetic Curriculum Reinforces Compositional Text-to-Image Generation. arXiv preprint arXiv:2511.18378","author":"Wang Shijian","year":"2025","unstructured":"Shijian Wang, Runhao Fu, Siyi Zhao, Qingqin Zhan, Xingjian Wang, Jiarui Jin, Yuan Lu, Hanqian Wu, and Cunjian Chen. 2025a. Synthetic Curriculum Reinforces Compositional Text-to-Image Generation. arXiv preprint arXiv:2511.18378 (2025)."},{"key":"e_1_3_2_1_55_1","volume-title":"Video-Thinker: Sparking'' Thinking with Videos'' via Reinforcement Learning. arXiv preprint arXiv:2510.23473","author":"Wang Shijian","year":"2025","unstructured":"Shijian Wang, Jiarui Jin, Xingjian Wang, Linxin Song, Runhao Fu, Hecheng Wang, Zongyuan Ge, Yuan Lu, and Xuelian Cheng. 2025c. Video-Thinker: Sparking'' Thinking with Videos'' via Reinforcement Learning. arXiv preprint arXiv:2510.23473 (2025)."},{"key":"e_1_3_2_1_56_1","volume-title":"Executable Code Actions Elicit Better LLM Agents. In Forty-first International Conference on Machine Learning, ICML 2024","author":"Wang Xingyao","year":"2024","unstructured":"Xingyao Wang, Yangyi Chen, Lifan Yuan, Yizhe Zhang, Yunzhu Li, Hao Peng, and Heng Ji. 2024a. Executable Code Actions Elicit Better LLM Agents. In Forty-first International Conference on Machine Learning, ICML 2024, Vienna, Austria, July 21-27, 2024. OpenReview.net. https:\/\/openreview.net\/forum?id=jJ9BoXAfFa"},{"key":"e_1_3_2_1_57_1","volume-title":"Wenxiang Jiao, Xiaoxi Li, Hao Wang, Xuanyu Zhang, Yuan Lu, and Weiming Dong.","author":"Wang Yinuo","year":"2026","unstructured":"Yinuo Wang, Mining Tan, Wenxiang Jiao, Xiaoxi Li, Hao Wang, Xuanyu Zhang, Yuan Lu, and Weiming Dong. 2026. TourPlanner: A Competitive Consensus Framework with Constraint-Gated Reinforcement Learning for Travel Planning. arXiv:2601.04698 [cs.AI] https:\/\/arxiv.org\/abs\/2601.04698"},{"key":"e_1_3_2_1_58_1","doi-asserted-by":"crossref","unstructured":"Yinuo Wang Likun Wang Yuxuan Jiang Wenjun Zou Tong Liu Xujie Song Wenxuan Wang Liming Xiao Jiang Wu Jingliang Duan and Shengbo Eben Li. 2024b. Diffusion Actor-Critic with Entropy Regulator. arXiv:2405.15177 [cs.LG] https:\/\/arxiv.org\/abs\/2405.15177","DOI":"10.52202\/079017-1717"},{"key":"e_1_3_2_1_59_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2504.20073"},{"key":"e_1_3_2_1_60_1","volume-title":"Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. In Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022","author":"Wei Jason","year":"2022","unstructured":"Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Brian Ichter, Fei Xia, Ed H. Chi, Quoc V. Le, and Denny Zhou. 2022. Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. In Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022, New Orleans, LA, USA, November 28 - December 9, 2022, Sanmi Koyejo, S. Mohamed, A. Agarwal, Danielle Belgrave, K. Cho, and A. Oh (Eds.). http:\/\/papers.nips.cc\/paper_files\/paper\/2022\/hash\/9d5609613524ecf4f15af0f7b31abca4-Abstract-Conference.html"},{"key":"e_1_3_2_1_61_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2505.22648"},{"key":"e_1_3_2_1_62_1","doi-asserted-by":"publisher","DOI":"10.1145\/3626772.3657878"},{"key":"e_1_3_2_1_63_1","volume-title":"LIMI: Less is More for Agency. arXiv:2509.17567 [cs.AI] https:\/\/arxiv.org\/abs\/2509.17567","author":"Xiao Yang","year":"2025","unstructured":"Yang Xiao, Mohan Jiang, Jie Sun, Keyu Li, Jifan Lin, Yumin Zhuang, Ji Zeng, Shijie Xia, Qishuo Hua, Xuefeng Li, Xiaojie Cai, Tongyu Wang, Yue Zhang, Liming Liu, Xia Wu, Jinlong Hou, Yuan Cheng, Wenjie Li, Xiang Wang, Dequan Wang, and Pengfei Liu. 2025. LIMI: Less is More for Agency. arXiv:2509.17567 [cs.AI] https:\/\/arxiv.org\/abs\/2509.17567"},{"key":"e_1_3_2_1_64_1","volume-title":"Simpletir: End-to-end reinforcement learning for multi-turn tool-integrated reasoning. arXiv preprint arXiv:2509.02479","author":"Xue Zhenghai","year":"2025","unstructured":"Zhenghai Xue, Longtao Zheng, Qian Liu, Yingru Li, Xiaosen Zheng, Zejun Ma, and Bo An. 2025. Simpletir: End-to-end reinforcement learning for multi-turn tool-integrated reasoning. arXiv preprint arXiv:2509.02479 (2025)."},{"key":"e_1_3_2_1_65_1","unstructured":"An Yang Anfeng Li Baosong Yang Beichen Zhang Binyuan Hui Bo Zheng Bowen Yu Chang Gao Chengen Huang Chenxu Lv Chujie Zheng Dayiheng Liu Fan Zhou Fei Huang Feng Hu Hao Ge Haoran Wei Huan Lin Jialong Tang Jian Yang Jianhong Tu Jianwei Zhang Jian Yang Jiaxi Yang Jingren Zhou Junyang Lin Kai Dang Keqin Bao Kexin Yang Le Yu Lianghao Deng Mei Li Mingfeng Xue Mingze Li Pei Zhang Peng Wang Qin Zhu Rui Men Ruize Gao Shixuan Liu Shuang Luo Tianhao Li Tianyi Tang Wenbiao Yin Xingzhang Ren Xinyu Wang Xinyu Zhang Xuancheng Ren Yang Fan Yang Su Yichang Zhang Yinger Zhang Yu Wan Yuqiong Liu Zekun Wang Zeyu Cui Zhenru Zhang Zhipeng Zhou and Zihan Qiu. 2025a. Qwen3 Technical Report. CoRR Vol. abs\/2505.09388 (2025). arXiv:2505.09388 doi:10.48550\/ARXIV.2505.09388"},{"key":"e_1_3_2_1_66_1","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.2502.18080"},{"key":"e_1_3_2_1_67_1","volume-title":"Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems","author":"Yao Shunyu","year":"2022","unstructured":"Shunyu Yao, Howard Chen, John Yang, and Karthik Narasimhan. 2022a. WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents. In Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022, New Orleans, LA, USA, November 28 - December 9, 2022, Sanmi Koyejo, S. Mohamed, A. Agarwal, Danielle Belgrave, K. Cho, and A. Oh (Eds.). http:\/\/papers.nips.cc\/paper_files\/paper\/2022\/hash\/82ad13ec01f9fe44c01cb91814fd7b8c-Abstract-Conference.html"},{"key":"e_1_3_2_1_68_1","volume-title":"React: Synergizing reasoning and acting in language models. arXiv preprint arXiv:2210.03629","author":"Yao Shunyu","year":"2022","unstructured":"Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, and Yuan Cao. 2022b. React: Synergizing reasoning and acting in language models. arXiv preprint arXiv:2210.03629 (2022)."},{"key":"e_1_3_2_1_69_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.acl-long.150"},{"key":"e_1_3_2_1_70_1","doi-asserted-by":"publisher","DOI":"10.18653\/V1\/2024.FINDINGS-ACL.181"},{"key":"e_1_3_2_1_71_1","unstructured":"Qianchi Zhang Hainan Zhang Liang Pang Hongwei Zheng Yongxin Tong and Zhiming Zheng. 2025. Less is More: Compact Clue Selection for Efficient Retrieval-Augmented Generation Reasoning. arXiv:2502.11811 [cs.CL] https:\/\/arxiv.org\/abs\/2502.11811"},{"key":"e_1_3_2_1_72_1","volume-title":"DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments. arXiv preprint arXiv:2504.03160","author":"Zheng Yuxiang","year":"2025","unstructured":"Yuxiang Zheng, Dayuan Fu, Xiangkun Hu, Xiaojie Cai, Lyumanshan Ye, Pengrui Lu, and Pengfei Liu. 2025. DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments. arXiv preprint arXiv:2504.03160 (2025)."}],"event":{"name":"WWW '26: The ACM Web Conference 2026","location":"Dubai United Arab Emirates","sponsor":["SIGWEB ACM Special Interest Group on Hypertext, Hypermedia, and Web"]},"container-title":["Proceedings of the ACM Web Conference 2026"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3774904.3792460","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,7,4]],"date-time":"2026-07-04T07:47:35Z","timestamp":1783151255000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3774904.3792460"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,4,12]]},"references-count":72,"alternative-id":["10.1145\/3774904.3792460","10.1145\/3774904"],"URL":"https:\/\/doi.org\/10.1145\/3774904.3792460","relation":{},"subject":[],"published":{"date-parts":[[2026,4,12]]},"assertion":[{"value":"2026-04-12","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}