{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T10:46:58Z","timestamp":1777459618532,"version":"3.51.4"},"publisher-location":"New York, NY, USA","reference-count":39,"publisher":"ACM","funder":[{"name":"Research Council of Finland","award":["362729"],"award-info":[{"award-number":["362729"]}]},{"name":"Business Finland","award":["169\/31\/2024"],"award-info":[{"award-number":["169\/31\/2024"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,4,27]]},"DOI":"10.1145\/3805621.3807632","type":"proceedings-article","created":{"date-parts":[[2026,4,28]],"date-time":"2026-04-28T13:08:45Z","timestamp":1777381725000},"page":"41-48","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["<i>\n                      E\n                      <scp>arl<\/scp>\n                      :\n                    <\/i>\n                    Efficient Agentic RL Post-Training for LLMs under Dynamic Context Lengths"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0002-1700-1053","authenticated-orcid":false,"given":"Zheyue","family":"Tan","sequence":"first","affiliation":[{"name":"Aalto University, Espoo, Finland"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3685-2099","authenticated-orcid":false,"given":"Tuo","family":"Shi","sequence":"additional","affiliation":[{"name":"Aalto University, Espoo, Finland"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3438-3535","authenticated-orcid":false,"given":"Huining","family":"Yuan","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5578-199X","authenticated-orcid":false,"given":"Zelai","family":"Xu","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6975-0158","authenticated-orcid":false,"given":"Chao","family":"Yu","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6370-1723","authenticated-orcid":false,"given":"Boxun","family":"Li","sequence":"additional","affiliation":[{"name":"Infinigence AI, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6108-5157","authenticated-orcid":false,"given":"Yu","family":"Wang","sequence":"additional","affiliation":[{"name":"Tsinghua University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0768-3444","authenticated-orcid":false,"given":"Bo","family":"Zhao","sequence":"additional","affiliation":[{"name":"Aalto University, Espoo, Finland"}]}],"member":"320","published-online":{"date-parts":[[2026,4,28]]},"reference":[{"key":"e_1_3_2_1_1_1","unstructured":"2025. Connect Four. https:\/\/en.wikipedia.org\/wiki\/Connect_Four."},{"key":"e_1_3_2_1_2_1","unstructured":"2025. Hanabi (card game). https:\/\/en.wikipedia.org\/wiki\/Hanabi_(card_game)."},{"key":"e_1_3_2_1_3_1","unstructured":"2025. Kuhn poker. https:\/\/en.wikipedia.org\/wiki\/Kuhn_poker."},{"key":"e_1_3_2_1_4_1","unstructured":"2025. Leduc Hold'em. https:\/\/www.sotets.uk\/pgx\/leduc_holdem."},{"key":"e_1_3_2_1_5_1","unstructured":"2025. Tic-tac-toe. https:\/\/en.wikipedia.org\/wiki\/Tic-tac-toe."},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","unstructured":"Pranjal Aggarwal and Sean Welleck. 2025. L1: Controlling How Long A Reasoning Model Thinks With Reinforcement Learning. doi:10.48550\/arXiv.2503.04697 arXiv:2503.04697 [cs] version: 1.","DOI":"10.48550\/arXiv.2503.04697"},{"key":"e_1_3_2_1_7_1","volume-title":"Deep reinforcement learning from human preferences. Advances in neural information processing systems 30","author":"Christiano Paul F","year":"2017","unstructured":"Paul F Christiano, Jan Leike, Tom Brown, Miljan Martic, Shane Legg, and Dario Amodei. 2017. Deep reinforcement learning from human preferences. Advances in neural information processing systems 30 (2017)."},{"key":"e_1_3_2_1_8_1","unstructured":"Google DeepMind. 2025. Gemini Deep Research \u2014 your personal research assistant \u2014 gemini.google. https:\/\/gemini.google\/overview\/deep-research\/."},{"key":"e_1_3_2_1_9_1","volume-title":"arXiv preprint arXiv:2506.08007","author":"Dong Qingxiu","year":"2025","unstructured":"Qingxiu Dong, Li Dong, Yao Tang, Tianzhu Ye, Yutao Sun, Zhifang Sui, and Furu Wei. 2025. Reinforcement Pre-Training. arXiv preprint arXiv:2506.08007 (2025)."},{"key":"e_1_3_2_1_10_1","doi-asserted-by":"publisher","unstructured":"Alexander Golubev Maria Trofimova Sergei Polezhaev Ibragim Badertdinov Maksim Nekrashevich Anton Shevtsov Simon Karasik Sergey Abramov Andrei Andriushchenko Filipp Fisin Sergei Skvortsov and Boris Yangel. 2025. Training Long-Context Multi-Turn Software Engineering Agents with Reinforcement Learning. doi:10.48550\/arXiv.2508.03501 arXiv:2508.03501 [cs] version: 1.","DOI":"10.48550\/arXiv.2508.03501"},{"key":"e_1_3_2_1_11_1","unstructured":"Tyler Griggs Sumanth Hegde Eric Tang Shu Liu Shiyi Cao Dacheng Li Charlie Ruan Philipp Moritz Kourosh Hakhamaneshi Richard Liaw Akshay Malik Matei Zaharia Joseph E. Gonzalez and Ion Stoica. 2025. Evolving SkyRL into a Highly-Modular RL Framework."},{"key":"e_1_3_2_1_12_1","unstructured":"Daya Guo Dejian Yang Haowei Zhang Junxiao Song Ruoyu Zhang Runxin Xu Qihao Zhu Shirong Ma Peiyi Wang Xiao Bi et al. 2025. Deepseek-r1: Incentivizing reasoning capability in llms via reinforcement learning. arXiv preprint arXiv:2501.12948 (2025)."},{"key":"e_1_3_2_1_13_1","unstructured":"Jujie He Jiacai Liu Chris Yuhao Liu Rui Yan Chaojie Wang Peng Cheng Xiaoyu Zhang Fuxiang Zhang Jiacheng Xu Wei Shen Siyuan Li Liang Zeng Tianwen Wei Cheng Cheng Bo An Yang Liu and Yahui Zhou. 2025. Skywork Open Reasoner 1 Technical Report. doi:10.48550\/arXiv.2505.22312 arXiv:2505.22312 [cs]."},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2309.14509"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","unstructured":"Linus Jern Valter Uotila Cong Yu and Bo Zhao. 2025. Agent-Q: Fine-Tuning Large Language Models for Quantum Circuit Generation and Optimization. doi:10.48550\/arXiv.2504.11109 arXiv:2504.11109 [quant-ph] version: 2.","DOI":"10.48550\/arXiv.2504.11109"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"publisher","unstructured":"Vijay Korthikanti Jared Casper Sangkug Lym Lawrence McAfee Michael Andersch Mohammad Shoeybi and Bryan Catanzaro. 2022. Reducing Activation Recomputation in Large Transformer Models. doi:10.48550\/arXiv.2205.05198 arXiv:2205.05198 [cs].","DOI":"10.48550\/arXiv.2205.05198"},{"key":"e_1_3_2_1_17_1","volume-title":"Brennan Saeta, James Bradbury, David Ding, Sebastian Borgeaud, Matthew Lai, Julian Schrittwieser, Thomas Anthony, Edward Hughes, Ivo Danihelka, and Jonah Ryan-Davis.","author":"Lanctot Marc","year":"2019","unstructured":"Marc Lanctot, Edward Lockhart, Jean-Baptiste Lespiau, Vinicius Zambaldi, Satyaki Upadhyay, Julien P\u00e9rolat, Sriram Srinivasan, Finbarr Timbers, Karl Tuyls, Shayegan Omidshafiei, Daniel Hennes, Dustin Morrill, Paul Muller, Timo Ewalds, Ryan Faulkner, J\u00e1nos Kram\u00e1r, Bart De Vylder, Brennan Saeta, James Bradbury, David Ding, Sebastian Borgeaud, Matthew Lai, Julian Schrittwieser, Thomas Anthony, Edward Hughes, Ivo Danihelka, and Jonah Ryan-Davis. 2019. Open-Spiel: A Framework for Reinforcement Learning in Games. CoRR abs\/1908.09453 (2019). arXiv:1908.09453 [cs.LG] http:\/\/arxiv.org\/abs\/1908.09453"},{"key":"e_1_3_2_1_18_1","volume-title":"The llama 3 herd of models. arXiv e-prints","author":"Meta Llama Team AI","year":"2024","unstructured":"AI @ Meta Llama Team. 2024. The llama 3 herd of models. arXiv e-prints (2024), arXiv-2407."},{"key":"e_1_3_2_1_19_1","volume-title":"Raluca Ada Popa, and Ion Stoica.","author":"Luo Michael","year":"2025","unstructured":"Michael Luo, Sijun Tan, Roy Huang, Ameen Patel, Alpay Ariyak, Qingyang Wu, Xiaoxiang Shi, Rachel Xin, Colin Cai, Maurice Weber, Ce Zhang, Li Erran Li, Raluca Ada Popa, and Ion Stoica. 2025. DeepCoder: A Fully Open-Source 14B Coder at O3-mini Level. https:\/\/www.together.ai\/blog\/deepcoder"},{"key":"e_1_3_2_1_20_1","unstructured":"OpenAI. 2025. Introducing Deep Research. https:\/\/openai.com\/index\/introducing-deep-research."},{"key":"e_1_3_2_1_21_1","unstructured":"OpenAI. 2025. Introducing GPT-5. https:\/\/openai.com\/index\/introducing-gpt-5"},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","unstructured":"Long Ouyang Jeff Wu Xu Jiang Diogo Almeida Carroll L. Wainwright Pamela Mishkin Chong Zhang Sandhini Agarwal Katarina Slama Alex Ray John Schulman Jacob Hilton Fraser Kelton Luke Miller Maddie Simens Amanda Askell Peter Welinder Paul Christiano Jan Leike and Ryan Lowe. 2022. Training language models to follow instructions with human feedback. doi:10.48550\/arXiv.2203.02155 arXiv:2203.02155 [cs].","DOI":"10.48550\/arXiv.2203.02155"},{"key":"e_1_3_2_1_23_1","volume-title":"Toolllm: Facilitating large language models to master 16000+ real-world apis. arXiv preprint arXiv:2307.16789","author":"Qin Yujia","year":"2023","unstructured":"Yujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, et al. 2023. Toolllm: Facilitating large language models to master 16000+ real-world apis. arXiv preprint arXiv:2307.16789 (2023)."},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11704-024-40678-2"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1145\/3689031.3696075"},{"key":"e_1_3_2_1_26_1","volume-title":"Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism. arXiv preprint arXiv:1909.08053","author":"Shoeybi Mohammad","year":"2019","unstructured":"Mohammad Shoeybi, Mostofa Patwary, Raul Puri, Patrick LeGresley, Jared Casper, and Bryan Catanzaro. 2019. Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism. arXiv preprint arXiv:1909.08053 (2019)."},{"key":"e_1_3_2_1_27_1","unstructured":"Nouamane Tazi Ferdinand Mom Haojun Zhao Phuc Nguyen Mohamed Mekkouri Leandro Werra and Thomas Wolf. 2025. The Ultra-Scale Playbook: Training LLMs on GPU Clusters. https:\/\/huggingface.co\/spaces\/nanotron\/ultrascale-playbook"},{"key":"e_1_3_2_1_28_1","volume-title":"Kimi k1. 5: Scaling reinforcement learning with llms. arXiv preprint arXiv:2501.12599","author":"Team Kimi","year":"2025","unstructured":"Kimi Team. 2025. Kimi k1. 5: Scaling reinforcement learning with llms. arXiv preprint arXiv:2501.12599 (2025)."},{"key":"e_1_3_2_1_29_1","unstructured":"Kimi Team Tongtong Bai Yifan Bai Yiping Bao SH Cai Yuan Cao Y Charles HS Che Cheng Chen Guanduo Chen et al. 2026. Kimi K2. 5: Visual Agentic Intelligence. arXiv preprint arXiv:2602.02276 (2026)."},{"key":"e_1_3_2_1_30_1","unstructured":"Kimi Team Yifan Bai Yiping Bao Guanduo Chen Jiahao Chen Ningxin Chen Ruijue Chen Yanru Chen Yuankun Chen Yutian Chen et al. 2025. Kimi K2: Open Agentic Intelligence. arXiv preprint arXiv:2507.20534 (2025)."},{"key":"e_1_3_2_1_31_1","unstructured":"Qwen Team. 2024. Qwen2.5: A Party of Foundation Models. https:\/\/qwenlm.github.io\/blog\/qwen2.5\/"},{"key":"e_1_3_2_1_32_1","unstructured":"Qwen Team. 2025. Qwen3 Technical Report. doi:10.48550\/arXiv.2505.09388 arXiv:2505.09388 [cs]."},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","unstructured":"Weixun Wang Shaopan Xiong Gengru Chen Wei Gao Sheng Guo Yancheng He Ju Huang Jiaheng Liu Zhendong Li Xiaoyang Li Zichen Liu Haizhou Zhao Dakai An Lunxi Cao Qiyang Cao Wanxi Deng Feilei Du Yiliang Gu Jiahe Li Xiang Li Mingjie Liu Yijia Luo Zihe Liu Yadao Wang Pei Wang Tianyuan Wu Yanan Wu Yuheng Zhao Shuaibing Zhao Jin Yang Siran Yang Yingshui Tan Huimin Yi Yuchi Xu Yujin Yuan Xingyao Zhang Lin Qu Wenbo Su Wei Wang Jiamang Wang and Bo Zheng. 2025. Reinforcement Learning Optimization for Large-Scale Learning: An Efficient and User-Friendly Scaling Library. doi:10.48550\/arXiv.2506.06122 arXiv:2506.06122 [cs].","DOI":"10.48550\/arXiv.2506.06122"},{"key":"e_1_3_2_1_34_1","unstructured":"Weixun Wang XiaoXiao Xu Wanhe An Fangwen Dai Wei Gao Yancheng He Ju Huang Qiang Ji Hanqi Jin Xiaoyang Li et al. 2025. Let it flow: Agentic crafting on rock and roll building the rome model within an open agentic learning ecosystem. arXiv preprint arXiv:2512.24873 (2025)."},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"publisher","unstructured":"Violet Xiang Chase Blagden Rafael Rafailov Nathan Lile Sang Truong Chelsea Finn and Nick Haber. 2025. Just Enough Thinking: Efficient Reasoning with Adaptive Length Penalties Reinforcement Learning. doi:10.48550\/arXiv.2506.05256 arXiv:2506.05256 [cs] version: 1.","DOI":"10.48550\/arXiv.2506.05256"},{"key":"e_1_3_2_1_36_1","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2510.00967"},{"key":"e_1_3_2_1_37_1","volume-title":"Marshal: Incentivizing multi-agent reasoning via self-play with strategic llms. arXiv preprint arXiv:2510.15414","author":"Yuan Huining","year":"2025","unstructured":"Huining Yuan, Zelai Xu, Zheyue Tan, Xiangmin Yi, Mo Guang, Kaiwen Long, Haojia Hui, Boxun Li, Xinlei Chen, Bo Zhao, et al. 2025. Marshal: Incentivizing multi-agent reasoning via self-play with strategic llms. arXiv preprint arXiv:2510.15414 (2025)."},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2312.07104"},{"key":"e_1_3_2_1_39_1","unstructured":"Zilin Zhu Chengxing Xie Xin Lv and slime Contributors. 2025. slime: An LLM post-training framework for RL Scaling. https:\/\/github.com\/THUDM\/slime"}],"event":{"name":"EuroSys '26: 21st European Conference on Computer Systems","location":"Edinburgh Scotland Uk","acronym":"EuroMLSys '26","sponsor":["SIGOPS ACM Special Interest Group on Operating Systems"]},"container-title":["Proceedings of the Sixth European Workshop on Machine Learning and Systems"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3805621.3807632","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,28]],"date-time":"2026-04-28T13:10:26Z","timestamp":1777381826000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3805621.3807632"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,4,27]]},"references-count":39,"alternative-id":["10.1145\/3805621.3807632","10.1145\/3805621"],"URL":"https:\/\/doi.org\/10.1145\/3805621.3807632","relation":{},"subject":[],"published":{"date-parts":[[2026,4,27]]},"assertion":[{"value":"2026-04-28","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}