{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,10]],"date-time":"2026-04-10T17:07:47Z","timestamp":1775840867385,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":47,"publisher":"ACM","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,4,13]]},"DOI":"10.1145\/3774904.3792799","type":"proceedings-article","created":{"date-parts":[[2026,4,9]],"date-time":"2026-04-09T21:54:39Z","timestamp":1775771679000},"page":"7955-7966","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["TaoSR-AGRL: Adaptive Guided Reinforcement Learning Framework for E-commerce Search Relevance"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-3547-0472","authenticated-orcid":false,"given":"Jianhui","family":"Yang","sequence":"first","affiliation":[{"name":"Tsinghua University, Beijing, China and Taobao &amp;#38; Tmall Group of Alibaba, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-1786-0894","authenticated-orcid":false,"given":"Yiming","family":"Jin","sequence":"additional","affiliation":[{"name":"Taobao &amp;#38; Tmall Group of Alibaba, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-0542-3482","authenticated-orcid":false,"given":"Pengkun","family":"Jiao","sequence":"additional","affiliation":[{"name":"Fudan University, Shanghai, China and Taobao &amp;#38; Tmall Group of Alibaba, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2211-5138","authenticated-orcid":false,"given":"Chenhe","family":"Dong","sequence":"additional","affiliation":[{"name":"Taobao &amp;#38; Tmall Group of Alibaba, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0000-6354-9242","authenticated-orcid":false,"given":"Zerui","family":"Huang","sequence":"additional","affiliation":[{"name":"Taobao &amp;#38; Tmall Group of Alibaba, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-3216-7414","authenticated-orcid":false,"given":"Shaowei","family":"Yao","sequence":"additional","affiliation":[{"name":"Taobao &amp;#38; Tmall Group of Alibaba, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-1927-6167","authenticated-orcid":false,"given":"Xiaojiang","family":"Zhou","sequence":"additional","affiliation":[{"name":"Taobao &amp;#38; Tmall Group of Alibaba, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-9838-5343","authenticated-orcid":false,"given":"Dan","family":"Ou","sequence":"additional","affiliation":[{"name":"Taobao &amp;#38; Tmall Group of Alibaba, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7103-975X","authenticated-orcid":false,"given":"Haihong","family":"Tang","sequence":"additional","affiliation":[{"name":"Taobao &amp;#38; Tmall Group of Alibaba, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2026,4,12]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1016\/S0306-4573(02)00021-3"},{"key":"e_1_3_2_1_2_1","volume-title":"Garnett (Eds.)","volume":"28","author":"Bengio Samy","year":"2015","unstructured":"Samy Bengio, Oriol Vinyals, Navdeep Jaitly, and Noam Shazeer. 2015. Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks. In Advances in Neural Information Processing Systems, C. Cortes, N. Lawrence, D. Lee, M. Sugiyama, and R. Garnett (Eds.), Vol. 28. Curran Associates, Inc. https:\/\/proceedings.neurips.cc\/paper_files\/paper\/2015\/file\/e995f98d56967d946471af29d7bf99f1-Paper.pdf"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1145\/1102351.1102363"},{"key":"e_1_3_2_1_4_1","unstructured":"Christopher J. C. Burges. 2010. From RankNet to LambdaRank to LambdaMART: An Overview. https:\/\/api.semanticscholar.org\/CorpusID:397316"},{"key":"e_1_3_2_1_5_1","unstructured":"Tianzhe Chu Yuexiang Zhai Jihan Yang Shengbang Tong Saining Xie Dale Schuurmans Quoc V. Le Sergey Levine and Yi Ma. 2025. SFT Memorizes RL Generalizes: A Comparative Study of Foundation Model Post-training. arXiv:2501.17161 [cs.AI] https:\/\/arxiv.org\/abs\/2501.17161"},{"key":"e_1_3_2_1_6_1","unstructured":"Ganqu Cui Lifan Yuan Zefan Wang Hanbin Wang Wendi Li Bingxiang He Yuchen Fan Tianyu Yu Qixin Xu Weize Chen Jiarui Yuan Huayu Chen Kaiyan Zhang Xingtai Lv Shuo Wang Yuan Yao Xu Han Hao Peng Yu Cheng Zhiyuan Liu Maosong Sun Bowen Zhou and Ning Ding. 2025. Process Reinforcement through Implicit Rewards. arXiv:2502.01456 [cs.LG] https:\/\/arxiv.org\/abs\/2502.01456"},{"key":"e_1_3_2_1_7_1","unstructured":"DeepSeek-AI Daya Guo Dejian Yang Haowei Zhang Junxiao Song and Ruoyu Zhang et al. 2025. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948 [cs.CL] https:\/\/arxiv.org\/abs\/2501.12948"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.5555\/3600270.3600692"},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N19-1423"},{"key":"e_1_3_2_1_10_1","unstructured":"Chenhe Dong Shaowei Yao Pengkun Jiao Jianhui Yang Yiming Jin Zerui Huang Xiaojiang Zhou Dan Ou and Haihong Tang. 2025. TaoSR1: The Thinking Model for E-commerce Relevance Search. arXiv:2508.12365 [cs.IR] https:\/\/arxiv.org\/abs\/2508.12365"},{"key":"e_1_3_2_1_11_1","volume-title":"Go-explore: a new approach for hard-exploration problems. arXiv preprint arXiv:1901.10995","author":"Ecoffet Adrien","year":"2019","unstructured":"Adrien Ecoffet, Joost Huizinga, Joel Lehman, Kenneth O Stanley, and Jeff Clune. 2019. Go-explore: a new approach for hard-exploration problems. arXiv preprint arXiv:1901.10995 (2019)."},{"key":"e_1_3_2_1_12_1","unstructured":"Aaron Grattafiori Abhimanyu Dubey Abhinav Jauhri Abhinav Pandey Abhishek Kadian and Ahmad Al-Dahle et al. 2024. The Llama 3 Herd of Models. arXiv:2407.21783 [cs.AI] https:\/\/arxiv.org\/abs\/2407.21783"},{"key":"e_1_3_2_1_13_1","volume-title":"A Survey on LLM-as-a-Judge. ArXiv","author":"Gu Jiawei","year":"2024","unstructured":"Jiawei Gu, Xuhui Jiang, Zhichao Shi, Hexiang Tan, Xuehao Zhai, Chengjin Xu, Wei Li, Yinghan Shen, Shengjie Ma, Honghao Liu, Yuanzhuo Wang, and Jian Guo. 2024. A Survey on LLM-as-a-Judge. ArXiv, Vol. abs\/2411.15594 (2024). https:\/\/api.semanticscholar.org\/CorpusID:274234014"},{"key":"e_1_3_2_1_14_1","volume-title":"Christoforos Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Sainbayar Sukhbaatar, and Roberta Raileanu.","author":"Havrilla Alex","year":"2024","unstructured":"Alex Havrilla, Yuqing Du, Sharath Chandra Raparthy, Christoforos Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Sainbayar Sukhbaatar, and Roberta Raileanu. 2024. Teaching Large Language Models to Reason with Reinforcement Learning. arXiv:2403.04642 [cs.LG] https:\/\/arxiv.org\/abs\/2403.04642"},{"key":"e_1_3_2_1_15_1","volume-title":"V-STaR: Training Verifiers for Self-Taught Reasoners. ArXiv","author":"Hosseini Arian","year":"2024","unstructured":"Arian Hosseini, Xingdi Yuan, Nikolay Malkin, Aaron C. Courville, Alessandro Sordoni, and Rishabh Agarwal. 2024. V-STaR: Training Verifiers for Self-Taught Reasoners. ArXiv, Vol. abs\/2402.06457 (2024). https:\/\/api.semanticscholar.org\/CorpusID:267617275"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"publisher","DOI":"10.1145\/2505515.2505665"},{"key":"e_1_3_2_1_17_1","unstructured":"Binyuan Hui Jian Yang Zeyu Cui Jiaxi Yang Dayiheng Liu Lei Zhang Tianyu Liu Jiajun Zhang Bowen Yu Keming Lu Kai Dang Yang Fan Yichang Zhang An Yang Rui Men Fei Huang Bo Zheng Yibo Miao Shanghaoran Quan Yunlong Feng Xingzhang Ren Xuancheng Ren Jingren Zhou and Junyang Lin. 2024. Qwen2.5-Coder Technical Report. arXiv:2409.12186 [cs.CL] https:\/\/arxiv.org\/abs\/2409.12186"},{"key":"e_1_3_2_1_18_1","volume-title":"Ash","author":"Juliani Arthur","year":"2024","unstructured":"Arthur Juliani and Jordan T. Ash. 2024. A Study of Plasticity Loss in On-Policy Deep Reinforcement Learning. arXiv:2405.19153 [cs.LG] https:\/\/arxiv.org\/abs\/2405.19153"},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.550"},{"key":"e_1_3_2_1_20_1","unstructured":"Xin Lai Zhuotao Tian Yukang Chen Senqiao Yang Xiangru Peng and Jiaya Jia. 2024. Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs. arXiv:2406.18629 [cs.LG] https:\/\/arxiv.org\/abs\/2406.18629"},{"key":"e_1_3_2_1_21_1","unstructured":"Shuangtao Li Shuaihao Dong Kexin Luan Xinhan Di and Chaofan Ding. 2025. Enhancing Reasoning through Process Supervision with Monte Carlo Tree Search. arXiv:2501.01478 [cs.AI] https:\/\/arxiv.org\/abs\/2501.01478"},{"key":"e_1_3_2_1_22_1","volume-title":"NGRPO: Negative-enhanced Group Relative Policy Optimization. arXiv:2509.18851 [cs.LG] https:\/\/arxiv.org\/abs\/2509.18851","author":"Nan Gongrui","year":"2025","unstructured":"Gongrui Nan, Siye Chen, Jing Huang, Mengyu Lu, Dexun Wang, Chunmei Xie, Weiqi Xiong, Xianzhou Zeng, Qixuan Zhou, Yadong Li, and Xingzhong Xu. 2025. NGRPO: Negative-enhanced Group Relative Policy Optimization. arXiv:2509.18851 [cs.LG] https:\/\/arxiv.org\/abs\/2509.18851"},{"key":"e_1_3_2_1_23_1","unstructured":"Vaskar Nath Elaine Lau Anisha Gunjal Manasi Sharma Nikhil Baharte and Sean Hendryx. 2025. Adaptive Guidance Accelerates Reinforcement Learning of Reasoning Models. arXiv:2506.13923 [cs.LG] https:\/\/arxiv.org\/abs\/2506.13923"},{"key":"e_1_3_2_1_24_1","unstructured":"Rodrigo Nogueira and Kyunghyun Cho. 2020. Passage Re-ranking with BERT. arXiv:1901.04085 [cs.IR] https:\/\/arxiv.org\/abs\/1901.04085"},{"key":"e_1_3_2_1_25_1","volume-title":"Guy Gur-Ari, Henryk Michalewski, Jacob Austin, David Bieber, David Dohan, Aitor Lewkowycz, Maarten Bosma, David Luan, Charles Sutton, and Augustus Odena.","author":"Nye Maxwell","year":"2021","unstructured":"Maxwell Nye, Anders Johan Andreassen, Guy Gur-Ari, Henryk Michalewski, Jacob Austin, David Bieber, David Dohan, Aitor Lewkowycz, Maarten Bosma, David Luan, Charles Sutton, and Augustus Odena. 2021. Show Your Work: Scratchpads for Intermediate Computation with Language Models. arXiv:2112.00114 [cs.LG] https:\/\/arxiv.org\/abs\/2112.00114"},{"key":"e_1_3_2_1_26_1","unstructured":"OpenAI Aaron Jaech Adam Kalai Adam Lerer Adam Richardson and Ahmed El-Kishky et al. 2024. OpenAI o1 System Card. arXiv:2412.16720 [cs.AI] https:\/\/arxiv.org\/abs\/2412.16720"},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"crossref","unstructured":"Andr\u00e9 Quadros Cassio Silva and Ronnie Alves. 2025. LLM-Driven Intrinsic Motivation for Sparse Reward Reinforcement Learning. arXiv:2508.18420 [cs.LG] https:\/\/arxiv.org\/abs\/2508.18420","DOI":"10.5753\/eniac.2025.12425"},{"key":"e_1_3_2_1_28_1","unstructured":"Rafael Rafailov Archit Sharma Eric Mitchell Stefano Ermon Christopher D. Manning and Chelsea Finn. 2024. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv:2305.18290 [cs.LG] https:\/\/arxiv.org\/abs\/2305.18290"},{"key":"e_1_3_2_1_29_1","volume-title":"Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge. ArXiv","author":"Saha Swarnadeep","year":"1809","unstructured":"Swarnadeep Saha, Xian Li, Marjan Ghazvininejad, Jason Weston, and Tianlu Wang. 2025. Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge. ArXiv, Vol. abs\/2501.18099 (2025). https:\/\/api.semanticscholar.org\/CorpusID:275993427"},{"key":"e_1_3_2_1_30_1","unstructured":"ByteDance Seed Yuyu Zhang Jing Su Yifan Sun Chenguang Xi Xia Xiao Shen Zheng Anxiang Zhang Kaibo Liu Daoguang Zan Tao Sun Jinhua Zhu Shulin Xin Dong Huang Yetao Bai Lixin Dong Chao Li Jianchong Chen Hanzhi Zhou Yifan Huang Guanghan Ning Xierui Song Jiaze Chen Siyao Liu Kai Shen Liang Xiang and Yonghui Wu. 2025. Seed-Coder: Let the Code Model Curate Data for Itself. arXiv:2506.03524 [cs.CL] https:\/\/arxiv.org\/abs\/2506.03524"},{"key":"e_1_3_2_1_31_1","unstructured":"Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Junxiao Song Xiao Bi Haowei Zhang Mingchuan Zhang Y. K. Li Y. Wu and Daya Guo. 2024. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300 [cs.CL] https:\/\/arxiv.org\/abs\/2402.03300"},{"key":"e_1_3_2_1_32_1","unstructured":"Joar Skalse Nikolaus H. R. Howe Dmitrii Krasheninnikov and David Krueger. 2025. Defining and Characterizing Reward Hacking. arXiv:2209.13085 [cs.LG] https:\/\/arxiv.org\/abs\/2209.13085"},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-022-01611-x"},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"publisher","DOI":"10.1145\/1645953.1646237"},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.1145\/3701716.3715246"},{"key":"e_1_3_2_1_36_1","unstructured":"Hieu Tran Zonghai Yao and Hong Yu. 2025. Exploiting Tree Structure for Credit Assignment in RL Training of LLMs. arXiv:2509.18314 [cs.CL] https:\/\/arxiv.org\/abs\/2509.18314"},{"key":"e_1_3_2_1_37_1","unstructured":"Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N. Gomez Lukasz Kaiser and Illia Polosukhin. 2023. Attention Is All You Need. arXiv:1706.03762 [cs.CL] https:\/\/arxiv.org\/abs\/1706.03762"},{"key":"e_1_3_2_1_38_1","unstructured":"Weixun Wang Shaopan Xiong Gengru Chen Wei Gao Sheng Guo Yancheng He Ju Huang Jiaheng Liu Zhendong Li Xiaoyang Li Zichen Liu Haizhou Zhao Dakai An Lunxi Cao Qiyang Cao Wanxi Deng Feilei Du Yiliang Gu Jiahe Li Xiang Li Mingjie Liu Yijia Luo Zihe Liu Yadao Wang Pei Wang Tianyuan Wu Yanan Wu Yuheng Zhao Shuaibing Zhao Jin Yang Siran Yang Yingshui Tan Huimin Yi Yuchi Xu Yujin Yuan Xingyao Zhang Lin Qu Wenbo Su Wei Wang Jiamang Wang and Bo Zheng. 2025. Reinforcement Learning Optimization for Large-Scale Learning: An Efficient and User-Friendly Scaling Library. arXiv:2506.06122 [cs.LG] https:\/\/arxiv.org\/abs\/2506.06122"},{"key":"e_1_3_2_1_39_1","volume-title":"Aakanksha Chowdhery, and Denny Zhou.","author":"Wang Xuezhi","year":"2023","unstructured":"Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Sharan Narang, Aakanksha Chowdhery, and Denny Zhou. 2023. Self-Consistency Improves Chain of Thought Reasoning in Language Models. arXiv:2203.11171 [cs.CL] https:\/\/arxiv.org\/abs\/2203.11171"},{"key":"e_1_3_2_1_40_1","unstructured":"An Yang Anfeng Li Baosong Yang Beichen Zhang Binyuan Hui Bo Zheng Bowen Yu Chang Gao Chengen Huang Chenxu Lv Chujie Zheng Dayiheng Liu Fan Zhou Fei Huang Feng Hu Hao Ge Haoran Wei Huan Lin Jialong Tang Jian Yang Jianhong Tu Jianwei Zhang Jianxin Yang Jiaxi Yang Jing Zhou Jingren Zhou Junyang Lin Kai Dang Keqin Bao Kexin Yang Le Yu Lianghao Deng Mei Li Mingfeng Xue Mingze Li Pei Zhang Peng Wang Qin Zhu Rui Men Ruize Gao Shixuan Liu Shuang Luo Tianhao Li Tianyi Tang Wenbiao Yin Xingzhang Ren Xinyu Wang Xinyu Zhang Xuancheng Ren Yang Fan Yang Su Yichang Zhang Yinger Zhang Yu Wan Yuqiong Liu Zekun Wang Zeyu Cui Zhenru Zhang Zhipeng Zhou and Zihan Qiu. 2025. Qwen3 Technical Report. arXiv:2505.09388 [cs.CL] https:\/\/arxiv.org\/abs\/2505.09388"},{"key":"e_1_3_2_1_41_1","volume-title":"DAPO: An Open-Source LLM Reinforcement Learning System at Scale. arXiv:2503.14476 [cs.LG] https:\/\/arxiv.org\/abs\/2503.14476","author":"Yu Qiying","year":"2025","unstructured":"Qiying Yu, Zheng Zhang, Ruofei Zhu, Yufeng Yuan, Xiaochen Zuo, Yu Yue, Weinan Dai, Tiantian Fan, Gaohong Liu, Lingjun Liu, Xin Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Guangming Sheng, Yuxuan Tong, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Jinhua Zhu, Jiaze Chen, Jiangjie Chen, Chengyi Wang, Hongli Yu, Yuxuan Song, Xiangpeng Wei, Hao Zhou, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Lin Yan, Mu Qiao, Yonghui Wu, and Mingxuan Wang. 2025. DAPO: An Open-Source LLM Reinforcement Learning System at Scale. arXiv:2503.14476 [cs.LG] https:\/\/arxiv.org\/abs\/2503.14476"},{"key":"e_1_3_2_1_42_1","unstructured":"Weihao Zeng Yuzhen Huang Qian Liu Wei Liu Keqing He Zejun Ma and Junxian He. 2025. SimpleRL-Zoo: Investigating and Taming Zero Reinforcement Learning for Open Base Models in the Wild. arXiv:2503.18892 [cs.LG] https:\/\/arxiv.org\/abs\/2503.18892"},{"key":"e_1_3_2_1_43_1","doi-asserted-by":"crossref","unstructured":"Di Zhang Jianbo Wu Jingdi Lei Tong Che Jiatong Li Tong Xie Xiaoshui Huang Shufei Zhang Marco Pavone Yuqiang Li Wanli Ouyang and Dongzhan Zhou. 2024. LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning. arXiv:2410.02884 [cs.AI] https:\/\/arxiv.org\/abs\/2410.02884","DOI":"10.18653\/v1\/2025.naacl-long.375"},{"key":"e_1_3_2_1_44_1","volume-title":"GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models. ArXiv","author":"Zhang Jixiao","year":"2025","unstructured":"Jixiao Zhang and Chunsheng Zuo. 2025. GRPO-LEAD: A Difficulty-Aware Reinforcement Learning Approach for Concise Mathematical Reasoning in Language Models. ArXiv, Vol. abs\/2504.09696 (2025). https:\/\/api.semanticscholar.org\/CorpusID:277780631"},{"key":"e_1_3_2_1_45_1","unstructured":"Kaiyi Zhang Ang Lv Jinpeng Li Yongbo Wang Feng Wang Haoyuan Hu and Rui Yan. 2025a. StepHint: Multi-level Stepwise Hints Enhance Reinforcement Learning to Reason. arXiv:2507.02841 [cs.AI] https:\/\/arxiv.org\/abs\/2507.02841"},{"key":"e_1_3_2_1_46_1","unstructured":"Wenhao Zhang Yuexiang Xie Yuchang Sun Yanxi Chen Guoyin Wang Yaliang Li Bolin Ding and Jingren Zhou. 2025c. On-Policy RL Meets Off-Policy Experts: Harmonizing Supervised Fine-Tuning and Reinforcement Learning via Dynamic Weighting. arXiv:2508.11408 [cs.LG] https:\/\/arxiv.org\/abs\/2508.11408"},{"key":"e_1_3_2_1_47_1","unstructured":"Xiaoying Zhang Hao Sun Yipeng Zhang Kaituo Feng Chaochao Lu Chao Yang and Helen Meng. 2025b. Critique-GRPO: Advancing LLM Reasoning with Natural Language and Numerical Feedback. arXiv:2506.03106 [cs.CL] https:\/\/arxiv.org\/abs\/2506.03106"}],"event":{"name":"WWW '26: The ACM Web Conference 2026","location":"Dubai United Arab Emirates","sponsor":["SIGWEB ACM Special Interest Group on Hypertext, Hypermedia, and Web"]},"container-title":["Proceedings of the ACM Web Conference 2026"],"original-title":[],"deposited":{"date-parts":[[2026,4,10]],"date-time":"2026-04-10T16:20:57Z","timestamp":1775838057000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3774904.3792799"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,4,12]]},"references-count":47,"alternative-id":["10.1145\/3774904.3792799","10.1145\/3774904"],"URL":"https:\/\/doi.org\/10.1145\/3774904.3792799","relation":{},"subject":[],"published":{"date-parts":[[2026,4,12]]},"assertion":[{"value":"2026-04-12","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}