{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,10,8]],"date-time":"2025-10-08T00:32:35Z","timestamp":1759883555105,"version":"build-2065373602"},"publisher-location":"New York, NY, USA","reference-count":18,"publisher":"ACM","content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,5,8]]},"DOI":"10.1145\/3701716.3715547","type":"proceedings-article","created":{"date-parts":[[2025,6,23]],"date-time":"2025-06-23T14:10:32Z","timestamp":1750687832000},"page":"1308-1311","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Reward Balancing Revisited: Enhancing Offline Reinforcement Learning for Recommender Systems"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-7469-1083","authenticated-orcid":false,"given":"Wenzheng","family":"Shu","sequence":"first","affiliation":[{"name":"University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3749-4019","authenticated-orcid":false,"given":"Yanxiang","family":"Zeng","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1614-2444","authenticated-orcid":false,"given":"Yongxiang","family":"Tang","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-9386-8859","authenticated-orcid":false,"given":"Teng","family":"Sha","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-4984-5307","authenticated-orcid":false,"given":"Ning","family":"Luo","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-8926-8605","authenticated-orcid":false,"given":"Yanhua","family":"Cheng","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7253-0674","authenticated-orcid":false,"given":"Xialong","family":"Liu","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8038-8150","authenticated-orcid":false,"given":"Fan","family":"Zhou","sequence":"additional","affiliation":[{"name":"University of Electronic Science and Technology of China, Chengdu, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9266-0780","authenticated-orcid":false,"given":"Peng","family":"Jiang","sequence":"additional","affiliation":[{"name":"Kuaishou Technology, Beijing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,5,23]]},"reference":[{"key":"e_1_3_2_1_1_1","volume-title":"ICML","volume":"97","author":"Fujimoto Scott","year":"2019","unstructured":"Scott Fujimoto, David Meger, and Doina Precup. 2019. Off-Policy Deep Reinforcement Learning without Exploration. In ICML, Vol. 97. PMLR, 2052--2062."},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"crossref","unstructured":"Chongming Gao Kexin Huang Jiawei Chen Yuan Zhang Biao Li Peng Jiang ShiqiWang Zhong Zhang and Xiangnan He. 2023. Alleviating Matthew Effect of Offline Reinforcement Learning in Interactive Recommendation. In SIGIR. ACM 238--248.","DOI":"10.1145\/3539618.3591636"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"crossref","unstructured":"Chongming Gao Shijun Li Yuan Zhang Jiawei Chen Biao Li Wenqiang Lei Peng Jiang and Xiangnan He. 2022. KuaiRand: An Unbiased Sequential Recommendation Dataset with Randomly Exposed Videos. In CIKM. ACM 3953--3957.","DOI":"10.1145\/3511808.3557624"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"crossref","unstructured":"Huifeng Guo Ruiming Tang Yunming Ye Zhenguo Li and Xiuqiang He. 2017. DeepFM: A Factorization-Machine based Neural Network for CTR Prediction. In IJCAI. ijcai.org 1725--1731.","DOI":"10.24963\/ijcai.2017\/239"},{"key":"e_1_3_2_1_5_1","first-page":"12498","article-title":"When to Trust Your Model: Model-Based Policy Optimization","volume":"32","author":"Janner Michael","year":"2019","unstructured":"Michael Janner, Justin Fu, Marvin Zhang, and Sergey Levine. 2019. When to Trust Your Model: Model-Based Policy Optimization. In Advances in Neural Information Processing Systems, Vol. 32. 12498--12509.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_1_6_1","first-page":"1179","article-title":"Conservative Q-Learning for Offline Reinforcement Learning","volume":"33","author":"Kumar Aviral","year":"2020","unstructured":"Aviral Kumar, Aurick Zhou, George Tucker, and Sergey Levine. 2020. Conservative Q-Learning for Offline Reinforcement Learning. In Advances in Neural Information Processing Systems, Vol. 33. 1179--1191.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1016\/0196-8858(85)90002-8"},{"key":"e_1_3_2_1_8_1","volume-title":"Offline reinforcement learning: Tutorial, review, and perspectives on open problems. arXiv preprint arXiv:2005.01643","author":"Levine Sergey","year":"2020","unstructured":"Sergey Levine, Aviral Kumar, George Tucker, and Justin Fu. 2020. Offline reinforcement learning: Tutorial, review, and perspectives on open problems. arXiv preprint arXiv:2005.01643 (2020)."},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1145\/1639714.1639717"},{"key":"e_1_3_2_1_10_1","volume-title":"Asynchronous Methods for Deep Reinforcement Learning. arXiv preprint arXiv:1602.01783","author":"Mnih Volodymyr","year":"2016","unstructured":"Volodymyr Mnih. 2016. Asynchronous Methods for Deep Reinforcement Learning. arXiv preprint arXiv:1602.01783 (2016)."},{"key":"e_1_3_2_1_11_1","volume-title":"ICML","volume":"48","author":"Schnabel Tobias","year":"2016","unstructured":"Tobias Schnabel, Adith Swaminathan, Ashudeep Singh, Navin Chandak, and Thorsten Joachims. 2016. Recommendations as Treatments: Debiasing Learning and Evaluation. In ICML, Vol. 48. PMLR, 1670--1679."},{"key":"e_1_3_2_1_12_1","volume-title":"ICML","volume":"37","author":"Swaminathan Adith","year":"2015","unstructured":"Adith Swaminathan and Thorsten Joachims. 2015. Counterfactual Risk Minimization: Learning from Logged Bandit Feedback. In ICML, Vol. 37. PMLR, 814--823."},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"crossref","unstructured":"Wenjie Wang Yiyan Xu Fuli Feng Xinyu Lin Xiangnan He and Tat-Seng Chua. 2023. Diffusion Recommender Model. In SIGIR. ACM 832--841.","DOI":"10.1145\/3539618.3591663"},{"key":"e_1_3_2_1_14_1","first-page":"7768","article-title":"Critic Regularized Regression","volume":"33","author":"Novikov Alexander","year":"2020","unstructured":"ZiyuWang, Alexander Novikov, Konrad Zolna, Josh S Merel, Jost Tobias Springenberg, Scott E Reed, Bobak Shahriari, Noah Siegel, Caglar Gulcehre, Nicolas Heess, et al. 2020. Critic Regularized Regression. In Advances in Neural Information Processing Systems, Vol. 33. 7768--7778.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"crossref","unstructured":"Xin Xin Alexandros Karatzoglou Ioannis Arapakis and Joemon M Jose. 2020. Self-Supervised Reinforcement Learning for Recommender Systems. In SIGIR. ACM 931--940.","DOI":"10.1145\/3397271.3401147"},{"key":"e_1_3_2_1_16_1","first-page":"14129","article-title":"MOPO: Model-based Offline Policy Optimization","volume":"33","author":"Yu Tianhe","year":"2020","unstructured":"Tianhe Yu, Garrett Thomas, Lantao Yu, Stefano Ermon, James Y Zou, Sergey Levine, Chelsea Finn, and Tengyu Ma. 2020. MOPO: Model-based Offline Policy Optimization. In Advances in Neural Information Processing Systems, Vol. 33. 14129--14142.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"crossref","unstructured":"Yuanqing Yu Chongming Gao Jiawei Chen Heng Tang Yuefeng Sun Qian Chen Weizhi Ma and Min Zhang. 2024. EasyRL4Rec: An Easy-to-use Library for Reinforcement Learning Based Recommender Systems. In SIGIR. ACM 977--987.","DOI":"10.1145\/3626772.3657868"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"crossref","unstructured":"Yi Zhang Ruihong Qiu Jiajun Liu and SenWang. 2024. ROLeR: Effective Reward Shaping in Offline Reinforcement Learning for Recommender Systems. In CIKM. ACM 3269--3278.","DOI":"10.1145\/3627673.3679633"}],"event":{"name":"WWW '25: The ACM Web Conference 2025","sponsor":["SIGWEB ACM Special Interest Group on Hypertext, Hypermedia, and Web"],"location":"Sydney NSW Australia","acronym":"WWW '25"},"container-title":["Companion Proceedings of the ACM on Web Conference 2025"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3701716.3715547","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,10,7]],"date-time":"2025-10-07T18:26:14Z","timestamp":1759861574000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3701716.3715547"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5,8]]},"references-count":18,"alternative-id":["10.1145\/3701716.3715547","10.1145\/3701716"],"URL":"https:\/\/doi.org\/10.1145\/3701716.3715547","relation":{},"subject":[],"published":{"date-parts":[[2025,5,8]]},"assertion":[{"value":"2025-05-23","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}