{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,4]],"date-time":"2026-07-04T08:18:04Z","timestamp":1783153084267,"version":"3.54.6"},"publisher-location":"New York, NY, USA","reference-count":52,"publisher":"ACM","funder":[{"name":"National Natural Science Foundation of China","award":["62422215"],"award-info":[{"award-number":["62422215"]}]},{"name":"National Natural Science Foundation of China","award":["62472427"],"award-info":[{"award-number":["62472427"]}]},{"name":"Major Innovation & Planning Interdisciplinary Platform for the &#x5c;&quot;Double First Class&#x5c;&quot; Initiative, Renmin University of China","award":["N&#x5c;&#x2f;A"],"award-info":[{"award-number":["N&#x5c;&#x2f;A"]}]},{"name":"Fund for building world-class universities &#x28;disciplines&#x29; of Renmin University of China","award":["N&#x5c;&#x2f;A"],"award-info":[{"award-number":["N&#x5c;&#x2f;A"]}]},{"name":"Huawei Innovation Research Programs","award":["N&#x5c;&#x2f;A"],"award-info":[{"award-number":["N&#x5c;&#x2f;A"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2026,4,13]]},"DOI":"10.1145\/3774904.3792209","type":"proceedings-article","created":{"date-parts":[[2026,4,27]],"date-time":"2026-04-27T13:28:36Z","timestamp":1777296516000},"page":"5975-5986","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Optimizing Multi-Turn Interactive Recommendation Agents via Generative Intrinsic Motivation"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0006-5595-3775","authenticated-orcid":false,"given":"Xueyang","family":"Feng","sequence":"first","affiliation":[{"name":"Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9543-8889","authenticated-orcid":false,"given":"Jiakai","family":"Tang","sequence":"additional","affiliation":[{"name":"Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0144-1775","authenticated-orcid":false,"given":"Xu","family":"Chen","sequence":"additional","affiliation":[{"name":"Gaoling School of Artificial Intelligence, Renmin University of China, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7578-2738","authenticated-orcid":false,"given":"Quanyu","family":"Dai","sequence":"additional","affiliation":[{"name":"Huawei Technologies Ltd., Shenzhen, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2231-4663","authenticated-orcid":false,"given":"Zhenhua","family":"Dong","sequence":"additional","affiliation":[{"name":"Huawei Technologies Ltd., Shenzhen, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2026,4,12]]},"reference":[{"key":"e_1_3_2_1_1_1","unstructured":"Nabiha Asghar. 2016. Yelp Dataset Challenge: Review Rating Prediction. arXiv:1605.05362 [cs.CL] https:\/\/arxiv.org\/abs\/1605.05362"},{"key":"e_1_3_2_1_2_1","unstructured":"Arthur Aubret Laetitia Matignon and Salima Hassas. 2019. A survey on intrinsic motivation in reinforcement learning. arXiv:1908.06976 [cs.LG] https:\/\/arxiv.org\/abs\/1908.06976"},{"key":"e_1_3_2_1_3_1","unstructured":"Mert Cemri Melissa Z. Pan Shuyi Yang Lakshya A. Agrawal Bhavya Chopra Rishabh Tiwari Kurt Keutzer Aditya Parameswaran Dan Klein Kannan Ramchandran Matei Zaharia Joseph E. Gonzalez and Ion Stoica. 2025. Why Do Multi-Agent LLM Systems Fail? arXiv:2503.13657 [cs.AI] https:\/\/arxiv.org\/abs\/2503.13657"},{"key":"e_1_3_2_1_4_1","volume-title":"Fireact: Toward language agent fine-tuning. arXiv preprint arXiv:2310.05915","author":"Chen Baian","year":"2023","unstructured":"Baian Chen, Chang Shu, Ehsan Shareghi, Nigel Collier, Karthik Narasimhan, and Shunyu Yao. 2023. Fireact: Toward language agent fine-tuning. arXiv preprint arXiv:2310.05915 (2023)."},{"key":"e_1_3_2_1_5_1","volume-title":"KTO: Model Alignment as Prospect Theoretic Optimization. arXiv:2402.01306 [cs.LG] https:\/\/arxiv.org\/abs\/2402.01306","author":"Ethayarajh Kawin","year":"2024","unstructured":"Kawin Ethayarajh, Winnie Xu, Niklas Muennighoff, Dan Jurafsky, and Douwe Kiela. 2024. KTO: Model Alignment as Prospect Theoretic Optimization. arXiv:2402.01306 [cs.LG] https:\/\/arxiv.org\/abs\/2402.01306"},{"key":"e_1_3_2_1_6_1","volume-title":"A multi-agent conversational recommender system. arXiv preprint arXiv:2402.01135","author":"Fang Jiabao","year":"2024","unstructured":"Jiabao Fang, Shen Gao, Pengjie Ren, Xiuying Chen, Suzan Verberne, and Zhaochun Ren. 2024. A multi-agent conversational recommender system. arXiv preprint arXiv:2402.01135 (2024)."},{"key":"e_1_3_2_1_7_1","unstructured":"Xueyang Feng Bo Lan Quanyu Dai Lei Wang Jiakai Tang Xu Chen Zhenhua Dong and Ji-Rong Wen. 2025a. Improving Retrospective Language Agents via Joint Policy Gradient Optimization. arXiv:2503.01490 [cs.CL] https:\/\/arxiv.org\/abs\/2503.01490"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"crossref","unstructured":"Xueyang Feng Jingsen Zhang Jiakai Tang Wei Li Guohao Cai Xu Chen Quanyu Dai Yue Zhu and Zhenhua Dong. 2025b. Expectation Confirmation Preference Optimization for Multi-Turn Conversational Recommendation Agent. arXiv:2506.14302 [cs.CL] https:\/\/arxiv.org\/abs\/2506.14302","DOI":"10.18653\/v1\/2025.findings-acl.307"},{"key":"e_1_3_2_1_9_1","volume-title":"A large language model enhanced conversational recommender system. arXiv preprint arXiv:2308.06212","author":"Feng Yue","year":"2023","unstructured":"Yue Feng, Shuchang Liu, Zhenghai Xue, Qingpeng Cai, Lantao Hu, Peng Jiang, Kun Gai, and Fei Sun. 2023. A large language model enhanced conversational recommender system. arXiv preprint arXiv:2308.06212 (2023)."},{"key":"e_1_3_2_1_10_1","volume-title":"Chat-rec: Towards interactive and explainable llms-augmented recommender system. arXiv preprint arXiv:2303.14524","author":"Gao Yunfan","year":"2023","unstructured":"Yunfan Gao, Tao Sheng, Youlin Xiang, Yun Xiong, Haofen Wang, and Jiawei Zhang. 2023. Chat-rec: Towards interactive and explainable llms-augmented recommender system. arXiv preprint arXiv:2303.14524 (2023)."},{"key":"e_1_3_2_1_11_1","unstructured":"Aaron Grattafiori Abhimanyu Dubey and et al. 2024. The Llama 3 Herd of Models. arXiv:2407.21783 [cs.AI] https:\/\/arxiv.org\/abs\/2407.21783"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1145\/3583780.3614949"},{"key":"e_1_3_2_1_13_1","unstructured":"Bal\u00e1zs Hidasi Alexandros Karatzoglou Linas Baltrunas and Domonkos Tikk. 2016. Session-based Recommendations with Recurrent Neural Networks. arXiv:1511.06939 [cs.LG] https:\/\/arxiv.org\/abs\/1511.06939"},{"key":"e_1_3_2_1_14_1","volume-title":"Bridging Language and Items for Retrieval and Recommendation. arXiv preprint arXiv:2403.03952","author":"Hou Yupeng","year":"2024","unstructured":"Yupeng Hou, Jiacheng Li, Zhankui He, An Yan, Xiusi Chen, and Julian McAuley. 2024. Bridging Language and Items for Retrieval and Recommendation. arXiv preprint arXiv:2403.03952 (2024)."},{"key":"e_1_3_2_1_15_1","unstructured":"Edward J. Hu Yelong Shen Phillip Wallis Zeyuan Allen-Zhu Yuanzhi Li Shean Wang Lu Wang and Weizhu Chen. 2021. LoRA: Low-Rank Adaptation of Large Language Models. arXiv:2106.09685 [cs.CL]"},{"key":"e_1_3_2_1_16_1","volume-title":"Recommender ai agent: Integrating large language models for interactive recommendations. arXiv preprint arXiv:2308.16505","author":"Huang Xu","year":"2023","unstructured":"Xu Huang, Jianxun Lian, Yuxuan Lei, Jing Yao, Defu Lian, and Xing Xie. 2023. Recommender ai agent: Integrating large language models for interactive recommendations. arXiv preprint arXiv:2308.16505 (2023)."},{"key":"e_1_3_2_1_17_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.92"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.1109\/MC.2009.263"},{"key":"e_1_3_2_1_19_1","volume-title":"Joseph E. Gonzalez, Hao Zhang, and Ion Stoica.","author":"Kwon Woosuk","year":"2023","unstructured":"Woosuk Kwon, Zhuohan Li, Siyuan Zhuang, Ying Sheng, Lianmin Zheng, Cody Hao Yu, Joseph E. Gonzalez, Hao Zhang, and Ion Stoica. 2023. Efficient Memory Management for Large Language Model Serving with PagedAttention. arXiv:2309.06180 [cs.LG] https:\/\/arxiv.org\/abs\/2309.06180"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2025.findings-naacl.17"},{"key":"e_1_3_2_1_21_1","unstructured":"Yafu Li Xuyang Hu Xiaoye Qu Linjie Li and Yu Cheng. 2025b. Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback. arXiv:2501.12895 [cs.CL] https:\/\/arxiv.org\/abs\/2501.12895"},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"crossref","unstructured":"Shikib Mehri and Maxine Eskenazi. 2020. Unsupervised Evaluation of Interactive Dialog with DialoGPT. arXiv:2006.12719 [cs.CL] https:\/\/arxiv.org\/abs\/2006.12719","DOI":"10.18653\/v1\/2020.sigdial-1.28"},{"key":"e_1_3_2_1_23_1","unstructured":"Ofir Nachum Shixiang Gu Honglak Lee and Sergey Levine. 2018. Data-Efficient Hierarchical Reinforcement Learning. arXiv:1805.08296 [cs.LG] https:\/\/arxiv.org\/abs\/1805.08296"},{"key":"e_1_3_2_1_24_1","first-page":"278","volume-title":"Icml","volume":"99","author":"Ng Andrew Y","year":"1999","unstructured":"Andrew Y Ng, Daishi Harada, and Stuart Russell. 1999. Policy invariance under reward transformations: Theory and application to reward shaping. In Icml, Vol. 99. Citeseer, 278-287."},{"key":"e_1_3_2_1_25_1","unstructured":"OpenAI Josh Achiam and et al. 2024. GPT-4 Technical Report. arXiv:2303.08774 [cs.CL] https:\/\/arxiv.org\/abs\/2303.08774"},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"crossref","unstructured":"Long Ouyang Jeffrey Wu Xu Jiang Diogo Almeida Carroll Wainwright Pamela Mishkin Chong Zhang Sandhini Agarwal Katarina Slama Alex Ray et al. 2022. Training language models to follow instructions with human feedback. Advances in neural information processing systems Vol. 35 (2022) 27730-27744.","DOI":"10.52202\/068431-2011"},{"key":"e_1_3_2_1_27_1","doi-asserted-by":"publisher","DOI":"10.1145\/3453160"},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.61"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"crossref","unstructured":"Rafael Rafailov Archit Sharma Eric Mitchell Stefano Ermon Christopher D. Manning and Chelsea Finn. 2024. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. arXiv:2305.18290 [cs.LG] https:\/\/arxiv.org\/abs\/2305.18290","DOI":"10.52202\/075280-2338"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"crossref","unstructured":"Shaina Raza Mizanur Rahman Safiullah Kamawal Armin Toroghi Ananya Raval Farshad Navah and Amirmohammad Kazemeini. 2025. A Comprehensive Review of Recommender Systems: Transitioning from Theory to Practice. arXiv:2407.13699 [cs.IR] https:\/\/arxiv.org\/abs\/2407.13699","DOI":"10.1016\/j.cosrev.2025.100849"},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"crossref","unstructured":"Nils Reimers and Iryna Gurevych. 2019. Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks. arXiv:1908.10084 [cs.CL] https:\/\/arxiv.org\/abs\/1908.10084","DOI":"10.18653\/v1\/D19-1410"},{"key":"e_1_3_2_1_32_1","volume-title":"Kantor","author":"Ricci Francesco","year":"2010","unstructured":"Francesco Ricci, Lior Rokach, Bracha Shapira, and Paul B. Kantor. 2010. Recommender Systems Handbook (1st ed.). Springer-Verlag, Berlin, Heidelberg."},{"key":"e_1_3_2_1_33_1","volume-title":"Self-determination theory and the facilitation of intrinsic motivation, social development, and well-being. American psychologist","author":"Ryan Richard M","year":"2000","unstructured":"Richard M Ryan and Edward L Deci. 2000. Self-determination theory and the facilitation of intrinsic motivation, social development, and well-being. American psychologist, Vol. 55, 1 (2000), 68."},{"key":"e_1_3_2_1_34_1","unstructured":"John Schulman Filip Wolski Prafulla Dhariwal Alec Radford and Oleg Klimov. 2017. Proximal Policy Optimization Algorithms. arXiv:1707.06347 [cs.LG] https:\/\/arxiv.org\/abs\/1707.06347"},{"key":"e_1_3_2_1_35_1","unstructured":"Zhihong Shao Peiyi Wang Qihao Zhu Runxin Xu Junxiao Song Xiao Bi Haowei Zhang Mingchuan Zhang Y. K. Li Y. Wu and Daya Guo. 2024. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300 [cs.CL] https:\/\/arxiv.org\/abs\/2402.03300"},{"key":"e_1_3_2_1_36_1","unstructured":"Joykirat Singh Raghav Magazine Yash Pandya and Akshay Nambi. 2025. Agentic Reasoning and Tool Integration for LLMs via Reinforcement Learning. arXiv:2505.01441 [cs.AI] https:\/\/arxiv.org\/abs\/2505.01441"},{"key":"e_1_3_2_1_37_1","volume-title":"Fuzheng Zhang, Di Zhang, and Kun Gai.","author":"Sun Yuchong","year":"2024","unstructured":"Yuchong Sun, Che Liu, Kun Zhou, Jinwen Huang, Ruihua Song, Wayne Xin Zhao, Fuzheng Zhang, Di Zhang, and Kun Gai. 2024. Parrot: Enhancing Multi-Turn Instruction Following for Large Language Models. arXiv:2310.07301 [cs.CL] https:\/\/arxiv.org\/abs\/2310.07301"},{"key":"e_1_3_2_1_38_1","unstructured":"Jiakai Tang Yujie Luo Xunke Xi Fei Sun Xueyang Feng Sunhao Dai Chao Yi Dian Chen Zhujin Gao Yang Li Xu Chen Wen Chen Jian Wu Yuning Jiang and Bo Zheng. 2025a. Interactive Recommendation Agent with Active User Commands. arXiv:2509.21317 [cs.IR] https:\/\/arxiv.org\/abs\/2509.21317"},{"key":"e_1_3_2_1_39_1","doi-asserted-by":"publisher","DOI":"10.1145\/3758091"},{"key":"e_1_3_2_1_40_1","doi-asserted-by":"crossref","unstructured":"Dennis Ulmer Elman Mansimov Kaixiang Lin Justin Sun Xibin Gao and Yi Zhang. 2024. Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk. arXiv:2401.05033 [cs.CL] https:\/\/arxiv.org\/abs\/2401.05033","DOI":"10.18653\/v1\/2024.findings-acl.566"},{"key":"e_1_3_2_1_41_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.neunet.2009.06.042"},{"key":"e_1_3_2_1_42_1","unstructured":"Yanming Wan Jiaxing Wu Marwa Abdulhai Lior Shani and Natasha Jaques. 2025. Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward. arXiv:2504.03206 [cs.CL] https:\/\/arxiv.org\/abs\/2504.03206"},{"key":"e_1_3_2_1_43_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11704-024-40231-1"},{"key":"e_1_3_2_1_44_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.emnlp-main.621"},{"key":"e_1_3_2_1_45_1","volume-title":"Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, and William Fedus.","author":"Wei Jason","year":"2022","unstructured":"Jason Wei, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama, Maarten Bosma, Denny Zhou, Donald Metzler, Ed H. Chi, Tatsunori Hashimoto, Oriol Vinyals, Percy Liang, Jeff Dean, and William Fedus. 2022. Emergent Abilities of Large Language Models. arXiv:2206.07682 [cs.CL] https:\/\/arxiv.org\/abs\/2206.07682"},{"key":"e_1_3_2_1_46_1","unstructured":"Yuxi Xie Anirudh Goyal Wenyue Zheng Min-Yen Kan Timothy P. Lillicrap Kenji Kawaguchi and Michael Shieh. 2024. Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning. arXiv:2405.00451 [cs.AI] https:\/\/arxiv.org\/abs\/2405.00451"},{"key":"e_1_3_2_1_47_1","unstructured":"Shunyu Yao Jeffrey Zhao Dian Yu Nan Du Izhak Shafran Karthik Narasimhan and Yuan Cao. 2023. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629 [cs.CL] https:\/\/arxiv.org\/abs\/2210.03629"},{"key":"e_1_3_2_1_48_1","unstructured":"Chao Yi Dian Chen Gaoyang Guo Jiakai Tang Jian Wu Jing Yu Mao Zhang Sunhao Dai Wen Chen Wenjun Yang Yuning Jiang Zhujin Gao Bo Zheng Chi Li Dimin Wang Dixuan Wang Fan Li Fan Zhang Haibin Chen Haozhuang Liu Jialin Zhu Jiamang Wang Jiawei Wu Jin Cui Ju Huang Kai Zhang Kan Liu Lang Tian Liang Rao Longbin Li Lulu Zhao Na He Peiyang Wang Qiqi Huang Tao Luo Wenbo Su Xiaoxiao He Xin Tong Xu Chen Xunke Xi Yang Li Yaxuan Wu Yeqiu Yang Yi Hu Yinnan Song Yuchen Li Yujie Luo Yujin Yuan Yuliang Yan Zhengyang Wang Zhibo Xiao Zhixin Ma Zile Zhou and Ziqi Zhang. 2025. RecGPT Technical Report. arXiv:2507.22879 [cs.IR] https:\/\/arxiv.org\/abs\/2507.22879"},{"key":"e_1_3_2_1_49_1","doi-asserted-by":"crossref","unstructured":"Jingsen Zhang Zihang Tian Xueyang Feng and Xu Chen. 2025. Enhancing Recommendation Explanations through User-Centric Refinement. arXiv:2502.11721 [cs.IR] https:\/\/arxiv.org\/abs\/2502.11721","DOI":"10.18653\/v1\/2025.findings-emnlp.434"},{"key":"e_1_3_2_1_50_1","doi-asserted-by":"publisher","DOI":"10.1145\/3640457.3688133"},{"key":"e_1_3_2_1_51_1","doi-asserted-by":"crossref","unstructured":"Yuxiang Zheng Dayuan Fu Xiangkun Hu Xiaojie Cai Lyumanshan Ye Pengrui Lu and Pengfei Liu. 2025. DeepResearcher: Scaling Deep Research via Reinforcement Learning in Real-world Environments. arXiv:2504.03160 [cs.AI] https:\/\/arxiv.org\/abs\/2504.03160","DOI":"10.18653\/v1\/2025.emnlp-main.22"},{"key":"e_1_3_2_1_52_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-demos.38"}],"event":{"name":"WWW '26: The ACM Web Conference 2026","location":"Dubai United Arab Emirates","sponsor":["SIGWEB ACM Special Interest Group on Hypertext, Hypermedia, and Web"]},"container-title":["Proceedings of the ACM Web Conference 2026"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3774904.3792209","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,7,4]],"date-time":"2026-07-04T07:43:45Z","timestamp":1783151025000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3774904.3792209"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,4,12]]},"references-count":52,"alternative-id":["10.1145\/3774904.3792209","10.1145\/3774904"],"URL":"https:\/\/doi.org\/10.1145\/3774904.3792209","relation":{},"subject":[],"published":{"date-parts":[[2026,4,12]]},"assertion":[{"value":"2026-04-12","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}