{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,12]],"date-time":"2026-03-12T14:21:47Z","timestamp":1773325307681,"version":"3.50.1"},"publisher-location":"Singapore","reference-count":36,"publisher":"Springer Nature Singapore","isbn-type":[{"value":"9789819570713","type":"print"},{"value":"9789819570720","type":"electronic"}],"license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-981-95-7072-0_22","type":"book-chapter","created":{"date-parts":[[2026,3,12]],"date-time":"2026-03-12T00:10:34Z","timestamp":1773274234000},"page":"313-328","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Can Large Language Models Play to\u00a0Win? Game-Theoretic Benchmarks in\u00a0Poker for\u00a0Probabilistic Reasoning Evaluation"],"prefix":"10.1007","author":[{"given":"Wenjun","family":"Peng","sequence":"first","affiliation":[]},{"given":"Jing Zhe","family":"Lim","sequence":"additional","affiliation":[]},{"given":"Qinghao","family":"Liu","sequence":"additional","affiliation":[]},{"given":"Xinyu","family":"Wang","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2026,4,1]]},"reference":[{"key":"22_CR1","unstructured":"Anthropic: Claude 3.5 haiku (2024). https:\/\/www.anthropic.com\/claude\/haiku"},{"issue":"6456","key":"22_CR2","doi-asserted-by":"publisher","first-page":"885","DOI":"10.1126\/science.aay2400","volume":"365","author":"N Brown","year":"2019","unstructured":"Brown, N., Sandholm, T.: Superhuman ai for multiplayer poker. Science 365(6456), 885\u2013890 (2019)","journal-title":"Science"},{"key":"22_CR3","doi-asserted-by":"crossref","unstructured":"Brown, N., Sandholm, T., Machine, S.: Libratus: the superhuman AI for no-limit poker. In: Proc. Int. Joint Conf. Artificial Intell., pp. 5226\u20135228 (2017)","DOI":"10.24963\/ijcai.2017\/772"},{"key":"22_CR4","doi-asserted-by":"crossref","unstructured":"Campbell, M., Hoane\u00a0Jr, A.J., Hsu, F.h.: Deep blue. Artif. Intell. 134(1-2), 57\u201383 (2002)","DOI":"10.1016\/S0004-3702(01)00129-1"},{"key":"22_CR5","unstructured":"Chen, P., Bu, P., Song, J., Gao, Y., Zheng, B.: Can VLMs play action role-playing games? take black myth wukong as a study case. In: NeurIPS 2024 Workshop on Open-World Agents (2024)"},{"key":"22_CR6","unstructured":"Cobbe, K., et\u00a0al.: Training verifiers to solve math word problems. arXiv preprint arXiv:2110.14168 (2021)"},{"key":"22_CR7","unstructured":"Fu, L., et\u00a0al.: Ocrbench v2: an improved benchmark for evaluating large multimodal models on visual text localization and reasoning. arXiv preprint arXiv:2501.00321 (2024)"},{"key":"22_CR8","doi-asserted-by":"crossref","unstructured":"Gallotta, R., et al.: Large language models and games: a survey and roadmap. IEEE Trans. Games (2024)","DOI":"10.1109\/TG.2024.3461510"},{"key":"22_CR9","unstructured":"Guo, D., et\u00a0al.: Deepseek-r1: incentivizing reasoning capability in LLMs via reinforcement learning. arXiv preprint arXiv:2501.12948 (2025)"},{"key":"22_CR10","unstructured":"Hendrycks, D., et al.: Measuring massive multitask language understanding. In: Proc. Int. Conf. Learn. Representations (2021)"},{"key":"22_CR11","unstructured":"Hermann, K.M., et al.: Teaching machines to read and comprehend. In: Proc. Advances in Neural Inf. Process. Syst. vol.\u00a028 (2015)"},{"key":"22_CR12","unstructured":"Hu, L., et al.: lmgame-bench: how good are LLMs at playing games? arXiv preprint arXiv:2505.15146 (2025)"},{"key":"22_CR13","unstructured":"Hu, L., Li, Q., Xie, A., Jiang, N., Stoica, I., Jin, H., Zhang, H.: Gamearena: evaluating LLM reasoning through live computer games. arXiv preprint arXiv:2412.06394 (2024)"},{"key":"22_CR14","unstructured":"Huang, C., Cao, Y., Wen, Y., Zhou, T., Zhang, Y.: Pokergpt: an end-to-end lightweight solver for multi-player texas hold\u2019em via large language model. arXiv preprint arXiv:2401.06781 (2024)"},{"key":"22_CR15","unstructured":"Hurst, A., et\u00a0al.: Gpt-4o system card. arXiv preprint arXiv:2410.21276 (2024)"},{"key":"22_CR16","unstructured":"Lin, C.Y.: Rouge: a package for automatic evaluation of summaries. In: Text Summarization Branches Out, pp. 74\u201381 (2004)"},{"key":"22_CR17","unstructured":"Meta, A.: The llama 4 herd: the beginning of a new era of natively multimodal AI innovation 4(7), 2025 (2025). https:\/\/aimeta.com\/blog\/llama-4-multimodal-intelligence\/"},{"key":"22_CR18","doi-asserted-by":"crossref","unstructured":"Nam, D., Macvean, A., Hellendoorn, V., Vasilescu, B., Myers, B.: Using an LLM to help with code understanding. In: Proc. Int. Conf. Software Engineering, pp. 1\u201313 (2024)","DOI":"10.1145\/3597503.3639187"},{"key":"22_CR19","doi-asserted-by":"crossref","unstructured":"Paperno, D., et al.: The lambada dataset: Word prediction requiring a broad discourse context. In: Proc. Annu. Meet. Assoc. Comput. Linguist, pp. 1525\u20131534 (2016)","DOI":"10.18653\/v1\/P16-1144"},{"key":"22_CR20","doi-asserted-by":"crossref","unstructured":"Papineni, K., Roukos, S., Ward, T., Zhu, W.J.: Bleu: a method for automatic evaluation of machine translation. In: Proc. Annu. Meet. Assoc. Comput. Linguist, pp. 311\u2013318 (2002)","DOI":"10.3115\/1073083.1073135"},{"key":"22_CR21","doi-asserted-by":"crossref","unstructured":"Rajpurkar, P., Jia, R., Liang, P.: Know what you don\u2019t know: unanswerable questions for squad. In: Proc. Annu. Meet. Assoc. Comput. Linguist, pp. 784\u2013789 (2018)","DOI":"10.18653\/v1\/P18-2124"},{"key":"22_CR22","doi-asserted-by":"crossref","unstructured":"Rajpurkar, P., Zhang, J., Lopyrev, K., Liang, P.: Squad: 100,000+ questions for machine comprehension of text. In: Proc. Conf. Empir. Methods in Natural Language Process, pp. 2383\u20132392 (2016)","DOI":"10.18653\/v1\/D16-1264"},{"key":"22_CR23","unstructured":"Ren, Y., et al.: VGRP-bench: visual grid reasoning puzzle benchmark for large vision-language models. arXiv preprint arXiv:2503.23064 (2025)"},{"key":"22_CR24","unstructured":"Shah, D., Equi, M.R., Osi\u0144ski, B., Xia, F., Ichter, B., Levine, S.: Navigation with large language models: semantic guesswork as a heuristic for planning. In: Proc. Conf. Robot Learning, pp. 2683\u20132699. PMLR (2023)"},{"key":"22_CR25","doi-asserted-by":"crossref","unstructured":"Silver, D., et\u00a0al.: Mastering the game of go with deep neural networks and tree search. Nature 529(7587), 484\u2013489 (2016)","DOI":"10.1038\/nature16961"},{"key":"22_CR26","unstructured":"Srivastava, A., et\u00a0al.: Beyond the imitation game: quantifying and extrapolating the capabilities of language models. Trans. Mach. Learn. Res. (2022)"},{"key":"22_CR27","unstructured":"Tan, W., et\u00a0al.: Cradle: empowering foundation agents towards general computer control. In: NeurIPS 2024 Workshop on Open-World Agents (2024)"},{"key":"22_CR28","unstructured":"Team, G., et\u00a0al.: Gemini: a family of highly capable multimodal models. arXiv preprint arXiv:2312.11805 (2023)"},{"key":"22_CR29","unstructured":"Team, Q.: Qwen2.5 technical report. arXiv preprint arXiv:2412.15115 (2024)"},{"key":"22_CR30","unstructured":"Wang, X., et al.: On the general value of evidence, and bilingual scene-text visual question answering. In: Proc. IEEE Conf. Comp. Vis. Patt. Recogn., pp. 10126\u201310135 (2020)"},{"key":"22_CR31","doi-asserted-by":"crossref","unstructured":"Wang, X., Zhuang, B., Wu, Q.: Modaverse: efficiently transforming modalities with LLMs. In: Proc. IEEE Conf. Comp. Vis. Patt. Recogn., pp. 26606\u201326616 (2024)","DOI":"10.1109\/CVPR52733.2024.02512"},{"key":"22_CR32","doi-asserted-by":"crossref","unstructured":"Wang, X., Zhuang, B., Wu, Q.: Are large vision language models good game players? In: Proc. Int. Conf. Learn. Representations (2025)","DOI":"10.1049\/icp.2025.1037"},{"key":"22_CR33","unstructured":"Wei, J., et\u00a0al.: Emergent abilities of large language models. Trans. Mach. Learn. Res. (2022)"},{"key":"22_CR34","doi-asserted-by":"crossref","unstructured":"Wei, J., et\u00a0al.: Chain-of-thought prompting elicits reasoning in large language models. Proc. Adv. Neural Inf. Process. Syst. 35, 24824\u201324837 (2022)","DOI":"10.52202\/068431-1800"},{"key":"22_CR35","unstructured":"Yu, P., et\u00a0al.: Rpgbench: evaluating large language models as role-playing game engines. arXiv preprint arXiv:2502.00595 (2025)"},{"key":"22_CR36","doi-asserted-by":"crossref","unstructured":"Zhuang, R., Gupta, A., Yang, R., Rahane, A., Li, Z., Anumanchipalli, G.: Pokerbench: training large language models to become professional poker players. In: Proc. AAAI Conf. Artificial Intell. vol.\u00a039, pp. 26175\u201326182 (2025)","DOI":"10.1609\/aaai.v39i24.34814"}],"container-title":["Lecture Notes in Computer Science","PRICAI 2025: Trends in Artificial Intelligence"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-95-7072-0_22","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,12]],"date-time":"2026-03-12T00:10:37Z","timestamp":1773274237000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-95-7072-0_22"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"ISBN":["9789819570713","9789819570720"],"references-count":36,"URL":"https:\/\/doi.org\/10.1007\/978-981-95-7072-0_22","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]},"assertion":[{"value":"1 April 2026","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"PRICAI","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Pacific Rim International Conference on Artificial Intelligence","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Wellington","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"New Zealand","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"17 November 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"21 November 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"22","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"pricai2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/www.pricai.org\/2025\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}