{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T23:14:13Z","timestamp":1740179653526,"version":"3.37.3"},"reference-count":45,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"2","license":[{"start":{"date-parts":[[2022,6,1]],"date-time":"2022-06-01T00:00:00Z","timestamp":1654041600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"Supercell Oy"},{"DOI":"10.13039\/501100002666","name":"Aalto-Yliopisto","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100002666","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002341","name":"Academy of Finland","doi-asserted-by":"publisher","award":["314881"],"award-info":[{"award-number":["314881"]}],"id":[{"id":"10.13039\/501100002341","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Games"],"published-print":{"date-parts":[[2022,6]]},"DOI":"10.1109\/tg.2021.3067723","type":"journal-article","created":{"date-parts":[[2021,3,22]],"date-time":"2021-03-22T20:42:16Z","timestamp":1616445736000},"page":"262-272","source":"Crossref","is-referenced-by-count":1,"title":["Learning to Play Imperfect-Information Games by Imitating an Oracle Planner"],"prefix":"10.1109","volume":"14","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-6968-7109","authenticated-orcid":false,"given":"Rinu","family":"Boney","sequence":"first","affiliation":[{"name":"Department of Computer Science, Aalto University, Espoo, Finland"}]},{"given":"Alexander","family":"Ilin","sequence":"additional","affiliation":[{"name":"Department of Computer Science, Aalto University, Espoo, Finland"}]},{"given":"Juho","family":"Kannala","sequence":"additional","affiliation":[{"name":"Department of Computer Science, Aalto University, Espoo, Finland"}]},{"given":"Jarno","family":"Seppanen","sequence":"additional","affiliation":[{"name":"Supercell, Helsinki, Finland"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1038\/nature24270"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1126\/science.aam6960"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1126\/science.aao1733"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1126\/science.aay2400"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-019-1724-z"},{"article-title":"Dota 2 with large scale deep reinforcement learning","year":"2019","author":"Berner","key":"ref6"},{"article-title":"Pommerman: A multi-agent playground","year":"2018","author":"Resnick","key":"ref7"},{"key":"ref8","first-page":"689","article-title":"Safe and nested subgame solving for imperfect-information games","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Brown","year":"2017"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1016\/S0004-3702(97)00082-9"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1613\/jair.820"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1609\/icaps.v19i1.13363"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TCIAIG.2012.2200894"},{"key":"ref13","first-page":"709","article-title":"Dynamic programming for partially observable stochastic games","volume-title":"Proc. AAAI","volume":"4","author":"Hansen","year":"2004"},{"article-title":"Pommerman baselines","year":"2018","author":"Matiisen","key":"ref14"},{"key":"ref15","article-title":"Policy gradient search: Online planning and expert iteration without search trees","volume-title":"Proc. NeurIPS Deep Reinforcement Learn. Workshop","author":"Anthony","year":"2019"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TCIAIG.2012.2186810"},{"issue":"2-3","key":"ref17","doi-asserted-by":"crossref","first-page":"235","DOI":"10.1023\/A:1013689704352","article-title":"Finite-time analysis of the multiarmed bandit problem","volume":"47","author":"Auer","year":"2002","journal-title":"Mach. Learn."},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.2307\/2332286"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CIG.2012.6374162"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1609\/aiide.v15i1.5226"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1145\/2463372.2463413"},{"key":"ref22","first-page":"627","article-title":"A reduction of imitation learning and structured prediction to no-regret online learning","volume-title":"Proc. 14th Int. Conf. Artif. Intell. Statist.","author":"Ross","year":"2011"},{"article-title":"Skynet: A top deep RL agent in the inaugural Pommerman team competition","year":"2019","author":"Gao","key":"ref23"},{"key":"ref24","article-title":"TD or not TD: Analyzing the role of temporal differencing in deep reinforcement learning","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Amiranashvili","year":"2018"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1038\/nature14236"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i04.6144"},{"article-title":"Proximal policy optimization algorithms","year":"2017","author":"Schulman","key":"ref27"},{"key":"ref28","first-page":"1406","article-title":"IMPALA: Scalable distributed deep-RL with importance weighted actor-learner architectures","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Espeholt","year":"2018"},{"key":"ref29","article-title":"Comparing UCT versus CFR in simultaneous games","author":"Shafiei","year":"2009","journal-title":"IJCAI Workshop Gen. Game Playing"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/CIG.2011.6032013"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1016\/j.artint.2016.03.005"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v24i1.7562"},{"article-title":"The UCT algorithm applied to games with imperfect information","year":"2008","author":"Schfer","key":"ref33"},{"key":"ref34","first-page":"1407","article-title":"Improving state evaluation, inference, and search in trick-based card games","volume-title":"Proc. 21st Int. Joint Conf. Artif. Intell.","author":"Buro","year":"2009"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2019\/631"},{"key":"ref36","first-page":"3338","article-title":"Deep learning for real-time Atari game play using offline Monte-Carlo tree search planning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Guo","year":"2014"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/DYSPAN.2010.5457857"},{"key":"ref38","first-page":"151","article-title":"Combinatorial multi-armed bandit: General framework and applications","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Chen","year":"2013"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1609\/aiide.v9i1.12681"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1613\/jair.5398"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/TCIAIG.2017.2738156"},{"key":"ref42","first-page":"1729","article-title":"Regret minimization in games with incomplete information","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Zinkevich","year":"2008"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1145\/2602570"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1609\/icwsm.v10i1.14745"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1145\/3229434.3229466"}],"container-title":["IEEE Transactions on Games"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/7782673\/9797039\/09382923.pdf?arnumber=9382923","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,1,9]],"date-time":"2024-01-09T23:39:28Z","timestamp":1704843568000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9382923\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,6]]},"references-count":45,"journal-issue":{"issue":"2"},"URL":"https:\/\/doi.org\/10.1109\/tg.2021.3067723","relation":{},"ISSN":["2475-1502","2475-1510"],"issn-type":[{"type":"print","value":"2475-1502"},{"type":"electronic","value":"2475-1510"}],"subject":[],"published":{"date-parts":[[2022,6]]}}}