{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T20:20:28Z","timestamp":1740169228272,"version":"3.37.3"},"reference-count":78,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2021,1,1]],"date-time":"2021-01-01T00:00:00Z","timestamp":1609459200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2021]]},"DOI":"10.1109\/access.2021.3094623","type":"journal-article","created":{"date-parts":[[2021,7,5]],"date-time":"2021-07-05T19:49:23Z","timestamp":1625514563000},"page":"96641-96657","source":"Crossref","is-referenced-by-count":2,"title":["Contextual Bandit Learning With Reward Oracles and Sampling Guidance in Multi-Agent Environments"],"prefix":"10.1109","volume":"9","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-4514-7260","authenticated-orcid":false,"given":"Mike","family":"Li","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0403-6903","authenticated-orcid":false,"given":"Quang Dang","family":"Nguyen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/ACC.2014.6858632"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-307-3.50049-6"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/TSMC.2019.2914160"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/TIE.2017.2782245"},{"key":"ref76","first-page":"491","article-title":"Architecture of TsinghuAeolus","volume":"2377","author":"yao","year":"2001","journal-title":"Proc RoboCup"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2016.2638861"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1214\/14-STS504"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1016\/j.robot.2008.10.020"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2020.2965856"},{"key":"ref38","first-page":"325","article-title":"Bandits and recommender systems","volume":"9432","author":"mary","year":"2015","journal-title":"Proc MOD"},{"key":"ref78","first-page":"23","article-title":"On the construction of multi-relational classifier based on canonical correlation analysis","volume":"17","author":"zall","year":"2019","journal-title":"Artific Intellig Int J"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/267658.267738"},{"key":"ref32","article-title":"Adam: A method for stochastic optimization","author":"kingma","year":"2014","journal-title":"arXiv 1412 6980"},{"key":"ref31","first-page":"2859","article-title":"Learning from limited demonstrations","author":"kim","year":"2013","journal-title":"Proc NIPS"},{"key":"ref30","first-page":"2530","article-title":"Not all samples are created equal: Deep learning with importance sampling","volume":"80","author":"katharopoulos","year":"2018","journal-title":"Proc ICML"},{"journal-title":"Continuous control with deep reinforcement learning","year":"2016","author":"lillicrap","key":"ref37"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/70.338535"},{"key":"ref35","first-page":"2388","article-title":"Contextual semibandits via supervised learning oracles","volume":"29","author":"krishnamurthy","year":"2016","journal-title":"Proc Adv Neural Inf Process Syst"},{"key":"ref34","first-page":"1","article-title":"Robocup: A challenge problem for Ai and robotics","author":"kitano","year":"1998","journal-title":"RoboCup-97 Robot Soccer World Cup I"},{"key":"ref60","first-page":"627","article-title":"A reduction of imitation learning and structured prediction to no-regret online learning","volume":"15","author":"ross","year":"2011","journal-title":"Proc 14th Int Conf Artif Intell Statist"},{"key":"ref62","first-page":"1","article-title":"Prioritized experience replay","volume":"abs 1511 5952","author":"schaul","year":"2016","journal-title":"Proc ICLR"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-247-2.50055-3"},{"key":"ref63","article-title":"Proximal policy optimization algorithms","volume":"abs 1707 6347","author":"schulman","year":"2017","journal-title":"CoRR"},{"key":"ref28","first-page":"448","article-title":"Batch normalization: Accelerating deep network training by reducing internal covariate shift","volume":"37","author":"ioffe","year":"2015","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref64","first-page":"426","article-title":"Learning to coordinate without sharing information","author":"sen","year":"1994","journal-title":"Proc mAAAI"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.3390\/app10217726"},{"key":"ref65","first-page":"95","article-title":"Contextual bandits","volume":"abs 1904 7272 arxiv","author":"slivkins","year":"2019","journal-title":"Introduction to multi-armed bandits"},{"key":"ref66","first-page":"1929","article-title":"Dropout: A simple way to prevent neural networks from overfitting","volume":"15","author":"srivastava","year":"2014","journal-title":"J Mach Learn Res"},{"key":"ref29","first-page":"7276","article-title":"Training deep models faster with robust, approximate importance sampling","author":"johnson","year":"2018","journal-title":"Proc NeurIPS"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1016\/S0004-3702(99)00025-9"},{"key":"ref68","first-page":"35","article-title":"The CMUnited-99 champion simulator team","volume":"1856","author":"stone","year":"1999","journal-title":"RoboCup"},{"key":"ref69","first-page":"447","article-title":"Exploration from demonstration for interactive reinforcement learning","author":"subramanian","year":"2016","journal-title":"AAMAS"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-68847-1_38"},{"key":"ref1","first-page":"528","article-title":"Helios base: An open source package for the robocup soccer 2D simulation","volume":"8371","author":"akiyama","year":"2013","journal-title":"Proc RoboCup"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1002\/ecj.12224"},{"key":"ref22","article-title":"Limits of end-to-end learning","author":"glasmachers","year":"2017","journal-title":"arXiv 1704 08305"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-02921-9_6"},{"key":"ref24","first-page":"3223","article-title":"Deep Q-learning from demonstrations","author":"hester","year":"2018","journal-title":"Proc AAAI"},{"key":"ref23","first-page":"1861","article-title":"Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor","volume":"80","author":"haarnoja","year":"2018","journal-title":"Proc ICML"},{"key":"ref26","first-page":"242","article-title":"Multiagent reinforcement learning: Theoretical framework and an algorithm","author":"hu","year":"1998","journal-title":"Proc 15th Int Conf Mach Learn"},{"key":"ref25","article-title":"Distributed prioritized experience replay","author":"horgan","year":"2018","journal-title":"arXiv 1803 00933"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/TIM.2020.2983531"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-68792-6_44"},{"key":"ref59","article-title":"Brainstormers 2D&#x2014;Team description 2008","author":"riedmiller","year":"2008","journal-title":"RoboCup 2008 Robot Soccer World Cup XII"},{"key":"ref58","first-page":"219","article-title":"Brainstormers 2D&#x2014;Team description 2005","author":"riedmiller","year":"2005","journal-title":"Proc RoboCup"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1007\/3-540-45324-5_40"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1007\/3-540-44568-4_11"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-00308-1_27"},{"key":"ref54","article-title":"Gliders2012: Tactics with action-dependent evaluation functions","author":"prokopenko","year":"2012","journal-title":"RoboCup 2012"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-35699-6_33"},{"key":"ref52","doi-asserted-by":"crossref","first-page":"616","DOI":"10.1007\/978-3-030-35699-6_50","article-title":"Fractals2019: Combinatorial optimisation with dynamic constraint annealing","author":"prokopenko","year":"2019","journal-title":"RoboCup 2019 Robot World Cup XXIII"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TSMCC.2007.913919"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/3-540-60923-7_18"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1017\/S0269888912000057"},{"key":"ref12","first-page":"402","article-title":"Overfitting in neural nets: Backpropagation, conjugate gradient, and early stopping","author":"caruana","year":"2000","journal-title":"Proc NIPS"},{"key":"ref13","first-page":"3380","article-title":"Direct policy iteration with demonstrations","author":"chemali","year":"2015","journal-title":"Proc IJCAI"},{"key":"ref14","article-title":"YuShan2018 team description paper for RoboCup2018","author":"cheng","year":"2018","journal-title":"RoboCup 2018 Robot World Cup XXII"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.3390\/sym11020290"},{"key":"ref16","first-page":"746","article-title":"The dynamics of reinforcement learning in cooperative multiagent systems","author":"claus","year":"1998","journal-title":"Proc AAAI\/IAAI"},{"key":"ref17","first-page":"1","article-title":"Contextual bandits for adapting treatment in a mouse model of de novo carcinogenesis","volume":"85","author":"durand","year":"2018","journal-title":"J Mach Learn Res"},{"key":"ref18","first-page":"1146","article-title":"Stabilising experience replay for deep multi-agent reinforcement learning","volume":"70","author":"foerster","year":"2017","journal-title":"Proc 34th Int Conf Mach Learn"},{"key":"ref19","first-page":"1539","article-title":"Practical contextual bandits with regression oracles","volume":"80","author":"foster","year":"2018","journal-title":"Proc 35th Int Conf Mach Learn"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/iNCoS.2012.83"},{"key":"ref3","first-page":"377","author":"akiyama","year":"2007","journal-title":"Multi-Agent Positioning Mechanism in the Dynamic Environment"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/DEVLRN.2002.1011867"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-27544-0_37"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1287\/moor.27.4.819.297"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1145\/2717316"},{"key":"ref49","article-title":"A review of cooperative multi-agent deep reinforcement learning","author":"oroojlooyjadid","year":"2019","journal-title":"arXiv 1908 03963"},{"key":"ref9","first-page":"3352","article-title":"Reinforcement learning from demonstration through shaping","author":"brys","year":"2015","journal-title":"Proc IJCAI"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.3389\/frobt.2020.00123"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1016\/j.conbuildmat.2020.118581"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1080\/088395198117848"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1023\/A:1024128904944"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.4108\/ICST.ROBOCOMM2007.2209"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1038\/nature14236"},{"key":"ref44","first-page":"8113","article-title":"Credit assignment for collective multiagent RL with global rewards","author":"nguyen","year":"2018","journal-title":"Proc 32nd Int Conf Neural Inf Process Syst (NIPS)"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1007\/s10489-020-01748-7"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6287639\/9312710\/09474507.pdf?arnumber=9474507","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,1,26]],"date-time":"2022-01-26T09:16:42Z","timestamp":1643188602000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9474507\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021]]},"references-count":78,"URL":"https:\/\/doi.org\/10.1109\/access.2021.3094623","relation":{},"ISSN":["2169-3536"],"issn-type":[{"type":"electronic","value":"2169-3536"}],"subject":[],"published":{"date-parts":[[2021]]}}}