{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,29]],"date-time":"2025-09-29T08:08:20Z","timestamp":1759133300496,"version":"3.28.0"},"reference-count":26,"publisher":"IEEE","license":[{"start":{"date-parts":[[2019,5,1]],"date-time":"2019-05-01T00:00:00Z","timestamp":1556668800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2019,5,1]],"date-time":"2019-05-01T00:00:00Z","timestamp":1556668800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2019,5,1]],"date-time":"2019-05-01T00:00:00Z","timestamp":1556668800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2019,5]]},"DOI":"10.1109\/icra.2019.8794389","type":"proceedings-article","created":{"date-parts":[[2019,8,13]],"date-time":"2019-08-13T01:26:12Z","timestamp":1565659572000},"page":"3384-3390","source":"Crossref","is-referenced-by-count":10,"title":["Active Perception in Adversarial Scenarios using Maximum Entropy Deep Reinforcement Learning"],"prefix":"10.1109","author":[{"given":"Macheng","family":"Shen","sequence":"first","affiliation":[]},{"given":"Jonathan P.","family":"How","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref10","first-page":"1374","article-title":"Interactive POMDPs: Properties and preliminary results","author":"gmytrasiewicz","year":"2004","journal-title":"Proceedings of the Third International Joint Conference on Autonomous Agents and Multiagent Systems-Volume 3 IEEE Computer Society"},{"key":"ref11","first-page":"1729","article-title":"Regret minimization in games with incomplete information","author":"zinkevich","year":"2008","journal-title":"Advances in neural information processing systems"},{"key":"ref12","first-page":"805","article-title":"Fictitious self-play in extensive-form games","author":"heinrich","year":"2015","journal-title":"International Conference on Machine Learning"},{"key":"ref13","article-title":"Regret minimization for partially observable deep reinforcement learning","author":"jin","year":"2017","journal-title":"arXiv preprint arXiv 1710 11424"},{"key":"ref14","article-title":"Deep reinforcement learning from self-play in imperfect-information games","author":"heinrich","year":"2016","journal-title":"arXiv preprint arXiv 1603 01840"},{"key":"ref15","article-title":"Playing atari with deep reinforcement learning","author":"mnih","year":"2013","journal-title":"arXiv preprint arXiv 1312 5602"},{"key":"ref16","doi-asserted-by":"crossref","first-page":"354","DOI":"10.1038\/nature24270","article-title":"Mastering the game of go without human knowledge","volume":"550","author":"silver","year":"2017","journal-title":"Nature"},{"key":"ref17","article-title":"Deep recurrent Q-learning for partially observable MDPs","volume":"abs 1507 6527","author":"hausknecht","year":"2015","journal-title":"CoRR"},{"key":"ref18","first-page":"4694","article-title":"Qmdp-net: Deep learning for planning under partial observability","author":"karkus","year":"2017","journal-title":"Advances in neural information processing systems"},{"key":"ref19","first-page":"6379","article-title":"Multi-agent actor-critic for mixed cooperative-competitive environments","author":"lowe","year":"2017","journal-title":"Advances in neural information processing systems"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICTAI.2016.0111"},{"key":"ref3","article-title":"A generative game-theoretic framework for adversarial plan recognition","author":"le guillarme","year":"2015","journal-title":"10es Journees Francophones sur la Planification la D ecision etl&#x2019;Apprentissage (JFPDA 2015)"},{"key":"ref6","first-page":"1729","article-title":"A bayesian approach for learning and planning in partially observable Markov decision processes","volume":"12","author":"ross","year":"2011","journal-title":"Journal of Machine Learning Research"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-68711-7_14"},{"key":"ref8","first-page":"106","article-title":"Robust partially observable Markov decision process","author":"osogami","year":"2015","journal-title":"International Conference on Machine Learning"},{"key":"ref7","article-title":"Learning in POMDPs with Monte Carlo tree search","author":"katt","year":"2018","journal-title":"arXiv preprint arXiv 1806 05631"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICMLC.2012.6359550"},{"key":"ref9","article-title":"Rao*: an algorithm forchance constrained pomdps","author":"santana","year":"2016","journal-title":"Proc AAAI Conf Artificial Intelligence"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1016\/B978-0-12-398532-3.00004-X"},{"key":"ref20","article-title":"Deep decentralized multi-task multi-agent RL under partial observability. arxiv preprint","author":"omidshafiei","year":"2017","journal-title":"arXiv preprint arXiv 1703 06870"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-14435-6_7"},{"key":"ref21","article-title":"Multiagent bidirectionally-coordinated nets for learning to play star-craft combat games","author":"peng","year":"2017","journal-title":"arXiv preprint arXiv 1703 10593"},{"key":"ref24","article-title":"Decentralised multi-agent reinforcement learning for dynamic and uncertain environments","author":"marinescu","year":"2014","journal-title":"arXiv preprint arXiv 1409 4561"},{"key":"ref23","article-title":"Stabilising experience replay for deep multi-agent reinforcement learning","author":"foerster","year":"2017","journal-title":"arXiv preprint arXiv 1702 08502"},{"key":"ref26","article-title":"Reinforcement learning with deep energy-based policies","author":"haarnoja","year":"2017","journal-title":"arXiv preprint arXiv 1702 08502"},{"key":"ref25","first-page":"1804","article-title":"Opponentmodeling in deep reinforcement learning","author":"he","year":"2016","journal-title":"International Conference on Machine Learning"}],"event":{"name":"2019 International Conference on Robotics and Automation (ICRA)","start":{"date-parts":[[2019,5,20]]},"location":"Montreal, QC, Canada","end":{"date-parts":[[2019,5,24]]}},"container-title":["2019 International Conference on Robotics and Automation (ICRA)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/8780387\/8793254\/08794389.pdf?arnumber=8794389","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,7,15]],"date-time":"2022-07-15T03:13:25Z","timestamp":1657854805000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8794389\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,5]]},"references-count":26,"URL":"https:\/\/doi.org\/10.1109\/icra.2019.8794389","relation":{},"subject":[],"published":{"date-parts":[[2019,5]]}}}