{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,10,22]],"date-time":"2024-10-22T17:40:38Z","timestamp":1729618838832,"version":"3.28.0"},"reference-count":25,"publisher":"IEEE","license":[{"start":{"date-parts":[[2021,7,5]],"date-time":"2021-07-05T00:00:00Z","timestamp":1625443200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2021,7,5]],"date-time":"2021-07-05T00:00:00Z","timestamp":1625443200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2021,7,5]]},"DOI":"10.1109\/icme51207.2021.9428293","type":"proceedings-article","created":{"date-parts":[[2021,6,9]],"date-time":"2021-06-09T17:14:21Z","timestamp":1623258861000},"page":"1-6","source":"Crossref","is-referenced-by-count":3,"title":["Wide-Sense Stationary Policy Optimization with Bellman Residual on Video Games"],"prefix":"10.1109","author":[{"given":"Chen","family":"Gong","sequence":"first","affiliation":[{"name":"Chinese Academy of Sciences,Institute of Automation"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qiang","family":"He","sequence":"additional","affiliation":[{"name":"Chinese Academy of Sciences,Institute of Automation"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yunpeng","family":"Bai","sequence":"additional","affiliation":[{"name":"Chinese Academy of Sciences,Institute of Automation"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xinwen","family":"Hou","sequence":"additional","affiliation":[{"name":"Chinese Academy of Sciences,Institute of Automation"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Guoliang","family":"Fan","sequence":"additional","affiliation":[{"name":"Chinese Academy of Sciences,Institute of Automation"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yu","family":"Liu","sequence":"additional","affiliation":[{"name":"Chinese Academy of Sciences,Institute of Automation"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"article-title":"Proximal policy optimization algorithms","year":"2017","author":"schulman","key":"ref10"},{"key":"ref11","first-page":"1889","article-title":"Trust region policy optimization","author":"schulman","year":"2015","journal-title":"International Conference on Machine Learning"},{"key":"ref12","first-page":"214","article-title":"Wasserstein generative adversarial networks","volume":"70","author":"martin","year":"2017"},{"key":"ref13","doi-asserted-by":"crossref","DOI":"10.1609\/aaai.v32i1.11791","article-title":"Distributional reinforcement learning with quantile regression","author":"dabney","year":"2018","journal-title":"Thirty-Second AAAI Conference on Artificial Intelligence"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33011206"},{"article-title":"Dueling network architectures for deep reinforcement learning","year":"2015","author":"wang","key":"ref15"},{"key":"ref16","first-page":"449","article-title":"A Distributional Perspective on Reinforcement Learning","author":"bellemare","year":"0"},{"key":"ref17","article-title":"Double Q-learning","volume":"23","author":"van hasselt","year":"2010","journal-title":"Advances in neural information processing systems"},{"article-title":"Noisy networks for exploration","year":"2017","author":"fortunato","key":"ref18"},{"journal-title":"Reinforcement Learning An Introduction","year":"2018","author":"sutton","key":"ref19"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ICME46284.2020.9102924"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-019-1724-z"},{"key":"ref6","doi-asserted-by":"crossref","DOI":"10.1609\/aaai.v30i1.10295","article-title":"Deep reinforcement learning with double q-learning","author":"van hasselt","year":"2016","journal-title":"THIRTIETH AAAI Conference on Artificial Intelligence"},{"key":"ref5","doi-asserted-by":"crossref","DOI":"10.1609\/aaai.v32i1.11796","article-title":"Rainbow: Combining improvements in deep reinforcement learning","author":"hessel","year":"2018","journal-title":"Thirty-Second AAAI Conference on Artificial Intelligence"},{"article-title":"Impala: Scalable distributed deep-rl with importance weighted actor-learner architectures","year":"2018","author":"espeholt","key":"ref8"},{"article-title":"Continuous control with deep reinforcement learning","year":"2015","author":"lillicrap","key":"ref7"},{"key":"ref2","doi-asserted-by":"crossref","first-page":"529","DOI":"10.1038\/nature14236","article-title":"Human-level control through deep reinforcement learning","volume":"518","author":"mnih","year":"2015","journal-title":"Nature"},{"key":"ref1","doi-asserted-by":"crossref","first-page":"484","DOI":"10.1038\/nature16961","article-title":"Mastering the game of Go with deep neural networks and tree search","volume":"529","author":"silver","year":"2016","journal-title":"Nature"},{"key":"ref9","first-page":"3303","article-title":"Data-efficient hierarchical reinforcement learning","author":"nachum","year":"2018","journal-title":"Advances in neural information processing systems"},{"article-title":"Deterministic policy gradient algorithms","year":"2014","author":"silver","key":"ref20"},{"article-title":"Addressing function approximation error in actor-critic methods","year":"2018","author":"fujimoto","key":"ref22"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1103\/PhysRev.36.823"},{"key":"ref24","first-page":"1928","article-title":"Asynchronous methods for deep reinforcement learning","author":"mnih","year":"2016","journal-title":"International Conference on Machine Learning"},{"article-title":"Popo: Pessimistic offline policy optimization","year":"2020","author":"he","key":"ref23"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-63823-8_51"}],"event":{"name":"2021 IEEE International Conference on Multimedia and Expo (ICME)","start":{"date-parts":[[2021,7,5]]},"location":"Shenzhen, China","end":{"date-parts":[[2021,7,9]]}},"container-title":["2021 IEEE International Conference on Multimedia and Expo (ICME)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9428049\/9428068\/09428293.pdf?arnumber=9428293","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,12,30]],"date-time":"2022-12-30T08:57:35Z","timestamp":1672390655000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9428293\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,7,5]]},"references-count":25,"URL":"https:\/\/doi.org\/10.1109\/icme51207.2021.9428293","relation":{},"subject":[],"published":{"date-parts":[[2021,7,5]]}}}