{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,26]],"date-time":"2025-09-26T13:09:41Z","timestamp":1758892181278,"version":"3.37.3"},"reference-count":27,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"4","license":[{"start":{"date-parts":[[2019,4,1]],"date-time":"2019-04-01T00:00:00Z","timestamp":1554076800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2019,4,1]],"date-time":"2019-04-01T00:00:00Z","timestamp":1554076800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2019,4,1]],"date-time":"2019-04-01T00:00:00Z","timestamp":1554076800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"National Key R&amp;D Program of China","award":["2017YFC0803704"],"award-info":[{"award-number":["2017YFC0803704"]}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61772525","61772524","61702517","61602482"],"award-info":[{"award-number":["61772525","61772524","61702517","61602482"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Beijing Municipal Natural Science Foundation","award":["4182067"],"award-info":[{"award-number":["4182067"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Ind. Inf."],"published-print":{"date-parts":[[2019,4]]},"DOI":"10.1109\/tii.2018.2881266","type":"journal-article","created":{"date-parts":[[2018,11,14]],"date-time":"2018-11-14T20:06:25Z","timestamp":1542225985000},"page":"2395-2404","source":"Crossref","is-referenced-by-count":7,"title":["Multitask Policy Adversarial Learning for Human-Level Control With Large State Spaces"],"prefix":"10.1109","volume":"15","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-4355-9827","authenticated-orcid":false,"given":"Jun Ping","family":"Wang","sequence":"first","affiliation":[]},{"given":"You Kang","family":"Shi","sequence":"additional","affiliation":[]},{"given":"Wen Sheng","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Ian","family":"Thomas","sequence":"additional","affiliation":[]},{"given":"Shi Hui","family":"Duan","sequence":"additional","affiliation":[]}],"member":"263","reference":[{"key":"ref10","first-page":"1131","article-title":"Multi-task reinforcement learning in partially observable stochastic environments","volume":"10","author":"li","year":"2009","journal-title":"J Mach Learn Res"},{"key":"ref11","first-page":"23","article-title":"Bayesian multi-task reinforcement learning","volume":"11","author":"lazaric","year":"0","journal-title":"Proc 27th Int Conf Mach Learn"},{"key":"ref12","article-title":"Multi-task learning with deep model based reinforcement learning","author":"mujika","year":"0","journal-title":"ArXiv Preprint"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2014.6907421"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.3233\/IA-150080"},{"key":"ref15","first-page":"2504","article-title":"Online multi-task learning for policy gradient methods","volume":"32","author":"ammar","year":"0","journal-title":"Proc 31th Int Conf Mach Learn"},{"key":"ref16","first-page":"1847","article-title":"Scalable multitask policy gradient reinforcement learning","author":"bsat","year":"0","journal-title":"Proc 29th Conf Artif Intell"},{"key":"ref17","first-page":"567","article-title":"Deep multi-task representation learning: a tensor factorisation approach","volume":"5","author":"yang","year":"0","journal-title":"Proc Int Conf Learn Represent"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P17-1001"},{"key":"ref19","first-page":"2504","article-title":"Unsupervised cross-domain transfer in policy gradient reinforcement learning via manifold alignment","author":"ammar","year":"0","journal-title":"Proc 29th Conf Artif Intell"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2016.2549919"},{"key":"ref27","first-page":"30","article-title":"Vision-based state estimation and trajectory control towards aggressive flight with a quadrotor","author":"shen","year":"0","journal-title":"Proc Robot Sci Syst"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.3233\/WIA-130264"},{"key":"ref6","first-page":"2672","article-title":"Generative adversarial nets","volume":"27","author":"goodfellow","year":"0","journal-title":"Proc Int Conf Adv Neural Inf Process Syst"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1038\/nature14236"},{"key":"ref8","article-title":"A survey on multi-task learning","author":"zhang","year":"0","journal-title":"ArXiv Preprint"},{"key":"ref7","first-page":"1486","article-title":"Deep generative image models using a laplacian pyramid of adversarial networks","volume":"28","author":"denton","year":"0","journal-title":"Proc Int Conf Adv Neural Inf Process Syst"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TIE.2017.2665318"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1145\/1273496.1273624"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2017.2669967"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2016.2618754"},{"key":"ref22","first-page":"507","article-title":"ELLA: An efficient lifelong learning algorithm","author":"ruvolo","year":"0","journal-title":"Proc 30th Int Conf Mach Learn"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D16-1012"},{"key":"ref24","first-page":"3345","article-title":"Autonomous cross-domain knowledge transfer in lifelong policy gradient reinforcement learning","author":"ammar","year":"0","journal-title":"Proc 24th Int Joint Conf Artif Intell"},{"article-title":"An information theoretic optimality principle for deep reinforcement learning","year":"2017","author":"leibfried","key":"ref23"},{"key":"ref26","article-title":"TensorFlow: Large-scale machine learning on heterogeneous systems","author":"abadi","year":"2015","journal-title":"ArXiv Preprint"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1093\/comjnl\/bxq019"}],"container-title":["IEEE Transactions on Industrial Informatics"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9424\/8681658\/08534402.pdf?arnumber=8534402","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,7,13]],"date-time":"2022-07-13T21:09:20Z","timestamp":1657746560000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/8534402\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,4]]},"references-count":27,"journal-issue":{"issue":"4"},"URL":"https:\/\/doi.org\/10.1109\/tii.2018.2881266","relation":{},"ISSN":["1551-3203","1941-0050"],"issn-type":[{"type":"print","value":"1551-3203"},{"type":"electronic","value":"1941-0050"}],"subject":[],"published":{"date-parts":[[2019,4]]}}}