{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,24]],"date-time":"2026-03-24T11:38:59Z","timestamp":1774352339286,"version":"3.50.1"},"reference-count":40,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"8","license":[{"start":{"date-parts":[[2025,8,1]],"date-time":"2025-08-01T00:00:00Z","timestamp":1754006400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,8,1]],"date-time":"2025-08-01T00:00:00Z","timestamp":1754006400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,8,1]],"date-time":"2025-08-01T00:00:00Z","timestamp":1754006400000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100011316","name":"Strategic Priority Research Program of Chinese Academy of Sciences","doi-asserted-by":"publisher","award":["XDA27030400"],"award-info":[{"award-number":["XDA27030400"]}],"id":[{"id":"10.13039\/501100011316","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62293541"],"award-info":[{"award-number":["62293541"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62136008"],"award-info":[{"award-number":["62136008"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Beijing Natural Science Foundation","award":["4232056"],"award-info":[{"award-number":["4232056"]}]},{"DOI":"10.13039\/501100005090","name":"Beijing Nova Program","doi-asserted-by":"publisher","award":["20240484514"],"award-info":[{"award-number":["20240484514"]}],"id":[{"id":"10.13039\/501100005090","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Neural Netw. Learning Syst."],"published-print":{"date-parts":[[2025,8]]},"DOI":"10.1109\/tnnls.2025.3540758","type":"journal-article","created":{"date-parts":[[2025,2,26]],"date-time":"2025-02-26T13:58:19Z","timestamp":1740578299000},"page":"14908-14921","source":"Crossref","is-referenced-by-count":7,"title":["Meta Learning Task Representation in Multiagent Reinforcement Learning: From Global Inference to Local Inference"],"prefix":"10.1109","volume":"36","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-7756-7046","authenticated-orcid":false,"given":"Zijie","family":"Zhao","sequence":"first","affiliation":[{"name":"School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-9031-9889","authenticated-orcid":false,"given":"Yuqian","family":"Fu","sequence":"additional","affiliation":[{"name":"School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7611-064X","authenticated-orcid":false,"given":"Jiajun","family":"Chai","sequence":"additional","affiliation":[{"name":"School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5384-423X","authenticated-orcid":false,"given":"Yuanheng","family":"Zhu","sequence":"additional","affiliation":[{"name":"School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8218-9633","authenticated-orcid":false,"given":"Dongbin","family":"Zhao","sequence":"additional","affiliation":[{"name":"School of Artificial Intelligence, University of Chinese Academy of Sciences, Beijing, China"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2024.3516693"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TG.2020.3022698"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TSMC.2024.3487535"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3309608"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2021.3070584"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/TCSS.2022.3145044"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2021.3105869"},{"key":"ref8","article-title":"Generalization in cooperative multi-agent systems","author":"Mahajan","year":"2022","journal-title":"arXiv:2202.00104"},{"key":"ref9","first-page":"1126","article-title":"Model-agnostic meta-learning for fast adaptation of deep networks","volume-title":"Proc. 34th Int. Conf. Mach. Learn.","volume":"70","author":"Finn"},{"key":"ref10","article-title":"RL2: Fast reinforcement learning via slow reinforcement learning","author":"Duan","year":"2016","journal-title":"arXiv:1611.02779"},{"key":"ref11","first-page":"5331","article-title":"Efficient off-policy meta-reinforcement learning via probabilistic context variables","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","volume":"97","author":"Rakelly"},{"key":"ref12","first-page":"27563","article-title":"DOMINO: Decomposed mutual information optimization for generalized context in meta-reinforcement learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"35","author":"Mu"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-28929-8"},{"key":"ref14","article-title":"Representation learning with contrastive predictive coding","author":"van den Oord","year":"2018","journal-title":"arXiv:1807.03748"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1016\/j.jai.2024.02.003"},{"key":"ref16","first-page":"1","article-title":"Discovering generalizable multi-agent coordination skills from multi-task offline data","volume-title":"Proc. 11th Int. Conf. Learn. Represent.","author":"Zhang"},{"key":"ref17","first-page":"1","article-title":"Multi-agent meta-reinforcement learning: Sharper convergence rates with task similarity","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"36","author":"Mao"},{"key":"ref18","article-title":"Learning task embeddings for teamwork adaptation in multi-agent reinforcement learning","author":"Sch\u00e4fer","year":"2022","journal-title":"arXiv:2207.02249"},{"key":"ref19","first-page":"2681","article-title":"Deep decentralized multi-task multi-agent reinforcement learning under partial observability","volume-title":"Proc. 34th Int. Conf. Mach. Learn.","volume":"70","author":"Omidshafiei"},{"key":"ref20","first-page":"1863","article-title":"Task generalisation in multi-agent reinforcement learning","volume-title":"Proc. 21st Int. Conf. Auto. Agents Multiagent Syst.","author":"Sch\u00e4fer"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2021.3135420"},{"key":"ref22","first-page":"1","article-title":"Deep variational information bottleneck","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Alemi"},{"key":"ref23","first-page":"5171","article-title":"On variational bounds of mutual information","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","volume":"97","author":"Poole"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3264730"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3291371"},{"key":"ref26","first-page":"1","article-title":"FOCAL: Efficient fully-offline meta-reinforcement learning via distance metric learning and behavior regularization","volume-title":"Proc. Int. Conf. Learn. Represent.","author":"Li"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i8.16914"},{"key":"ref28","first-page":"25747","article-title":"Robust task representations for offline meta-reinforcement learning via contrastive learning","volume-title":"Proc. 39th Int. Conf. Mach. Learn.","volume":"132","author":"Yuan"},{"key":"ref29","first-page":"23363","article-title":"Thompson sampling for robust transfer in multi-task bandits","volume-title":"Proc. 39th Int. Conf. Mach. Learn.","volume":"162","author":"Wang"},{"key":"ref30","first-page":"15340","article-title":"Transformers are meta-reinforcement learners","volume-title":"Proc. 39th Int. Conf. Mach. Learn.","volume":"162","author":"Melo"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2021.3121432"},{"key":"ref32","article-title":"High-dimensional continuous control using generalized advantage estimation","author":"Schulman","year":"2015","journal-title":"arXiv:1506.02438"},{"key":"ref33","article-title":"Meta reinforcement learning as task inference","author":"Humplik","year":"2019","journal-title":"arXiv:1905.06424"},{"key":"ref34","first-page":"3744","article-title":"Set Transformer: A framework for attention-based permutation-invariant neural networks","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","volume":"97","author":"Lee"},{"key":"ref35","first-page":"12208","article-title":"FACMAC: Factored multi-agent centralised policy gradients","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"34","author":"Peng"},{"key":"ref36","first-page":"1","article-title":"Multi-agent actor-critic for mixed cooperative-competitive environments","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"30","author":"Lowe"},{"key":"ref37","first-page":"10707","article-title":"Shared experience actor-critic for multi-agent reinforcement learning","volume-title":"Proc. Int. Conf. Adv. Neural Inf. Process. Syst.","volume":"33","author":"Christianos"},{"key":"ref38","volume-title":"Magent","author":"Terry","year":"2020"},{"key":"ref39","first-page":"24611","article-title":"The surprising effectiveness of PPO in cooperative, multi-agent games","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"35","author":"Yu"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2021.3106705"}],"container-title":["IEEE Transactions on Neural Networks and Learning Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/5962385\/11114436\/10905042.pdf?arnumber=10905042","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,6]],"date-time":"2025-08-06T18:00:54Z","timestamp":1754503254000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10905042\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,8]]},"references-count":40,"journal-issue":{"issue":"8"},"URL":"https:\/\/doi.org\/10.1109\/tnnls.2025.3540758","relation":{},"ISSN":["2162-237X","2162-2388"],"issn-type":[{"value":"2162-237X","type":"print"},{"value":"2162-2388","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,8]]}}}