{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,13]],"date-time":"2026-05-13T17:22:42Z","timestamp":1778692962939,"version":"3.51.4"},"reference-count":46,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"3","license":[{"start":{"date-parts":[[2025,6,1]],"date-time":"2025-06-01T00:00:00Z","timestamp":1748736000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,6,1]],"date-time":"2025-06-01T00:00:00Z","timestamp":1748736000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,6,1]],"date-time":"2025-06-01T00:00:00Z","timestamp":1748736000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62403483"],"award-info":[{"award-number":["62403483"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U24A20279"],"award-info":[{"award-number":["U24A20279"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U21A20518"],"award-info":[{"award-number":["U21A20518"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Cogn. Dev. Syst."],"published-print":{"date-parts":[[2025,6]]},"DOI":"10.1109\/tcds.2024.3504256","type":"journal-article","created":{"date-parts":[[2024,11,29]],"date-time":"2024-11-29T13:59:50Z","timestamp":1732888790000},"page":"615-630","source":"Crossref","is-referenced-by-count":6,"title":["SMART: Sequential Multiagent Reinforcement Learning With Role Assignment Using\u00a0Transformer"],"prefix":"10.1109","volume":"17","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-4503-643X","authenticated-orcid":false,"given":"Yixing","family":"Lan","sequence":"first","affiliation":[{"name":"College of Intelligence Science and Technology, National University of Defense Technology, Changsha, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6974-4997","authenticated-orcid":false,"given":"Hao","family":"Gao","sequence":"additional","affiliation":[{"name":"College of Intelligence Science and Technology, National University of Defense Technology, Changsha, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3238-745X","authenticated-orcid":false,"given":"Xin","family":"Xu","sequence":"additional","affiliation":[{"name":"College of Intelligence Science and Technology, National University of Defense Technology, Changsha, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5063-6889","authenticated-orcid":false,"given":"Qiang","family":"Fang","sequence":"additional","affiliation":[{"name":"College of Intelligence Science and Technology, National University of Defense Technology, Changsha, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5765-684X","authenticated-orcid":false,"given":"Yujun","family":"Zeng","sequence":"additional","affiliation":[{"name":"College of Intelligence Science and Technology, National University of Defense Technology, Changsha, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","first-page":"10784","article-title":"Learning to simulate self-driven particles system with coordinated policy optimization","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Peng","year":"2021"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2020.3015811"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TVT.2022.3222756"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2020.06.038"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-019-1724-z"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/tcds.2023.3345735"},{"key":"ref7","article-title":"QPLEX: Duplex dueling multi-agent q-learning","volume-title":"Proc. 9th Int. Conf. Learn. Representations (ICLR)","author":"Wang","year":"2021"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/TCDS.2023.3326297"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/TCDS.2023.3323987"},{"key":"ref10","first-page":"4292","article-title":"QMIX: Monotonic value function factorisation for deep multi-agent reinforcement learning","volume-title":"Proc. 35th Int. Conf. Mach. Learn. (ICML)","volume":"80","author":"Rashid","year":"2018"},{"key":"ref11","article-title":"Dealing with non-stationarity in MARL via trust-region decomposition","volume-title":"Proc. 10th Int. Conf. Learn. Representations (ICLR)","author":"Li","year":"2022"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1007\/s10462-021-09996-w"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-22636-6_7"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1142\/S0218194018500043"},{"key":"ref15","article-title":"RODE: Learning roles to decompose multi-agent tasks","volume-title":"Proc. 9th Int. Conf. Learn. Representations (ICLR)","author":"Wang","year":"2021"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-39975-6_3"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2020.2996209"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v24i1.7679"},{"key":"ref19","first-page":"9876","article-title":"ROMA: Multi-agent reinforcement learning with emergent roles","volume-title":"Proc. 37th Int. Conf. Mach. Learn. (ICML)","volume":"119","author":"Wang","year":"2020"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1179\/0308018812Z.00000000014"},{"key":"ref21","article-title":"Trust region policy optimisation in multi-agent reinforcement learning","volume-title":"10th Int. Conf. Learn. Representations (ICLR)","author":"Kuba","year":"2022"},{"key":"ref22","article-title":"Heterogeneous-agent mirror learning: A continuum of solutions to cooperative MARL","author":"Kuba","year":"2022"},{"key":"ref23","first-page":"1877","article-title":"Language models are few-shot learners","volume-title":"Proc. Adv. Neural Inf. Process. Syst. 33 (NeurIPS)","volume":"33","author":"Brown","year":"2020"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1810.04805"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00010"},{"key":"ref26","article-title":"CrossFormer: A versatile vision transformer hinging on cross-scale attention","volume-title":"Proc. 10th Int. Conf. Learn. Representations (ICLR)","author":"Wang","year":"2022"},{"key":"ref27","first-page":"15084","article-title":"Decision transformer: Reinforcement learning via sequence modeling","volume-title":"Proc. Adv. Neural Inf. Process. Syst. 34 (NeurIPS)","author":"Chen","year":"2021"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/s11633-022-1383-7"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3296642"},{"key":"ref30","first-page":"16509","article-title":"Multi-agent reinforcement learning is a sequence modeling problem","volume-title":"Proc. Adv. Neural Inf. Process. Syst. 35 (NeurIPS)","author":"Wen","year":"2022"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i04.5878"},{"key":"ref32","first-page":"2186","article-title":"The StarCraft multi-agent challenge","volume-title":"Proc. 18th Int. Conf. Auton. Agents MultiAgent Syst. (AAMAS)","author":"Samvelyan","year":"2019"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-28929-8"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.2307\/1969529"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v31i1.11103"},{"key":"ref36","first-page":"1050","article-title":"Multi-time models for temporally abstract planning","volume-title":"Proc. Adv. Neural Inf. Process. Syst. 10 (NeurIPS)","author":"Precup","year":"1997"},{"key":"ref37","article-title":"Exploration in reinforcement learning with deep covering options","volume-title":"Proc. 8th Int. Conf. Learn. Representations (ICLR)","author":"Jinnai","year":"2020"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2019.8794401"},{"key":"ref39","first-page":"6196","article-title":"The natural language of actions","volume-title":"Proc. 36th Int. Conf. Mach. Learn. (ICML)","volume":"97","author":"Tennenholtz","year":"2019"},{"key":"ref40","first-page":"941","article-title":"Learning action representations for reinforcement learning","volume-title":"Proc. 36th Int. Conf. Mach. Learn. (ICML)","volume":"97","author":"Chandak","year":"2019"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D17-1308"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2021.3105869"},{"key":"ref43","first-page":"3991","article-title":"Celebrating diversity in shared multi-agent reinforcement learning","volume-title":"Proc. Adv. Neural Inf. Process. Syst. 34 (NeurIPS)","author":"Li","year":"2021"},{"key":"ref44","first-page":"13458","article-title":"Settling the variance of multi-agent policy gradients","volume-title":"Proc. Adv. Neural Inf. Process. Syst. 34 (NeurIPS)","author":"Kuba","year":"2021"},{"key":"ref45","first-page":"485","article-title":"Sequential cooperative multi-agent reinforcement learning","volume-title":"Proc. Int. Conf. Auton. Agents Multiagent Syst.","author":"Zang","year":"2023"},{"key":"ref46","first-page":"2413","article-title":"Reinforcement learning in finite MDPs: PAC analysis","volume":"10","author":"Strehl","year":"2009","journal-title":"J. Mach. Learn. Res."}],"container-title":["IEEE Transactions on Cognitive and Developmental Systems"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/7274989\/11023974\/10772002.pdf?arnumber=10772002","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,16]],"date-time":"2025-12-16T18:32:57Z","timestamp":1765909977000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10772002\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6]]},"references-count":46,"journal-issue":{"issue":"3"},"URL":"https:\/\/doi.org\/10.1109\/tcds.2024.3504256","relation":{},"ISSN":["2379-8920","2379-8939"],"issn-type":[{"value":"2379-8920","type":"print"},{"value":"2379-8939","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,6]]}}}