{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,2,21]],"date-time":"2025-02-21T01:52:30Z","timestamp":1740102750011,"version":"3.37.3"},"reference-count":36,"publisher":"IEEE","license":[{"start":{"date-parts":[[2024,4,14]],"date-time":"2024-04-14T00:00:00Z","timestamp":1713052800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2024,4,14]],"date-time":"2024-04-14T00:00:00Z","timestamp":1713052800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100002367","name":"Chinese Academy of Sciences","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100002367","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2024,4,14]]},"DOI":"10.1109\/icassp48485.2024.10447913","type":"proceedings-article","created":{"date-parts":[[2024,3,18]],"date-time":"2024-03-18T18:56:31Z","timestamp":1710788191000},"page":"31-35","source":"Crossref","is-referenced-by-count":1,"title":["MaDE: Multi-Scale Decision Enhancement for Multi-Agent Reinforcement Learning"],"prefix":"10.1109","author":[{"given":"Jingqing","family":"Ruan","sequence":"first","affiliation":[{"name":"Chinese Academy of Sciences,Institute of Automation"}]},{"given":"Runpeng","family":"Xie","sequence":"additional","affiliation":[{"name":"Chinese Academy of Sciences,Institute of Automation"}]},{"given":"Xuantang","family":"Xiong","sequence":"additional","affiliation":[{"name":"Chinese Academy of Sciences,Institute of Automation"}]},{"given":"Shuang","family":"Xu","sequence":"additional","affiliation":[{"name":"Chinese Academy of Sciences,Institute of Automation"}]},{"given":"Bo","family":"Xu","sequence":"additional","affiliation":[{"name":"Chinese Academy of Sciences,Institute of Automation"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1007\/BF00240651"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.3390\/electronics11142162"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP43922.2022.9747378"},{"volume-title":"Reinforcement learning: An introduction","year":"2018","author":"Sutton","key":"ref4"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/CDC.2013.6760239"},{"key":"ref6","first-page":"9876","article-title":"Roma: Multi-agent reinforcement learning with emergent roles","author":"Wang","year":"2020","journal-title":"ICML"},{"key":"ref7","article-title":"Rode: learning roles to decompose multi-agent tasks","author":"Wang","year":"2021","journal-title":"ICLR"},{"article-title":"Ldsa: Learning dynamic subtask assignment in cooperative multi-agent reinforcement learning","year":"2022","author":"Yang","key":"ref8"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.3233\/FAIA230493"},{"article-title":"Value-decomposition networks for cooperative multi-agent learning","year":"2017","author":"Sunehag","key":"ref10"},{"issue":"1","key":"ref11","first-page":"7234","article-title":"Monotonic value function factorisation for deep multi-agent reinforcement learning","volume":"21","author":"Rashid","year":"2020","journal-title":"MLR"},{"key":"ref12","first-page":"24611","article-title":"The surprising effectiveness of ppo in cooperative multi-agent games","volume":"35","author":"Yu","year":"2022","journal-title":"NeurIPS"},{"article-title":"Gcs: graph-based coordination strategy for multi-agent reinforcement learning","year":"2022","author":"Ruan","key":"ref13"},{"key":"ref14","first-page":"1101","article-title":"Coordinating multi-agent reinforcement learning with limited communication","author":"Zhang","year":"2013","journal-title":"AAMAS"},{"key":"ref15","first-page":"210","article-title":"Bisimulation metrics are optimal value functions","author":"Ferns","year":"2014","journal-title":"UAI"},{"key":"ref16","article-title":"Towards a unified theory of state abstraction for mdps","author":"Li","year":"2006","journal-title":"AI&M"},{"key":"ref17","article-title":"Learning invariant representations for reinforcement learning without reconstruction","author":"Zhang","year":"2021","journal-title":"ICLR"},{"key":"ref18","first-page":"8407","article-title":"Bisimulation makes analogies in goal-conditioned reinforcement learning","author":"Hansen-Estruch","year":"2022","journal-title":"ICML"},{"key":"ref19","first-page":"28336","article-title":"Landmark-guided subgoal generation in hierarchical reinforcement learning","volume":"34","author":"Kim","year":"2021","journal-title":"NeurIPS"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.3233\/faia230588"},{"article-title":"Offline reinforcement learning with causal structured world models","year":"2022","author":"Zhu","key":"ref21"},{"article-title":"Tptu: Task planning and tool usage of large language model-based ai agents","volume-title":"NeurIPS 2023 Foundation Models for Decision Making Workshop","author":"Ruan","key":"ref22"},{"article-title":"Tptu-v2: Boosting task planning and tool usage of large language model-based agents in real-world systems","year":"2023","author":"Kong","key":"ref23"},{"article-title":"Controlling large language model-based agents for large-scale decision-making: An actor-critic approach","year":"2023","author":"Zhang","key":"ref24"},{"key":"ref25","first-page":"27","article-title":"The role of roles in designing effective agent organizations","author":"Odell","year":"2002","journal-title":"SELMAS"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/WI-IAT.2013.122"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-24620-6_15"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ICME52920.2022.9859945"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2022\/85"},{"key":"ref30","first-page":"24018","article-title":"Vast: Value function factorization with variable agent sub-teams","volume":"34","author":"Phan","year":"2021","journal-title":"NeurIPS"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1137\/10080484X"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/TII.2012.2219061"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1561\/2200000044"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.4249\/scholarpedia.1883"},{"article-title":"Proximal policy optimization algorithms","year":"2017","author":"Schulman","key":"ref35"},{"key":"ref36","first-page":"10041","article-title":"Maser: Multi-agent reinforcement learning with subgoals generated from experience replay buffer","volume-title":"ICML","author":"Jeon"}],"event":{"name":"ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)","start":{"date-parts":[[2024,4,14]]},"location":"Seoul, Korea, Republic of","end":{"date-parts":[[2024,4,19]]}},"container-title":["ICASSP 2024 - 2024 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/10445798\/10445803\/10447913.pdf?arnumber=10447913","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,8,2]],"date-time":"2024-08-02T04:49:39Z","timestamp":1722574179000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10447913\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,4,14]]},"references-count":36,"URL":"https:\/\/doi.org\/10.1109\/icassp48485.2024.10447913","relation":{},"subject":[],"published":{"date-parts":[[2024,4,14]]}}}