{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,15]],"date-time":"2025-11-15T07:32:40Z","timestamp":1763191960149,"version":"3.45.0"},"reference-count":46,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,6,30]],"date-time":"2025-06-30T00:00:00Z","timestamp":1751241600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,6,30]],"date-time":"2025-06-30T00:00:00Z","timestamp":1751241600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,6,30]]},"DOI":"10.1109\/ijcnn64981.2025.11228644","type":"proceedings-article","created":{"date-parts":[[2025,11,14]],"date-time":"2025-11-14T18:46:15Z","timestamp":1763145975000},"page":"1-10","source":"Crossref","is-referenced-by-count":0,"title":["Leveraging World Model Disentanglement in Value-Based Multi-Agent Reinforcement Learning"],"prefix":"10.1109","author":[{"given":"Zhizun","family":"Wang","sequence":"first","affiliation":[{"name":"McGill University,Montreal,Canada"}]},{"given":"David","family":"Meger","sequence":"additional","affiliation":[{"name":"McGill University,Montreal,Canada"}]}],"member":"263","reference":[{"journal-title":"Mastering Atari with Discrete World Models","year":"2022","author":"Hafner","key":"ref1"},{"key":"ref2","article-title":"An overview of multi-agent reinforcement learning from game theoretical perspective","author":"Yang","year":"2020","journal-title":"CoRR"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1007\/s11432-022-3696-5"},{"key":"ref4","first-page":"734","article-title":"A near-optimal poly-time algorithm for learning in a class of stochastic games","volume-title":"IJCAI","author":"Brafman"},{"issue":"2","key":"ref5","first-page":"213","article-title":"R-max\u2013A General Polynomial Time Algorithm for Near-Optimal Reinforcement Learning","volume":"3","author":"Brafman","year":"2003","journal-title":"Journal of Machine Learning Research"},{"key":"ref6","article-title":"and T. Ba\u015far","author":"Zhang","year":"2021","journal-title":"Multi-Agent Reinforcement Learning: A Selective Overview of Theories and Algorithms"},{"article-title":"Iso-Dream: Isolating and Leveraging Noncontrollable Visual Dynamics in World Models","year":"2022","author":"Pan","key":"ref7"},{"journal-title":"The StarCraft Multi-Agent Challenge","year":"2019","author":"Samvelyan","key":"ref8"},{"article-title":"Facmac: Factored multi-agent centralised policy gradients","volume-title":"NeurIPS","author":"Peng","key":"ref9"},{"article-title":"Shared experience actor-critic for multi-agent reinforcement learning","volume-title":"NeurIPS","author":"Christianos","key":"ref10"},{"article-title":"Algorithmic framework for model-based reinforcement learning with theoretical guarantees","year":"2018","author":"Xu","key":"ref11"},{"article-title":"Learning Latent Dynamics for Planning from Pixels","year":"2019","author":"Hafner","key":"ref12"},{"article-title":"Mastering diverse domains through world models","year":"2023","author":"Hafner","key":"ref13"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1145\/122344.122377"},{"article-title":"Incentivizing exploration in reinforcement learning with deep predictive models","year":"2015","author":"Stadie","key":"ref15"},{"key":"ref16","article-title":"Vime: Variational information maximizing exploration","volume":"29","author":"Houthooft","year":"2016","journal-title":"Advances in neural information processing systems"},{"article-title":"Continuous deep q-learning with model-based acceleration","volume-title":"ICML","author":"Gu","key":"ref17"},{"article-title":"Imagination-augmented agents for deep reinforcement learning","volume-title":"NeurIPS","author":"Racaniere","key":"ref18"},{"article-title":"Model-based multi-agent rl in zero-sum markov games with near-optimal sample complexity","volume-title":"NeurIPS","author":"Zhang","key":"ref19"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pone.0222215"},{"article-title":"Efficient model-based multi-agent mean-field reinforcement learning","year":"2021","author":"Pasztor","key":"ref21"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1145\/3627673.3679942"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2021\/466"},{"key":"ref24","doi-asserted-by":"crossref","DOI":"10.1016\/B978-1-55860-307-3.50049-6","article-title":"Multi-agent reinforcement learning: Independent versus cooperative agents","volume-title":"ICML","author":"Tan"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pone.0172395"},{"article-title":"Planning, learning and coordination in multiagent decision processes","volume-title":"Proceedings of the 6th Conference on Theoretical Aspects of Rationality and Knowledge","author":"Boutilier","key":"ref26"},{"article-title":"Coordinated reinforcement learning","volume-title":"International Conference on Machine Learning","author":"Guestrin","key":"ref27"},{"key":"ref28","article-title":"Hierarchical cooperative multi-agent reinforcement learning with skill discovery","author":"Yang","year":"2019","journal-title":"CoRR"},{"key":"ref29","first-page":"5887","article-title":"QTRAN: Learning to Factorize with Transformation for Cooperative Multi-Agent Reinforcement Learning","volume-title":"PMLR","author":"Son"},{"key":"ref30","article-title":"Weighted QMIX: expanding monotonic value function factorisation","author":"Rashid","year":"2020","journal-title":"CoRR"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1016\/j.neucom.2016.01.031"},{"journal-title":"Value-Decomposition Networks For Cooperative Multi-Agent Learning","year":"2017","author":"Sunehag","key":"ref32"},{"article-title":"QMIX: Monotonic value function factorisation for deep multi-agent reinforcement learning","volume-title":"PMLR","author":"Rashid","key":"ref33"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-28929-8"},{"article-title":"Recurrent independent mechanisms","volume-title":"ICLR","author":"Goyal","key":"ref35"},{"article-title":"Svqn: Sequential variational soft q-learning networks","volume-title":"ICLR","author":"Huang","key":"ref36"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00662"},{"article-title":"Semi-supervised classification with graph convolutional networks","year":"2016","author":"Kipf","key":"ref38"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11794"},{"key":"ref40","first-page":"10 041","article-title":"MASER: Multi-agent reinforcement learning with subgoals generated from experience replay buffer","volume-title":"PMLR","volume":"162","author":"Jeon"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i10.26370"},{"key":"ref42","first-page":"476","article-title":"Self-motivated multi-agent exploration","volume-title":"AAMAS","author":"Zhang"},{"volume-title":"Blizzard\/s2client-proto: Starcraft ii client","year":"2019","author":"Blizzard","key":"ref43"},{"key":"ref44","article-title":"Maven: Multi-agent variational exploration","volume-title":"NeurIPS","volume":"32","author":"Mahajan"},{"key":"ref45","article-title":"Liir: Learning individual intrinsic reward in multi-agent reinforcement learning","volume-title":"NeurIPS","volume":"32","author":"Du"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2012.6386109"}],"event":{"name":"2025 International Joint Conference on Neural Networks (IJCNN)","start":{"date-parts":[[2025,6,30]]},"location":"Rome, Italy","end":{"date-parts":[[2025,7,5]]}},"container-title":["2025 International Joint Conference on Neural Networks (IJCNN)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11227166\/11227148\/11228644.pdf?arnumber=11228644","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,15]],"date-time":"2025-11-15T07:27:58Z","timestamp":1763191678000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11228644\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6,30]]},"references-count":46,"URL":"https:\/\/doi.org\/10.1109\/ijcnn64981.2025.11228644","relation":{},"subject":[],"published":{"date-parts":[[2025,6,30]]}}}