{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,12]],"date-time":"2026-05-12T02:13:21Z","timestamp":1778552001068,"version":"3.51.4"},"reference-count":47,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61941113"],"award-info":[{"award-number":["61941113"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100007129","name":"Shandong Province Natural Science Foundation","doi-asserted-by":"publisher","award":["ZR2025QC660"],"award-info":[{"award-number":["ZR2025QC660"]}],"id":[{"id":"10.13039\/501100007129","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Neurocomputing"],"published-print":{"date-parts":[[2026,7]]},"DOI":"10.1016\/j.neucom.2026.133676","type":"journal-article","created":{"date-parts":[[2026,4,13]],"date-time":"2026-04-13T17:22:13Z","timestamp":1776100933000},"page":"133676","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["RRQ: Relative residual potential functions with knowledge-distilled value decomposition for MARL"],"prefix":"10.1016","volume":"685","author":[{"ORCID":"https:\/\/orcid.org\/0009-0000-7282-5720","authenticated-orcid":false,"given":"Anqi","family":"Huang","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3360-9499","authenticated-orcid":false,"given":"Zhiqun","family":"Pan","sequence":"additional","affiliation":[]},{"given":"Xiaoliang","family":"Zhou","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.neucom.2026.133676_bib0005","first-page":"739","article-title":"Cooperative planning for an unmanned combat aerial vehicle fleet using reinforcement learning","volume":"18","author":"Yuksek","year":"2021","journal-title":"J. Aerosp. Inf. Syst."},{"key":"10.1016\/j.neucom.2026.133676_bib0010","doi-asserted-by":"crossref","first-page":"1086","DOI":"10.1109\/TITS.2019.2901791","article-title":"Multi-agent deep reinforcement learning for large-scale traffic signal control","volume":"21","author":"Chu","year":"2019","journal-title":"IEEE Trans. Intell. Transp. Syst."},{"key":"10.1016\/j.neucom.2026.133676_bib0015","author":"Zhang"},{"key":"10.1016\/j.neucom.2026.133676_bib0020","series-title":"IJCAI","article-title":"Toward policy explanations for multi-agent reinforcement learning","author":"Boggess","year":"2022"},{"key":"10.1016\/j.neucom.2026.133676_bib0025","doi-asserted-by":"crossref","DOI":"10.1016\/j.neunet.2024.106101","article-title":"Coordination as inference in multi-agent reinforcement learning","volume":"172","author":"Li","year":"2024","journal-title":"Neural Netw."},{"key":"10.1016\/j.neucom.2026.133676_bib0030","series-title":"IJCAI","article-title":"Modelling the dynamics of multi-agent q-learning: the stochastic effects of local interaction and incomplete information","author":"Leung","year":"2022"},{"key":"10.1016\/j.neucom.2026.133676_bib0035","first-page":"1","article-title":"Malib: a parallel framework for population-based multi-agent reinforcement learning","volume":"24","author":"Zhou","year":"2023","journal-title":"J. Mach. Learn. Res."},{"key":"10.1016\/j.neucom.2026.133676_bib0040","doi-asserted-by":"crossref","first-page":"289","DOI":"10.1613\/jair.2447","article-title":"Optimal and approximate q-value functions for decentralized pomdps","volume":"32","author":"Oliehoek","year":"2008","journal-title":"J. Artif. Intell. Res."},{"key":"10.1016\/j.neucom.2026.133676_bib0045","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2025.127856","article-title":"Heterogeneous multi-agent reinforcement learning based on modularized policy network","volume":"284","author":"Kim","year":"2025","journal-title":"Expert Syst. Appl."},{"key":"10.1016\/j.neucom.2026.133676_bib0050","first-page":"1","article-title":"On the approximation of cooperative heterogeneous multi-agent reinforcement learning (marl) using mean field control (mfc)","volume":"23","author":"Mondal","year":"2022","journal-title":"J. Mach. Learn. Res."},{"key":"10.1016\/j.neucom.2026.133676_bib0055","author":"Sunehag"},{"key":"10.1016\/j.neucom.2026.133676_bib0060","first-page":"7234","article-title":"Monotonic value function factorisation for deep multi-agent reinforcement learning","volume":"21","author":"Rashid","year":"2020","journal-title":"The Journal of Machine Learning Research"},{"key":"10.1016\/j.neucom.2026.133676_bib0065","series-title":"International Conference on Machine Learning","first-page":"5887","article-title":"Qtran: learning to factorize with transformation for cooperative multi-agent reinforcement learning","author":"Son","year":"2019"},{"key":"10.1016\/j.neucom.2026.133676_bib0070","first-page":"34791","article-title":"Riskq: risk-sensitive multi-agent reinforcement learning value factorization","volume":"36","author":"Shen","year":"2023","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.neucom.2026.133676_bib0075","series-title":"The World Wide Web Conference","first-page":"983","article-title":"Efficient ridesharing order dispatching with mean field multi-agent reinforcement learning","author":"Li","year":"2019"},{"key":"10.1016\/j.neucom.2026.133676_bib0080","first-page":"13458","article-title":"Settling the variance of multi-agent policy gradients","volume":"34","author":"Kuba","year":"2021","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.neucom.2026.133676_bib0085","series-title":"2025 10th International Conference on Intelligent Computing and Signal Processing (ICSP)","first-page":"744","article-title":"Symmetry-driven ctde: enhancing scalability and sample efficiency in marl","author":"Xu","year":"2025"},{"key":"10.1016\/j.neucom.2026.133676_bib0090","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"23018","article-title":"Cooperative policy agreement: learning diverse policy for offline marl","volume":"vol. 39","author":"Zhou","year":"2025"},{"key":"10.1016\/j.neucom.2026.133676_bib0095","article-title":"Sunrise: multi-agent reinforcement learning via neighbors\u2019 observations under fully noisy environments","author":"Wang","year":"2025","journal-title":"Expert Syst. Appl."},{"key":"10.1016\/j.neucom.2026.133676_bib0100","author":"Wang"},{"key":"10.1016\/j.neucom.2026.133676_bib0105","doi-asserted-by":"crossref","DOI":"10.1371\/journal.pone.0172395","article-title":"Multiagent cooperation and competition with deep reinforcement learning","volume":"12","author":"Tampuu","year":"2017","journal-title":"PLOS ONE"},{"key":"10.1016\/j.neucom.2026.133676_bib0110","doi-asserted-by":"crossref","DOI":"10.1016\/j.ins.2025.122514","article-title":"Sequence value decomposition transformer for cooperative multi-agent reinforcement learning","author":"Zhao","year":"2025","journal-title":"Inf. Sci."},{"key":"10.1016\/j.neucom.2026.133676_bib0115","first-page":"30","article-title":"Multi-agent actor-critic for mixed cooperative-competitive environments","author":"Lowe","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.neucom.2026.133676_bib0120","first-page":"24611","article-title":"The surprising effectiveness of PPO in cooperative multi-agent games","volume":"35","author":"Yu","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.neucom.2026.133676_bib0125","series-title":"Conference on Lifelong Learning Agents, PMLR","first-page":"376","article-title":"Dealing with non-stationarity in decentralized cooperative multi-agent deep reinforcement learning via multi-timescale learning","author":"Nekoei","year":"2023"},{"key":"10.1016\/j.neucom.2026.133676_bib0130","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3070861","article-title":"Prediction-based multi-agent reinforcement learning in inherently non-stationary environments","volume":"12","author":"Marinescu","year":"2017","journal-title":"ACM Transactions on Autonomous and Adaptive Systems (TAAS)"},{"key":"10.1016\/j.neucom.2026.133676_bib0135","series-title":"International Conference on Learning Representations","article-title":"Qplex: duplex dueling multi-agent q-learning","author":"Wang","year":"2021"},{"key":"10.1016\/j.neucom.2026.133676_bib0140","first-page":"10199","article-title":"Weighted qmix: expanding monotonic value function factorisation for deep multi-agent reinforcement learning","author":"Rashid","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.neucom.2026.133676_bib0145","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"17461","article-title":"Concaveq: non-monotonic value function factorization via concave representations in deep multi-agent reinforcement learning","volume":"vol. 38","author":"Li","year":"2024"},{"key":"10.1016\/j.neucom.2026.133676_bib0150","author":"Liu"},{"key":"10.1016\/j.neucom.2026.133676_bib0155","series-title":"Proceedings of the 2023 International Conference on Autonomous Agents and Multiagent Systems","first-page":"31","article-title":"Adaptive value decomposition with greedy marginal contribution computation for cooperative multi-agent reinforcement learning","author":"Liu","year":"2023"},{"key":"10.1016\/j.neucom.2026.133676_bib0160","series-title":"Proceedings of the 24th International Conference on Autonomous Agents and Multiagent Systems","doi-asserted-by":"crossref","first-page":"1445","DOI":"10.65109\/BSUI8234","article-title":"On stateful value factorization in multi-agent reinforcement learning","author":"Marchesini","year":"2025"},{"key":"10.1016\/j.neucom.2026.133676_bib0165","doi-asserted-by":"crossref","first-page":"1582","DOI":"10.1109\/TVT.2023.3312574","article-title":"Stochastic graph neural network-based value decomposition for marl in internet of vehicles","volume":"73","author":"Xiao","year":"2023","journal-title":"IEEE Trans. Veh. Technol."},{"key":"10.1016\/j.neucom.2026.133676_bib0170","doi-asserted-by":"crossref","DOI":"10.1016\/j.neunet.2024.106547","article-title":"Optimistic sequential multi-agent reinforcement learning with motivational communication","volume":"179","author":"Huang","year":"2024","journal-title":"Neural Netw."},{"key":"10.1016\/j.neucom.2026.133676_bib0175","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"9466","article-title":"Multi-agent incentive communication via decentralized teammate modeling","volume":"vol. 36","author":"Yuan","year":"2022"},{"key":"10.1016\/j.neucom.2026.133676_bib0180","doi-asserted-by":"crossref","first-page":"52413","DOI":"10.52202\/075280-2282","article-title":"Offline multi-agent reinforcement learning with implicit global-to-local value regularization","volume":"36","author":"Wang","year":"2023","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.neucom.2026.133676_bib0185","series-title":"Proceedings of the 24th International Conference on Autonomous Agents and Multiagent Systems","doi-asserted-by":"crossref","first-page":"2838","DOI":"10.65109\/UCQS3964","article-title":"Cadp: towards better centralized learning for decentralized execution in marl","author":"Zhou","year":"2025"},{"key":"10.1016\/j.neucom.2026.133676_bib0190","author":"Yan"},{"key":"10.1016\/j.neucom.2026.133676_bib0195","series-title":"IEEE Robotics and Automation Letters","article-title":"Language-driven policy distillation for cooperative driving in multi-agent reinforcement learning","author":"Liu","year":"2025"},{"key":"10.1016\/j.neucom.2026.133676_bib0200","series-title":"2025 IEEE International Conference on Machine Learning for Communication and Networking (ICMLCN)","first-page":"1","article-title":"Optimizing sensor network fusion for improved localization accuracy in dec-pomdps","author":"Bowyer","year":"2025"},{"key":"10.1016\/j.neucom.2026.133676_bib0205","series-title":"Proceedings of the International Conference on Autonomous Agents and Multiagent Systems","doi-asserted-by":"crossref","first-page":"2186","DOI":"10.65109\/LVZZ5205","article-title":"The starcraft multi-agent challenge","author":"Samvelyan","year":"2019"},{"key":"10.1016\/j.neucom.2026.133676_bib0210","first-page":"37567","article-title":"Smacv2: an improved benchmark for cooperative multi-agent reinforcement learning","author":"Ellis","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.neucom.2026.133676_bib0215","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"4501","article-title":"Google research football: a novel reinforcement learning environment","author":"Kurach","year":"2020"},{"key":"10.1016\/j.neucom.2026.133676_bib0220","series-title":"Proceedings of the Second ACM International Conference on AI in Finance","first-page":"1","article-title":"Abides-gym: gym environments for multi-agent discrete event simulation and application to financial markets","author":"Amrouni","year":"2021"},{"key":"10.1016\/j.neucom.2026.133676_bib0225","series-title":"International Conference on Computational Finance and Business Analytics","first-page":"311","article-title":"Does a strategy portfolio outperform twap and vwap? Evidence from stock index future","author":"Shi","year":"2025"},{"key":"10.1016\/j.neucom.2026.133676_bib0230","doi-asserted-by":"crossref","first-page":"1709","DOI":"10.1016\/j.jbankfin.2007.09.023","article-title":"Improving vwap strategies: a dynamic volume approach","volume":"32","author":"Bia\u0142kowski","year":"2008","journal-title":"J. Bank. Finance"},{"key":"10.1016\/j.neucom.2026.133676_bib0235","series-title":"The Science of Algorithmic Trading and Portfolio Management","author":"Kissell","year":"2013"}],"container-title":["Neurocomputing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0925231226010738?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0925231226010738?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,12]],"date-time":"2026-05-12T01:40:52Z","timestamp":1778550052000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0925231226010738"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,7]]},"references-count":47,"alternative-id":["S0925231226010738"],"URL":"https:\/\/doi.org\/10.1016\/j.neucom.2026.133676","relation":{},"ISSN":["0925-2312"],"issn-type":[{"value":"0925-2312","type":"print"}],"subject":[],"published":{"date-parts":[[2026,7]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"RRQ: Relative residual potential functions with knowledge-distilled value decomposition for MARL","name":"articletitle","label":"Article Title"},{"value":"Neurocomputing","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.neucom.2026.133676","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"133676"}}