{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,21]],"date-time":"2026-05-21T03:16:45Z","timestamp":1779333405541,"version":"3.51.4"},"reference-count":89,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"am","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"DOI":"10.13039\/100000006","name":"Office of Naval Research","doi-asserted-by":"publisher","award":["N00014-23-1-2353"],"award-info":[{"award-number":["N00014-23-1-2353"]}],"id":[{"id":"10.13039\/100000006","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000006","name":"Office of Naval Research","doi-asserted-by":"publisher","award":["N62909-24-1-2081"],"award-info":[{"award-number":["N62909-24-1-2081"]}],"id":[{"id":"10.13039\/100000006","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000006","name":"Office of Naval Research","doi-asserted-by":"publisher","award":["NSF CCF-2402689"],"award-info":[{"award-number":["NSF CCF-2402689"]}],"id":[{"id":"10.13039\/100000006","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000006","name":"Office of Naval Research","doi-asserted-by":"publisher","award":["PID2021-125514NB-I00"],"award-info":[{"award-number":["PID2021-125514NB-I00"]}],"id":[{"id":"10.13039\/100000006","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000006","name":"Office of Naval Research","doi-asserted-by":"publisher","award":["PID2021-124137OB-I00"],"award-info":[{"award-number":["PID2021-124137OB-I00"]}],"id":[{"id":"10.13039\/100000006","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000006","name":"Office of Naval Research","doi-asserted-by":"publisher","award":["TED2021-130224B-I00"],"award-info":[{"award-number":["TED2021-130224B-I00"]}],"id":[{"id":"10.13039\/100000006","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100008530","name":"European Regional Development Fund","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100008530","id-type":"DOI","asserted-by":"publisher"}]},{"name":"European Union NextGenerationEU\/PRTR","award":["DGA T45-23R"],"award-info":[{"award-number":["DGA T45-23R"]}]},{"name":"European Union NextGenerationEU\/PRTR","award":["FPU19-05700"],"award-info":[{"award-number":["FPU19-05700"]}]},{"name":"US Spain Fulbright grant"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Robot."],"published-print":{"date-parts":[[2025]]},"DOI":"10.1109\/tro.2025.3582836","type":"journal-article","created":{"date-parts":[[2025,6,24]],"date-time":"2025-06-24T13:36:04Z","timestamp":1750772164000},"page":"4499-4517","source":"Crossref","is-referenced-by-count":13,"title":["Physics-Informed Multiagent Reinforcement Learning for Distributed Multirobot Problems"],"prefix":"10.1109","volume":"41","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-9671-4056","authenticated-orcid":false,"given":"Eduardo","family":"Sebasti\u00e1n","sequence":"first","affiliation":[{"name":"Department of Computer Science and Systems Engineering (DIIS) and the Engineering Research Institute of Aragon (I3A), Universidad de Zaragoza, Zaragoza, Spain"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8115-8330","authenticated-orcid":false,"given":"Thai","family":"Duong","sequence":"additional","affiliation":[{"name":"Department of Electrical and Computer Engineering, University of California San Diego, La Jolla, CA, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0272-7580","authenticated-orcid":false,"given":"Nikolay","family":"Atanasov","sequence":"additional","affiliation":[{"name":"Department of Electrical and Computer Engineering, University of California San Diego, La Jolla, CA, USA"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5176-3767","authenticated-orcid":false,"given":"Eduardo","family":"Montijano","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Systems Engineering (DIIS) and the Engineering Research Institute of Aragon (I3A), Universidad de Zaragoza, Zaragoza, Spain"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3032-954X","authenticated-orcid":false,"given":"Carlos","family":"Sag\u00fc\u00e9s","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Systems Engineering (DIIS) and the Engineering Research Institute of Aragon (I3A), Universidad de Zaragoza, Zaragoza, Spain"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2017.7989200"},{"key":"ref2","first-page":"12208","article-title":"FACMAC: Factored multi-agent centralised policy gradients","volume":"34","author":"Peng","year":"2021","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2015.7139863"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2021.3137751"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2021.3062337"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2015.7139438"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9561231"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/TRO.2022.3183537"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48506.2021.9562070"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4757-6451-2_4"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2007.4399095"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v26i1.8380"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3283523"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1007\/s10514-023-10127-3"},{"key":"ref15","first-page":"1","article-title":"Cheap talk discovery and utilization in multi-agent reinforcement learning","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Lo","year":"2023"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1287\/opre.2021.2226"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1016\/j.ifacol.2023.10.1621"},{"key":"ref18","first-page":"679","article-title":"Compositional learning of dynamical system models using port-Hamiltonian neural networks","volume-title":"Proc. Learn. Dyn. Control Conf.","author":"Neary","year":"2023"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10161328"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.23919\/ACC55779.2023.10155901"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10161410"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1038\/s41598-023-36399-4"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/s10915-022-01939-z"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1016\/j.ress.2022.108900"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1613\/jair.4818"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8461113"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.2974695"},{"key":"ref28","first-page":"663","article-title":"Algorithms for inverse reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","volume":"1","author":"Ng","year":"2000"},{"key":"ref29","first-page":"885","article-title":"RoboNet: Large-scale multi-robot learning","volume-title":"Proc. Conf. Robot Learn.","author":"Dasari","year":"2020"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1016\/j.artint.2018.07.002"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9197209"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA48891.2023.10160947"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2021.3061073"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/IROS40897.2019.8967824"},{"key":"ref35","first-page":"256","article-title":"Scalable reinforcement learning of localized policies for multi-agent networked systems","volume-title":"Proc. Learn. Dyn. Control","author":"Qu","year":"2020"},{"key":"ref36","first-page":"1","article-title":"Deep reinforcement learning with relational inductive biases","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Zambaldi","year":"2018"},{"key":"ref37","first-page":"2961","article-title":"Actor-attention-critic for multi-agent reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Iqbal","year":"2019"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i05.6209"},{"key":"ref39","first-page":"1","article-title":"Attention actor-critic algorithm for multi-agent constrained co-operative reinforcement learning","volume-title":"Proc. Int. Conf. Auton. Agents Multiagent Syst.","author":"Parnika","year":"2021"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/TCNS.2024.3372710"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2021.3077863"},{"key":"ref42","first-page":"823","article-title":"Graph policy gradients for large scale robot control","volume-title":"Proc. Conf. Robot Learn.","author":"Khan","year":"2020"},{"key":"ref43","first-page":"671","article-title":"Learning decentralized controllers for robot Swarms with graph neural networks","volume-title":"Proc. Conf. Robot Learn.","author":"Tolstaya","year":"2020"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/IROS51168.2021.9636675"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CDC45484.2021.9683779"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2022.3166401"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-540-87479-9_61"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-642-14435-6_7"},{"key":"ref49","article-title":"Starcraft II: A new challenge for reinforcement learning","author":"Vinyals","year":"2017"},{"key":"ref50","first-page":"37567","article-title":"SMACv2: An improved benchmark for cooperative multi-agent reinforcement learning","volume":"36","author":"Ellis","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1007\/s10462-021-09996-w"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1007\/s10489-022-04105-y"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1017\/S0269888912000057"},{"key":"ref54","article-title":"Dealing with non-stationarity in multi-agent deep reinforcement learning","author":"Papoudakis","year":"2019"},{"key":"ref55","first-page":"980","article-title":"Deep coordination graphs","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Bhmer","year":"2020"},{"key":"ref56","article-title":"Soft actor-critic algorithms and applications","author":"Haarnoja","year":"2018"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.32657\/10356\/90191"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.12794\/metadc1505267"},{"key":"ref59","first-page":"1","article-title":"Multi-agent actor-critic for mixed cooperative-competitive environments","volume":"30","author":"Lowe","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"ref60","first-page":"24611","article-title":"The surprising effectiveness of PPO in cooperative multi-agent games","volume":"35","author":"Yu","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"217","key":"ref61","first-page":"1","article-title":"BenchMARL: Benchmarking multi-agent reinforcement learning","volume":"25","author":"Bettini","year":"2024","journal-title":"J. Mach. Learn. Res."},{"key":"ref62","first-page":"1","article-title":"Trust region policy optimisation in multi-agent reinforcement learning","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Kuba","year":"2021"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/IROS55552.2023.10341563"},{"key":"ref64","first-page":"5571","article-title":"Mean field multi-agent reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Yang","year":"2018"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/IROS47612.2022.9981441"},{"key":"ref66","article-title":"Is independent learning all you need in the starcraft multi-agent challenge","author":"Witt","year":"2020"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/IJCNN54540.2023.10191825"},{"key":"ref68","article-title":"QGNN: Value function factorisation with graph neural networks","author":"Kortvelesy","year":"2022"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/TNNLS.2023.3329530"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA57147.2024.10611499"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2021.3077572"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-05816-6_3"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1561\/2600000002"},{"key":"ref74","first-page":"571","article-title":"Distributed neural network control with dependability guarantees: A compositional port-Hamiltonian approach","volume-title":"Proc. Learn. Dyn. Control Conf.","author":"Furieri","year":"2022"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2023.3239430"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA40945.2020.9196800"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-7091-2774-2_9"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1080\/00207170210135939"},{"key":"ref80","first-page":"1861","article-title":"Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Haarnoja","year":"2018"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-51497-5_4"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.15607\/rss.2019.xv.011"},{"key":"ref83","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11492"},{"key":"ref84","first-page":"1","article-title":"Evolutionary population curriculum for scaling multi-agent reinforcement learning","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Long","year":"2019"},{"issue":"153","key":"ref85","first-page":"1","article-title":"Automatic differentiation in machine learning: A survey","volume":"18","author":"Baydin","year":"2018","journal-title":"J. Mach. Learn. Res."},{"key":"ref86","doi-asserted-by":"publisher","DOI":"10.1109\/IROS.2012.6386109"},{"key":"ref87","first-page":"1889","article-title":"Trust region policy optimization","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Schulman","year":"2015"},{"key":"ref88","article-title":"Searching for activation functions","author":"Ramachandran","year":"2017"},{"key":"ref89","first-page":"1","article-title":"Adam: A method for stochastic optimization","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Kingma","year":"2015"}],"container-title":["IEEE Transactions on Robotics"],"original-title":[],"link":[{"URL":"https:\/\/ieeexplore.ieee.org\/ielam\/8860\/10778592\/11049031-aam.pdf","content-type":"application\/pdf","content-version":"am","intended-application":"syndication"},{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/8860\/10778592\/11049031.pdf?arnumber=11049031","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,5]],"date-time":"2025-08-05T04:40:15Z","timestamp":1754368815000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11049031\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":89,"URL":"https:\/\/doi.org\/10.1109\/tro.2025.3582836","relation":{},"ISSN":["1552-3098","1941-0468"],"issn-type":[{"value":"1552-3098","type":"print"},{"value":"1941-0468","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025]]}}}