{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,6]],"date-time":"2026-02-06T13:58:53Z","timestamp":1770386333181,"version":"3.49.0"},"reference-count":31,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2025,2,6]],"date-time":"2025-02-06T00:00:00Z","timestamp":1738800000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,2,6]],"date-time":"2025-02-06T00:00:00Z","timestamp":1738800000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/100000181","name":"Air Force Office of Scientific Research","doi-asserted-by":"publisher","award":["FA2386-24-1-4012"],"award-info":[{"award-number":["FA2386-24-1-4012"]}],"id":[{"id":"10.13039\/100000181","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100000181","name":"Air Force Office of Scientific Research","doi-asserted-by":"publisher","award":["FA2386-24-1-4012"],"award-info":[{"award-number":["FA2386-24-1-4012"]}],"id":[{"id":"10.13039\/100000181","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Mach Learn"],"published-print":{"date-parts":[[2025,3]]},"DOI":"10.1007\/s10994-024-06700-1","type":"journal-article","created":{"date-parts":[[2025,2,6]],"date-time":"2025-02-06T15:36:52Z","timestamp":1738856212000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["Toward finding strong pareto optimal policies in multi-agent reinforcement learning"],"prefix":"10.1007","volume":"114","author":[{"given":"Bang Giang","family":"Le","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Viet Cuong","family":"Ta","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,2,6]]},"reference":[{"key":"6700_CR1","doi-asserted-by":"publisher","DOI":"10.1137\/1.9781611974997","volume-title":"First-order methods in optimization","author":"Amir Beck","year":"2017","unstructured":"Beck, Amir. (2017). First-order methods in optimization. SIAM."},{"key":"6700_CR2","doi-asserted-by":"publisher","first-page":"110953","DOI":"10.1016\/j.econlet.2022.110953","volume":"222","author":"Susumu Cato","year":"2023","unstructured":"Cato, Susumu. (2023). When is weak pareto equivalent to strong pareto? Economics Letters, 222, 110953.","journal-title":"Economics Letters"},{"key":"6700_CR3","first-page":"24611","volume":"35","author":"Yu Chao","year":"2022","unstructured":"Chao, Yu., Velu, Akash, Vinitsky, Eugene, Jiaxuan Gao, Yu., Wang, Alexandre Bayen, & Yi, Wu. (2022). The surprising effectiveness of ppo in cooperative multi-agent games. Advances in Neural Information Processing Systems, 35, 24611\u201324624.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"6700_CR4","unstructured":"Christianos, F., Papoudakis, G., & Albrecht, S. V. (2022). Pareto actor-critic for equilibrium selection in multi-agent reinforcement learning. arXiv preprint[SPACE]arXiv:2209.14344."},{"key":"6700_CR5","unstructured":"De\u00a0Witt, C. S., Gupta, T., Makoviichuk, D., Makoviychuk, V., Torr, P. H. S., Sun, M., Whiteson, S. (2020). Is independent learning all you need in the starcraft multi-agent challenge? arXiv preprint[SPACE]arXiv:2011.09533."},{"issue":"5\u20136","key":"6700_CR6","doi-asserted-by":"publisher","first-page":"313","DOI":"10.1016\/j.crma.2012.03.014","volume":"350","author":"Jean-Antoine D\u00e9sid\u00e9ri","year":"2012","unstructured":"D\u00e9sid\u00e9ri, Jean-Antoine. (2012). Multiple-gradient descent algorithm (mgda) for multiobjective optimization. Comptes Rendus Mathematique, 350(5\u20136), 313\u2013318.","journal-title":"Comptes Rendus Mathematique"},{"issue":"5","key":"6700_CR7","doi-asserted-by":"publisher","first-page":"1005","DOI":"10.1080\/10556788.2013.854357","volume":"29","author":"YuG Evtushenko","year":"2014","unstructured":"Evtushenko, Yu. G., & Posypkin, M. A. (2014). A deterministic algorithm for global multi-objective optimization. Optimization Methods and Software, 29(5), 1005\u20131019.","journal-title":"Optimization Methods and Software"},{"key":"6700_CR8","doi-asserted-by":"publisher","first-page":"479","DOI":"10.1007\/s001860000043","volume":"51","author":"J\u00f6rg Fliege","year":"2000","unstructured":"Fliege, J\u00f6rg., & Svaiter, Benar Fux. (2000). Steepest descent methods for multicriteria optimization. Mathematical methods of operations research, 51, 479\u2013494.","journal-title":"Mathematical methods of operations research"},{"issue":"5","key":"6700_CR9","doi-asserted-by":"publisher","first-page":"949","DOI":"10.1080\/10556788.2018.1510928","volume":"34","author":"J\u00f6rg Fliege","year":"2019","unstructured":"Fliege, J\u00f6rg., Vaz, A\u00a0Ismael\u00a0F., & Vicente, Lu\u00eds Nunes. (2019). Complexity of gradient descent for multiobjective optimization. Optimization Methods and Software, 34(5), 949\u2013959.","journal-title":"Optimization Methods and Software"},{"key":"6700_CR10","unstructured":"Franzmeyer, T., Malinowski, M., & Henriques, J. F. (2022). Learning altruistic behaviours in reinforcement learning without external rewards."},{"key":"6700_CR11","unstructured":"Kingma, D. P., & Ba, J. (2014). Adam: A method for stochastic optimization. arXiv preprint[SPACE]arXiv:1412.6980."},{"key":"6700_CR12","unstructured":"Kuba, J. G., Chen, R., Wen, M., Wen, Y., Sun, F., Wang, J., & Yang, Y. (2021). Trust region policy optimisation in multi-agent reinforcement learning. arXiv preprint[SPACE]arXiv:2109.11251."},{"key":"6700_CR13","unstructured":"Leonardos, S., Overman, W., Panageas, I., & Piliouras, G. (2021). Global convergence of multi-agent policy gradient in markov potential games. arXiv preprint[SPACE]arXiv:2106.01969."},{"key":"6700_CR14","unstructured":"Lin, X., Zhen, H. L., Li, Z., Zhang, Q. F., & Kwong, S. (2019). Pareto multi-task learning. Advances in neural information processing systems,32."},{"key":"6700_CR15","unstructured":"Lowe, R., Wu, Y. I., Tamar, A., Harb, J., Pieter Abbeel, O., & Mordatch, I. (2017). Multi-agent actor-critic for mixed cooperative-competitive environments. Advances in neural information processing systems,30."},{"key":"6700_CR16","unstructured":"Momma, M., Dong, C., & Liu, J. (2022). A multi-objective\/multi-task learning framework induced by pareto stationarity. In International Conference on Machine Learning, pages 15895\u201315907. PMLR."},{"key":"6700_CR17","unstructured":"Papoudakis, G., Christianos, F., Sch\u00e4fer, L., & Albrecht, S. V. (2020). Benchmarking multi-agent deep reinforcement learning algorithms in cooperative tasks. arXiv preprint[SPACE]arXiv:2006.07869."},{"issue":"178","key":"6700_CR18","first-page":"1","volume":"21","author":"Tabish Rashid","year":"2020","unstructured":"Rashid, Tabish, Samvelyan, Mikayel, Witt, Christian Schroeder De., Farquhar, Gregory, Foerster, Jakob, & Whiteson, Shimon. (2020). Monotonic value function factorisation for deep multi-agent reinforcement learning. Journal of Machine Learning Research, 21(178), 1\u201351.","journal-title":"Journal of Machine Learning Research"},{"key":"6700_CR19","unstructured":"Roy, A., So, G., & Ma, Y. A. (2023). Optimization on pareto sets: On a theory of multi-objective optimization. arXiv preprint[SPACE]arXiv:2308.02145."},{"key":"6700_CR20","unstructured":"Sener, O., & Koltun, V. (2018). Multi-task learning as multi-objective optimization. Advances in neural information processing systems,31."},{"key":"6700_CR21","unstructured":"Silver, D., Hubert, T., Schrittwieser, J., Antonoglou, I., Lai, M., Guez, A., Lanctot, M., Sifre, L., Kumaran, D., Graepel, T., Lillicrap T. (2017). Mastering chess and shogi by self-play with a general reinforcement learning algorithm. arXiv preprint[SPACE]arXiv:1712.01815."},{"key":"6700_CR22","doi-asserted-by":"crossref","unstructured":"Sun, M., Devlin, S., Beck, J., Hofmann, K., & Whiteson, S. (2022.) Trust region bounds for decentralized ppo under non-stationarity. arXiv preprint[SPACE]arXiv:2202.00082.","DOI":"10.65109\/SOOR5149"},{"key":"6700_CR23","volume-title":"Reinforcement learning: An introduction","author":"Richard S Sutton","year":"2018","unstructured":"Sutton, Richard S., & Barto, Andrew G. (2018). Reinforcement learning: An introduction. MIT press."},{"issue":"4","key":"6700_CR24","doi-asserted-by":"publisher","first-page":"e0172395","DOI":"10.1371\/journal.pone.0172395","volume":"12","author":"Ardi Tampuu","year":"2017","unstructured":"Tampuu, Ardi, Matiisen, Tambet, Kodelja, Dorian, Kuzovkin, Ilya, Korjus, Kristjan, Aru, Juhan, Aru, Jaan, & Vicente, Raul. (2017). Multiagent cooperation and competition with deep reinforcement learning. PloS one, 12(4), e0172395.","journal-title":"PloS one"},{"key":"6700_CR25","doi-asserted-by":"crossref","unstructured":"Tan, M. (1993). Multi-agent reinforcement learning: Independent vs. cooperative agents. In Proceedings of the tenth international conference on machine learning, pages 330\u2013337.","DOI":"10.1016\/B978-1-55860-307-3.50049-6"},{"key":"6700_CR26","first-page":"5824","volume":"33","author":"Yu Tianhe","year":"2020","unstructured":"Tianhe, Yu., Kumar, Saurabh, Gupta, Abhishek, Levine, Sergey, Hausman, Karol, & Finn, Chelsea. (2020). Gradient surgery for multi-task learning. Advances in Neural Information Processing Systems, 33, 5824\u20135836.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"6700_CR27","unstructured":"Xiao, P., Ban, H., & Ji, K. (2024). Direction-oriented multi-objective learning: Simple and provable stochastic algorithms. Advances in Neural Information Processing Systems,36."},{"key":"6700_CR28","unstructured":"Yuzheng, H. u., Xian, R., Qilong, W., Fan, Q., Yin, L., & Zhao, H. (2024). Revisiting scalarization in multi-task learning: A theoretical perspective. Advances in Neural Information Processing Systems,36."},{"issue":"5","key":"6700_CR29","doi-asserted-by":"publisher","first-page":"689","DOI":"10.4208\/jcm.1808-m2017-0214","volume":"37","author":"Liaoyuan Zeng","year":"2019","unstructured":"Zeng, Liaoyuan, Dai, Yuhong, & Huang, Yakui. (2019). Convergence rate of gradient descent method for multi-objective optimization. Journal of Computational Mathematics, 37(5), 689.","journal-title":"Journal of Computational Mathematics"},{"key":"6700_CR30","unstructured":"Zhao, Y., Yang, Z., Wang, Z., & Lee, J. D. (2023). Local optimization achieves global optimality in multi-agent reinforcement learning. arXiv preprint[SPACE]arXiv:2305.04819."},{"key":"6700_CR31","first-page":"38103","volume":"35","author":"Shiji Zhou","year":"2022","unstructured":"Zhou, Shiji, Zhang, Wenpeng, Jiang, Jiyan, Zhong, Wenliang, Jinjie, Gu., & Zhu, Wenwu. (2022). On the convergence of stochastic multi-objective gradient manipulation and beyond. Advances in Neural Information Processing Systems, 35, 38103\u201338115.","journal-title":"Advances in Neural Information Processing Systems"}],"container-title":["Machine Learning"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10994-024-06700-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s10994-024-06700-1","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s10994-024-06700-1.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,6]],"date-time":"2026-02-06T01:02:11Z","timestamp":1770339731000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s10994-024-06700-1"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,2,6]]},"references-count":31,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2025,3]]}},"alternative-id":["6700"],"URL":"https:\/\/doi.org\/10.1007\/s10994-024-06700-1","relation":{},"ISSN":["0885-6125","1573-0565"],"issn-type":[{"value":"0885-6125","type":"print"},{"value":"1573-0565","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,2,6]]},"assertion":[{"value":"30 May 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"2 August 2024","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"12 December 2024","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"6 February 2025","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare no competing interests.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}},{"value":"This content has been made available to all.","name":"free","label":"Free to read"}],"article-number":"60"}}