{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,12]],"date-time":"2026-05-12T02:14:36Z","timestamp":1778552076816,"version":"3.51.4"},"reference-count":34,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U20A20167"],"award-info":[{"award-number":["U20A20167"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62276028"],"award-info":[{"award-number":["62276028"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100003787","name":"Natural Science Foundation of Hebei Province","doi-asserted-by":"publisher","award":["F202103079"],"award-info":[{"award-number":["F202103079"]}],"id":[{"id":"10.13039\/501100003787","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Neurocomputing"],"published-print":{"date-parts":[[2026,7]]},"DOI":"10.1016\/j.neucom.2026.133642","type":"journal-article","created":{"date-parts":[[2026,4,14]],"date-time":"2026-04-14T13:16:41Z","timestamp":1776172601000},"page":"133642","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Efficient multi-agent policy learning using knowledge distillation of large language models"],"prefix":"10.1016","volume":"685","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-8053-7859","authenticated-orcid":false,"given":"Liqiang","family":"Tian","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1228-2757","authenticated-orcid":false,"given":"Peiliang","family":"Wu","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0004-2867-7512","authenticated-orcid":false,"given":"Qian","family":"Zhang","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0008-6547-5150","authenticated-orcid":false,"given":"Bingyi","family":"Mao","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7683-2776","authenticated-orcid":false,"given":"Wenbai","family":"Chen","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.neucom.2026.133642_bib0005","doi-asserted-by":"crossref","DOI":"10.1016\/j.cie.2023.109851","article-title":"Learning for multiple purposes: a q-learning enhanced hybrid metaheuristic for parallel drone scheduling traveling salesman problem","volume":"187","author":"Chen","year":"2024","journal-title":"Comput. Ind. Eng."},{"key":"10.1016\/j.neucom.2026.133642_bib0010","doi-asserted-by":"crossref","first-page":"6624","DOI":"10.1109\/LRA.2024.3410159","article-title":"Limited information aggregation for collaborative driving in multi-agent autonomous vehicles","volume":"9","author":"Liang","year":"2024","journal-title":"IEEE Robot. Autom. Lett."},{"key":"10.1016\/j.neucom.2026.133642_bib0015","series-title":"ICRA 2024, Yokohama, Japan, May 13\u201317, 2024","first-page":"12361","article-title":"Multi-agent path finding for cooperative autonomous driving","author":"Yan","year":"2024"},{"key":"10.1016\/j.neucom.2026.133642_bib0020","doi-asserted-by":"crossref","DOI":"10.1016\/j.asoc.2023.111154","article-title":"Multi-objective crowd-aware robot navigation system using deep reinforcement learning","volume":"151","author":"Cheng","year":"2024","journal-title":"Appl. Soft Comput."},{"key":"10.1016\/j.neucom.2026.133642_bib0025","doi-asserted-by":"crossref","DOI":"10.1016\/j.cie.2024.110295","article-title":"Multi-robot multi-station welding flow shop closed-loop rescheduling with deep reinforcement learning and improved artificial bee colony algorithm","volume":"193","author":"Zhang","year":"2024","journal-title":"Comput. Ind. Eng."},{"key":"10.1016\/j.neucom.2026.133642_bib0030","series-title":"ICML 2018, Stockholmsm\u00e4ssan, Stockholm, Sweden, July 10\u201315, 2018","first-page":"4292","article-title":"QMIX: monotonic value function factorisation for deep multi-agent reinforcement learning","author":"Rashid","year":"2018"},{"key":"10.1016\/j.neucom.2026.133642_bib0035","series-title":"ICML 2019, 9\u201315 June 2019, Long Beach, California, USA","first-page":"2961","article-title":"Actor-attention-critic for multi-agent reinforcement learning","author":"Iqbal","year":"2019"},{"key":"10.1016\/j.neucom.2026.133642_bib0040","series-title":"NeurIPS 2022, New Orleans, LA, USA, November 28\u2013December 9, 2022","article-title":"The surprising effectiveness of PPO in cooperative multi-agent games","author":"Yu","year":"2022"},{"key":"10.1016\/j.neucom.2026.133642_bib0045","series-title":"NeurIPS 2022, New Orleans, LA, USA, November 28\u2013December 9, 2022","article-title":"Resq: a residual q function-based approach for multi-agent reinforcement learning value factorization","author":"Shen","year":"2022"},{"key":"10.1016\/j.neucom.2026.133642_bib0050","doi-asserted-by":"crossref","first-page":"2093","DOI":"10.1109\/TNNLS.2021.3105869","article-title":"UNMAS: multiagent reinforcement learning for unshaped cooperative scenarios","volume":"34","author":"Chai","year":"2023","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"10.1016\/j.neucom.2026.133642_bib0055","series-title":"NeurIPS 2021, December 6\u201314, 2021, Virtual","first-page":"22905","article-title":"Causal influence detection for improving efficiency in reinforcement learning","author":"Seitzer","year":"2021"},{"key":"10.1016\/j.neucom.2026.133642_bib0060","series-title":"ICML 2022, 17\u201323 July 2022, Baltimore, Maryland, USA","first-page":"23417","article-title":"Individual reward assisted multi-agent reinforcement learning","author":"Wang","year":"2022"},{"key":"10.1016\/j.neucom.2026.133642_bib0065","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2022.108875","article-title":"Clustering experience replay for the effective exploitation in reinforcement learning","volume":"131","author":"Li","year":"2022","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.neucom.2026.133642_bib0070","series-title":"AAMAS 2023, London, United Kingdom, 29 May 2023\u20132 June 2023","first-page":"436","article-title":"Learning structured communication for multi-agent reinforcement learning","author":"Sheng","year":"2023"},{"key":"10.1016\/j.neucom.2026.133642_bib0075","series-title":"ICLR 2024, Vienna, Austria, May 7\u201311, 2024","article-title":"Efficient episodic memory utilization of cooperative multi-agent reinforcement learning","author":"Na","year":"2024"},{"key":"10.1016\/j.neucom.2026.133642_bib0080","author":"Kannan"},{"key":"10.1016\/j.neucom.2026.133642_bib0085","series-title":"ICML 2023, 23\u201329 July 2023, Honolulu, Hawaii, USA","first-page":"8657","article-title":"Guiding pretraining in reinforcement learning with large language models","author":"Du","year":"2023"},{"key":"10.1016\/j.neucom.2026.133642_bib0090","author":"Wang"},{"key":"10.1016\/j.neucom.2026.133642_bib0095","doi-asserted-by":"crossref","first-page":"55682","DOI":"10.1109\/ACCESS.2024.3387941","article-title":"Chatgpt for robotics: design principles and model abilities","volume":"12","author":"Vemprala","year":"2024","journal-title":"IEEE Access"},{"key":"10.1016\/j.neucom.2026.133642_bib0100","doi-asserted-by":"crossref","first-page":"6075","DOI":"10.1109\/LRA.2024.3400189","article-title":"Rlingua: improving reinforcement learning sample efficiency in robotic manipulations with large language models","volume":"9","author":"Chen","year":"2024","journal-title":"IEEE Robot. Autom. Lett."},{"key":"10.1016\/j.neucom.2026.133642_bib0105","series-title":"ICLR 2024, Vienna, Austria, May 7\u201311, 2024","article-title":"Learning multi-agent communication from graph modeling perspective","author":"Hu","year":"2024"},{"key":"10.1016\/j.neucom.2026.133642_bib0110","author":"Hu"},{"key":"10.1016\/j.neucom.2026.133642_bib0115","series-title":"4th International Conference on Learning Representations, ICLR 2016, San Juan, Puerto Rico, May 2\u20134, 2016, Conference Track Proceedings","article-title":"High-dimensional continuous control using generalized advantage estimation","author":"Schulman","year":"2016"},{"key":"10.1016\/j.neucom.2026.133642_bib0120","doi-asserted-by":"crossref","first-page":"1199","DOI":"10.1109\/TPAMI.2023.3328397","article-title":"False correlation reduction for offline reinforcement learning","volume":"46","author":"Deng","year":"2024","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.neucom.2026.133642_bib0125","series-title":"NeurIPS 2017, December 4\u20139, 2017, Long Beach, CA, USA","first-page":"6402","article-title":"Simple and scalable predictive uncertainty estimation using deep ensembles","author":"Lakshminarayanan","year":"2017"},{"key":"10.1016\/j.neucom.2026.133642_bib0130","series-title":"NeurIPS 2023, New Orleans, LA, USA, December 10\u201316, 2023","article-title":"Revisiting the minimalist approach to offline reinforcement learning","author":"Tarasov","year":"2023"},{"key":"10.1016\/j.neucom.2026.133642_bib0135","series-title":"ICLR 2024, Vienna, Austria, May 7\u201311, 2024","article-title":"Learning multi-agent communication from graph modeling perspective","author":"Hu","year":"2024"},{"key":"10.1016\/j.neucom.2026.133642_bib0140","series-title":"ICLR 2019, New Orleans, LA, USA, May 6\u20139, 2019","article-title":"Learning when to communicate at scale in multiagent cooperative and competitive tasks","author":"Singh","year":"2019"},{"key":"10.1016\/j.neucom.2026.133642_bib0145","series-title":"AAAI 2020, New York, NY, USA, February 7\u201312, 2020","first-page":"4501","article-title":"Google research football: a novel reinforcement learning environment","author":"Kurach","year":"2020"},{"key":"10.1016\/j.neucom.2026.133642_bib0150","series-title":"The Tenth International Conference on Learning Representations, ICLR 2022, Virtual Event, April 25\u201329, 2022","article-title":"Trust region policy optimisation in multi-agent reinforcement learning","author":"Kuba","year":"2022"},{"key":"10.1016\/j.neucom.2026.133642_bib0155","doi-asserted-by":"crossref","first-page":"2804","DOI":"10.1109\/TPAMI.2023.3339515","article-title":"Bi-dexhands: towards human-level bimanual dexterous manipulation","volume":"46","author":"Chen","year":"2024","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.neucom.2026.133642_bib0160","series-title":"Proceedings of the 35th International Conference on Machine Learning, ICML 2018, Stockholmsm\u00e4ssan, Stockholm, Sweden, July 10\u201315, 2018","first-page":"4292","article-title":"QMIX: monotonic value function factorisation for deep multi-agent reinforcement learning","author":"Rashid","year":"2018"},{"key":"10.1016\/j.neucom.2026.133642_bib0165","series-title":"Advances in Neural Information Processing Systems 35: Annual Conference on Neural Information Processing Systems 2022, NeurIPS 2022, New Orleans, LA, USA, November 28\u2013December 9, 2022","article-title":"The surprising effectiveness of PPO in cooperative multi-agent games","author":"Yu","year":"2022"},{"key":"10.1016\/j.neucom.2026.133642_bib0170","series-title":"AAMAS 2022, Auckland, New Zealand, May 9\u201313, 2022","first-page":"1173","article-title":"Learning efficient diverse communication for cooperative heterogeneous teaming","author":"Seraj","year":"2022"}],"container-title":["Neurocomputing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0925231226010398?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0925231226010398?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,12]],"date-time":"2026-05-12T01:41:52Z","timestamp":1778550112000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0925231226010398"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,7]]},"references-count":34,"alternative-id":["S0925231226010398"],"URL":"https:\/\/doi.org\/10.1016\/j.neucom.2026.133642","relation":{},"ISSN":["0925-2312"],"issn-type":[{"value":"0925-2312","type":"print"}],"subject":[],"published":{"date-parts":[[2026,7]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Efficient multi-agent policy learning using knowledge distillation of large language models","name":"articletitle","label":"Article Title"},{"value":"Neurocomputing","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.neucom.2026.133642","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"133642"}}