{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,17]],"date-time":"2026-06-17T16:42:21Z","timestamp":1781714541801,"version":"3.54.5"},"reference-count":46,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"8","license":[{"start":{"date-parts":[[2022,4,15]],"date-time":"2022-04-15T00:00:00Z","timestamp":1649980800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2022,4,15]],"date-time":"2022-04-15T00:00:00Z","timestamp":1649980800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,4,15]],"date-time":"2022-04-15T00:00:00Z","timestamp":1649980800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100012166","name":"National Key Research and Development Program of China","doi-asserted-by":"publisher","award":["2018AAA0102401"],"award-info":[{"award-number":["2018AAA0102401"]}],"id":[{"id":"10.13039\/501100012166","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61831013"],"award-info":[{"award-number":["61831013"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61771274"],"award-info":[{"award-number":["61771274"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100005089","name":"Beijing Municipal Natural Science Foundation","doi-asserted-by":"publisher","award":["L182042"],"award-info":[{"award-number":["L182042"]}],"id":[{"id":"10.13039\/501100005089","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100005089","name":"Beijing Municipal Natural Science Foundation","doi-asserted-by":"publisher","award":["4212002"],"award-info":[{"award-number":["4212002"]}],"id":[{"id":"10.13039\/501100005089","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Internet Things J."],"published-print":{"date-parts":[[2022,4,15]]},"DOI":"10.1109\/jiot.2021.3062091","type":"journal-article","created":{"date-parts":[[2021,2,25]],"date-time":"2021-02-25T21:08:48Z","timestamp":1614287328000},"page":"5785-5798","source":"Crossref","is-referenced-by-count":90,"title":["Trajectory Design and Access Control for Air\u2013Ground Coordinated Communications System With Multiagent Deep Reinforcement Learning"],"prefix":"10.1109","volume":"9","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-7441-3199","authenticated-orcid":false,"given":"Ruijin","family":"Ding","sequence":"first","affiliation":[{"name":"Institute for Artificial Intelligence, State Key Laboratory of Intelligent Technologies and Systems, Beijing National Research Center for Information Science and Technology, and Department of Automation, Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yadong","family":"Xu","sequence":"additional","affiliation":[{"name":"Institute for Interdisciplinary Information Sciences, Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8896-352X","authenticated-orcid":false,"given":"Feifei","family":"Gao","sequence":"additional","affiliation":[{"name":"Institute for Artificial Intelligence, State Key Laboratory of Intelligent Technologies and Systems, Beijing National Research Center for Information Science and Technology, and Department of Automation, Tsinghua University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4140-287X","authenticated-orcid":false,"given":"Xuemin","family":"Shen","sequence":"additional","affiliation":[{"name":"Department of Electrical and Computer Engineering, University of Waterloo, Waterloo, ON, Canada"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"263","reference":[{"key":"ref39","first-page":"11598","article-title":"Policy optimization provably converges to Nash equilibria in zero-sum linear quadratic games","author":"zhang","year":"2019","journal-title":"Proc NIPS"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CC.2013.6674218"},{"key":"ref33","first-page":"6382","article-title":"Multi-agent actor-critic for mixed cooperative-competitive environments","author":"lowe","year":"2017","journal-title":"Proc 31th Adv Neural Inf Process Syst"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICC.2019.8761794"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2018.2864375"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/TCOMM.2019.2895088"},{"key":"ref37","first-page":"9482","article-title":"Non-cooperative inverse reinforcement learning","author":"zhang","year":"2019","journal-title":"Proc NIPS"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511811654"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/LCOMM.2017.2710306"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1016\/j.geb.2008.03.005"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2017.2688328"},{"key":"ref40","article-title":"A quantitative measure of fairness and discrimination","author":"jain","year":"1984"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2019.2902559"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/TVT.2018.2859450"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TCOMM.2019.2910263"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TVT.2017.2706308"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2020.3005469"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/TVT.2019.2917890"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/TVT.2019.2925629"},{"key":"ref18","article-title":"Request-response and censoring-based energy-efficient decentralized change-point detection with IoT applications","author":"gu","year":"2020","journal-title":"IEEE Internet of Things Journal"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2018.2875057"},{"key":"ref28","author":"sutton","year":"2018","journal-title":"Reinforcement Learning An Introduction"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TVT.2018.2811942"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2020.3016024"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/TCOMM.2020.2990994"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/MWC.2018.1800160"},{"key":"ref29","first-page":"5867","article-title":"Fully decentralized multi-agent reinforcement learning with networked agents","author":"zhang","year":"2018","journal-title":"Proc 35th Int Conf Mach Learn (ICML)"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2019.2906789"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2018.2879637"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/LWC.2017.2700840"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/MCOM.2016.7470933"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/LCOMM.2018.2824800"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/MCOM.2016.7470932"},{"key":"ref46","first-page":"387","article-title":"Deterministic policy gradient algorithms","author":"silver","year":"2014","journal-title":"Proc 31st Int Conf Mach Learn (ICML)"},{"key":"ref20","first-page":"177","article-title":"Power allocation based on genetic simulated annealing algorithm in cognitive radio networks","volume":"22","author":"zhao","year":"2013","journal-title":"Chin J Electron"},{"key":"ref45","first-page":"1","article-title":"Adam: A method for stochastic optimization","author":"kingma","year":"2015","journal-title":"Proc Int Conf Learn Represent"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2018.2862402"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2018.2824289"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1016\/j.automatica.2020.108857"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2018.2864373"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1016\/B978-1-55860-335-6.50027-1"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1038\/nature14236"},{"key":"ref44","first-page":"1008","article-title":"Actor-critic algorithms","author":"konda","year":"1999","journal-title":"Proc 12th Adv Neural Inf Process Syst"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2019.2935201"},{"key":"ref43","first-page":"10","article-title":"Continuous control with deep reinforcement learning","author":"lillicrap","year":"2016","journal-title":"Proc 4th Int Conf Learn Represent (ICLR)"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/TCCN.2019.2907520"}],"container-title":["IEEE Internet of Things Journal"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6488907\/9750920\/09363308.pdf?arnumber=9363308","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,5,16]],"date-time":"2022-05-16T20:12:13Z","timestamp":1652731933000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9363308\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,4,15]]},"references-count":46,"journal-issue":{"issue":"8"},"URL":"https:\/\/doi.org\/10.1109\/jiot.2021.3062091","relation":{},"ISSN":["2327-4662","2372-2541"],"issn-type":[{"value":"2327-4662","type":"electronic"},{"value":"2372-2541","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022,4,15]]}}}