{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,10]],"date-time":"2026-01-10T00:24:07Z","timestamp":1768004647129,"version":"3.49.0"},"reference-count":33,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc-nd\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100001809","name":"Project of National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62106283"],"award-info":[{"award-number":["62106283"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"Project of National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["72001214"],"award-info":[{"award-number":["72001214"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Access"],"published-print":{"date-parts":[[2022]]},"DOI":"10.1109\/access.2022.3217654","type":"journal-article","created":{"date-parts":[[2022,11,3]],"date-time":"2022-11-03T23:22:33Z","timestamp":1667517753000},"page":"114402-114413","source":"Crossref","is-referenced-by-count":13,"title":["Deep Reinforcement Learning Task Assignment Based on Domain Knowledge"],"prefix":"10.1109","volume":"10","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-2432-4627","authenticated-orcid":false,"given":"Jiayi","family":"Liu","sequence":"first","affiliation":[{"name":"Air Defense and Antimissile School, Air Force Engineering University, Xi&#x2019;an, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8195-365X","authenticated-orcid":false,"given":"Gang","family":"Wang","sequence":"additional","affiliation":[{"name":"Air Defense and Antimissile School, Air Force Engineering University, Xi&#x2019;an, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0235-8992","authenticated-orcid":false,"given":"Xiangke","family":"Guo","sequence":"additional","affiliation":[{"name":"Air Defense and Antimissile School, Air Force Engineering University, Xi&#x2019;an, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7003-4722","authenticated-orcid":false,"given":"Siyuan","family":"Wang","sequence":"additional","affiliation":[{"name":"Air Defense and Antimissile School, Air Force Engineering University, Xi&#x2019;an, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1456-4216","authenticated-orcid":false,"given":"Qiang","family":"Fu","sequence":"additional","affiliation":[{"name":"Air Defense and Antimissile School, Air Force Engineering University, Xi&#x2019;an, China"}]}],"member":"263","reference":[{"key":"ref33","article-title":"Accelerated primal-dual policy optimization for safe reinforcement learning","author":"liang","year":"2018","journal-title":"arXiv 1802 06480"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1016\/j.engappai.2019.103360"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1016\/j.neunet.2020.11.012"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ICRA.2018.8463162"},{"key":"ref10","article-title":"Robust behavioral cloning for autonomous vehicles using end-to-end imitation learning","author":"samak","year":"2020","journal-title":"arXiv 2010 04767"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/TPWRS.2021.3076296"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1016\/j.ins.2019.09.066"},{"key":"ref13","first-page":"1889","article-title":"Trust region policy optimization","author":"schulman","year":"2015","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TAC.2020.3015931"},{"key":"ref15","article-title":"Novel policy seeking with constrained optimization","author":"sun","year":"2020","journal-title":"arXiv 2005 10696"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2020.2979656"},{"key":"ref17","article-title":"Lyapunov-based safe policy optimization for continuous control","author":"chow","year":"2019","journal-title":"arXiv 1901 10031"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.3390\/act11010004"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1016\/j.jpdc.2006.06.006"},{"key":"ref28","doi-asserted-by":"crossref","first-page":"6968","DOI":"10.1109\/TPAMI.2021.3096966","article-title":"Error bounds of imitating policies and environments for reinforcement learning","volume":"44","author":"tian","year":"2022","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1007\/s10458-021-09514-w"},{"key":"ref27","article-title":"Leveraging demonstrations for deep reinforcement learning on robotics problems with sparse rewards","author":"vecerik","year":"2017","journal-title":"arXiv 1707 08817"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1016\/j.ejor.2021.07.016"},{"key":"ref6","doi-asserted-by":"crossref","first-page":"504","DOI":"10.1126\/science.1127647","article-title":"Reducing the dimensionality of data with neural networks","volume":"313","author":"hinton","year":"2006","journal-title":"Science"},{"key":"ref29","first-page":"627","article-title":"A reduction of imitation learning and structured prediction to no-regret online learning","author":"ross","year":"2011","journal-title":"Proc 14th Int Conf Artif Intell Statist"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/LRA.2019.2930489"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1177\/0954407021999480"},{"key":"ref7","doi-asserted-by":"crossref","first-page":"350","DOI":"10.1038\/s41586-019-1724-z","article-title":"Grandmaster level in StarCraft II using multi-agent reinforcement learning","volume":"575","author":"oriol","year":"2019","journal-title":"Nature"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2021.115128"},{"key":"ref9","doi-asserted-by":"crossref","first-page":"10433","DOI":"10.1109\/TVT.2017.2751641","article-title":"Deep-reinforcement-learning-based optimization for cache-enabled opportunistic interference alignment wireless networks","volume":"66","author":"ying","year":"2017","journal-title":"IEEE Trans Veh Technol"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.3390\/app12010272"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1007\/s11277-021-08830-4"},{"key":"ref22","first-page":"1","article-title":"A novel fuzzy and reverse auction-based algorithm for task allocation with optimal path cost in multi-robot systems","volume":"34","author":"rajchandar","year":"2021","journal-title":"Concurrency Comput Pract Exper"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1504\/IJIIDS.2019.102323"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.2985576"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.3390\/a12040070"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.2993459"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1016\/j.dt.2022.04.001"}],"container-title":["IEEE Access"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6287639\/9668973\/09931113.pdf?arnumber=9931113","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,11,30]],"date-time":"2023-11-30T01:51:41Z","timestamp":1701309101000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9931113\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022]]},"references-count":33,"URL":"https:\/\/doi.org\/10.1109\/access.2022.3217654","relation":{},"ISSN":["2169-3536"],"issn-type":[{"value":"2169-3536","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022]]}}}