{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,9]],"date-time":"2026-05-09T17:32:27Z","timestamp":1778347947379,"version":"3.51.4"},"reference-count":223,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2022,1,1]],"date-time":"2022-01-01T00:00:00Z","timestamp":1640995200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"DOI":"10.13039\/100008982","name":"NPRP-Standard (NPRP-S) Thirteen (13th) Cycle from the Qatar National Research Fund","doi-asserted-by":"publisher","award":["NPRP13S-0201-200219"],"award-info":[{"award-number":["NPRP13S-0201-200219"]}],"id":[{"id":"10.13039\/100008982","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Open J. Commun. Soc."],"published-print":{"date-parts":[[2022]]},"DOI":"10.1109\/ojcoms.2022.3153226","type":"journal-article","created":{"date-parts":[[2022,2,23]],"date-time":"2022-02-23T20:33:58Z","timestamp":1645648438000},"page":"322-365","source":"Crossref","is-referenced-by-count":63,"title":["The Frontiers of Deep Reinforcement Learning for Resource Management in Future Wireless HetNets: Techniques, Challenges, and Research Directions"],"prefix":"10.1109","volume":"3","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-0652-3948","authenticated-orcid":false,"given":"Abdulmalik","family":"Alwarafy","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3261-7588","authenticated-orcid":false,"given":"Mohamed","family":"Abdallah","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Bekir Sait","family":"Ciftler","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0903-1204","authenticated-orcid":false,"given":"Ala","family":"Al-Fuqaha","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9766-0085","authenticated-orcid":false,"given":"Mounir","family":"Hamdi","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2020.2964534"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/MCOM.2019.1900271"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/MNET.001.1900287"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/MVT.2019.2921208"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1037\/12915-009"},{"key":"ref6","volume-title":"Cisco visual networking index: Global mobile data traffic forecast update, 2017\u20132022","year":"2019"},{"key":"ref7","volume-title":"Reinforcement Learning: An Introduction","author":"Sutton","year":"2018"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/APSIPAASC47483.2019.9023331"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1016\/j.dsp.2021.103014"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1007\/s11831-021-09552-3"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/MVT.2020.3015184"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.23919\/JCIN.2019.8917870"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/MVT.2019.2903655"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2021.3063822"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2019.2916583"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/MITP.2019.2963491"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/MNET.2019.1800418"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/MVT.2018.2848498"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICECTA48151.2019.8959607"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2957648"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2020.3015432"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2016.2594067"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/5GWF52925.2021.00088"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2019.2957798"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2930115"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2019.2926625"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TCOMM.2019.2924010"},{"key":"ref28","article-title":"Challenges of applying deep reinforcement learning in dynamic dispatching","author":"Khorasgani","year":"2020","journal-title":"arXiv:2011.05570"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.23919\/ICN.2020.0020"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ICCWAMTIP51612.2020.9317445"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.3390\/s21051666"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2021.3050804"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICDCS47774.2020.00028"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.23919\/JCC.2020.03.006"},{"key":"ref35","first-page":"23","article-title":"Resource management in wireless access networks: A layer-based classification-version 1.0","author":"Pham","year":"2014"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2017.2743240"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.17775\/CSEEJPES.2019.00920"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2021.3059896"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2921522"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/JPROC.2021.3061701"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/ICCWorkshops50388.2021.9473488"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/LWC.2019.2958121"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/ICC40277.2020.9149380"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/ICC42927.2021.9500564"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2015.2401597"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2016.2631079"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/SURV.2013.102313.00272"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3002252"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2015.2416772"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2018.2867268"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1016\/j.comcom.2010.02.015"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2017.2765344"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/SURV.2009.090307"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/SURV.2011.051111.00121"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/SURV.2012.013012.00074"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1002\/wcm.696"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/MCOM.2007.4378328"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/TCOMM.2015.2495217"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/MWC.2014.6845058"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/MWC.2018.1700368"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1155\/2019\/2430656"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1002\/cpe.6228"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1016\/j.comcom.2016.04.003"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1007\/s11277-019-06204-5"},{"key":"ref65","first-page":"1","volume-title":"Branch and Bound Algorithms-Principles and Examples","author":"Clausen","year":"1999"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1016\/0004-3702(84)90004-3"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/GCWkshps52748.2021.9681985"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/TGCN.2021.3090592"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2019.2941897"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/LCOMM.2020.3044936"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2021.3072965"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2018.2812733"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/TETCI.2018.2881490"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/WCNC49053.2021.9417516"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/ICWS.2015.78"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/RAWSN.2015.7173287"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/ICSTC.2018.8528642"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/CITS49457.2020.9232476"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3038605"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2018.2866382"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/MNET.011.2000195"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v30i1.10295"},{"key":"ref83","first-page":"1995","article-title":"Dueling network architectures for deep reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Wang"},{"key":"ref84","first-page":"1057","article-title":"Policy gradient methods for reinforcement learning with function approximation","volume-title":"Advances in Neural Information Processing Systems","volume":"12","author":"Sutton","year":"2000"},{"key":"ref85","first-page":"1928","article-title":"Asynchronous methods for deep reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Mnih"},{"key":"ref86","article-title":"Continuous control with deep reinforcement learning","author":"Lillicrap","year":"2015","journal-title":"arXiv:1509.02971"},{"key":"ref87","first-page":"387","article-title":"Deterministic policy gradient algorithms","volume-title":"Proc. 31st Int. Conf. Mach. Learn.","volume":"32","author":"Silver"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2021.3054511"},{"key":"ref89","article-title":"Prioritized experience replay","author":"Schaul","year":"2015","journal-title":"arXiv:1511.05952"},{"key":"ref90","article-title":"Distributed prioritized experience replay","author":"Horgan","year":"2018","journal-title":"arXiv:1803.00933"},{"key":"ref91","first-page":"449","article-title":"A distributional perspective on reinforcement learning","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Bellemare"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v32i1.11796"},{"key":"ref93","first-page":"1","article-title":"Deep recurrent Q-learning for partially observable MDPs","volume-title":"Proc. AAAI Fall Symp. Series","author":"Hausknecht"},{"key":"ref94","first-page":"1587","article-title":"Addressing function approximation error in actor-critic methods","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Fujimoto"},{"key":"ref95","first-page":"1861","article-title":"Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Haarnoja"},{"key":"ref96","article-title":"Distributed distributional deterministic policy gradients","author":"Barth-Maron","year":"2018","journal-title":"arXiv:1804.08617"},{"key":"ref97","doi-asserted-by":"publisher","DOI":"10.1109\/TCYB.2020.2977374"},{"key":"ref98","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-60990-0_12"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.1109\/IWCMC.2019.8766739"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2020.2976000"},{"key":"ref101","doi-asserted-by":"publisher","DOI":"10.1109\/TSP.2011.2147784"},{"key":"ref102","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2020.3022705"},{"key":"ref103","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2020.3001736"},{"key":"ref104","doi-asserted-by":"publisher","DOI":"10.1109\/ICC.2019.8761431"},{"key":"ref105","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2020.3043009"},{"key":"ref106","doi-asserted-by":"publisher","DOI":"10.1109\/IEEECONF51394.2020.9443301"},{"key":"ref107","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2019.2933973"},{"key":"ref108","doi-asserted-by":"publisher","DOI":"10.1109\/VTC2020-Spring48590.2020.9129537"},{"key":"ref109","doi-asserted-by":"publisher","DOI":"10.1109\/ICC40277.2020.9149157"},{"key":"ref110","doi-asserted-by":"publisher","DOI":"10.1145\/3398329.3398332"},{"key":"ref111","doi-asserted-by":"publisher","DOI":"10.1109\/LWC.2020.3001121"},{"key":"ref112","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2018.2831240"},{"key":"ref113","doi-asserted-by":"publisher","DOI":"10.1109\/TVT.2020.3043851"},{"key":"ref114","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3012756"},{"key":"ref115","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.2979323"},{"key":"ref116","article-title":"Deep reinforcement learning architecture for continuous power allocation in high throughput satellites","author":"Luis","year":"2019","journal-title":"arXiv:1906.00571"},{"key":"ref117","doi-asserted-by":"publisher","DOI":"10.1109\/CCAAW.2019.8904901"},{"key":"ref118","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2020.3013514"},{"key":"ref119","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2020.3030646"},{"key":"ref120","doi-asserted-by":"publisher","DOI":"10.23919\/ONDM.2018.8396112"},{"key":"ref121","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2020.3034224"},{"key":"ref122","doi-asserted-by":"publisher","DOI":"10.1109\/GLOCOM.2017.8254746"},{"key":"ref123","doi-asserted-by":"publisher","DOI":"10.1109\/GLOCOM.2018.8647611"},{"key":"ref124","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2019.2933417"},{"key":"ref125","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2020.2984758"},{"key":"ref126","doi-asserted-by":"publisher","DOI":"10.1109\/TCCN.2020.2992628"},{"key":"ref127","doi-asserted-by":"publisher","DOI":"10.1109\/TITS.2017.2709462"},{"key":"ref128","doi-asserted-by":"publisher","DOI":"10.1109\/LWC.2021.3058922"},{"key":"ref129","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2021.3052691"},{"key":"ref130","doi-asserted-by":"publisher","DOI":"10.1109\/ICCChina.2018.8641085"},{"key":"ref131","doi-asserted-by":"publisher","DOI":"10.1109\/TCCN.2018.2809722"},{"key":"ref132","first-page":"257","article-title":"Deep reinforcement learning for dynamic multichannel access","volume-title":"Proc. Int. Conf. Comput. Netw. Commun. (ICNC)","author":"Wang"},{"key":"ref133","doi-asserted-by":"publisher","DOI":"10.1109\/TIT.2009.2025561"},{"key":"ref134","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2018.2872440"},{"key":"ref135","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2019.2937108"},{"key":"ref136","doi-asserted-by":"publisher","DOI":"10.1109\/GLOBECOM42002.2020.9322150"},{"key":"ref137","doi-asserted-by":"publisher","DOI":"10.1109\/MILCOM.2018.8599723"},{"key":"ref138","doi-asserted-by":"publisher","DOI":"10.1109\/SPAWC.2019.8815439"},{"key":"ref139","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2019.2933962"},{"key":"ref140","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2017.2759728"},{"key":"ref141","doi-asserted-by":"publisher","DOI":"10.1109\/TCCN.2019.2941191"},{"key":"ref142","doi-asserted-by":"publisher","DOI":"10.1109\/ICCChina.2018.8641242"},{"key":"ref143","doi-asserted-by":"publisher","DOI":"10.1109\/TCOMM.2020.3041347"},{"key":"ref144","doi-asserted-by":"publisher","DOI":"10.1109\/TELFOR51502.2020.9306591"},{"key":"ref145","doi-asserted-by":"publisher","DOI":"10.1109\/TCCN.2019.2952909"},{"key":"ref146","article-title":"Deep reinforcement learning for distributed uncoordinated cognitive radios resource allocation","author":"Tondwalkar","year":"2019","journal-title":"arXiv:1911.03366"},{"key":"ref147","doi-asserted-by":"publisher","DOI":"10.1109\/ETFA.2018.8502484"},{"key":"ref148","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2020.3022861"},{"key":"ref149","doi-asserted-by":"publisher","DOI":"10.1109\/CCNC49032.2021.9369536"},{"key":"ref150","doi-asserted-by":"publisher","DOI":"10.1109\/JSEN.2021.3056463"},{"key":"ref151","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2021.3088689"},{"key":"ref152","article-title":"Multi-agent reinforcement learning based joint cooperative spectrum sensing and channel access for cognitive UAV networks","author":"Jiang","year":"2021","journal-title":"arXiv:2103.08181"},{"key":"ref153","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2020.2984227"},{"key":"ref154","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2018.2809581"},{"key":"ref155","doi-asserted-by":"publisher","DOI":"10.1109\/LCOMM.2018.2844243"},{"key":"ref156","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.2983437"},{"key":"ref157","doi-asserted-by":"publisher","DOI":"10.1109\/ICOIN48656.2020.9016474"},{"key":"ref158","doi-asserted-by":"publisher","DOI":"10.1155\/2020\/8868888"},{"key":"ref159","article-title":"Proactive resource management in LTE-U systems: A deep learning perspective","author":"Challita","year":"2017","journal-title":"arXiv:1702.07031"},{"key":"ref160","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2018.2879433"},{"key":"ref161","doi-asserted-by":"publisher","DOI":"10.1109\/WCNC.2019.8885857"},{"key":"ref162","doi-asserted-by":"publisher","DOI":"10.1109\/TNSE.2020.2978856"},{"key":"ref163","doi-asserted-by":"publisher","DOI":"10.1109\/ICC42927.2021.9500325"},{"key":"ref164","doi-asserted-by":"publisher","DOI":"10.1109\/TCCN.2018.2809722"},{"key":"ref165","doi-asserted-by":"publisher","DOI":"10.1109\/GLOBECOM42002.2020.9322106"},{"key":"ref166","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2020.3005495"},{"key":"ref167","doi-asserted-by":"publisher","DOI":"10.1109\/TNSE.2021.3058037"},{"key":"ref168","doi-asserted-by":"publisher","DOI":"10.3390\/app11052163"},{"key":"ref169","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2019.2962715"},{"key":"ref170","doi-asserted-by":"publisher","DOI":"10.1109\/TVT.2020.3027013"},{"key":"ref171","doi-asserted-by":"publisher","DOI":"10.1109\/TVT.2019.2954538"},{"key":"ref172","doi-asserted-by":"publisher","DOI":"10.23919\/APNOMS50412.2020.9237060"},{"key":"ref173","doi-asserted-by":"publisher","DOI":"10.1016\/j.phycom.2020.101262"},{"key":"ref174","doi-asserted-by":"publisher","DOI":"10.1016\/j.adhoc.2019.102069"},{"key":"ref175","doi-asserted-by":"publisher","DOI":"10.1109\/VTCFall.2019.8891448"},{"key":"ref176","doi-asserted-by":"publisher","DOI":"10.1109\/GLOBECOM38437.2019.9014074"},{"key":"ref177","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2020.3032991"},{"key":"ref178","doi-asserted-by":"publisher","DOI":"10.1109\/TVT.2019.2897134"},{"key":"ref179","doi-asserted-by":"publisher","DOI":"10.1109\/ICC.2018.8422586"},{"key":"ref180","doi-asserted-by":"publisher","DOI":"10.1109\/IWCMC.2018.8450518"},{"key":"ref181","doi-asserted-by":"publisher","DOI":"10.2298\/CSIS200710055Y"},{"key":"ref182","doi-asserted-by":"publisher","DOI":"10.1109\/WCSP.2019.8927898"},{"key":"ref183","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.2968595"},{"key":"ref184","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2021.3107306"},{"key":"ref185","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3014427"},{"key":"ref186","doi-asserted-by":"publisher","DOI":"10.1186\/s13638-020-01872-5"},{"key":"ref187","doi-asserted-by":"publisher","DOI":"10.1109\/GLOBECOM42002.2020.9322599"},{"key":"ref188","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2020.3037767"},{"key":"ref189","article-title":"State-space decomposition for reinforcement learning","author":"Wong","year":"2021"},{"key":"ref190","article-title":"Search algorithms for automated hyper-parameter tuning","author":"Zahedi","year":"2021","journal-title":"arXiv:2104.14677"},{"key":"ref191","doi-asserted-by":"publisher","DOI":"10.3390\/electronics9091363"},{"key":"ref192","doi-asserted-by":"publisher","DOI":"10.1109\/MNET.011.1900408"},{"key":"ref193","first-page":"236","article-title":"Context-adaptive reinforcement learning using unsupervised learning of context variables","volume-title":"Proc. Workshop Pre-Registration Mach. Learn.","author":"Eghbal-Zadeh"},{"key":"ref194","doi-asserted-by":"publisher","DOI":"10.1016\/j.engappai.2020.103915"},{"key":"ref195","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2018.2870052"},{"key":"ref196","doi-asserted-by":"publisher","DOI":"10.1016\/j.knosys.2020.106685"},{"key":"ref197","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2020.3035437"},{"key":"ref198","doi-asserted-by":"publisher","DOI":"10.1109\/TWC.2019.2956519"},{"key":"ref199","doi-asserted-by":"publisher","DOI":"10.1109\/MWC.001.2000409"},{"key":"ref200","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2020.3030646"},{"key":"ref201","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2021.3058573"},{"key":"ref202","doi-asserted-by":"publisher","DOI":"10.1109\/INFOCOM.2019.8737464"},{"key":"ref203","doi-asserted-by":"publisher","DOI":"10.1109\/TNSE.2021.3100805"},{"key":"ref204","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2019.2904348"},{"key":"ref205","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2020.2986803"},{"key":"ref206","article-title":"Federated reinforcement learning","author":"Zhuo","year":"2019","journal-title":"arXiv:1901.08277"},{"key":"ref207","doi-asserted-by":"publisher","DOI":"10.1109\/ISCBI.2013.57"},{"key":"ref208","doi-asserted-by":"publisher","DOI":"10.1109\/WICOM.2009.5305271"},{"key":"ref209","doi-asserted-by":"publisher","DOI":"10.1109\/WiSPNET.2016.7566105"},{"key":"ref210","doi-asserted-by":"publisher","DOI":"10.1016\/j.enbuild.2021.111334"},{"key":"ref211","doi-asserted-by":"publisher","DOI":"10.1109\/TCOMM.2020.3031930"},{"key":"ref212","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2020.3031959"},{"key":"ref213","doi-asserted-by":"publisher","DOI":"10.1109\/MWC.001.1900534"},{"key":"ref214","doi-asserted-by":"publisher","DOI":"10.1109\/MCOM.001.1900107"},{"key":"ref215","article-title":"Reconfigurable intelligent surface for 6G and beyond: Motivations, principles, applications, and research directions","author":"Pan","year":"2020","journal-title":"arXiv:2011.04300"},{"key":"ref216","doi-asserted-by":"publisher","DOI":"10.1109\/SPAWC48557.2020.9154301"},{"key":"ref217","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2020.3000835"},{"key":"ref218","doi-asserted-by":"publisher","DOI":"10.1109\/GLOBECOM42002.2020.9322175"},{"key":"ref219","article-title":"Digital-twin-enabled 6G: Vision, architectural trends, and future directions","author":"Khan","year":"2021","journal-title":"arXiv:2102.12169"},{"key":"ref220","doi-asserted-by":"publisher","DOI":"10.1016\/j.ifacol.2018.08.474"},{"key":"ref221","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2021.3098508"},{"key":"ref222","doi-asserted-by":"publisher","DOI":"10.1109\/TNSE.2020.3048137"},{"key":"ref223","doi-asserted-by":"publisher","DOI":"10.1109\/JIOT.2020.3015772"}],"container-title":["IEEE Open Journal of the Communications Society"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/8782661\/9702748\/09718516.pdf?arnumber=9718516","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,1,17]],"date-time":"2024-01-17T23:52:37Z","timestamp":1705535557000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9718516\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022]]},"references-count":223,"URL":"https:\/\/doi.org\/10.1109\/ojcoms.2022.3153226","relation":{},"ISSN":["2644-125X"],"issn-type":[{"value":"2644-125X","type":"electronic"}],"subject":[],"published":{"date-parts":[[2022]]}}}