{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,30]],"date-time":"2025-12-30T06:40:38Z","timestamp":1767076838433,"version":"3.48.0"},"reference-count":38,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/legalcode"}],"funder":[{"name":"German Federal Ministry of Research, Technology and Space","award":["16KISK016 (Open6GHub)"],"award-info":[{"award-number":["16KISK016 (Open6GHub)"]}]},{"DOI":"10.13039\/501100001738","name":"European Space Agency","doi-asserted-by":"publisher","award":["4000139559\/22\/UK\/AL (AIComS)"],"award-info":[{"award-number":["4000139559\/22\/UK\/AL (AIComS)"]}],"id":[{"id":"10.13039\/501100001738","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Open J. Commun. Soc."],"published-print":{"date-parts":[[2025]]},"DOI":"10.1109\/ojcoms.2025.3644403","type":"journal-article","created":{"date-parts":[[2025,12,15]],"date-time":"2025-12-15T18:40:49Z","timestamp":1765824049000},"page":"10582-10598","source":"Crossref","is-referenced-by-count":0,"title":["Model-Free Robust Beamforming in Satellite Downlink Using Reinforcement Learning"],"prefix":"10.1109","volume":"6","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-0547-7938","authenticated-orcid":false,"given":"Alea","family":"Schr\u00f6der","sequence":"first","affiliation":[{"name":"Department of Communications Engineering, University of Bremen, Bremen, Germany"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3315-9280","authenticated-orcid":false,"given":"Steffen","family":"Gracla","sequence":"additional","affiliation":[{"name":"Department of Communications Engineering, University of Bremen, Bremen, Germany"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-8501-7324","authenticated-orcid":false,"given":"Carsten","family":"Bockelmann","sequence":"additional","affiliation":[{"name":"Department of Communications Engineering, University of Bremen, Bremen, Germany"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3854-6140","authenticated-orcid":false,"given":"Dirk","family":"W\u00fcbben","sequence":"additional","affiliation":[{"name":"Department of Communications Engineering, University of Bremen, Bremen, Germany"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-5790-1470","authenticated-orcid":false,"given":"Armin","family":"Dekorsy","sequence":"additional","affiliation":[{"name":"Department of Communications Engineering, University of Bremen, Bremen, Germany"}]}],"member":"263","reference":[{"volume-title":"The new space economy","year":"2024","key":"ref1"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSPW59220.2023.10193092"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9780511807213"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/ACSSC.2011.6190179"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/ICC45041.2023.10279447"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/LSP.2016.2569199"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP40776.2020.9053756"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/MSP.2019.2894391"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/COMST.2019.2904897"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2023.3236801"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/TVT.2022.3187046"},{"volume-title":"Reinforcement Learning: An Introduction","year":"2018","author":"Sutton","key":"ref12"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TVT.2023.3338065"},{"key":"ref14","first-page":"1889","article-title":"Trust region policy optimization","volume-title":"Proc. 32nd Int. Conf. Mach. Learn.","volume":"37","author":"Schulman"},{"key":"ref15","article-title":"Proximal policy optimization algorithms","author":"Schulman","year":"2017","journal-title":"arXiv:1707.06347"},{"key":"ref16","article-title":"Continuous control with deep reinforcement learning","author":"Lillicrap","year":"2019","journal-title":"arXiv:1509.02971"},{"key":"ref17","first-page":"1861","article-title":"Soft actor-critic: Off-policy maximum entropy deep reinforcement learning with a stochastic actor","volume-title":"Proc. 35th Int. Conf. Mach. Learn.","volume":"80","author":"Haarnoja"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/SPAWC51304.2022.9834009"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/ICC51166.2024.10622707"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/JSAC.2020.3000803"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1017\/CBO9781316799895"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1007\/s10462-021-10004-4"},{"volume-title":"NVIDIA replicator","year":"2024","key":"ref23"},{"volume-title":"Deep Learning","year":"2016","author":"Goodfellow","key":"ref24"},{"key":"ref25","first-page":"1587","article-title":"Addressing function approximation error in actor-critic methods","volume-title":"Proc. 35th Int. Conf. Mach. Learn.","volume":"80","author":"Fujimoto"},{"key":"ref26","first-page":"3061","article-title":"Revisiting fundamentals of experience replay","volume-title":"Proc. 37th Int. Conf. Mach. Learn.","volume":"119","author":"Fedus"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1007\/3-540-49430-8_2"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.5555\/3045118.3045167"},{"volume-title":"Code implementation for model-free robust beamforming in satellite downlink using reinforcement learning","year":"2025","author":"Gracla","key":"ref29"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1145\/3292500.3330701"},{"key":"ref31","article-title":"Adam: A method for stochastic optimization","author":"Kingma","year":"2014","journal-title":"arXiv:1412.6980"},{"key":"ref32","article-title":"Is it time to swish? comparing deep learning activation functions across NLP tasks","author":"Eger","year":"2019","journal-title":"arXiv:1901.02671"},{"key":"ref33","article-title":"ProxylessNAS: Direct neural architecture search on target task and hardware","author":"Cai","year":"2018","journal-title":"arXiv:1812.00332"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1007\/s11063-022-11055-6"},{"journal-title":"TFLite dynamic range quantization","year":"2025","key":"ref35"},{"key":"ref36","article-title":"Unsolved problems in ML safety","author":"Hendrycks","year":"2021","journal-title":"arXiv:2109.13916"},{"journal-title":"Intel core ultra ushers in the age of the AI PC","year":"2024","key":"ref37"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1145\/3528416.3530985"}],"container-title":["IEEE Open Journal of the Communications Society"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/8782661\/10829557\/11300830.pdf?arnumber=11300830","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,30]],"date-time":"2025-12-30T06:35:51Z","timestamp":1767076551000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11300830\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":38,"URL":"https:\/\/doi.org\/10.1109\/ojcoms.2025.3644403","relation":{},"ISSN":["2644-125X"],"issn-type":[{"type":"electronic","value":"2644-125X"}],"subject":[],"published":{"date-parts":[[2025]]}}}