{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,10]],"date-time":"2026-03-10T10:42:59Z","timestamp":1773139379571,"version":"3.50.1"},"reference-count":42,"publisher":"Oxford University Press (OUP)","issue":"3","license":[{"start":{"date-parts":[[2026,2,14]],"date-time":"2026-02-14T00:00:00Z","timestamp":1771027200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by-nc\/4.0\/"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Science Foundation of China","doi-asserted-by":"publisher","award":["62101590"],"award-info":[{"award-number":["62101590"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026,2,28]]},"abstract":"<jats:title>Abstract<\/jats:title>\n                  <jats:p>With the wide application of uncrewed aerial vehicles (UAVs) in the military, multi-UAV cooperative air combat will become an important form of air combat. For the problem of multi-UAV swarm scale generalization, this paper proposes a biased random masked attention MAPPO (BRMA-MAPPO) algorithm, which achieves zero-shot scale generalization of multi-UAV swarms. Specifically, an entity observation encoder based on multi-head attention is introduced to address the variable number of multi-UAV swarms. Meanwhile, a biased random mask is proposed to enhance the performance at zero-shot scale generalization. The mask vector is generated by a mask vector generator network and applied to the attention matrix, masking non-essential entity information, thereby improving the generalization performance. The loss function of the mask vector generator network is constructed based on the information bottleneck theory, and the gradient of the mask network is derived. The simulation results show that the entity observation encoder proposed in this paper can help focus on key battlefield entity information and improve the training effect. The biased random mask proposed in this paper can mask non-important entity information, maintain focus on key entities when generalizing to larger scenarios, and improve generalization effects. Compared with the existing zero-shot generalization multi-agent reinforcement learning algorithms, BRMA-MAPPO can significantly improve the generalization performance. In the 8V8 and 10V10 zero-shot generalization scenarios, the method proposed in this paper outperformed state-of-the-art algorithms by 12% and 15% in terms of winning rate, respectively.<\/jats:p>","DOI":"10.1093\/jcde\/qwag014","type":"journal-article","created":{"date-parts":[[2026,2,13]],"date-time":"2026-02-13T12:44:20Z","timestamp":1770986660000},"page":"46-68","source":"Crossref","is-referenced-by-count":0,"title":["Biased random masked attention MAPPO algorithm for zero-shot scale generalization of multi-UAV air combat"],"prefix":"10.1093","volume":"13","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-5009-6301","authenticated-orcid":false,"given":"Mulai","family":"Tan","sequence":"first","affiliation":[{"name":"Aviation Engineering School, Air Force Engineering University , Xi\u2019an 710038 ,","place":["China"]}]},{"given":"Haocheng","family":"Sun","sequence":"additional","affiliation":[{"name":"College of Computer Science, Beijing University of Posts and Telecommunications , Beijing 100876 ,","place":["China"]}]},{"given":"Huan","family":"Zhou","sequence":"additional","affiliation":[{"name":"Aviation Engineering School, Air Force Engineering University , Xi\u2019an 710038 ,","place":["China"]}]},{"given":"Zhihui","family":"Leng","sequence":"additional","affiliation":[{"name":"Avic Hongdu 650 Institute , Nanchang 330000 ,","place":["China"]}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7303-8649","authenticated-orcid":false,"given":"Dali","family":"Ding","sequence":"additional","affiliation":[{"name":"Aviation Engineering School, Air Force Engineering University , Xi\u2019an 710038 ,","place":["China"]}]}],"member":"286","published-online":{"date-parts":[[2026,2,14]]},"reference":[{"key":"2026030916153743400_bib1","doi-asserted-by":"publisher","first-page":"849","DOI":"10.1109\/LCOMM.2020.2965120","article-title":"Energy-efficient UAV relaying communications to serve ground nodes","volume":"24","author":"Ahmed","year":"2020","journal-title":"IEEE Communications Letters"},{"key":"2026030916153743400_bib2","doi-asserted-by":"publisher","first-page":"15195","DOI":"10.1109\/TAES.2025.3571405","article-title":"Scalable cooperative decision-making in multi-UAV confrontations: An attention-based multi-agent actor-critic approach","volume":"61","author":"Chen","year":"2025","journal-title":"IEEE Transactions on Aerospace"},{"key":"2026030916153743400_bib3","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2502.17046","article-title":"MA2RL: Masked autoencoders for generalizable multi-agent reinforcement learning","author":"Feng","year":"2025","journal-title":"preprint arXiv:17046"},{"key":"2026030916153743400_bib4","doi-asserted-by":"publisher","first-page":"501","DOI":"10.3390\/drones8090501","article-title":"The optimal strategies of maneuver decision in air combat of UCAV based on the improved TD3 algorithm","volume":"8","author":"Gao","year":"2024","journal-title":"Drones"},{"key":"2026030916153743400_bib5","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2101.08001","article-title":"UPDeT: Universal multi-agent RL via policy decoupling with transformers","volume-title":"International Conference on Learning Representations","author":"Hu","year":"2021"},{"key":"2026030916153743400_bib6","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2006.04222","article-title":"Randomized entity-wise factorization for multi-agent reinforcement learning","volume-title":"International Conference on Machine Learning","author":"Iqbal","year":"2021"},{"key":"2026030916153743400_bib7","doi-asserted-by":"publisher","first-page":"230","DOI":"10.1007\/s40435-021-00803-6","article-title":"Fuzzy logic based air-to-air combat algorithm for unmanned air vehicles","volume":"10","author":"\u0130\u015fci","year":"2022","journal-title":"International Journal of Dynamics Control"},{"key":"2026030916153743400_bib8","doi-asserted-by":"publisher","first-page":"106358","DOI":"10.1016\/j.engappai.2023.106358","article-title":"Short-range air combat maneuver decision of uav swarm based on multi-agent transformer introducing virtual objects","volume":"123","author":"Jiang","year":"2023","journal-title":"Engineering Applications of Artificial Intelligence"},{"key":"2026030916153743400_bib9","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-15-8155-7_308","article-title":"Air-to-air combat tactical decision method based on SIRMs fuzzy logic and improved genetic algorithm","volume-title":"Advances in Guidance, Navigation and Control: Proceedings of 2020 International Conference on Guidance, Navigation and Control, ICGNC 2020","author":"Kang","year":"2021"},{"key":"2026030916153743400_bib10","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2305.18887","article-title":"How does information bottleneck help deep learning?","volume-title":"International conference on machine learning","author":"Kawaguchi","year":"2023"},{"key":"2026030916153743400_bib11","doi-asserted-by":"publisher","first-page":"905","DOI":"10.1002\/rob.22075","article-title":"Emerging UAV technology for disaster detection, mitigation, response, and preparedness","volume":"39","author":"Khan","year":"2022","journal-title":"Journal of Field Robotics"},{"key":"2026030916153743400_bib12","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2410.15876","article-title":"FlickerFusion: Intra-trajectory domain generalizing multi-agent RL","volume-title":"NeurIPS 2024 Workshop on Open-World Agents","author":"Koh","year":"2024"},{"key":"2026030916153743400_bib13","doi-asserted-by":"publisher","first-page":"830","DOI":"10.1093\/jcde\/qwad020","article-title":"Hierarchical reinforcement learning from competitive self-play for dual-aircraft formation air combat","volume":"10","author":"Kong","year":"2023","journal-title":"Journal of Computational Design and Engineering"},{"key":"2026030916153743400_bib14","doi-asserted-by":"publisher","first-page":"2608","DOI":"10.3390\/electronics11162608","article-title":"Air combat maneuver strategy algorithm based on two-layer game decision-making and distributed double game trees MCTS under uncertain information","volume":"11","author":"Li","year":"2022","journal-title":"Electronics"},{"key":"2026030916153743400_bib15","doi-asserted-by":"publisher","first-page":"486","DOI":"10.3390\/aerospace9090486","article-title":"A multi-target consensus-based auction algorithm for distributed target assignment in cooperative beyond-visual-range air combat","volume":"9","author":"Li","year":"2022","journal-title":"Aerospace"},{"key":"2026030916153743400_bib16","doi-asserted-by":"crossref","first-page":"157","DOI":"10.1016\/B978-1-55860-335-6.50027-1","article-title":"Markov games as a framework for multi-agent reinforcement learning","volume-title":"Machine Learning Proceedings 1994","author":"Littman","year":"1994"},{"key":"2026030916153743400_bib17","doi-asserted-by":"publisher","first-page":"2086","DOI":"10.1109\/TETCI.2024.3360282","article-title":"Game of drones: Intelligent online decision making of multi-uav confrontation","volume":"8","author":"Liu","year":"2024","journal-title":"IEEE Transactions on Emerging Topics in Computational Intelligence"},{"key":"2026030916153743400_bib18","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-15-8155-7_375","article-title":"Research on decision\u2013Making method of air combat embedded training based on extended influence diagram","volume-title":"Advances in Guidance, Navigation and Control: Proceedings of 2020 International Conference on Guidance, Navigation and Control, ICGNC 2020","author":"Liu","year":"2021"},{"key":"2026030916153743400_bib19","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1706.02275","article-title":"Multi-agent actor-critic for mixed cooperative-competitive environments","volume-title":"Advances in Neural Information Processing Systems","author":"Lowe","year":"2017"},{"key":"2026030916153743400_bib20","doi-asserted-by":"publisher","first-page":"132241","DOI":"10.1109\/ACCESS.2021.3115142","article-title":"Fighter equipment contribution evaluation based on maneuver decision","volume":"9","author":"Lu","year":"2021","journal-title":"IEEE Access"},{"key":"2026030916153743400_bib21","doi-asserted-by":"publisher","first-page":"3266","DOI":"10.3390\/rs15133266","article-title":"Unmanned aerial vehicles for search and rescue: A survey","volume":"15","author":"Lyu","year":"2023","journal-title":"Remote Sensing"},{"key":"2026030916153743400_bib22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01268","article-title":"Domain-aware visual bias eliminating for generalized zero-shot learning","volume-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","author":"Min","year":"2020"},{"key":"2026030916153743400_bib23","doi-asserted-by":"publisher","first-page":"1290","DOI":"10.3969\/j.issn.1001-506X.2020.06.12","article-title":"Multi-aircraft air combat target allocation based on cooperative co-evolutionary","volume":"42","author":"Minjian","year":"2020","journal-title":"Journal of Systems Engineering"},{"key":"2026030916153743400_bib24","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-28929-8","volume-title":"A Concise Introduction to Decentralized POMDPs","author":"Oliehoek","year":"2016"},{"key":"2026030916153743400_bib25","doi-asserted-by":"publisher","first-page":"1371","DOI":"10.1109\/tai.2022.3222143","article-title":"Hierarchical reinforcement learning for air combat at DARPA\u2019s AlphaDogfight trials","volume":"4","author":"Pope","year":"2023","journal-title":"IEEE Transactions on Artificial Intelligence"},{"key":"2026030916153743400_bib26","doi-asserted-by":"publisher","first-page":"261","DOI":"10.1016\/j.ifacol.2023.03.044","article-title":"A game-theoretic model for one-on-one air combat","volume":"55","author":"Ramteke","year":"2022","journal-title":"IFAC-PapersOnLine"},{"key":"2026030916153743400_bib27","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-85628-0_20","article-title":"Leveraging JSBSim and gymnasium: A reinforcement learning approach for Air combat simulation","volume-title":"World Congress in Computer Science, Computer Engineering & Applied Computing","author":"Salhi","year":"2024"},{"key":"2026030916153743400_bib28","doi-asserted-by":"publisher","first-page":"106","DOI":"10.3390\/drones9020106","article-title":"Hierarchical online air combat maneuver decision making and control based on surrogate-assisted differential evolution algorithm","volume":"9","author":"Tan","year":"2025","journal-title":"Drones"},{"key":"2026030916153743400_bib29","doi-asserted-by":"publisher","first-page":"437","DOI":"10.3390\/aerospace10050437","article-title":"Evaluation of air combat control ability based on eye movement indicators and combination weighting GRA-TOPSIS","volume":"10","author":"Tian","year":"2023","journal-title":"Aerospace"},{"key":"2026030916153743400_bib30","doi-asserted-by":"publisher","first-page":"95","DOI":"10.1080\/00207729808929501","article-title":"Aiming point guidance law for air-to-air missiles","volume":"29","author":"Tsao","year":"1998","journal-title":"International journal of systems science"},{"key":"2026030916153743400_bib31","doi-asserted-by":"publisher","first-page":"112000","DOI":"10.1016\/j.knosys.2024.112000","article-title":"An evolutionary multi-agent reinforcement learning algorithm for multi-UAV air combat","volume":"299","author":"Wang","year":"2024","journal-title":"Knowledge-Based Systems"},{"key":"2026030916153743400_bib32","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s10462-023-10620-2","article-title":"Deep reinforcement learning-based air combat maneuver decision-making: Literature review, implementation tutorial and future direction","volume":"57","author":"Wang","year":"2024","journal-title":"Artificial Intelligence Review"},{"key":"2026030916153743400_bib33","doi-asserted-by":"publisher","first-page":"7183","DOI":"10.1109\/TAES.2023.3288077","article-title":"Dynamic UAV swarm confrontation: An imitation based on mobile adaptive networks","volume":"59","author":"Xia","year":"2023","journal-title":"IEEE Transactions on Aerospace"},{"key":"2026030916153743400_bib34","doi-asserted-by":"publisher","first-page":"126069","DOI":"10.1016\/j.eswa.2024.126069","article-title":"Multi-UAV air combat cooperative game based on virtual opponent and value attention decomposition policy gradient","volume":"267","author":"Xu","year":"2025","journal-title":"Expert Systems with Applications"},{"key":"2026030916153743400_bib35","doi-asserted-by":"publisher","first-page":"382","DOI":"10.3390\/drones8080382","article-title":"Multi-unmanned aerial vehicle confrontation in intelligent air combat: A multi-agent deep reinforcement learning approach","volume":"8","author":"Yang","year":"2024","journal-title":"Drones"},{"key":"2026030916153743400_bib36","doi-asserted-by":"publisher","DOI":"10.1109\/ICCA.2019.8899703","article-title":"UAV air combat autonomous maneuver decision based on DDPG algorithm","volume-title":"2019 IEEE 15th International Conference on Control and Automation (ICCA)","author":"Yang","year":"2019"},{"key":"2026030916153743400_bib37","doi-asserted-by":"publisher","first-page":"96","DOI":"10.1093\/jcde\/qwaf045%J","article-title":"SD2AC: A reinforcement learning framework using distribution evaluation and sequential decision-making for UCAV combat","volume":"12","author":"Yang","year":"2025","journal-title":"Journal of Computational Design and Engineering"},{"key":"2026030916153743400_bib38","article-title":"Discovering generalizable multi-agent coordination skills from multi-task offline data","volume-title":"The Eleventh International Conference on Learning Representations","author":"Zhang","year":"2022"},{"key":"2026030916153743400_bib39","doi-asserted-by":"publisher","first-page":"462","DOI":"10.1016\/j.cja.2024.03.009","article-title":"Loyal wingman task execution for future aerial combat: A hierarchical prior-based reinforcement learning approach","volume":"37","author":"ZHANG","year":"2024","journal-title":"Chinese Journal of Aeronautics"},{"key":"2026030916153743400_bib40","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1093\/jcde\/qwag006","article-title":"Air combat joint strategy learning based on a dual-loop framework and hindsight experience replay","volume":"13","author":"Zhang","year":"2026","journal-title":"Journal of Computational Design and Engineering"},{"key":"2026030916153743400_bib41","doi-asserted-by":"publisher","DOI":"10.1016\/j.dt.2025.09.036","article-title":"Within-visual-range air combat maneuver decision-making in obstructed environments via a curriculum self-play soft actor-critic with an attention mechanism","volume-title":"Defence Technology","author":"Zheng","year":"2025"},{"key":"2026030916153743400_bib42","doi-asserted-by":"publisher","first-page":"311","DOI":"10.1016\/j.cja.2024.04.008","article-title":"Cooperative decision-making algorithm with efficient convergence for UCAV formation in beyond-visual-range air combat based on multi-agent reinforcement learning","volume":"37","author":"ZHOU","year":"2024","journal-title":"Chinese Journal of Aeronautics"}],"container-title":["Journal of Computational Design and Engineering"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/academic.oup.com\/jcde\/advance-article-pdf\/doi\/10.1093\/jcde\/qwag014\/66901845\/qwag014.pdf","content-type":"application\/pdf","content-version":"am","intended-application":"syndication"},{"URL":"https:\/\/academic.oup.com\/jcde\/article-pdf\/13\/3\/46\/66901845\/qwag014.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"syndication"},{"URL":"https:\/\/academic.oup.com\/jcde\/article-pdf\/13\/3\/46\/66901845\/qwag014.pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,9]],"date-time":"2026-03-09T20:15:46Z","timestamp":1773087346000},"score":1,"resource":{"primary":{"URL":"https:\/\/academic.oup.com\/jcde\/article\/13\/3\/46\/8483895"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,2,14]]},"references-count":42,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2026,2,28]]}},"URL":"https:\/\/doi.org\/10.1093\/jcde\/qwag014","relation":{},"ISSN":["2288-5048"],"issn-type":[{"value":"2288-5048","type":"electronic"}],"subject":[],"published-other":{"date-parts":[[2026,3]]},"published":{"date-parts":[[2026,2,14]]}}}