{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,13]],"date-time":"2026-04-13T18:14:18Z","timestamp":1776104058534,"version":"3.50.1"},"reference-count":40,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,9,1]],"date-time":"2026-09-01T00:00:00Z","timestamp":1788220800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100008081","name":"Southeast University","doi-asserted-by":"publisher","award":["MP202404"],"award-info":[{"award-number":["MP202404"]}],"id":[{"id":"10.13039\/501100008081","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62276061"],"award-info":[{"award-number":["62276061"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62436002"],"award-info":[{"award-number":["62436002"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Pattern Recognition"],"published-print":{"date-parts":[[2026,9]]},"DOI":"10.1016\/j.patcog.2026.113330","type":"journal-article","created":{"date-parts":[[2026,2,17]],"date-time":"2026-02-17T19:55:38Z","timestamp":1771358138000},"page":"113330","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["DRL: An efficient heterogeneous spatial feature interaction framework for UAV self-localization"],"prefix":"10.1016","volume":"177","author":[{"ORCID":"https:\/\/orcid.org\/0009-0004-6133-0035","authenticated-orcid":false,"given":"Ming","family":"Dai","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1358-7846","authenticated-orcid":false,"given":"Enhui","family":"Zheng","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0008-5915-9565","authenticated-orcid":false,"given":"Wenxuan","family":"Cheng","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2148-2865","authenticated-orcid":false,"given":"Jiahao","family":"Chen","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4485-4249","authenticated-orcid":false,"given":"Zhenhua","family":"Feng","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-6385-6776","authenticated-orcid":false,"given":"Wankou","family":"Yang","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.patcog.2026.113330_bib0001","first-page":"402","article-title":"From GPS to AI: a comprehensive review of unmanned aerial vehicle (UAV) localization solutions","volume":"230","author":"Lateef","year":"2025","journal-title":"ISPRS"},{"key":"10.1016\/j.patcog.2026.113330_bib0002","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2023.110041","article-title":"Discriminative features enhancement for low-altitude UAV object detection","volume":"147","author":"Huang","year":"2024","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113330_bib0003","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2023.110140","article-title":"CS-net: conv-simpleformer network for agricultural image segmentation","volume":"147","author":"Liu","year":"2024","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113330_bib0004","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2022.108614","article-title":"Learning residue-aware correlation filters and refining scale for real-time UAV tracking","volume":"127","author":"Li","year":"2022","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113330_bib0005","first-page":"1","article-title":"Vision-based UAV self-positioning in low-altitude urban environments","author":"Dai","year":"2023","journal-title":"TIP"},{"key":"10.1016\/j.patcog.2026.113330_bib0006","series-title":"ECCV","first-page":"90","article-title":"Visual cross-view metric localization with dense uncertainty estimates","author":"Xia","year":"2022"},{"issue":"5","key":"10.1016\/j.patcog.2026.113330_bib0007","doi-asserted-by":"crossref","first-page":"3813","DOI":"10.1109\/TPAMI.2023.3346924","article-title":"Convolutional cross-view pose estimation","volume":"46","author":"Xia","year":"2023","journal-title":"TPAMI"},{"key":"10.1016\/j.patcog.2026.113330_bib0008","series-title":"CVPR","article-title":"VIGOR: cross-view image geo-localization beyond one-to-one retrieval","author":"Zhu","year":"2021"},{"key":"10.1016\/j.patcog.2026.113330_bib0009","series-title":"CVPRW","article-title":"On the location dependence of convolutional neural network features","author":"Workman","year":"2015"},{"key":"10.1016\/j.patcog.2026.113330_bib0010","series-title":"CVPR","article-title":"Learning deep representations for ground-to-aerial geolocalization","author":"Lin","year":"2015"},{"key":"10.1016\/j.patcog.2026.113330_bib0011","series-title":"CVPR","article-title":"Cross-view image matching for geo-localization in urban environments","author":"Tian","year":"2017"},{"key":"10.1016\/j.patcog.2026.113330_bib0012","series-title":"CVPR","article-title":"Predicting ground-level scene layout from aerial imagery","author":"Zhai","year":"2017"},{"key":"10.1016\/j.patcog.2026.113330_bib0013","series-title":"CVPR","article-title":"Lending orientation to neural networks for cross-view geo-localization","author":"Liu","year":"2019"},{"key":"10.1016\/j.patcog.2026.113330_bib0014","series-title":"ACMMM","first-page":"1395","article-title":"University-1652: a multi-view multi-source benchmark for drone-based geo-localization","author":"Zheng","year":"2020"},{"key":"10.1016\/j.patcog.2026.113330_bib0015","article-title":"SUES-200: a multi-height multi-scene cross-view image benchmark across drone and satellite","author":"Zhu","year":"2023","journal-title":"TCSVT"},{"key":"10.1016\/j.patcog.2026.113330_bib0016","series-title":"ICCVW","article-title":"Semantic cross-view matching","author":"Castaldo","year":"2015"},{"key":"10.1016\/j.patcog.2026.113330_bib0017","series-title":"CVPR","article-title":"Cross-view image geolocalization","author":"Lin","year":"2013"},{"issue":"1","key":"10.1016\/j.patcog.2026.113330_bib0018","first-page":"2176","article-title":"Geo-localization via ground-to-satellite cross-view image retrieval","volume":"25","author":"Zeng","year":"2022","journal-title":"IEEE Trans. Multimedia"},{"issue":"2","key":"10.1016\/j.patcog.2026.113330_bib0019","first-page":"867","article-title":"Each part matters: local patterns facilitate cross-view geo-localization","volume":"32","author":"Wang","year":"2021","journal-title":"TCSVT"},{"issue":"7","key":"10.1016\/j.patcog.2026.113330_bib0020","first-page":"4376","article-title":"A transformer-based feature segmentation and region alignment method for UAV-view geo-localization","volume":"32","author":"Dai","year":"2022","journal-title":"TCSVT"},{"issue":"3","key":"10.1016\/j.patcog.2026.113330_bib0021","first-page":"1456","article-title":"MCCG: a ConvNeXt-based multiple-classifier method for cross-view geo-localization","volume":"34","author":"Shen","year":"2023","journal-title":"TCSVT"},{"key":"10.1016\/j.patcog.2026.113330_bib0022","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.110363","article-title":"Multiple-environment self-adaptive network for aerial-view geo-localization","volume":"152","author":"Wang","year":"2024","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113330_bib0023","first-page":"1","article-title":"Multi-level embedding and alignment network with consistency and invariance learning for cross-view geo-localization","volume":"63","author":"Chen","year":"2025","journal-title":"TGRS"},{"key":"10.1016\/j.patcog.2026.113330_bib0024","first-page":"1","article-title":"A novel EAGLe framework for robust UAV-view geo-localization","volume":"63","author":"Liu","year":"2025","journal-title":"TGRS"},{"issue":"2","key":"10.1016\/j.patcog.2026.113330_bib0025","doi-asserted-by":"crossref","first-page":"2080","DOI":"10.1109\/LRA.2025.3527762","article-title":"DINOv2-based UAV visual self-localization in low-altitude urban environments","volume":"10","author":"Yang","year":"2025","journal-title":"IEEE Rob. Autom. Lett."},{"issue":"11","key":"10.1016\/j.patcog.2026.113330_bib0026","doi-asserted-by":"crossref","first-page":"11810","DOI":"10.1109\/TCSVT.2024.3424196","article-title":"SDPL: shifting-dense partition learning for UAV-view geo-localization","volume":"34","author":"Chen","year":"2024","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.patcog.2026.113330_bib0027","doi-asserted-by":"crossref","first-page":"1239","DOI":"10.1109\/LSP.2024.3392676","article-title":"Adaptive global embedding learning: a two-stage framework for UAV-view geo-localization","volume":"31","author":"Liu","year":"2024","journal-title":"IEEE Signal Process Lett."},{"key":"10.1016\/j.patcog.2026.113330_bib0028","series-title":"NeurIPS","first-page":"5998","article-title":"Attention is all you need","author":"Vaswani","year":"2017"},{"key":"10.1016\/j.patcog.2026.113330_bib0029","unstructured":"A. Dosovitskiy, L. Beyer, A. Kolesnikov, D. Weissenborn, X. Zhai, T. Unterthiner, M. Dehghani, M. Minderer, G. Heigold, S. Gelly, et al., An image is worth 16x16 words: transformers for image recognition at scale, 9th International Conference on Learning Representations, (ICLR)2021, Virtual Event, Austria2021. https:\/\/openreview.net\/forum?id=YicbFdNTTy."},{"key":"10.1016\/j.patcog.2026.113330_bib0030","series-title":"ICML","first-page":"10347","article-title":"Training data-efficient image transformers & distillation through attention","volume":"139","author":"Touvron","year":"2021"},{"key":"10.1016\/j.patcog.2026.113330_bib0031","series-title":"ICCV","article-title":"Pyramid vision transformer: a versatile backbone for dense prediction without convolutions","author":"Wang","year":"2021"},{"key":"10.1016\/j.patcog.2026.113330_bib0032","series-title":"ICCV","first-page":"22","article-title":"CvT: introducing convolutions to vision transformers","author":"Wu","year":"2021"},{"key":"10.1016\/j.patcog.2026.113330_bib0033","series-title":"ICCV","first-page":"10012","article-title":"Swin transformer: hierarchical vision transformer using shifted windows","author":"Liu","year":"2021"},{"key":"10.1016\/j.patcog.2026.113330_bib0034","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.110534","article-title":"PARDet: dynamic point set alignment for rotated object detection","volume":"153","author":"Xu","year":"2024","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113330_bib0035","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2022.109019","article-title":"UAVformer: a composite transformer network for urban scene segmentation of UAV images","volume":"133","author":"Yi","year":"2023","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113330_bib0036","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.110582","article-title":"CRTrack: learning correlation-refine network for visual object tracking","volume":"154","author":"Zhang","year":"2024","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113330_bib0037","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.111128","article-title":"FocTrack: focus attention for visual tracking","volume":"160","author":"Tao","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113330_bib0038","series-title":"CVPR","first-page":"815","article-title":"FaceNet: a unified embedding for face recognition and clustering","author":"Schroff","year":"2015"},{"issue":"1","key":"10.1016\/j.patcog.2026.113330_bib0039","doi-asserted-by":"crossref","first-page":"47","DOI":"10.3390\/rs13010047","article-title":"A practical cross-view image matching method between UAV and satellite for UAV-based geo-localization","volume":"13","author":"Ding","year":"2020","journal-title":"Remote Sens."},{"key":"10.1016\/j.patcog.2026.113330_bib0040","first-page":"3780","article-title":"Joint representation learning and keypoint detection for cross-view geo-localization","volume":"31","author":"Lin","year":"2022","journal-title":"TIP"}],"container-title":["Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326002955?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326002955?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,4,13]],"date-time":"2026-04-13T17:05:33Z","timestamp":1776099933000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0031320326002955"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,9]]},"references-count":40,"alternative-id":["S0031320326002955"],"URL":"https:\/\/doi.org\/10.1016\/j.patcog.2026.113330","relation":{},"ISSN":["0031-3203"],"issn-type":[{"value":"0031-3203","type":"print"}],"subject":[],"published":{"date-parts":[[2026,9]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"DRL: An efficient heterogeneous spatial feature interaction framework for UAV self-localization","name":"articletitle","label":"Article Title"},{"value":"Pattern Recognition","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.patcog.2026.113330","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"113330"}}