{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,21]],"date-time":"2026-05-21T18:06:56Z","timestamp":1779386816521,"version":"3.53.1"},"reference-count":49,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Pattern Recognition"],"published-print":{"date-parts":[[2026,10]]},"DOI":"10.1016\/j.patcog.2026.113461","type":"journal-article","created":{"date-parts":[[2026,3,10]],"date-time":"2026-03-10T07:58:12Z","timestamp":1773129492000},"page":"113461","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Differential attention vision transformer with adaptive spatial feature conditioning for remote sensing scene classification"],"prefix":"10.1016","volume":"178","author":[{"ORCID":"https:\/\/orcid.org\/0009-0007-1071-5113","authenticated-orcid":false,"given":"Yuan","family":"Li","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9732-628X","authenticated-orcid":false,"given":"Xiang","family":"Wu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6601-3515","authenticated-orcid":false,"given":"Jiacun","family":"Wang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7508-5083","authenticated-orcid":false,"given":"Yuming","family":"Bo","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6185-1608","authenticated-orcid":false,"given":"Feng","family":"Ni","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4788-2464","authenticated-orcid":false,"given":"Changhui","family":"Jiang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"key":"10.1016\/j.patcog.2026.113461_bib0001","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2025.111406","article-title":"TransRefine: transformer-augmented feature refinement for zero-shot scene classification in remote sensing images","volume":"162","author":"Damalla","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113461_bib0002","doi-asserted-by":"crossref","first-page":"54","DOI":"10.1016\/j.patrec.2021.04.028","article-title":"Pattern recognition and remote sensing techniques applied to land use and land cover mapping in the brazilian savannah","volume":"148","author":"Fonseca","year":"2021","journal-title":"Pattern Recognit. Lett."},{"key":"10.1016\/j.patcog.2026.113461_bib0003","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2024.128271","article-title":"Global-local manifold embedding broad graph convolutional network for hyperspectral image classification","volume":"602","author":"Cao","year":"2024","journal-title":"Neurocomputing"},{"key":"10.1016\/j.patcog.2026.113461_bib0004","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"7132","article-title":"Squeeze-and-excitation networks","author":"Hu","year":"2018"},{"key":"10.1016\/j.patcog.2026.113461_bib0005","series-title":"European Conference on Computer Vision","first-page":"3-19","article-title":"CBAM: convolutional block attention module","author":"Woo","year":"2018"},{"key":"10.1016\/j.patcog.2026.113461_bib0006","series-title":"Advances in Neural Information Processing Systems","first-page":"5998","article-title":"Attention is all you need","author":"Vaswani","year":"2017"},{"key":"10.1016\/j.patcog.2026.113461_bib0007","series-title":"European Conference on Computer Vision","first-page":"298","article-title":"Efficient vision transformers with partial attention","volume":"15141","author":"Vo","year":"2024"},{"key":"10.1016\/j.patcog.2026.113461_bib0008","series-title":"International Conference on Learning Representations","article-title":"An image is worth 16x16 words: transformers for image recognition at scale","author":"Dosovitskiy","year":"2021"},{"key":"10.1016\/j.patcog.2026.113461_bib0009","doi-asserted-by":"crossref","first-page":"99","DOI":"10.1109\/TIP.2021.3127851","article-title":"Remote sensing scene classification via multi-branch local attention network","volume":"31","author":"Chen","year":"2022","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.patcog.2026.113461_bib0010","unstructured":"T. Ye, L. Dong, Y. Xia, Y. Sun, Y. Zhu, G. Huang, F. Wei, Differential Transformer, 2025. 2410.05258."},{"issue":"4","key":"10.1016\/j.patcog.2026.113461_bib0011","doi-asserted-by":"crossref","first-page":"669","DOI":"10.1109\/19.85332","article-title":"Common mode rejection ratio in differential amplifiers","volume":"40","author":"Pallas-Areny","year":"1991","journal-title":"IEEE Trans. Instrum. Meas."},{"issue":"6","key":"10.1016\/j.patcog.2026.113461_bib0012","doi-asserted-by":"crossref","first-page":"84","DOI":"10.1145\/3065386","article-title":"ImageNet classification with deep convolutional neural networks","volume":"60","author":"Krizhevsky","year":"2017","journal-title":"Commun. ACM"},{"key":"10.1016\/j.patcog.2026.113461_bib0013","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2023.120525","article-title":"UAV remote sensing image stitching via improved VGG16 Siamese feature extraction network","volume":"229","author":"Zhu","year":"2023","journal-title":"Expert Syst. Appl."},{"key":"10.1016\/j.patcog.2026.113461_bib0014","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"1","article-title":"Going deeper with convolutions","author":"Szegedy","year":"2015"},{"key":"10.1016\/j.patcog.2026.113461_bib0015","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"770","article-title":"Deep residual learning for image recognition","author":"He","year":"2016"},{"key":"10.1016\/j.patcog.2026.113461_bib0016","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"2261","article-title":"Densely connected convolutional networks","author":"Huang","year":"2017"},{"issue":"5","key":"10.1016\/j.patcog.2026.113461_bib0017","doi-asserted-by":"crossref","DOI":"10.3390\/rs11050494","article-title":"Remote sensing image scene classification using CNN-CapsNet","volume":"11","author":"Zhang","year":"2019","journal-title":"Remote Sens."},{"key":"10.1016\/j.patcog.2026.113461_bib0018","series-title":"Proceedings of the IEEE International Conference on Computer Vision","first-page":"9992","article-title":"Swin transformer: hierarchical vision transformer using shifted windows","author":"Liu","year":"2021"},{"key":"10.1016\/j.patcog.2026.113461_bib0019","series-title":"Proceedings of the IEEE International Conference on Computer Vision","first-page":"538","article-title":"Tokens-to-token ViT: training vision transformers from scratch on imageNet","author":"Yuan","year":"2021"},{"key":"10.1016\/j.patcog.2026.113461_bib0020","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2023.120829","article-title":"DBCT-Net:A dual branch hybrid CNN-transformer network for remote sensing image fusion","volume":"233","author":"Wang","year":"2023","journal-title":"Expert Syst. Appl."},{"issue":"9","key":"10.1016\/j.patcog.2026.113461_bib0021","doi-asserted-by":"crossref","first-page":"1904","DOI":"10.1109\/TPAMI.2015.2389824","article-title":"Spatial pyramid pooling in deep convolutional networks for visual recognition","volume":"37","author":"He","year":"2015","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"4","key":"10.1016\/j.patcog.2026.113461_bib0022","doi-asserted-by":"crossref","first-page":"834","DOI":"10.1109\/TPAMI.2017.2699184","article-title":"DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs","volume":"40","author":"Chen","year":"2018","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.patcog.2026.113461_bib0023","doi-asserted-by":"crossref","first-page":"9530","DOI":"10.1109\/JSTARS.2021.3109661","article-title":"A multiscale attention network for remote sensing scene images classification","volume":"14","author":"Zhang","year":"2021","journal-title":"IEEE J. Sel. Top. Appl. Earth Obs. Remote Sens."},{"issue":"4","key":"10.1016\/j.patcog.2026.113461_bib0024","doi-asserted-by":"crossref","first-page":"1414","DOI":"10.1109\/TNNLS.2020.3042276","article-title":"Looking closer at the scene: multiscale representation learning for remote sensing image scene classification","volume":"33","author":"Wang","year":"2022","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"10.1016\/j.patcog.2026.113461_bib0025","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2025.110411","article-title":"DCMA-net: a dual channel multi-scale feature attention network for crack image segmentation","volume":"148","author":"Yan","year":"2025","journal-title":"Eng. Appl. Artif. Intell."},{"key":"10.1016\/j.patcog.2026.113461_bib0026","series-title":"Proceedings of the ACM International Conference on Multimedia","first-page":"2992-3000","article-title":"Multi-scale change-aware transformer for remote sensing image change detection","author":"Chen","year":"2024"},{"key":"10.1016\/j.patcog.2026.113461_bib0027","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.111305","article-title":"Data-efficient multi-scale fusion vision transformer","volume":"161","author":"Tang","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113461_bib0028","first-page":"1","article-title":"EMTCAL: efficient multiscale transformer and cross-level attention learning for remote sensing scene classification","volume":"60","author":"Tang","year":"2022","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"issue":"3","key":"10.1016\/j.patcog.2026.113461_bib0029","doi-asserted-by":"crossref","first-page":"1109","DOI":"10.1109\/TCSVT.2022.3212434","article-title":"Hybrid CNN-Transformer features for visual place recognition","volume":"33","author":"Wang","year":"2023","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.patcog.2026.113461_bib0030","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2022.108785","article-title":"HAM: Hybrid attention module in deep convolutional neural networks for image classification","volume":"129","author":"Li","year":"2022","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113461_bib0031","doi-asserted-by":"crossref","first-page":"899","DOI":"10.1109\/TIP.2025.3533205","article-title":"Hyperspectral image classification via cascaded spatial cross-attention network","volume":"34","author":"Zhang","year":"2025","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.patcog.2026.113461_bib0032","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2024.128527","article-title":"AFGN: attention feature guided network for object detection in optical remote sensing image","volume":"610","author":"Zhang","year":"2024","journal-title":"Neurocomputing"},{"key":"10.1016\/j.patcog.2026.113461_bib0033","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2023.110415","article-title":"Orientation attention network for semantic segmentation of remote sensing images","volume":"267","author":"Wang","year":"2023","journal-title":"Knowl. Based Syst."},{"key":"10.1016\/j.patcog.2026.113461_bib0034","doi-asserted-by":"crossref","first-page":"50","DOI":"10.1109\/TMM.2021.3120873","article-title":"EAPT: efficient attention pyramid transformer for image processing","volume":"25","author":"Lin","year":"2023","journal-title":"IEEE Trans. Multimedia"},{"key":"10.1016\/j.patcog.2026.113461_bib0035","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.110853","article-title":"ReViT: enhancing vision transformers feature diversity with attention residual connections","volume":"156","author":"Diko","year":"2024","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113461_bib0036","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.111033","article-title":"An illumination-guided dual attention vision transformer for low-light image enhancement","volume":"158","author":"Wen","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113461_bib0037","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"13948","article-title":"Spiking transformer with spatial-temporal attention","author":"Lee","year":"2025"},{"key":"10.1016\/j.patcog.2026.113461_bib0038","series-title":"International Symposium on Advances in Geographic Information Systems","first-page":"270-279","article-title":"Bag-of-visual-words and spatial extensions for land-use classification","author":"Yang","year":"2010"},{"issue":"7","key":"10.1016\/j.patcog.2026.113461_bib0039","doi-asserted-by":"crossref","first-page":"3965","DOI":"10.1109\/TGRS.2017.2685945","article-title":"AID: a benchmark data set for performance evaluation of aerial scene classification","volume":"55","author":"Xia","year":"2017","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"issue":"10","key":"10.1016\/j.patcog.2026.113461_bib0040","doi-asserted-by":"crossref","first-page":"1865","DOI":"10.1109\/JPROC.2017.2675998","article-title":"Remote sensing image scene classification: benchmark and state of the art","volume":"105","author":"Cheng","year":"2017","journal-title":"Proc. IEEE"},{"issue":"5","key":"10.1016\/j.patcog.2026.113461_bib0041","doi-asserted-by":"crossref","first-page":"1461","DOI":"10.1109\/TNNLS.2019.2920374","article-title":"Skip-connected covariance network for remote sensing scene classification","volume":"31","author":"He","year":"2020","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"issue":"9","key":"10.1016\/j.patcog.2026.113461_bib0042","doi-asserted-by":"crossref","first-page":"1647","DOI":"10.1109\/LGRS.2019.2949253","article-title":"Combining multilevel features for remote sensing image scene classification with attention model","volume":"17","author":"Ji","year":"2020","journal-title":"IEEE Geosci. Remote Sens. Lett."},{"key":"10.1016\/j.patcog.2026.113461_bib0043","unstructured":"Y. Liang, C. Ge, Z. Tong, Y. Song, J. Wang, P. Xie, Not All Patches are What You Need: Expediting Vision Transformers via Token Reorganizations, 2022. 2202.07800."},{"issue":"3","key":"10.1016\/j.patcog.2026.113461_bib0044","doi-asserted-by":"crossref","first-page":"415","DOI":"10.1007\/s41095-022-0274-8","article-title":"PVT V2: improved baselines with pyramid vision transformer","volume":"8","author":"Wang","year":"2022","journal-title":"Comput. Vis. Media"},{"key":"10.1016\/j.patcog.2026.113461_bib0045","series-title":"European Conference on Computer Vision","first-page":"74","article-title":"DaViT: dual attention vision transformers","volume":"13684","author":"Ding","year":"2022"},{"key":"10.1016\/j.patcog.2026.113461_bib0046","series-title":"International Conference on Learning Representations","article-title":"Token merging: your ViT but faster","author":"Bolya","year":"2023"},{"key":"10.1016\/j.patcog.2026.113461_bib0047","first-page":"1","article-title":"A hyperparameter-free attention module based on feature map mathematical calculation for remote-Sensing image scene classification","volume":"62","author":"Wan","year":"2024","journal-title":"IEEE Trans. Geosci. Remote Sens."},{"key":"10.1016\/j.patcog.2026.113461_bib0048","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"3563","article-title":"BHViT: binarized hybrid vision transformer","author":"Gao","year":"2025"},{"issue":"2","key":"10.1016\/j.patcog.2026.113461_bib0049","doi-asserted-by":"crossref","first-page":"336","DOI":"10.1007\/s11263-019-01228-7","article-title":"Grad-CAM: visual explanations from deep networks via gradient-based localization","volume":"128","author":"Selvaraju","year":"2020","journal-title":"Int. J. Comput. Vis."}],"container-title":["Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326004279?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326004279?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,21]],"date-time":"2026-05-21T17:05:21Z","timestamp":1779383121000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0031320326004279"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,10]]},"references-count":49,"alternative-id":["S0031320326004279"],"URL":"https:\/\/doi.org\/10.1016\/j.patcog.2026.113461","relation":{},"ISSN":["0031-3203"],"issn-type":[{"value":"0031-3203","type":"print"}],"subject":[],"published":{"date-parts":[[2026,10]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Differential attention vision transformer with adaptive spatial feature conditioning for remote sensing scene classification","name":"articletitle","label":"Article Title"},{"value":"Pattern Recognition","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.patcog.2026.113461","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"113461"}}