{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,14]],"date-time":"2026-05-14T13:10:53Z","timestamp":1778764253622,"version":"3.51.4"},"reference-count":42,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,10,1]],"date-time":"2026-10-01T00:00:00Z","timestamp":1790812800000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62371201"],"award-info":[{"award-number":["62371201"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62406300"],"award-info":[{"award-number":["62406300"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Neural Networks"],"published-print":{"date-parts":[[2026,10]]},"DOI":"10.1016\/j.neunet.2026.108997","type":"journal-article","created":{"date-parts":[[2026,4,18]],"date-time":"2026-04-18T15:24:42Z","timestamp":1776525882000},"page":"108997","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Cross-modal transformer fusion via local sampling for drone RGB-infrared object detection"],"prefix":"10.1016","volume":"202","author":[{"given":"Herong","family":"Qi","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xuanyu","family":"Xiang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Hui","family":"Qin","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yuan","family":"Tai","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0963-5339","authenticated-orcid":false,"given":"Yihua","family":"Tan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"78","reference":[{"key":"10.1016\/j.neunet.2026.108997_bib0001","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"2997","article-title":"DaFF: Dual attentive feature fusion for multispectral pedestrian detection","author":"Althoupety","year":"2024"},{"key":"10.1016\/j.neunet.2026.108997_bib0002","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.110626","article-title":"Multi-modal interaction with token division strategy for RGB-t tracking","volume":"155","author":"Cai","year":"2024","journal-title":"Pattern Recognition"},{"key":"10.1016\/j.neunet.2026.108997_bib0003","series-title":"2019\u202fIEEE 5th international conference on computer and communications (ICCC)","first-page":"1965","article-title":"Every feature counts: An improved one-stage detector in thermal imagery","author":"Cao","year":"2019"},{"key":"10.1016\/j.neunet.2026.108997_bib0004","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"26836","article-title":"Weakly misalignment-free adaptive feature alignment for UAVs-based multimodal object detection","author":"Chen","year":"2024"},{"key":"10.1016\/j.neunet.2026.108997_bib0005","doi-asserted-by":"crossref","first-page":"1002","DOI":"10.1109\/TIP.2024.3354108","article-title":"Dea-net: Single image dehazing based on detail-enhanced convolution and content-guided attention","volume":"33","author":"Chen","year":"2024","journal-title":"IEEE Transactions on Image Processing"},{"issue":"30","key":"10.1016\/j.neunet.2026.108997_bib0006","doi-asserted-by":"crossref","first-page":"47773","DOI":"10.1007\/s11042-023-15333-w","article-title":"SLBAF-Net: Super-lightweight bimodal adaptive fusion network for UAV detection in low recognition environment","volume":"82","author":"Cheng","year":"2023","journal-title":"Multimedia Tools and Applications"},{"key":"10.1016\/j.neunet.2026.108997_bib0007","series-title":"Proceedings of the IEEE international conference on computer vision","first-page":"764","article-title":"Deformable convolutional networks","author":"Dai","year":"2017"},{"key":"10.1016\/j.neunet.2026.108997_bib0008","unstructured":"Dong, W., Zhu, H., Lin, S., Luo, X., Shen, Y., Liu, X., Zhang, J., Guo, G., & Zhang, B. (2024). Fusion-mamba for cross-modality object detection. arXiv preprint arXiv: 2404.09146."},{"key":"10.1016\/j.neunet.2026.108997_bib0009","unstructured":"FLIR Systems, I. (2019). Free FLIR thermal dataset for algorithm training. [Online]. Accessed: 2026-01-27. Available: https:\/\/www.flir.com\/oem\/adas\/adas-dataset-form."},{"issue":"9","key":"10.1016\/j.neunet.2026.108997_bib0010","doi-asserted-by":"crossref","first-page":"1560","DOI":"10.1109\/JPROC.2015.2449668","article-title":"Multimodal classification of remote sensing images: A review and future directions","volume":"103","author":"G\u00f3mez-Chova","year":"2015","journal-title":"Proceedings of the IEEE"},{"key":"10.1016\/j.neunet.2026.108997_bib0011","series-title":"European conference on computer vision","first-page":"464","article-title":"Damsdet: Dynamic adaptive multispectral detection transformer with competitive query selection and adaptive feature fusion","author":"Guo","year":"2024"},{"key":"10.1016\/j.neunet.2026.108997_bib0012","series-title":"Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition","first-page":"5321","article-title":"Few-shot object detection with fully cross-transformer","author":"Han","year":"2022"},{"key":"10.1016\/j.neunet.2026.108997_bib0013","first-page":"1","article-title":"Align deep features for oriented object detection","volume":"60","author":"Han","year":"2021","journal-title":"IEEE Transactions on Geoscience and Remote Sensing"},{"key":"10.1016\/j.neunet.2026.108997_bib0014","series-title":"Proceedings of the computer vision and pattern recognition conference","first-page":"4497","article-title":"MobileMamba: Lightweight multi-receptive visual mamba network","author":"He","year":"2025"},{"key":"10.1016\/j.neunet.2026.108997_bib0015","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2025.111383","article-title":"Multispectral transformer fusion via exploiting similarity and complementarity for robust pedestrian detection","volume":"162","author":"Hou","year":"2025","journal-title":"Pattern Recognition"},{"key":"10.1016\/j.neunet.2026.108997_bib0016","series-title":"Proceedings of the IEEE conference on computer vision and pattern recognition","first-page":"7132","article-title":"Squeeze-and-excitation networks","author":"Hu","year":"2018"},{"key":"10.1016\/j.neunet.2026.108997_bib0017","doi-asserted-by":"crossref","DOI":"10.1016\/j.compbiomed.2024.108784","article-title":"Channel prior convolutional attention for medical image segmentation","volume":"178","author":"Huang","year":"2024","journal-title":"Computers in Biology and Medicine"},{"key":"10.1016\/j.neunet.2026.108997_bib0018","doi-asserted-by":"crossref","first-page":"8906","DOI":"10.1109\/TMM.2023.3243616","article-title":"DilateFormer: Multi-scale dilated transformer for visual recognition","volume":"25","author":"Jiao","year":"2023","journal-title":"IEEE Transactions on Multimedia"},{"key":"10.1016\/j.neunet.2026.108997_bib0019","unstructured":"Jocher, G., Chaurasia, A., Stoken, A., Borovec, J., Kwon, Y., Fang, J., Michael, K., Montes, D., Nadar, J., Skalski, P. et al. (2022). Ultralytics\/yolov5: v6.1 - TensorRT, TensorFlow Edge TPU and OpenVINO Export and Inference. Zenodo, 10.5281\/zenodo.6222936. Software."},{"issue":"1","key":"10.1016\/j.neunet.2026.108997_bib0020","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3418213","article-title":"Bottom-up and layerwise domain adaptation for pedestrian detection in thermal images","volume":"17","author":"Kieu","year":"2021","journal-title":"ACM Transactions on Multimedia Computing, Communications, and Applications (TOMM)"},{"issue":"9","key":"10.1016\/j.neunet.2026.108997_bib0021","doi-asserted-by":"crossref","first-page":"11040","DOI":"10.1109\/TPAMI.2023.3268209","article-title":"LRRNet: A novel representation learning guided fusion network for infrared and visible images","volume":"45","author":"Li","year":"2023","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2026.108997_bib0022","series-title":"Proceedings of the IEEE international conference on computer vision","first-page":"2980","article-title":"Focal loss for dense object detection","author":"Lin","year":"2017"},{"key":"10.1016\/j.neunet.2026.108997_bib0023","series-title":"European conference on computer vision","first-page":"740","article-title":"Microsoft coco: Common objects in context","author":"Lin","year":"2014"},{"key":"10.1016\/j.neunet.2026.108997_bib0024","unstructured":"Liu, J., Zhang, S., Wang, S., & Metaxas, D. N. (2016). Multispectral deep neural networks for pedestrian detection. arXiv preprint arXiv: 1611.02644."},{"key":"10.1016\/j.neunet.2026.108997_bib0025","unstructured":"Qingyun, F., Dapeng, H., & Zhaokui, W. (2021). Cross-modality fusion transformer for multispectral object detection. arXiv preprint arXiv: 2111.00273."},{"issue":"6","key":"10.1016\/j.neunet.2026.108997_bib0026","doi-asserted-by":"crossref","first-page":"1137","DOI":"10.1109\/TPAMI.2016.2577031","article-title":"Faster R-CNN: Towards real-time object detection with region proposal networks","volume":"39","author":"Ren","year":"2015","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"10.1016\/j.neunet.2026.108997_bib0027","series-title":"Proceedings of the IEEE international conference on computer vision","first-page":"618","article-title":"Grad-cam: Visual explanations from deep networks via gradient-based localization","author":"Selvaraju","year":"2017"},{"key":"10.1016\/j.neunet.2026.108997_bib0028","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2023.109913","article-title":"ICAFusion: Iterative cross-attention guided feature fusion for multispectral object detection","volume":"145","author":"Shen","year":"2024","journal-title":"Pattern Recognition"},{"issue":"10","key":"10.1016\/j.neunet.2026.108997_bib0029","doi-asserted-by":"crossref","first-page":"6700","DOI":"10.1109\/TCSVT.2022.3168279","article-title":"Drone-based RGB-infrared cross-modality vehicle detection via uncertainty-aware learning","volume":"32","author":"Sun","year":"2022","journal-title":"IEEE Transactions on Circuits and Systems for Video Technology"},{"key":"10.1016\/j.neunet.2026.108997_bib0030","series-title":"International conference on image, vision and intelligent systems","first-page":"236","article-title":"Visible and infrared image fusion for object detection: A survey","author":"Sun","year":"2023"},{"key":"10.1016\/j.neunet.2026.108997_bib0031","series-title":"ESANN","first-page":"509","article-title":"Multispectral pedestrian detection using deep fusion convolutional neural networks","volume":"vol. 587","author":"Wagner","year":"2016"},{"key":"10.1016\/j.neunet.2026.108997_bib0032","series-title":"Proceedings of the IEEE\/CVF international conference on computer vision","first-page":"3520","article-title":"Oriented r-CNN for object detection","author":"Xie","year":"2021"},{"issue":"1","key":"10.1016\/j.neunet.2026.108997_bib0033","doi-asserted-by":"crossref","first-page":"547","DOI":"10.1109\/TCSVT.2024.3454631","article-title":"Multidimensional fusion network for multispectral object detection","volume":"35","author":"Yang","year":"2024","journal-title":"IEEE Transactions on Circuits and Systems for Video Technology"},{"key":"10.1016\/j.neunet.2026.108997_bib0034","series-title":"4th international conference on laser, optics, and optoelectronic technology (LOPET 2024)","first-page":"538","article-title":"Multispectral sample augmentation and illumination guidance for RGB-t object detection by MM detection framework","volume":"vol. 13231","author":"Yang","year":"2024"},{"key":"10.1016\/j.neunet.2026.108997_bib0035","series-title":"European conference on computer vision","first-page":"677","article-title":"Arbitrary-oriented object detection with circular smooth label","author":"Yang","year":"2020"},{"key":"10.1016\/j.neunet.2026.108997_bib0036","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2024.102246","article-title":"Improving RGB-infrared object detection with cascade alignment-guided transformer","volume":"105","author":"Yuan","year":"2024","journal-title":"Information Fusion"},{"key":"10.1016\/j.neunet.2026.108997_bib0037","series-title":"European conference on computer vision","first-page":"509","article-title":"Translation, scale and rotation: Cross-modal alignment meets RGB-infrared vehicle detection","author":"Yuan","year":"2022"},{"key":"10.1016\/j.neunet.2026.108997_bib0038","first-page":"1","article-title":"C2former: Calibrated and complementary transformer for RGB-infrared object detection","volume":"62","author":"Yuan","year":"2024","journal-title":"IEEE Transactions on Geoscience and Remote Sensing"},{"key":"10.1016\/j.neunet.2026.108997_bib0039","series-title":"2020\u202fIEEE International conference on image processing (ICIP)","first-page":"276","article-title":"Multispectral fusion for object detection with cyclic fuse-and-refine blocks","author":"Zhang","year":"2020"},{"key":"10.1016\/j.neunet.2026.108997_bib0040","doi-asserted-by":"crossref","first-page":"20","DOI":"10.1016\/j.inffus.2018.09.015","article-title":"Cross-modality interactive attention network for multispectral pedestrian detection","volume":"50","author":"Zhang","year":"2019","journal-title":"Information Fusion"},{"issue":"3","key":"10.1016\/j.neunet.2026.108997_bib0041","doi-asserted-by":"crossref","first-page":"4145","DOI":"10.1109\/TNNLS.2021.3105143","article-title":"Weakly aligned feature fusion for multimodal object detection","volume":"36","author":"Zhang","year":"2021","journal-title":"IEEE Transactions on Neural Networks and Learning Systems"},{"key":"10.1016\/j.neunet.2026.108997_bib0042","unstructured":"Zhang, X., Song, Y., Song, T., Yang, D., Ye, Y., Zhou, J., & Zhang, L. (2023). AKConv: Convolutional kernel with arbitrary sampled shapes and arbitrary number of parameters. (pp. 2\u201310). arXiv preprint arXiv: 2311.11587."}],"container-title":["Neural Networks"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0893608026004582?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0893608026004582?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,14]],"date-time":"2026-05-14T12:40:19Z","timestamp":1778762419000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0893608026004582"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,10]]},"references-count":42,"alternative-id":["S0893608026004582"],"URL":"https:\/\/doi.org\/10.1016\/j.neunet.2026.108997","relation":{},"ISSN":["0893-6080"],"issn-type":[{"value":"0893-6080","type":"print"}],"subject":[],"published":{"date-parts":[[2026,10]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Cross-modal transformer fusion via local sampling for drone RGB-infrared object detection","name":"articletitle","label":"Article Title"},{"value":"Neural Networks","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.neunet.2026.108997","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier Ltd. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"108997"}}