{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,9,11]],"date-time":"2025-09-11T22:28:30Z","timestamp":1757629710550,"version":"3.44.0"},"reference-count":147,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Information Fusion"],"published-print":{"date-parts":[[2026,2]]},"DOI":"10.1016\/j.inffus.2025.103604","type":"journal-article","created":{"date-parts":[[2025,8,10]],"date-time":"2025-08-10T05:31:33Z","timestamp":1754803893000},"page":"103604","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"PB","title":["COST: Contrastive one-stage transformer for vision-language small object tracking"],"prefix":"10.1016","volume":"126","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-9017-1828","authenticated-orcid":false,"given":"Chunhui","family":"Zhang","sequence":"first","affiliation":[]},{"given":"Li","family":"Liu","sequence":"additional","affiliation":[]},{"given":"Jialin","family":"Gao","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3092-0583","authenticated-orcid":false,"given":"Xin","family":"Sun","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0009-0000-4973-1689","authenticated-orcid":false,"given":"Hao","family":"Wen","sequence":"additional","affiliation":[]},{"given":"Xi","family":"Zhou","sequence":"additional","affiliation":[]},{"given":"Shiming","family":"Ge","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3196-2347","authenticated-orcid":false,"given":"Yanfeng","family":"Wang","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.inffus.2025.103604_b1","doi-asserted-by":"crossref","unstructured":"Z. Li, R. Tao, E. Gavves, et al., Tracking by natural language specification, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2017, pp. 6495\u20136503.","DOI":"10.1109\/CVPR.2017.777"},{"key":"10.1016\/j.inffus.2025.103604_b2","doi-asserted-by":"crossref","unstructured":"X. Wang, X. Shu, Z. Zhang, B. Jiang, Y. Wang, Y. Tian, F. Wu, Towards more flexible and accurate object tracking with natural language: Algorithms and benchmark, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 13763\u201313773.","DOI":"10.1109\/CVPR46437.2021.01355"},{"key":"10.1016\/j.inffus.2025.103604_b3","doi-asserted-by":"crossref","unstructured":"Q. Feng, V. Ablavsky, Q. Bai, S. Sclaroff, Siamese natural language tracker: Tracking by natural language descriptions with Siamese trackers, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 5851\u20135860.","DOI":"10.1109\/CVPR46437.2021.00579"},{"key":"10.1016\/j.inffus.2025.103604_b4","doi-asserted-by":"crossref","unstructured":"H. Fan, L. Lin, F. Yang, P. Chu, G. Deng, S. Yu, H. Bai, Y. Xu, C. Liao, H. Ling, Lasot: A high-quality benchmark for large-scale single object tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 5374\u20135383.","DOI":"10.1109\/CVPR.2019.00552"},{"issue":"7","key":"10.1016\/j.inffus.2025.103604_b5","doi-asserted-by":"crossref","first-page":"9186","DOI":"10.1109\/TPAMI.2022.3232854","article-title":"WebUAV-3M: A benchmark for unveiling the power of million-scale deep UAV tracking","volume":"45","author":"Zhang","year":"2023","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.inffus.2025.103604_b6","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2024.102492","article-title":"RGBT tracking: A comprehensive review","volume":"110","author":"Feng","year":"2024","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.inffus.2025.103604_b7","doi-asserted-by":"crossref","unstructured":"Z. Zhang, H. Peng, J. Fu, B. Li, W. Hu, Ocean: Object-aware anchor-free tracking, in: European Conference on Computer Vision, 2020, pp. 771\u2013787.","DOI":"10.1007\/978-3-030-58589-1_46"},{"key":"10.1016\/j.inffus.2025.103604_b8","doi-asserted-by":"crossref","unstructured":"D. Guo, J. Wang, Y. Cui, Z. Wang, S. Chen, SiamCAR: Siamese fully convolutional classification and regression for visual tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 6269\u20136277.","DOI":"10.1109\/CVPR42600.2020.00630"},{"issue":"11","key":"10.1016\/j.inffus.2025.103604_b9","doi-asserted-by":"crossref","first-page":"5596","DOI":"10.1109\/TIP.2019.2919201","article-title":"Learning adaptive discriminative correlation filters via temporal consistency preserving spatial feature selection for robust visual object tracking","volume":"28","author":"Xu","year":"2019","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.inffus.2025.103604_b10","doi-asserted-by":"crossref","unstructured":"M. Danelljan, G. Bhat, F.S. Khan, M. Felsberg, Atom: Accurate tracking by overlap maximization, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 4660\u20134669.","DOI":"10.1109\/CVPR.2019.00479"},{"key":"10.1016\/j.inffus.2025.103604_b11","doi-asserted-by":"crossref","unstructured":"M. Danelljan, L.V. Gool, R. Timofte, Probabilistic regression for visual tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 7183\u20137192.","DOI":"10.1109\/CVPR42600.2020.00721"},{"key":"10.1016\/j.inffus.2025.103604_b12","doi-asserted-by":"crossref","first-page":"2610","DOI":"10.1109\/TIP.2019.2950508","article-title":"Distilling channels for efficient deep tracking","volume":"29","author":"Ge","year":"2020","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.inffus.2025.103604_b13","doi-asserted-by":"crossref","unstructured":"C. Zhang, S. Ge, K. Zhang, D. Zeng, Accurate UAV tracking with distance-injected overlap maximization, in: Proceedings of the 28th ACM International Conference on Multimedia, 2020, pp. 565\u2013573.","DOI":"10.1145\/3394171.3413959"},{"issue":"3","key":"10.1016\/j.inffus.2025.103604_b14","doi-asserted-by":"crossref","first-page":"1276","DOI":"10.1109\/TNNLS.2020.2984256","article-title":"Cascaded correlation refinement for robust deep tracking","volume":"32","author":"Ge","year":"2020","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"10.1016\/j.inffus.2025.103604_b15","article-title":"Attention is all you need","volume":"30","author":"Vaswani","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103604_b16","article-title":"Divert more attention to vision-language tracking","author":"Guo","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103604_b17","doi-asserted-by":"crossref","unstructured":"X. Chen, B. Yan, J. Zhu, D. Wang, X. Yang, H. Lu, Transformer tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 8126\u20138135.","DOI":"10.1109\/CVPR46437.2021.00803"},{"key":"10.1016\/j.inffus.2025.103604_b18","doi-asserted-by":"crossref","unstructured":"N. Wang, W. Zhou, J. Wang, H. Li, Transformer meets tracker: Exploiting temporal context for robust visual tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 1571\u20131580.","DOI":"10.1109\/CVPR46437.2021.00162"},{"key":"10.1016\/j.inffus.2025.103604_b19","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2025.102940","article-title":"Multi-modal adapter for RGB-T tracking","volume":"118","author":"Wang","year":"2025","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.inffus.2025.103604_b20","doi-asserted-by":"crossref","unstructured":"K. He, X. Zhang, S. Ren, J. Sun, Deep residual learning for image recognition, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2016, pp. 770\u2013778.","DOI":"10.1109\/CVPR.2016.90"},{"key":"10.1016\/j.inffus.2025.103604_b21","unstructured":"J. Devlin, M.-W. Chang, K. Lee, K. Toutanova, BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, in: Proceedings of NAACL-HLT, 2019, pp. 4171\u20134186."},{"key":"10.1016\/j.inffus.2025.103604_b22","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2025.102941","article-title":"Prototype-based cross-modal object tracking","volume":"118","author":"Liu","year":"2025","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.inffus.2025.103604_b23","doi-asserted-by":"crossref","unstructured":"D. Ma, X. Wu, Capsule-based Object Tracking with Natural Language Specification, in: Proceedings of the 29th ACM International Conference on Multimedia, 2021, pp. 1948\u20131956.","DOI":"10.1145\/3474085.3475349"},{"year":"2024","series-title":"Awesome multi-modal object tracking","author":"Zhang","key":"10.1016\/j.inffus.2025.103604_b24"},{"year":"2024","series-title":"WebUOT-1M: Advancing deep underwater object tracking with a million-scale benchmark","author":"Zhang","key":"10.1016\/j.inffus.2025.103604_b25"},{"key":"10.1016\/j.inffus.2025.103604_b26","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2023.101816","article-title":"Multi-modal multi-task feature fusion for RGBT tracking","volume":"97","author":"Cai","year":"2023","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.inffus.2025.103604_b27","doi-asserted-by":"crossref","unstructured":"K. He, X. Chen, S. Xie, et al., Masked Autoencoders Are Scalable Vision Learners, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 15979\u201315988.","DOI":"10.1109\/CVPR52688.2022.01553"},{"issue":"12","key":"10.1016\/j.inffus.2025.103604_b28","doi-asserted-by":"crossref","first-page":"8600","DOI":"10.1109\/TPAMI.2024.3409078","article-title":"Divert more attention to vision-language object tracking","volume":"46","author":"Guo","year":"2024","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"year":"2018","series-title":"Representation learning with contrastive predictive coding","author":"Oord","key":"10.1016\/j.inffus.2025.103604_b29"},{"key":"10.1016\/j.inffus.2025.103604_b30","doi-asserted-by":"crossref","unstructured":"J. Yang, J. Duan, S. Tran, Y. Xu, S. Chanda, L. Chen, B. Zeng, T. Chilimbi, J. Huang, Vision-Language Pre-Training with Triple Contrastive Learning, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 15671\u201315680.","DOI":"10.1109\/CVPR52688.2022.01522"},{"issue":"2","key":"10.1016\/j.inffus.2025.103604_b31","doi-asserted-by":"crossref","first-page":"439","DOI":"10.1007\/s11263-020-01387-y","article-title":"Lasot: A high-quality large-scale single object tracking benchmark","volume":"129","author":"Fan","year":"2021","journal-title":"Int. J. Comput. Vis."},{"issue":"11","key":"10.1016\/j.inffus.2025.103604_b32","first-page":"13467","article-title":"Towards large-scale small object detection: Survey and benchmarks","volume":"45","author":"Cheng","year":"2023","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.inffus.2025.103604_b33","unstructured":"Z. Zhang, F. Wu, Y. Qiu, J. Liang, S. Li, Tracking Small and Fast Moving Objects: A Benchmark, in: Proceedings of the Asian Conference on Computer Vision, 2022, pp. 4514\u20134530."},{"issue":"9","key":"10.1016\/j.inffus.2025.103604_b34","doi-asserted-by":"crossref","first-page":"1834","DOI":"10.1109\/TPAMI.2014.2388226","article-title":"Object tracking benchmark","volume":"37","author":"Wu","year":"2015","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.inffus.2025.103604_b35","unstructured":"M. Kristan, A. Leonardis, J. Matas, M. Felsberg, R. Pflugfelder, L. \u010cehovin Zajc, T. Vojir, G. Bhat, A. Lukezic, A. Eldesokey, et al., The sixth visual object tracking vot2018 challenge results, in: Proceedings of the European Conference on Computer Vision Workshops, 2018."},{"issue":"5","key":"10.1016\/j.inffus.2025.103604_b36","doi-asserted-by":"crossref","first-page":"1562","DOI":"10.1109\/TPAMI.2019.2957464","article-title":"GOT-10k: A large high-diversity benchmark for generic object tracking in the wild","volume":"43","author":"Huang","year":"2019","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.inffus.2025.103604_b37","doi-asserted-by":"crossref","first-page":"1738","DOI":"10.1109\/TIP.2019.2940477","article-title":"Aggregation signature for small object tracking","volume":"29","author":"Liu","year":"2019","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.inffus.2025.103604_b38","article-title":"Tiny object tracking: A large-scale dataset and a baseline","author":"Zhu","year":"2023","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"10.1016\/j.inffus.2025.103604_b39","doi-asserted-by":"crossref","unstructured":"Q. Feng, V. Ablavsky, Q. Bai, G. Li, S. Sclaroff, Real-time visual object tracking with natural language description, in: IEEE Winter Conference on Applications of Computer Vision, 2020, pp. 700\u2013709.","DOI":"10.1109\/WACV45572.2020.9093425"},{"year":"2018","series-title":"Describe and attend to track: Learning natural language guided structural representation and visual attention for object tracking","author":"Wang","key":"10.1016\/j.inffus.2025.103604_b40"},{"key":"10.1016\/j.inffus.2025.103604_b41","doi-asserted-by":"crossref","unstructured":"L. Zhou, Z. Zhou, K. Mao, Z. He, Joint Visual Grounding and Tracking with Natural Language Specification, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 23151\u201323160.","DOI":"10.1109\/CVPR52729.2023.02217"},{"key":"10.1016\/j.inffus.2025.103604_b42","doi-asserted-by":"crossref","unstructured":"C. Zhang, X. Sun, Y. Yang, L. Liu, Q. Liu, X. Zhou, Y. Wang, All in one: Exploring unified vision-language tracking with multi-modal alignment, in: Proceedings of the 31st ACM International Conference on Multimedia, 2023, pp. 5552\u20135561.","DOI":"10.1145\/3581783.3611803"},{"key":"10.1016\/j.inffus.2025.103604_b43","article-title":"Towards unified token learning for vision-language tracking","author":"Zheng","year":"2023","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"year":"2024","series-title":"MambaTrack: Exploiting dual-enhancement for night UAV tracking","author":"Zhang","key":"10.1016\/j.inffus.2025.103604_b44"},{"year":"2024","series-title":"MambaVLT: Time-evolving multimodal state space model for vision-language tracking","author":"Liu","key":"10.1016\/j.inffus.2025.103604_b45"},{"key":"10.1016\/j.inffus.2025.103604_b46","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2025.103007","article-title":"Deep learning based infrared small object segmentation: Challenges and future directions","volume":"118","author":"Yang","year":"2025","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.inffus.2025.103604_b47","doi-asserted-by":"crossref","unstructured":"X. Yuan, G. Cheng, K. Yan, Q. Zeng, J. Han, Small object detection via coarse-to-fine proposal generation and imitation learning, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2023, pp. 6317\u20136327.","DOI":"10.1109\/ICCV51070.2023.00581"},{"key":"10.1016\/j.inffus.2025.103604_b48","doi-asserted-by":"crossref","first-page":"149","DOI":"10.1016\/j.patrec.2023.02.018","article-title":"Dead pixel test using effective receptive field","volume":"167","author":"Kim","year":"2023","journal-title":"Pattern Recognit. Lett."},{"key":"10.1016\/j.inffus.2025.103604_b49","series-title":"2023 18th International Conference on Machine Vision and Applications","first-page":"1","article-title":"Ensemble fusion for small object detection","author":"Hou","year":"2023"},{"issue":"2","key":"10.1016\/j.inffus.2025.103604_b50","doi-asserted-by":"crossref","first-page":"423","DOI":"10.1109\/TPAMI.2018.2798607","article-title":"Multimodal machine learning: A survey and taxonomy","volume":"41","author":"Baltru\u0161aitis","year":"2018","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.inffus.2025.103604_b51","first-page":"9694","article-title":"Align before fuse: Vision and language representation learning with momentum distillation","volume":"34","author":"Li","year":"2021","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103604_b52","doi-asserted-by":"crossref","unstructured":"J. Duan, L. Chen, S. Tran, J. Yang, Y. Xu, B. Zeng, T. Chilimbi, Multi-modal alignment using representation codebook, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 15651\u201315660.","DOI":"10.1109\/CVPR52688.2022.01520"},{"key":"10.1016\/j.inffus.2025.103604_b53","doi-asserted-by":"crossref","unstructured":"Z. Khan, B. Vijay Kumar, X. Yu, S. Schulter, M. Chandraker, Y. Fu, Single-Stream Multi-Level Alignment for Vision-Language Pretraining, in: European Conference on Computer Vision, 2022, pp. 735\u2013751.","DOI":"10.1007\/978-3-031-20059-5_42"},{"key":"10.1016\/j.inffus.2025.103604_b54","doi-asserted-by":"crossref","unstructured":"C. Li, X. Liu, W. Li, C. Wang, H. Liu, Y. Liu, Z. Chen, Y. Yuan, U-kan makes strong backbone for medical image segmentation and generation, in: Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 39, 2025, pp. 4652\u20134660.","DOI":"10.1609\/aaai.v39i5.32491"},{"key":"10.1016\/j.inffus.2025.103604_b55","doi-asserted-by":"crossref","unstructured":"Y. Huang, C. Li, Z. Lin, H. Liu, H. Xu, Y. Liu, Y. Huang, X. Ding, X. Tu, Y. Yuan, P2SAM: Probabilistically prompted SAMs are efficient segmentator for ambiguous medical images, in: Proceedings of the 32nd ACM International Conference on Multimedia, 2024, pp. 9779\u20139788.","DOI":"10.1145\/3664647.3680628"},{"key":"10.1016\/j.inffus.2025.103604_b56","doi-asserted-by":"crossref","DOI":"10.1016\/j.compbiomed.2021.105067","article-title":"Few-shot medical image segmentation using a global correlation network with discriminative embedding","volume":"140","author":"Sun","year":"2022","journal-title":"Comput. Biol. Med."},{"key":"10.1016\/j.inffus.2025.103604_b57","first-page":"1","article-title":"Hierarchical deep network with uncertainty-aware semi-supervised learning for vessel segmentation","author":"Li","year":"2022","journal-title":"Neural Comput. Appl."},{"key":"10.1016\/j.inffus.2025.103604_b58","first-page":"45578","article-title":"Flaws can be applause: Unleashing potential of segmenting ambiguous objects in SAM","volume":"37","author":"Li","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103604_b59","series-title":"European Conference on Computer Vision","first-page":"168","article-title":"Gtp-4o: Modality-prompted heterogeneous graph learning for omni-modal biomedical representation","author":"Li","year":"2024"},{"key":"10.1016\/j.inffus.2025.103604_b60","doi-asserted-by":"crossref","DOI":"10.1016\/j.compbiomed.2021.105144","article-title":"Domain generalization on medical imaging classification using episodic training with task augmentation","volume":"141","author":"Li","year":"2022","journal-title":"Comput. Biol. Med."},{"year":"2024","series-title":"Vision-language model fine-tuning via simple parameter-efficient modification","author":"Li","key":"10.1016\/j.inffus.2025.103604_b61"},{"key":"10.1016\/j.inffus.2025.103604_b62","unstructured":"A. Dosovitskiy, L. Beyer, A. Kolesnikov, et al., An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale, in: International Conference on Learning Representations, 2020."},{"key":"10.1016\/j.inffus.2025.103604_b63","first-page":"1877","article-title":"Language models are few-shot learners","volume":"33","author":"Brown","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"1","key":"10.1016\/j.inffus.2025.103604_b64","first-page":"5485","article-title":"Exploring the limits of transfer learning with a unified text-to-text transformer","volume":"21","author":"Raffel","year":"2020","journal-title":"J. Mach. Learn. Res."},{"key":"10.1016\/j.inffus.2025.103604_b65","article-title":"Xlnet: Generalized autoregressive pretraining for language understanding","volume":"32","author":"Yang","year":"2019","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103604_b66","doi-asserted-by":"crossref","unstructured":"N. Carion, F. Massa, G. Synnaeve, N. Usunier, A. Kirillov, S. Zagoruyko, End-to-end object detection with transformers, in: European Conference on Computer Vision, 2020, pp. 213\u2013229.","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"10.1016\/j.inffus.2025.103604_b67","doi-asserted-by":"crossref","unstructured":"Z. Liu, Y. Lin, Y. Cao, H. Hu, Y. Wei, Z. Zhang, S. Lin, B. Guo, Swin transformer: Hierarchical vision transformer using shifted windows, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 10012\u201310022.","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"10.1016\/j.inffus.2025.103604_b68","unstructured":"M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan, I. Sutskever, Generative pretraining from pixels, in: International Conference on Machine Learning, 2020, pp. 1691\u20131703."},{"key":"10.1016\/j.inffus.2025.103604_b69","doi-asserted-by":"crossref","unstructured":"X. Chen, S. Xie, K. He, An empirical study of training self-supervised vision transformers, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 9640\u20139649.","DOI":"10.1109\/ICCV48922.2021.00950"},{"key":"10.1016\/j.inffus.2025.103604_b70","doi-asserted-by":"crossref","DOI":"10.1016\/j.inffus.2025.102951","article-title":"ViTs as backbones: Leveraging vision transformers for feature extraction","volume":"118","author":"Elharrouss","year":"2025","journal-title":"Inf. Fusion"},{"key":"10.1016\/j.inffus.2025.103604_b71","doi-asserted-by":"crossref","unstructured":"Z. Xia, X. Pan, S. Song, L.E. Li, G. Huang, Vision transformer with deformable attention, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 4794\u20134803.","DOI":"10.1109\/CVPR52688.2022.00475"},{"key":"10.1016\/j.inffus.2025.103604_b72","doi-asserted-by":"crossref","unstructured":"X. Li, X. Yin, C. Li, et al., Oscar: Object-semantics aligned pre-training for vision-language tasks, in: European Conference on Computer Vision, 2020, pp. 121\u2013137.","DOI":"10.1007\/978-3-030-58577-8_8"},{"key":"10.1016\/j.inffus.2025.103604_b73","doi-asserted-by":"crossref","unstructured":"X. Wang, Q. Huang, A. Celikyilmaz, J. Gao, D. Shen, Y.-F. Wang, W.Y. Wang, L. Zhang, Reinforced cross-modal matching and self-supervised imitation learning for vision-language navigation, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 6629\u20136638.","DOI":"10.1109\/CVPR.2019.00679"},{"key":"10.1016\/j.inffus.2025.103604_b74","doi-asserted-by":"crossref","unstructured":"J. Deng, Z. Yang, et al., Transvg: End-to-end visual grounding with transformers, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 1769\u20131779.","DOI":"10.1109\/ICCV48922.2021.00179"},{"key":"10.1016\/j.inffus.2025.103604_b75","unstructured":"A. Ramesh, M. Pavlov, G. Goh, S. Gray, C. Voss, A. Radford, M. Chen, I. Sutskever, Zero-shot text-to-image generation, in: International Conference on Machine Learning, 2021, pp. 8821\u20138831."},{"key":"10.1016\/j.inffus.2025.103604_b76","first-page":"19822","article-title":"Cogview: Mastering text-to-image generation via transformers","volume":"34","author":"Ding","year":"2021","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103604_b77","doi-asserted-by":"crossref","unstructured":"A. Salvador, E. Gundogdu, L. Bazzani, M. Donoser, Revamping cross-modal recipe retrieval with hierarchical transformers and self-supervised learning, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 15475\u201315484.","DOI":"10.1109\/CVPR46437.2021.01522"},{"key":"10.1016\/j.inffus.2025.103604_b78","doi-asserted-by":"crossref","unstructured":"K. He, H. Fan, Y. Wu, S. Xie, R. Girshick, Momentum contrast for unsupervised visual representation learning, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 9729\u20139738.","DOI":"10.1109\/CVPR42600.2020.00975"},{"key":"10.1016\/j.inffus.2025.103604_b79","unstructured":"T. Chen, S. Kornblith, M. Norouzi, G. Hinton, A simple framework for contrastive learning of visual representations, in: International Conference on Machine Learning, 2020, pp. 1597\u20131607."},{"key":"10.1016\/j.inffus.2025.103604_b80","first-page":"6827","article-title":"What makes for good views for contrastive learning?","volume":"33","author":"Tian","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103604_b81","first-page":"9912","article-title":"Unsupervised learning of visual features by contrasting cluster assignments","volume":"33","author":"Caron","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103604_b82","first-page":"21271","article-title":"Bootstrap your own latent-a new approach to self-supervised learning","volume":"33","author":"Grill","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103604_b83","doi-asserted-by":"crossref","unstructured":"X. Chen, K. He, Exploring simple Siamese representation learning, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 15750\u201315758.","DOI":"10.1109\/CVPR46437.2021.01549"},{"key":"10.1016\/j.inffus.2025.103604_b84","unstructured":"J. Zbontar, L. Jing, I. Misra, Y. LeCun, S. Deny, Barlow twins: Self-supervised learning via redundancy reduction, in: International Conference on Machine Learning, 2021, pp. 12310\u201312320."},{"key":"10.1016\/j.inffus.2025.103604_b85","doi-asserted-by":"crossref","unstructured":"J. Yang, Y. Bisk, J. Gao, Taco: Token-aware cascade contrastive learning for video-text alignment, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2021, pp. 11562\u201311572.","DOI":"10.1109\/ICCV48922.2021.01136"},{"key":"10.1016\/j.inffus.2025.103604_b86","doi-asserted-by":"crossref","unstructured":"Y. Ma, Y. Tang, W. Yang, T. Zhang, J. Zhang, M. Kang, Unifying Visual and Vision-Language Tracking via Contrastive Learning, in: Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 38, 2024, pp. 4107\u20134116.","DOI":"10.1609\/aaai.v38i5.28205"},{"key":"10.1016\/j.inffus.2025.103604_b87","article-title":"Progressive semantic-visual alignment and refinement for vision-language tracking","author":"Liang","year":"2024","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.inffus.2025.103604_b88","series-title":"ICASSP 2024-2024 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"8025","article-title":"Textual tokens classification for multi-modal alignment in vision-language tracking","author":"Mao","year":"2024"},{"key":"10.1016\/j.inffus.2025.103604_b89","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2025.110787","article-title":"Joint feature extraction and alignment in object tracking with vision-language model","volume":"152","author":"Zhu","year":"2025","journal-title":"Eng. Appl. Artif. Intell."},{"key":"10.1016\/j.inffus.2025.103604_b90","doi-asserted-by":"crossref","unstructured":"L. Huang, X. Zhao, K. Huang, Globaltrack: A simple and strong baseline for long-term tracking, in: Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 34, 2020, pp. 11037\u201311044.","DOI":"10.1609\/aaai.v34i07.6758"},{"key":"10.1016\/j.inffus.2025.103604_b91","article-title":"ZoomTrack: target-aware non-uniform resizing for efficient visual tracking","author":"Kou","year":"2023","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.inffus.2025.103604_b92","series-title":"ECCV","first-page":"670","article-title":"Long-term tracking in the wild: A benchmark","author":"Valmadre","year":"2018"},{"year":"2024","series-title":"Towards underwater camouflaged object tracking: An experimental evaluation of SAM and SAM 2","author":"Zhang","key":"10.1016\/j.inffus.2025.103604_b93"},{"issue":"8","key":"10.1016\/j.inffus.2025.103604_b94","doi-asserted-by":"crossref","first-page":"4515","DOI":"10.1109\/TMC.2022.3162892","article-title":"All-day object tracking for unmanned aerial vehicle","volume":"22","author":"Li","year":"2022","journal-title":"IEEE Trans. Mob. Comput."},{"key":"10.1016\/j.inffus.2025.103604_b95","doi-asserted-by":"crossref","unstructured":"J. Ye, C. Fu, G. Zheng, D.P. Paudel, G. Chen, Unsupervised domain adaptation for nighttime aerial tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 8896\u20138905.","DOI":"10.1109\/CVPR52688.2022.00869"},{"key":"10.1016\/j.inffus.2025.103604_b96","doi-asserted-by":"crossref","unstructured":"F. Yu, V. Koltun, T. Funkhouser, Dilated residual networks, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2017, pp. 472\u2013480.","DOI":"10.1109\/CVPR.2017.75"},{"year":"2024","series-title":"Dtvlt: A multi-modal diverse text benchmark for visual language tracking based on llm","author":"Li","key":"10.1016\/j.inffus.2025.103604_b97"},{"key":"10.1016\/j.inffus.2025.103604_b98","doi-asserted-by":"crossref","first-page":"143","DOI":"10.1017\/S0962492900002919","article-title":"Approximation theory of the MLP model in neural networks","volume":"8","author":"Pinkus","year":"1999","journal-title":"Acta Numer."},{"key":"10.1016\/j.inffus.2025.103604_b99","doi-asserted-by":"crossref","unstructured":"H. Rezatofighi, N. Tsoi, J. Gwak, A. Sadeghian, I. Reid, S. Savarese, Generalized intersection over union: A metric and a loss for bounding box regression, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 658\u2013666.","DOI":"10.1109\/CVPR.2019.00075"},{"key":"10.1016\/j.inffus.2025.103604_b100","doi-asserted-by":"crossref","unstructured":"J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, L. Fei-Fei, Imagenet: A large-scale hierarchical image database, in: IEEE Conference on Computer Vision and Pattern Recognition, 2009, pp. 248\u2013255.","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"10.1016\/j.inffus.2025.103604_b101","doi-asserted-by":"crossref","unstructured":"M. Muller, A. Bibi, S. Giancola, S. Alsubaihi, B. Ghanem, Trackingnet: A large-scale dataset and benchmark for object tracking in the wild, in: European Conference on Computer Vision, 2018, pp. 300\u2013317.","DOI":"10.1007\/978-3-030-01246-5_19"},{"key":"10.1016\/j.inffus.2025.103604_b102","doi-asserted-by":"crossref","unstructured":"T.-Y. Lin, M. Maire, S. Belongie, et al., Microsoft coco: Common objects in context, in: European Conference on Computer Vision, 2014, pp. 740\u2013755.","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"10.1016\/j.inffus.2025.103604_b103","unstructured":"A. Radford, J.W. Kim, C. Hallacy, et al., Learning transferable visual models from natural language supervision, in: International Conference on Machine Learning, 2021, pp. 8748\u20138763."},{"key":"10.1016\/j.inffus.2025.103604_b104","doi-asserted-by":"crossref","first-page":"486","DOI":"10.1109\/TMM.2021.3128047","article-title":"Anti-UAV: A large-scale benchmark for vision-based UAV tracking","volume":"25","author":"Jiang","year":"2023","journal-title":"IEEE Trans. Multimed."},{"key":"10.1016\/j.inffus.2025.103604_b105","doi-asserted-by":"crossref","unstructured":"L. Bertinetto, J. Valmadre, J.F. Henriques, A. Vedaldi, P.H. Torr, Fully-convolutional Siamese networks for object tracking, in: European Conference on Computer Vision Workshops, 2016, pp. 850\u2013865.","DOI":"10.1007\/978-3-319-48881-3_56"},{"key":"10.1016\/j.inffus.2025.103604_b106","doi-asserted-by":"crossref","unstructured":"M. Danelljan, G. Bhat, F. Shahbaz Khan, M. Felsberg, Eco: Efficient convolution operators for tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2017, pp. 6638\u20136646.","DOI":"10.1109\/CVPR.2017.733"},{"key":"10.1016\/j.inffus.2025.103604_b107","doi-asserted-by":"crossref","unstructured":"Y. Song, C. Ma, X. Wu, L. Gong, L. Bao, W. Zuo, C. Shen, R.W. Lau, M.-H. Yang, Vital: Visual tracking via adversarial learning, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 8990\u20138999.","DOI":"10.1109\/CVPR.2018.00937"},{"key":"10.1016\/j.inffus.2025.103604_b108","doi-asserted-by":"crossref","unstructured":"M. Danelljan, G. Bhat, F.S. Khan, et al., ATOM: Accurate Tracking by Overlap Maximization, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 4660\u20134669.","DOI":"10.1109\/CVPR.2019.00479"},{"key":"10.1016\/j.inffus.2025.103604_b109","doi-asserted-by":"crossref","unstructured":"B. Li, W. Wu, Q. Wang, et al., SiamRPN++: Evolution of Siamese Visual Tracking With Very Deep Networks, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 4282\u20134291.","DOI":"10.1109\/CVPR.2019.00441"},{"key":"10.1016\/j.inffus.2025.103604_b110","doi-asserted-by":"crossref","unstructured":"G. Bhat, M. Danelljan, L.V. Gool, R. Timofte, Learning discriminative model prediction for tracking, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2019, pp. 6182\u20136191.","DOI":"10.1109\/ICCV.2019.00628"},{"key":"10.1016\/j.inffus.2025.103604_b111","doi-asserted-by":"crossref","unstructured":"G. Bhat, M. Danelljan, L.V. Gool, R. Timofte, Know your surroundings: Exploiting scene information for object tracking, in: European Conference on Computer Vision, 2020, pp. 205\u2013221.","DOI":"10.1007\/978-3-030-58592-1_13"},{"key":"10.1016\/j.inffus.2025.103604_b112","doi-asserted-by":"crossref","unstructured":"Y. Xu, Z. Wang, Z. Li, Y. Yuan, G. Yu, SiamFC++: Towards robust and accurate visual tracking with target estimation guidelines, in: Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 34, 2020, pp. 12549\u201312556.","DOI":"10.1609\/aaai.v34i07.6944"},{"key":"10.1016\/j.inffus.2025.103604_b113","doi-asserted-by":"crossref","unstructured":"Z. Chen, B. Zhong, G. Li, S. Zhang, R. Ji, Siamese Box Adaptive Network for Visual Tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 6667\u20136676.","DOI":"10.1109\/CVPR42600.2020.00670"},{"key":"10.1016\/j.inffus.2025.103604_b114","doi-asserted-by":"crossref","unstructured":"B. Yan, H. Peng, K. Wu, D. Wang, J. Fu, H. Lu, LightTrack: Finding Lightweight Neural Networks for Object Tracking via One-Shot Architecture Search, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 15180\u201315189.","DOI":"10.1109\/CVPR46437.2021.01493"},{"key":"10.1016\/j.inffus.2025.103604_b115","doi-asserted-by":"crossref","unstructured":"D. Guo, Y. Shao, Y. Cui, Z. Wang, L. Zhang, C. Shen, Graph attention tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 9543\u20139552.","DOI":"10.1109\/CVPR46437.2021.00942"},{"key":"10.1016\/j.inffus.2025.103604_b116","doi-asserted-by":"crossref","unstructured":"Z. Fu, Q. Liu, Z. Fu, Y. Wang, Stmtrack: Template-free visual tracking with space-time memory networks, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 13774\u201313783.","DOI":"10.1109\/CVPR46437.2021.01356"},{"key":"10.1016\/j.inffus.2025.103604_b117","doi-asserted-by":"crossref","unstructured":"Z. Zhang, Y. Liu, X. Wang, B. Li, W. Hu, Learn to match: Automatic matching network design for visual tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 13339\u201313348.","DOI":"10.1109\/ICCV48922.2021.01309"},{"key":"10.1016\/j.inffus.2025.103604_b118","doi-asserted-by":"crossref","unstructured":"Z. Cao, C. Fu, J. Ye, B. Li, Y. Li, HiFT: Hierarchical Feature Transformer for Aerial Tracking, in: Proceedings of the IEEE International Conference on Computer Vision, 2021, pp. 15457\u201315466.","DOI":"10.1109\/ICCV48922.2021.01517"},{"key":"10.1016\/j.inffus.2025.103604_b119","doi-asserted-by":"crossref","unstructured":"B. Yan, H. Peng, J. Fu, D. Wang, H. Lu, Learning spatio-temporal transformer for visual tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 10448\u201310457.","DOI":"10.1109\/ICCV48922.2021.01028"},{"key":"10.1016\/j.inffus.2025.103604_b120","doi-asserted-by":"crossref","unstructured":"Z. Cao, Z. Huang, L. Pan, S. Zhang, Z. Liu, C. Fu, TCTrack: Temporal contexts for aerial tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 14798\u201314808.","DOI":"10.1109\/CVPR52688.2022.01438"},{"key":"10.1016\/j.inffus.2025.103604_b121","doi-asserted-by":"crossref","unstructured":"M. Guo, Z. Zhang, H. Fan, L. Jing, Y. Lyu, B. Li, W. Hu, Learning target-aware representation for visual tracking via informative interactions, in: International Joint Conference on Artificial Intelligence, 2022.","DOI":"10.24963\/ijcai.2022\/130"},{"key":"10.1016\/j.inffus.2025.103604_b122","doi-asserted-by":"crossref","unstructured":"B. Ye, H. Chang, B. Ma, S. Shan, X. Chen, Joint feature learning and relation modeling for tracking: A one-stream framework, in: European Conference on Computer Vision, 2022, pp. 341\u2013357.","DOI":"10.1007\/978-3-031-20047-2_20"},{"key":"10.1016\/j.inffus.2025.103604_b123","doi-asserted-by":"crossref","unstructured":"S. Li, Y. Yang, D. Zeng, X. Wang, Adaptive and background-aware vision transformer for real-time UAV tracking, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2023, pp. 13989\u201314000.","DOI":"10.1109\/ICCV51070.2023.01286"},{"key":"10.1016\/j.inffus.2025.103604_b124","doi-asserted-by":"crossref","unstructured":"S. Gao, C. Zhou, J. Zhang, Generalized Relation Modeling for Transformer Tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 18686\u201318695.","DOI":"10.1109\/CVPR52729.2023.01792"},{"key":"10.1016\/j.inffus.2025.103604_b125","doi-asserted-by":"crossref","unstructured":"X. Wei, Y. Bai, Y. Zheng, D. Shi, Y. Gong, Autoregressive visual tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 9697\u20139706.","DOI":"10.1109\/CVPR52729.2023.00935"},{"key":"10.1016\/j.inffus.2025.103604_b126","doi-asserted-by":"crossref","unstructured":"X. Chen, H. Peng, D. Wang, H. Lu, H. Hu, SeqTrack: Sequence to Sequence Learning for Visual Object Tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 14572\u201314581.","DOI":"10.1109\/CVPR52729.2023.01400"},{"key":"10.1016\/j.inffus.2025.103604_b127","doi-asserted-by":"crossref","unstructured":"X. Li, Y. Huang, Z. He, Y. Wang, H. Lu, M.-H. Yang, CiteTracker: Correlating Image and Text for Visual Tracking, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2023, pp. 9974\u20139983.","DOI":"10.1109\/ICCV51070.2023.00915"},{"key":"10.1016\/j.inffus.2025.103604_b128","doi-asserted-by":"crossref","unstructured":"B. Li, W. Wu, Q. Wang, F. Zhang, J. Xing, J. Yan, SiamRPN++: Evolution of Siamese visual tracking with very deep networks, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 4282\u20134291.","DOI":"10.1109\/CVPR.2019.00441"},{"key":"10.1016\/j.inffus.2025.103604_b129","doi-asserted-by":"crossref","unstructured":"P. Voigtlaender, J. Luiten, P.H. Torr, B. Leibe, Siam r-cnn: Visual tracking by re-detection, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 6578\u20136588.","DOI":"10.1109\/CVPR42600.2020.00661"},{"key":"10.1016\/j.inffus.2025.103604_b130","doi-asserted-by":"crossref","unstructured":"B. Chen, P. Li, L. Bai, et al., Backbone is all your need: a simplified architecture for visual object tracking, in: European Conference on Computer Vision, 2022, pp. 375\u2013392.","DOI":"10.1007\/978-3-031-20047-2_22"},{"key":"10.1016\/j.inffus.2025.103604_b131","doi-asserted-by":"crossref","unstructured":"K. He, X. Chen, S. Xie, et al., Masked autoencoders are scalable vision learners, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 16000\u201316009.","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"10.1016\/j.inffus.2025.103604_b132","doi-asserted-by":"crossref","unstructured":"B. Li, J. Yan, W. Wu, Z. Zhu, X. Hu, High performance visual tracking with Siamese region proposal network, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2018, pp. 8971\u20138980.","DOI":"10.1109\/CVPR.2018.00935"},{"key":"10.1016\/j.inffus.2025.103604_b133","doi-asserted-by":"crossref","unstructured":"J. Pennington, R. Socher, C.D. Manning, Glove: Global vectors for word representation, in: Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing, 2014, pp. 1532\u20131543.","DOI":"10.3115\/v1\/D14-1162"},{"key":"10.1016\/j.inffus.2025.103604_b134","doi-asserted-by":"crossref","unstructured":"Y. Chen, C. Zhang, L. Liu, C. Feng, C. Dong, Y. Luo, X. Wan, USCL: pretraining deep ultrasound image diagnosis model through video contrastive representation learning, in: Medical Image Computing and Computer Assisted Intervention, 2021, pp. 627\u2013637.","DOI":"10.1007\/978-3-030-87237-3_60"},{"key":"10.1016\/j.inffus.2025.103604_b135","doi-asserted-by":"crossref","unstructured":"C. Zhang, Y. Chen, L. Liu, Q. Liu, X. Zhou, Hico: hierarchical contrastive learning for ultrasound video model pretraining, in: Proceedings of the Asian Conference on Computer Vision, 2022, pp. 229\u2013246.","DOI":"10.1007\/978-3-031-26351-4_1"},{"issue":"11","key":"10.1016\/j.inffus.2025.103604_b136","article-title":"Visualizing data using t-SNE","volume":"9","author":"Van der Maaten","year":"2008","journal-title":"J. Mach. Learn. Res."},{"key":"10.1016\/j.inffus.2025.103604_b137","first-page":"1106","article-title":"ImageNet classification with deep convolutional neural networks","author":"Krizhevsky","year":"2012","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"55","key":"10.1016\/j.inffus.2025.103604_b138","first-page":"1","article-title":"Neural architecture search: A survey","volume":"20","author":"Elsken","year":"2019","journal-title":"J. Mach. Learn. Res."},{"issue":"5","key":"10.1016\/j.inffus.2025.103604_b139","doi-asserted-by":"crossref","first-page":"829","DOI":"10.1162\/neco_a_01273","article-title":"A survey on deep learning for multimodal data fusion","volume":"32","author":"Gao","year":"2020","journal-title":"Neural Comput."},{"year":"2023","series-title":"Mamba: Linear-time sequence modeling with selective state spaces","author":"Gu","key":"10.1016\/j.inffus.2025.103604_b140"},{"key":"10.1016\/j.inffus.2025.103604_b141","doi-asserted-by":"crossref","unstructured":"X. Li, B. Zhong, Q. Liang, Z. Mo, J. Nong, S. Song, Dynamic Updates for Language Adaptation in Visual-Language Tracking, in: Proceedings of the Computer Vision and Pattern Recognition Conference, 2025, pp. 19165\u201319174.","DOI":"10.1109\/CVPR52734.2025.01785"},{"key":"10.1016\/j.inffus.2025.103604_b142","first-page":"14903","article-title":"MemVLT: Vision-language tracking with adaptive memory-based prompts","volume":"37","author":"Feng","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"year":"2019","series-title":"DistilBERT, a distilled version of BERT: smaller, faster, cheaper and lighter","author":"Sanh","key":"10.1016\/j.inffus.2025.103604_b143"},{"year":"2020","series-title":"Mobilebert: a compact task-agnostic bert for resource-limited devices","author":"Sun","key":"10.1016\/j.inffus.2025.103604_b144"},{"issue":"11","key":"10.1016\/j.inffus.2025.103604_b145","doi-asserted-by":"crossref","first-page":"2137","DOI":"10.1109\/TPAMI.2016.2516982","article-title":"A novel performance evaluation methodology for single-target trackers","volume":"38","author":"Kristan","year":"2016","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"year":"2024","series-title":"SAM 2: Segment anything in images and videos","author":"Ravi","key":"10.1016\/j.inffus.2025.103604_b146"},{"year":"2023","series-title":"A comprehensive survey on segment anything model for vision and beyond","author":"Zhang","key":"10.1016\/j.inffus.2025.103604_b147"}],"container-title":["Information Fusion"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1566253525006761?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1566253525006761?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2025,9,10]],"date-time":"2025-09-10T15:27:51Z","timestamp":1757518071000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S1566253525006761"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,2]]},"references-count":147,"alternative-id":["S1566253525006761"],"URL":"https:\/\/doi.org\/10.1016\/j.inffus.2025.103604","relation":{},"ISSN":["1566-2535"],"issn-type":[{"type":"print","value":"1566-2535"}],"subject":[],"published":{"date-parts":[[2026,2]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"COST: Contrastive one-stage transformer for vision-language small object tracking","name":"articletitle","label":"Article Title"},{"value":"Information Fusion","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.inffus.2025.103604","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2025 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"103604"}}