{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,26]],"date-time":"2026-01-26T10:43:01Z","timestamp":1769424181283,"version":"3.49.0"},"reference-count":42,"publisher":"Springer Science and Business Media LLC","issue":"10","license":[{"start":{"date-parts":[[2025,7,9]],"date-time":"2025-07-09T00:00:00Z","timestamp":1752019200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,7,9]],"date-time":"2025-07-09T00:00:00Z","timestamp":1752019200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100004479","name":"Jiangxi Provincial Natural Science Foundation","doi-asserted-by":"crossref","award":["20242BAB25058"],"award-info":[{"award-number":["20242BAB25058"]}],"id":[{"id":"10.13039\/501100004479","id-type":"DOI","asserted-by":"crossref"}]},{"DOI":"10.13039\/501100004479","name":"Jiangxi Provincial Natural Science Foundation","doi-asserted-by":"crossref","award":["20242BAB25075"],"award-info":[{"award-number":["20242BAB25075"]}],"id":[{"id":"10.13039\/501100004479","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["SIViP"],"published-print":{"date-parts":[[2025,10]]},"DOI":"10.1007\/s11760-025-04495-9","type":"journal-article","created":{"date-parts":[[2025,7,10]],"date-time":"2025-07-10T09:56:44Z","timestamp":1752141404000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Double Softmax Attention Backbone for Visual Tracking by Unifying Feature Extraction and Fusion"],"prefix":"10.1007","volume":"19","author":[{"given":"Yuanyun","family":"Wang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Geng","family":"Gu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jilong","family":"Liu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yingzhen","family":"Si","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jun","family":"Wang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,7,9]]},"reference":[{"key":"4495_CR1","doi-asserted-by":"crossref","unstructured":"Cui, Y., Jiang, C., Wang, L., Wu, G.: Mixformer: End-to-end tracking with iterative mixed attention, in: IEEE Conference on Computer Vision and Pattern Recognition, (2022), pp. 13598\u201313608","DOI":"10.1109\/CVPR52688.2022.01324"},{"key":"4495_CR2","unstructured":"Katharopoulos, A., Vyas, A., Pappas, N., Fleuret, F.: Transformers are RNNs: Fast autoregressive transformers with linear attention, in: International Conference on Machine Learning, (2020), pp. 5156\u20135165"},{"key":"4495_CR3","doi-asserted-by":"crossref","unstructured":"Bertinetto, L., Valmadre, J., Henriques, JF., Vedaldi, A., Torr, PHS.: Fully-convolutional siamese networks for object tracking, in: European Conference on Computer Vision, (2016), pp. 850\u2013865","DOI":"10.1007\/978-3-319-48881-3_56"},{"key":"4495_CR4","doi-asserted-by":"crossref","unstructured":"Wang, N., Zhou, W., Wang, J., Li, H.: Transformer meets tracker: Exploiting temporal context for robust visual tracking, in: IEEE Conference on Computer Vision and Pattern Recognition, (2021), pp. 1571\u20131580","DOI":"10.1109\/CVPR46437.2021.00162"},{"key":"4495_CR5","doi-asserted-by":"crossref","unstructured":"Chen, X., Yan, B., Zhu, J., Wang, D., Yang, X., Lu, H.: Transformer tracking, in: IEEE Conference on Computer Vision and Pattern Recognition, (2021), pp. 8122\u20138131","DOI":"10.1109\/CVPR46437.2021.00803"},{"key":"4495_CR6","doi-asserted-by":"crossref","unstructured":"Li, X., Zhong, B., Liang, Q., Li, G., Mo, Z., Song, S.: Mambalct: Boosting tracking via long-term context state space model, in: AAAI Conference on Artificial Intelligence, (2025), pp. 4986\u20134994","DOI":"10.1609\/aaai.v39i5.32528"},{"key":"4495_CR7","doi-asserted-by":"crossref","unstructured":"Xie, J., Zhong, B., Liang, Q., Li, N., Mo, Z., Song, S.: Robust tracking via mamba-based context-aware token learning, in: AAAI Conference on Artificial Intelligence, (2025), pp. 8727\u20138735","DOI":"10.1609\/aaai.v39i8.32943"},{"key":"4495_CR8","doi-asserted-by":"crossref","unstructured":"Yang, K., Zhang, H., Shi, J., Ma, J.: Bandt: A border-aware network with deformable transformers for visual tracking, IEEE Transactions on Consumer Electronics (2023) 377\u2013390","DOI":"10.1109\/TCE.2023.3251407"},{"key":"4495_CR9","unstructured":"Lin, L., Fan, H., Zhang, Z., Xu, Y., Ling, H.: Swintrack: A simple and strong baseline for transformer tracking, Advances in Neural Information Processing Systems (2022) 16743\u201316754"},{"key":"4495_CR10","doi-asserted-by":"crossref","unstructured":"Fu, Z., Fu, Z., Liu, Q., Cai, W., Wang, Y.: Sparsett: Visual tracking with sparse transformers, in: IEEE Conference on Computer Vision and Pattern Recognition, (2022), pp. 1\u20137","DOI":"10.24963\/ijcai.2022\/127"},{"key":"4495_CR11","doi-asserted-by":"crossref","unstructured":"Wang, W., Xie, E., Li, X., Fan, DP., Song, K., Liang, D., Lu, T., Luo, P., Shao, L.: Pyramid vision transformer: A versatile backbone for dense prediction without convolutions, in: International Conference on Computer Vision, (2021), pp. 548\u2013558","DOI":"10.1109\/ICCV48922.2021.00061"},{"key":"4495_CR12","doi-asserted-by":"crossref","unstructured":"Zhuoran, S., Mingyuan, Z., Haiyu, Z., Shuai, Y., Hongsheng, L.: Efficient attention: Attention with linear complexities, in: IEEE Winter Conference on Applications of Computer Vision, (2021), pp. 3530\u20133538","DOI":"10.1109\/WACV48630.2021.00357"},{"key":"4495_CR13","doi-asserted-by":"crossref","unstructured":"Han, D., Pan, X., Han, Y., Song, S., Huang, G.: Flatten transformer: Vision transformer using focused linear attention, in: International Conference on Computer Vision, (2023), pp. 5961\u20135971","DOI":"10.1109\/ICCV51070.2023.00548"},{"key":"4495_CR14","doi-asserted-by":"crossref","unstructured":"Duan, K., Bai, S., Xie, L., Qi, H., Huang, Q., Tian, Q.: Centernet: Keypoint triplets for object detection, in: International Conference on Computer Vision, (2019), pp. 6568\u20136577","DOI":"10.1109\/ICCV.2019.00667"},{"key":"4495_CR15","doi-asserted-by":"crossref","unstructured":"Rezatofighi, H., Tsoi, N., Gwak, J., Sadeghian, A., Reid, I., Savarese, S.: Generalized intersection over union: A metric and a loss for bounding box regression, in: IEEE Conference on Computer Vision and Pattern Recognition, (2019), pp. 658\u2013666","DOI":"10.1109\/CVPR.2019.00075"},{"key":"4495_CR16","doi-asserted-by":"crossref","unstructured":"Wang, J., Yin, P., Wang, Y., Yang, W.: Cmat: Integrating convolution mixer and self-attention for visual tracking, IEEE Transactions on Multimedia (2024) 326\u2013338","DOI":"10.1109\/TMM.2023.3264851"},{"key":"4495_CR17","doi-asserted-by":"crossref","unstructured":"Li, X., Wei, G., Jiang, M., Zhou, W.: Hierarchical siamese network for real-time visual tracking, Expert Systems with Applications (2024) 121651","DOI":"10.1016\/j.eswa.2023.121651"},{"key":"4495_CR18","doi-asserted-by":"crossref","unstructured":"Wang, J., Lai, C., Wang, Y., Zhang, W.: Emat: Efficient feature fusion network for visual tracking via optimized multi-head attention, Neural Networks (2024) 106110","DOI":"10.1016\/j.neunet.2024.106110"},{"key":"4495_CR19","doi-asserted-by":"crossref","unstructured":"Shao, Y., He, S., Ye, Q., Feng, Y., Luo, W., Chen, J.: Context-aware integration of language and visual references for natural language tracking, in: IEEE Conference on Computer Vision and Pattern Recognition, (2024), pp. 19208\u201319217","DOI":"10.1109\/CVPR52733.2024.01817"},{"key":"4495_CR20","doi-asserted-by":"crossref","unstructured":"Wang, Y., Sun, C, Wang, J., Chai, B.: Dual knowledge distillation for visual tracking with teacher\u2013student network, Signal, Image and Video Processing (2024) 5203\u20135211","DOI":"10.1007\/s11760-024-03226-w"},{"key":"4495_CR21","doi-asserted-by":"crossref","unstructured":"Zhu, J., Chen, X., Zhang, P., Wang, X., Wang, D., Zhao, W., Lu, H.: Srrt: Exploring search region regulation for visual object tracking, IEEE Transactions on Circuits and Systems for Video Technology (2024) 10551\u201310563","DOI":"10.1109\/TCSVT.2024.3409898"},{"key":"4495_CR22","doi-asserted-by":"crossref","unstructured":"Wang, J., Meng, C., Deng, C., Wang, Y.: Learning convolutional self-attention module for unmanned aerial vehicle tracking, Signal, Image and Video Processing (2023) 2323\u20132331","DOI":"10.1007\/s11760-022-02449-z"},{"key":"4495_CR23","doi-asserted-by":"crossref","unstructured":"Wang, J., Lai, C., Zhang, W., Wang, Y., Meng, C.: Transformer tracking with multi-scale dual-attention, Complex & Intelligent Systems (2023) 5793\u20135806","DOI":"10.1007\/s40747-023-01043-1"},{"key":"4495_CR24","doi-asserted-by":"crossref","unstructured":"Nie, J., He, Z., Yang, Y., Gao, M., Dong, Z.: Learning localization-aware target confidence for siamese visual tracking, IEEE Transactions on Multimedia (2023) 6194\u20136206","DOI":"10.1109\/TMM.2022.3206668"},{"key":"4495_CR25","doi-asserted-by":"crossref","unstructured":"Kang, B., Chen, X., Wang, D., Peng, H., Lu, H.: Exploring lightweight hierarchical vision transformers for efficient visual tracking, in: International Conference on Computer Vision, (2023), pp. 9612\u20139621","DOI":"10.1109\/ICCV51070.2023.00881"},{"key":"4495_CR26","doi-asserted-by":"crossref","unstructured":"Xing, D., Evangeliou, N., Tsoukalas, A., Tzes, A.: Siamese transformer pyramid networks for real-time uav tracking, in: IEEE Winter Conference on Applications of Computer Vision, (2022), pp. 1898\u20131907","DOI":"10.1109\/WACV51458.2022.00196"},{"key":"4495_CR27","unstructured":"Shen, Q., Li, X., Meng, F., Liang, Y.: Context-aware visual tracking with joint meta-updating, arXiv preprint arXiv:2204.01513 (2022) 1\u20139"},{"key":"4495_CR28","doi-asserted-by":"crossref","unstructured":"Guo, M., Zhang, Z., Fan, H., Jing, L., Lyu, Y., Li, B., Hu, W.: Learning target-aware representation for visual tracking via informative interactions, in: International Joint Conference on Artificial Intelligence, (2022), pp. 927\u2013934","DOI":"10.24963\/ijcai.2022\/130"},{"key":"4495_CR29","doi-asserted-by":"crossref","unstructured":"Yan, B., Peng, H., Fu, J., Wang, D., Lu, H.: Learning spatio-temporal transformer for visual tracking, in: International Conference on Computer Vision, (2021), pp. 10428\u201310437","DOI":"10.1109\/ICCV48922.2021.01028"},{"key":"4495_CR30","doi-asserted-by":"crossref","unstructured":"Xie, F., Wang, C., Wang, G., Yang, W., Zeng, W.: Learning tracking representations via dual-branch fully transformer networks, in: International Conference on Computer Vision, (2021), pp. 2688\u20132697","DOI":"10.1109\/ICCVW54120.2021.00303"},{"key":"4495_CR31","unstructured":"Cui, Y., Jiang, C., Wang, L., Wu, G.: Target transformed regression for accurate tracking, arXiv preprint arXiv:2104.00403 (2021) 1\u201310"},{"key":"4495_CR32","doi-asserted-by":"crossref","unstructured":"Zhang, Z., Liu, Y., Wang, X., Li, B., Hu, W.: Learn to match: Automatic matching network design for visual tracking, in: International Conference on Computer Vision, (2021), pp. 13339\u201313348","DOI":"10.1109\/ICCV48922.2021.01309"},{"key":"4495_CR33","doi-asserted-by":"crossref","unstructured":"Zhang, Z., Peng, H., Fu, J., Li, B., Hu, W.: Ocean: Object-aware anchor-free tracking, in: European Conference on Computer Vision, (2020), pp. 771\u2013787","DOI":"10.1007\/978-3-030-58589-1_46"},{"key":"4495_CR34","doi-asserted-by":"crossref","unstructured":"Li, B., Wu, W., Wang, Q., Zhang, F., Xing, J., Yan, J.: Siamrpn++: Evolution of siamese visual tracking with very deep networks, in: IEEE Conference on Computer Vision and Pattern Recognition, (2019), pp. 4282\u20134291","DOI":"10.1109\/CVPR.2019.00441"},{"key":"4495_CR35","doi-asserted-by":"crossref","unstructured":"Wang, X., Shu, X., Zhang, Z., Jiang, B., Wang, Y., Tian, Y., Wu, F.: Towards more flexible and accurate object tracking with natural language: Algorithms and benchmark, in: IEEE Conference on Computer Vision and Pattern Recognition, (2021), pp. 13763\u201313773","DOI":"10.1109\/CVPR46437.2021.01355"},{"key":"4495_CR36","doi-asserted-by":"crossref","unstructured":"Kiani Galoogahi, H., Fagg, A., Huang, C., Ramanan, D., Lucey, S.: Need for speed: A benchmark for higher frame rate object tracking, in: International Conference on Computer Vision, (2017), pp. 1125\u20131134","DOI":"10.1109\/ICCV.2017.128"},{"key":"4495_CR37","doi-asserted-by":"crossref","unstructured":"Fan, H., Lin, L., Yang, F., Chu, P., Deng, G., Yu, S., Bai, H., Xu, Y., Liao, C., Ling, H.: Lasot: A high-quality benchmark for large-scale single object tracking, in: IEE Conference on Computer Vision and Pattern Recognition, (2019), pp. 5374\u20135383","DOI":"10.1109\/CVPR.2019.00552"},{"key":"4495_CR38","doi-asserted-by":"crossref","unstructured":"Mueller, M., Smith, N., Ghanem, B.: A benchmark and simulator for uav tracking, in: European Conference on Computer Vision, (2016), pp. 445\u2013461","DOI":"10.1007\/978-3-319-46448-0_27"},{"key":"4495_CR39","doi-asserted-by":"crossref","unstructured":"Huang, L., Zhao, X., Huang, K.: Got-10k: A large high-diversity benchmark for generic object tracking in the wild, IEEE Transactions on Pattern Analysis and Machine Intelligence (2021) 1562\u20131577","DOI":"10.1109\/TPAMI.2019.2957464"},{"key":"4495_CR40","doi-asserted-by":"crossref","unstructured":"Muller, M., Bibi, A., Giancola, S., Alsubaihi, S., Ghanem, B.: Trackingnet: A large-scale dataset and benchmark for object tracking in the wild, in: European Conference on Computer Vision, (2018), pp. 300\u2013317","DOI":"10.1007\/978-3-030-01246-5_19"},{"key":"4495_CR41","unstructured":"Guo, M., Zhang, Z., Fan, H., Jing, L.: Divert more attention to vision-language tracking, in: Advances in Neural Information Processing Systems, (2022), pp. 4446\u20134460"},{"key":"4495_CR42","doi-asserted-by":"crossref","unstructured":"Lin, TY., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Doll\u00e1r, P., Zitnick, CL.: Microsoft coco: Common objects in context, in: European Conference on Computer Vision, (2014), pp. 740\u2013755","DOI":"10.1007\/978-3-319-10602-1_48"}],"container-title":["Signal, Image and Video Processing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11760-025-04495-9.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11760-025-04495-9\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11760-025-04495-9.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,7,22]],"date-time":"2025-07-22T12:47:57Z","timestamp":1753188477000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11760-025-04495-9"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,7,9]]},"references-count":42,"journal-issue":{"issue":"10","published-print":{"date-parts":[[2025,10]]}},"alternative-id":["4495"],"URL":"https:\/\/doi.org\/10.1007\/s11760-025-04495-9","relation":{},"ISSN":["1863-1703","1863-1711"],"issn-type":[{"value":"1863-1703","type":"print"},{"value":"1863-1711","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,7,9]]},"assertion":[{"value":"30 March 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"31 May 2025","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"1 July 2025","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"9 July 2025","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"Written informed consent for publication of this paper was obtained from the School of Information Engineering, Nanchang Institute of Technology and all authors.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethical Approval"}}],"article-number":"865"}}