{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,25]],"date-time":"2026-05-25T07:04:40Z","timestamp":1779692680878,"version":"3.53.1"},"reference-count":75,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"funder":[{"DOI":"10.13039\/501100009103","name":"Education Department of Shaanxi Province","doi-asserted-by":"publisher","award":["21JK0468"],"award-info":[{"award-number":["21JK0468"]}],"id":[{"id":"10.13039\/501100009103","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100017591","name":"Key Industry Innovation Chain of Shaanxi","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100017591","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["61673318"],"award-info":[{"award-number":["61673318"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Image and Vision Computing"],"published-print":{"date-parts":[[2026,7]]},"DOI":"10.1016\/j.imavis.2026.105982","type":"journal-article","created":{"date-parts":[[2026,4,17]],"date-time":"2026-04-17T16:21:21Z","timestamp":1776442881000},"page":"105982","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["\u201cSeparate-coupled\u201d hierarchical framework for accurate visual object tracking"],"prefix":"10.1016","volume":"171","author":[{"ORCID":"https:\/\/orcid.org\/0009-0003-6108-2097","authenticated-orcid":false,"given":"Long","family":"Liu","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Kang","family":"Liu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zhen","family":"Wei","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Jiaqi","family":"Wang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"key":"10.1016\/j.imavis.2026.105982_b1","series-title":"2010 20th International Conference on Pattern Recognition","first-page":"1698","article-title":"Multiple human tracking based on multi-view upper-body detection and discriminative learning","author":"Xing","year":"2010"},{"key":"10.1016\/j.imavis.2026.105982_b2","article-title":"Attentiontrack: Multiple object tracking in traffic scenarios using features attention","author":"Zhang","year":"2023","journal-title":"IEEE Trans. Intell. Transp. Syst."},{"key":"10.1016\/j.imavis.2026.105982_b3","series-title":"Proceedings of the 21st International Conference on Pattern Recognition (ICPR2012)","first-page":"565","article-title":"Hand posture recognition using finger geometric feature","author":"Liu","year":"2012"},{"key":"10.1016\/j.imavis.2026.105982_b4","doi-asserted-by":"crossref","DOI":"10.1016\/j.imavis.2023.104760","article-title":"Visual tracking using transformer with a combination of convolution and attention","volume":"137","author":"Wang","year":"2023","journal-title":"Image Vis. Comput."},{"key":"10.1016\/j.imavis.2026.105982_b5","doi-asserted-by":"crossref","unstructured":"Xin Chen, Bin Yan, Jiawen Zhu, Dong Wang, Xiaoyun Yang, Huchuan Lu, Transformer tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 8126\u20138135.","DOI":"10.1109\/CVPR46437.2021.00803"},{"key":"10.1016\/j.imavis.2026.105982_b6","doi-asserted-by":"crossref","unstructured":"Zikai Song, Junqing Yu, Yi-Ping Phoebe Chen, Wei Yang, Transformer tracking with cyclic shifting window attention, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 8791\u20138800.","DOI":"10.1109\/CVPR52688.2022.00859"},{"key":"10.1016\/j.imavis.2026.105982_b7","series-title":"Computer Vision\u2013ECCV 2016 Workshops: Amsterdam, the Netherlands, October 8-10 and 15-16, 2016, Proceedings, Part II 14","first-page":"850","article-title":"Fully-convolutional siamese networks for object tracking","author":"Bertinetto","year":"2016"},{"key":"10.1016\/j.imavis.2026.105982_b8","doi-asserted-by":"crossref","unstructured":"Bo Li, Wei Wu, Qiang Wang, Fangyi Zhang, Junliang Xing, Junjie Yan, Siamrpn++: Evolution of siamese visual tracking with very deep networks, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 4282\u20134291.","DOI":"10.1109\/CVPR.2019.00441"},{"key":"10.1016\/j.imavis.2026.105982_b9","doi-asserted-by":"crossref","unstructured":"Yinda Xu, Zeyu Wang, Zuoxin Li, Ye Yuan, Gang Yu, Siamfc++: Towards robust and accurate visual tracking with target estimation guidelines, in: Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 34, 2020, pp. 12549\u201312556, (07).","DOI":"10.1609\/aaai.v34i07.6944"},{"key":"10.1016\/j.imavis.2026.105982_b10","unstructured":"Dongyan Guo, Jun Wang, Ying Cui, Zhenhua Wang, Shengyong Chen, SiamCAR: Siamese fully convolutional classification and regression for visual tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 6269\u20136277."},{"issue":"4","key":"10.1016\/j.imavis.2026.105982_b11","first-page":"5158","article-title":"SiamBAN: Target-aware tracking with siamese box adaptive network","volume":"45","author":"Chen","year":"2022","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.imavis.2026.105982_b12","doi-asserted-by":"crossref","unstructured":"Bin Yan, Houwen Peng, Jianlong Fu, Dong Wang, Huchuan Lu, Learning spatio-temporal transformer for visual tracking, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2021, pp. 10448\u201310457.","DOI":"10.1109\/ICCV48922.2021.01028"},{"key":"10.1016\/j.imavis.2026.105982_b13","doi-asserted-by":"crossref","unstructured":"Ning Wang, Wengang Zhou, Jie Wang, Houqiang Li, Transformer meets tracker: Exploiting temporal context for robust visual tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 1571\u20131580.","DOI":"10.1109\/CVPR46437.2021.00162"},{"key":"10.1016\/j.imavis.2026.105982_b14","doi-asserted-by":"crossref","unstructured":"Jack Valmadre, Luca Bertinetto, Joao Henriques, Andrea Vedaldi, Philip HS Torr, End-to-end representation learning for correlation filter based tracking, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 2805\u20132813.","DOI":"10.1109\/CVPR.2017.531"},{"key":"10.1016\/j.imavis.2026.105982_b15","doi-asserted-by":"crossref","unstructured":"Bo Li, Junjie Yan, Wei Wu, Zheng Zhu, Xiaolin Hu, High performance visual tracking with siamese region proposal network, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 8971\u20138980.","DOI":"10.1109\/CVPR.2018.00935"},{"key":"10.1016\/j.imavis.2026.105982_b16","doi-asserted-by":"crossref","unstructured":"Zheng Zhu, Qiang Wang, Bo Li, Wei Wu, Junjie Yan, Weiming Hu, Distractor-aware siamese networks for visual object tracking, in: Proceedings of the European Conference on Computer Vision, ECCV, 2018, pp. 101\u2013117.","DOI":"10.1007\/978-3-030-01240-3_7"},{"key":"10.1016\/j.imavis.2026.105982_b17","unstructured":"Dongyan Guo, Yanyan Shao, Ying Cui, Zhenhua Wang, Liyan Zhang, Chunhua Shen, Graph attention tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 9543\u20139552."},{"key":"10.1016\/j.imavis.2026.105982_b18","unstructured":"Zhihong Fu, Zehua Fu, Qingjie Liu, Wenrui Cai, Yunhong Wang, SparseTT: Visual Tracking with Sparse Transformers, Target 256 (19) 19."},{"key":"10.1016\/j.imavis.2026.105982_b19","series-title":"Target transformed regression for accurate tracking","first-page":"arXiv","author":"Cui","year":"2021"},{"key":"10.1016\/j.imavis.2026.105982_b20","doi-asserted-by":"crossref","unstructured":"Bin Yu, Ming Tang, Linyu Zheng, Guibo Zhu, Jinqiao Wang, Hao Feng, Xuetao Feng, Hanqing Lu, High-performance discriminative tracking with transformers, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2021, pp. 9856\u20139865.","DOI":"10.1109\/ICCV48922.2021.00971"},{"key":"10.1016\/j.imavis.2026.105982_b21","unstructured":"Shuiwang Li, Yangxiang Yang, Dan Zeng, Xucheng Wang, Adaptive and Background-Aware Vision Transformer for Real-Time UAV Tracking, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2023, pp. 13989\u201314000."},{"key":"10.1016\/j.imavis.2026.105982_b22","series-title":"European Conference on Computer Vision","first-page":"375","article-title":"Backbone is all your need: A simplified architecture for visual object tracking","author":"Chen","year":"2022"},{"key":"10.1016\/j.imavis.2026.105982_b23","first-page":"16743","article-title":"Swintrack: A simple and strong baseline for transformer tracking","volume":"35","author":"Lin","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.imavis.2026.105982_b24","first-page":"5158","article-title":"CMAT: integrating convolution mixer and self-attention for visual tracking","volume":"26","author":"Wang","year":"2023","journal-title":"IEEE Trans. Multimed."},{"key":"10.1016\/j.imavis.2026.105982_b25","doi-asserted-by":"crossref","unstructured":"Yutao Cui, Cheng Jiang, Limin Wang, Gangshan Wu, Mixformer: End-to-end tracking with iterative mixed attention, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 13608\u201313618.","DOI":"10.1109\/CVPR52688.2022.01324"},{"key":"10.1016\/j.imavis.2026.105982_b26","doi-asserted-by":"crossref","unstructured":"Qing Guo, Wei Feng, Ce Zhou, Rui Huang, Liang Wan, Song Wang, Learning dynamic siamese network for visual object tracking, in: Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 1763\u20131771.","DOI":"10.1109\/ICCV.2017.196"},{"key":"10.1016\/j.imavis.2026.105982_b27","doi-asserted-by":"crossref","unstructured":"Yuechen Yu, Yilei Xiong, Weilin Huang, Matthew R. Scott, Deformable siamese attention networks for visual object tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 6728\u20136737.","DOI":"10.1109\/CVPR42600.2020.00676"},{"key":"10.1016\/j.imavis.2026.105982_b28","series-title":"European Conference on Computer Vision","first-page":"461","article-title":"Efficient visual tracking via hierarchical cross-attention transformer","author":"Chen","year":"2022"},{"issue":"9","key":"10.1016\/j.imavis.2026.105982_b29","doi-asserted-by":"crossref","first-page":"4542","DOI":"10.1109\/TCSVT.2023.3276061","article-title":"Target-Aware transformer tracking","volume":"33","author":"Zheng","year":"2023","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.imavis.2026.105982_b30","doi-asserted-by":"crossref","unstructured":"Yun Liang, Qiaoqiao Li, Fumian Long, Global dilated attention and target focusing network for robust tracking, in: Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 37, 2023, pp. 1549\u20131557, (2).","DOI":"10.1609\/aaai.v37i2.25241"},{"issue":"5","key":"10.1016\/j.imavis.2026.105982_b31","doi-asserted-by":"crossref","first-page":"3353","DOI":"10.1109\/TCSVT.2023.3323702","article-title":"Robust tracking via fully exploring background prior knowledge","volume":"34","author":"Wang","year":"2024","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.imavis.2026.105982_b32","series-title":"An image is worth 16x16 words: Transformers for image recognition at scale","author":"Dosovitskiy","year":"2020"},{"key":"10.1016\/j.imavis.2026.105982_b33","article-title":"Attention is all you need","author":"Vaswani","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.imavis.2026.105982_b34","series-title":"European Conference on Computer Vision","first-page":"280","article-title":"Exploring plain vision transformer backbones for object detection","author":"Li","year":"2022"},{"key":"10.1016\/j.imavis.2026.105982_b35","series-title":"Hierarchical side-tuning for vision transformers","author":"Lin","year":"2023"},{"key":"10.1016\/j.imavis.2026.105982_b36","series-title":"Localvit: Bringing locality to vision transformers","author":"Li","year":"2021"},{"key":"10.1016\/j.imavis.2026.105982_b37","first-page":"3965","article-title":"Coatnet: Marrying convolution and attention for all data sizes","volume":"34","author":"Dai","year":"2021","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.imavis.2026.105982_b38","doi-asserted-by":"crossref","unstructured":"Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan, Lei Zhang, Cvt: Introducing convolutions to vision transformers, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2021, pp. 22\u201331.","DOI":"10.1109\/ICCV48922.2021.00009"},{"key":"10.1016\/j.imavis.2026.105982_b39","doi-asserted-by":"crossref","unstructured":"Ren\u00e9 Ranftl, Alexey Bochkovskiy, Vladlen Koltun, Vision transformers for dense prediction, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2021, pp. 12179\u201312188.","DOI":"10.1109\/ICCV48922.2021.01196"},{"key":"10.1016\/j.imavis.2026.105982_b40","unstructured":"Huaibo Huang, Xiaoqiang Zhou, Jie Cao, Ran He, Tieniu Tan, Vision transformer with super token sampling, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 22690\u201322699."},{"key":"10.1016\/j.imavis.2026.105982_b41","doi-asserted-by":"crossref","unstructured":"Wenhai Wang, Enze Xie, Xiang Li, Deng-Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, Ling Shao, Pyramid vision transformer: A versatile backbone for dense prediction without convolutions, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2021, pp. 568\u2013578.","DOI":"10.1109\/ICCV48922.2021.00061"},{"key":"10.1016\/j.imavis.2026.105982_b42","doi-asserted-by":"crossref","unstructured":"Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo, Swin transformer: Hierarchical vision transformer using shifted windows, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2021, pp. 10012\u201310022.","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"10.1016\/j.imavis.2026.105982_b43","series-title":"Proceedings of the Thirty-First International Joint Conference on Artificial Intelligence, IJCAI-22","first-page":"927","article-title":"Learning Target-aware representation for visual tracking via informative interactions","author":"Guo","year":"2022"},{"key":"10.1016\/j.imavis.2026.105982_b44","doi-asserted-by":"crossref","unstructured":"Ben Kang, Xin Chen, Dong Wang, Houwen Peng, Huchuan Lu, Exploring lightweight hierarchical vision transformers for efficient visual tracking, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2023, pp. 9612\u20139621.","DOI":"10.1109\/ICCV51070.2023.00881"},{"key":"10.1016\/j.imavis.2026.105982_b45","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2023.107304","article-title":"TATrack: Target-aware transformer for object tracking","volume":"127","author":"Huang","year":"2024","journal-title":"Eng. Appl. Artif. Intell."},{"key":"10.1016\/j.imavis.2026.105982_b46","doi-asserted-by":"crossref","first-page":"8906","DOI":"10.1109\/TMM.2023.3243616","article-title":"Dilateformer: Multi-scale dilated transformer for visual recognition","volume":"25","author":"Jiao","year":"2023","journal-title":"IEEE Trans. Multimed."},{"key":"10.1016\/j.imavis.2026.105982_b47","unstructured":"Weifeng Lin, Ziheng Wu, Jiayu Chen, Jun Huang, Lianwen Jin, Scale-aware modulation meet transformer, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2023, pp. 6015\u20136026."},{"key":"10.1016\/j.imavis.2026.105982_b48","series-title":"Layer normalization","author":"Ba","year":"2016"},{"issue":"6","key":"10.1016\/j.imavis.2026.105982_b49","doi-asserted-by":"crossref","first-page":"1137","DOI":"10.1109\/TPAMI.2016.2577031","article-title":"Faster R-CNN: Towards real-time object detection with region proposal networks","volume":"39","author":"Ren","year":"2016","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.imavis.2026.105982_b50","doi-asserted-by":"crossref","unstructured":"Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid, Silvio Savarese, Generalized intersection over union: A metric and a loss for bounding box regression, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 658\u2013666.","DOI":"10.1109\/CVPR.2019.00075"},{"key":"10.1016\/j.imavis.2026.105982_b51","doi-asserted-by":"crossref","unstructured":"Heng Fan, Liting Lin, Fan Yang, Peng Chu, Ge Deng, Sijia Yu, Hexin Bai, Yong Xu, Chunyuan Liao, Haibin Ling, Lasot: A high-quality benchmark for large-scale single object tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 5374\u20135383.","DOI":"10.1109\/CVPR.2019.00552"},{"issue":"5","key":"10.1016\/j.imavis.2026.105982_b52","doi-asserted-by":"crossref","first-page":"1562","DOI":"10.1109\/TPAMI.2019.2957464","article-title":"Got-10k: A large high-diversity benchmark for generic object tracking in the wild","volume":"43","author":"Huang","year":"2019","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.imavis.2026.105982_b53","doi-asserted-by":"crossref","unstructured":"Matthias Muller, Adel Bibi, Silvio Giancola, Salman Alsubaihi, Bernard Ghanem, Trackingnet: A large-scale dataset and benchmark for object tracking in the wild, in: Proceedings of the European Conference on Computer Vision, ECCV, 2018, pp. 300\u2013317.","DOI":"10.1007\/978-3-030-01246-5_19"},{"key":"10.1016\/j.imavis.2026.105982_b54","series-title":"Computer Vision\u2013ECCV 2014: 13th European Conference, Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13","first-page":"740","article-title":"Microsoft coco: Common objects in context","author":"Lin","year":"2014"},{"key":"10.1016\/j.imavis.2026.105982_b55","series-title":"Youtube-vos: A large-scale video object segmentation benchmark","author":"Xu","year":"2018"},{"key":"10.1016\/j.imavis.2026.105982_b56","unstructured":"Diederik Kingma, Jimmy Ba, Adam: A Method for Stochastic Optimization, in: International Conference on Learning Representations, ICLR, San Diega, CA, USA, 2015."},{"issue":"09","key":"10.1016\/j.imavis.2026.105982_b57","doi-asserted-by":"crossref","first-page":"1834","DOI":"10.1109\/TPAMI.2014.2388226","article-title":"Object tracking benchmark","volume":"37","author":"Wu","year":"2015","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.imavis.2026.105982_b58","series-title":"Computer Vision\u2013ECCV 2016: 14th European Conference, Amsterdam, the Netherlands, October 11\u201314, 2016, Proceedings, Part I 14","first-page":"445","article-title":"A benchmark and simulator for uav tracking","author":"Mueller","year":"2016"},{"key":"10.1016\/j.imavis.2026.105982_b59","first-page":"1","article-title":"SiamATTRPN: Enhance visual tracking with channel and spatial attention","volume":"PP","author":"Cai","year":"2023","journal-title":"IEEE Trans. Comput. Soc. Syst."},{"key":"10.1016\/j.imavis.2026.105982_b60","doi-asserted-by":"crossref","unstructured":"Tianyu Yang, Pengfei Xu, Runbo Hu, Hua Chai, Antoni B Chan, ROAM: Recurrently optimizing tracking model, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 6718\u20136727.","DOI":"10.1109\/CVPR42600.2020.00675"},{"key":"10.1016\/j.imavis.2026.105982_b61","series-title":"Computer Vision\u2013ECCV 2020: 16th European Conference, Glasgow, UK, August 23\u201328, 2020, Proceedings, Part XXI 16","first-page":"771","article-title":"Ocean: Object-aware anchor-free tracking","author":"Zhang","year":"2020"},{"key":"10.1016\/j.imavis.2026.105982_b62","doi-asserted-by":"crossref","unstructured":"Goutam Bhat, Martin Danelljan, Luc Van Gool, Radu Timofte, Learning discriminative model prediction for tracking, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2019, pp. 6182\u20136191.","DOI":"10.1109\/ICCV.2019.00628"},{"key":"10.1016\/j.imavis.2026.105982_b63","doi-asserted-by":"crossref","unstructured":"Zhipeng Zhang, Houwen Peng, Deeper and wider siamese networks for real-time visual tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 4591\u20134600.","DOI":"10.1109\/CVPR.2019.00472"},{"key":"10.1016\/j.imavis.2026.105982_b64","doi-asserted-by":"crossref","unstructured":"Martin Danelljan, Goutam Bhat, Fahad Shahbaz Khan, Michael Felsberg, Atom: Accurate tracking by overlap maximization, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 4660\u20134669.","DOI":"10.1109\/CVPR.2019.00479"},{"key":"10.1016\/j.imavis.2026.105982_b65","doi-asserted-by":"crossref","unstructured":"Xin Li, Chao Ma, Baoyuan Wu, Zhenyu He, Ming-Hsuan Yang, Target-aware deep tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 1369\u20131378.","DOI":"10.1109\/CVPR.2019.00146"},{"key":"10.1016\/j.imavis.2026.105982_b66","doi-asserted-by":"crossref","unstructured":"Xing Wei, Yifan Bai, Yongchao Zheng, Dahu Shi, Yihong Gong, Autoregressive visual tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 9697\u20139706.","DOI":"10.1109\/CVPR52729.2023.00935"},{"key":"10.1016\/j.imavis.2026.105982_b67","series-title":"European Conference on Computer Vision","first-page":"146","article-title":"Aiatrack: Attention in attention for transformer visual tracking","author":"Gao","year":"2022"},{"key":"10.1016\/j.imavis.2026.105982_b68","series-title":"European Conference on Computer Vision","first-page":"428","article-title":"Hierarchical feature embedding for visual tracking","author":"Pi","year":"2022"},{"key":"10.1016\/j.imavis.2026.105982_b69","first-page":"1","article-title":"Learning cross-attention discriminators via alternating time\u2013space transformers for visual tracking","author":"Wang","year":"2023","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"10.1016\/j.imavis.2026.105982_b70","doi-asserted-by":"crossref","unstructured":"Paul Voigtlaender, Jonathon Luiten, Philip HS Torr, Bastian Leibe, Siam r-cnn: Visual tracking by re-detection, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 6578\u20136588.","DOI":"10.1109\/CVPR42600.2020.00661"},{"key":"10.1016\/j.imavis.2026.105982_b71","doi-asserted-by":"crossref","unstructured":"Christoph Mayer, Martin Danelljan, Goutam Bhat, Matthieu Paul, Danda Pani Paudel, Fisher Yu, Luc Van Gool, Transforming model prediction for tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 8731\u20138740.","DOI":"10.1109\/CVPR52688.2022.00853"},{"key":"10.1016\/j.imavis.2026.105982_b72","doi-asserted-by":"crossref","unstructured":"Zikai Song, Run Luo, Junqing Yu, Yi-Ping Phoebe Chen, Wei Yang, Compact transformer tracker with correlative masked modeling, in: Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 37, 2023, pp. 2321\u20132329, (2).","DOI":"10.1609\/aaai.v37i2.25327"},{"key":"10.1016\/j.imavis.2026.105982_b73","doi-asserted-by":"crossref","unstructured":"Philippe Blatter, Menelaos Kanakis, Martin Danelljan, Luc Van Gool, Efficient visual tracking with exemplar transformers, in: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, 2023, pp. 1571\u20131581.","DOI":"10.1109\/WACV56688.2023.00162"},{"key":"10.1016\/j.imavis.2026.105982_b74","doi-asserted-by":"crossref","unstructured":"Fei Xie, Chunyu Wang, Guangting Wang, Yue Cao, Wankou Yang, Wenjun Zeng, Correlation-aware deep tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 8751\u20138760.","DOI":"10.1109\/CVPR52688.2022.00855"},{"key":"10.1016\/j.imavis.2026.105982_b75","doi-asserted-by":"crossref","unstructured":"Haojie Zhao, Dong Wang, Huchuan Lu, Representation learning for visual object tracking by masked appearance transfer, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 18696\u201318705.","DOI":"10.1109\/CVPR52729.2023.01793"}],"container-title":["Image and Vision Computing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0262885626000892?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0262885626000892?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,25]],"date-time":"2026-05-25T06:34:02Z","timestamp":1779690842000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0262885626000892"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,7]]},"references-count":75,"alternative-id":["S0262885626000892"],"URL":"https:\/\/doi.org\/10.1016\/j.imavis.2026.105982","relation":{},"ISSN":["0262-8856"],"issn-type":[{"value":"0262-8856","type":"print"}],"subject":[],"published":{"date-parts":[[2026,7]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"\u201cSeparate-coupled\u201d hierarchical framework for accurate visual object tracking","name":"articletitle","label":"Article Title"},{"value":"Image and Vision Computing","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.imavis.2026.105982","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"105982"}}