{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,8]],"date-time":"2026-06-08T15:06:00Z","timestamp":1780931160216,"version":"3.54.1"},"reference-count":46,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,12,1]],"date-time":"2026-12-01T00:00:00Z","timestamp":1796083200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Pattern Recognition"],"published-print":{"date-parts":[[2026,12]]},"DOI":"10.1016\/j.patcog.2026.113791","type":"journal-article","created":{"date-parts":[[2026,5,18]],"date-time":"2026-05-18T06:01:28Z","timestamp":1779084088000},"page":"113791","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"PA","title":["Updatable one-stream Vision-Language tracking via multilayer perceptual memory network"],"prefix":"10.1016","volume":"180","author":[{"given":"Hao","family":"Dong","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ziang","family":"Li","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Peipei","family":"Song","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Huanlong","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Bin","family":"Jiang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Bineng","family":"Zhong","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"key":"10.1016\/j.patcog.2026.113791_b1","doi-asserted-by":"crossref","first-page":"3351","DOI":"10.1109\/TIP.2019.2959256","article-title":"Local semantic siamese networks for fast tracking","volume":"29","author":"Liang","year":"2019","journal-title":"IEEE Trans. Image Process."},{"issue":"7","key":"10.1016\/j.patcog.2026.113791_b2","first-page":"8049","article-title":"Adaptive siamese tracking with a compact latent network","volume":"45","author":"Dong","year":"2022","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.patcog.2026.113791_b3","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2023.110286","article-title":"Siamstc: Updatable siamese tracking network via spatio-temporal context","volume":"263","author":"Wei","year":"2023","journal-title":"Knowl.-Based Syst."},{"key":"10.1016\/j.patcog.2026.113791_b4","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2020.107232","article-title":"Uncertain motion tracking based on convolutional net with semantics estimation and region proposals","volume":"102","author":"Zhang","year":"2020","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113791_b5","doi-asserted-by":"crossref","unstructured":"Ning Wang, Wengang Zhou, Jie Wang, Houqiang Li, Transformer meets tracker: Exploiting temporal context for robust visual tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 1571\u20131580.","DOI":"10.1109\/CVPR46437.2021.00162"},{"key":"10.1016\/j.patcog.2026.113791_b6","series-title":"European Conference on Computer Vision","first-page":"146","article-title":"Aiatrack: Attention in attention for transformer visual tracking","author":"Gao","year":"2022"},{"key":"10.1016\/j.patcog.2026.113791_b7","series-title":"European Conference on Computer Vision","first-page":"341","article-title":"Joint feature learning and relation modeling for tracking: A one-stream framework","author":"Ye","year":"2022"},{"key":"10.1016\/j.patcog.2026.113791_b8","series-title":"ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing","first-page":"1","article-title":"Procontext: Exploring progressive context transformer for tracking","author":"Lan","year":"2023"},{"key":"10.1016\/j.patcog.2026.113791_b9","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2024.111135","article-title":"Riding feeling recognition based on multi-head self-attention lstm for driverless automobile","volume":"159","author":"Tang","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113791_b10","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2026.113311","article-title":"Category text-guided rgbt tracking with shared-specific feature representation","author":"Wei","year":"2026","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113791_b11","article-title":"Attention-driven memory network for online visual tracking","author":"Zhang","year":"2023","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"10.1016\/j.patcog.2026.113791_b12","series-title":"Computer Vision\u2013ECCV 2016 Workshops: Amsterdam, the Netherlands, October 8-10 and 15-16, 2016, Proceedings, Part II 14","first-page":"850","article-title":"Fully-convolutional siamese networks for object tracking","author":"Bertinetto","year":"2016"},{"key":"10.1016\/j.patcog.2026.113791_b13","series-title":"An image is worth 16x16 words: Transformers for image recognition at scale","author":"Dosovitskiy","year":"2020"},{"key":"10.1016\/j.patcog.2026.113791_b14","doi-asserted-by":"crossref","unstructured":"Shenyuan Gao, Chunluan Zhou, Jun Zhang, Generalized relation modeling for transformer tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 18686\u201318695.","DOI":"10.1109\/CVPR52729.2023.01792"},{"key":"10.1016\/j.patcog.2026.113791_b15","unstructured":"Zhenyang Li, Ran Tao, Efstratios Gavves, Cees GM Snoek, Arnold WM Smeulders, Tracking by natural language specification, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 6495\u20136503."},{"key":"10.1016\/j.patcog.2026.113791_b16","article-title":"Towards unified token learning for vision-language tracking","author":"Zheng","year":"2023","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.patcog.2026.113791_b17","doi-asserted-by":"crossref","unstructured":"Li Zhou, Zikun Zhou, Kaige Mao, Zhenyu He, Joint visual grounding and tracking with natural language specification, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 23151\u201323160.","DOI":"10.1109\/CVPR52729.2023.02217"},{"key":"10.1016\/j.patcog.2026.113791_b18","doi-asserted-by":"crossref","unstructured":"Yanyan Shao, Shuting He, Qi Ye, Yuchao Feng, Wenhan Luo, Jiming Chen, Context-aware integration of language and visual references for natural language tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2024, pp. 19208\u201319217.","DOI":"10.1109\/CVPR52733.2024.01817"},{"key":"10.1016\/j.patcog.2026.113791_b19","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1016\/j.neucom.2019.10.021","article-title":"Context constraint and pattern memory for long-term correlation tracking","volume":"377","author":"Huang","year":"2020","journal-title":"Neurocomputing"},{"key":"10.1016\/j.patcog.2026.113791_b20","doi-asserted-by":"crossref","first-page":"725","DOI":"10.1109\/TIP.2020.3038356","article-title":"Learning recurrent memory activation networks for visual tracking","volume":"30","author":"Pu","year":"2020","journal-title":"IEEE Trans. Image Process."},{"key":"10.1016\/j.patcog.2026.113791_b21","article-title":"Ltstrack: Visual tracking with long-term temporal sequence","author":"Zeng","year":"2026","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.patcog.2026.113791_b22","series-title":"Learning historical status prompt for accurate and robust visual tracking","author":"Cai","year":"2023"},{"key":"10.1016\/j.patcog.2026.113791_b23","first-page":"14903","article-title":"Memvlt: Vision-language tracking with adaptive memory-based prompts","volume":"37","author":"Feng","year":"2024","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.patcog.2026.113791_b24","series-title":"China National Conference on Chinese Computational Linguistics","first-page":"471","article-title":"A robustly optimized bert pre-training approach with post-training","author":"Liu","year":"2021"},{"key":"10.1016\/j.patcog.2026.113791_b25","unstructured":"Kaiwen Liu, Jin Gao, Haowei Liu, Liang Li, Bing Li, Weiming Hu, Exploring motion information for distractor suppression in visual tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 1924\u20131932."},{"key":"10.1016\/j.patcog.2026.113791_b26","first-page":"22247","article-title":"Biological learning in key\u2013value memory networks","volume":"34","author":"Tyulmankov","year":"2021","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"6","key":"10.1016\/j.patcog.2026.113791_b27","doi-asserted-by":"crossref","first-page":"2120","DOI":"10.1007\/s12559-023-10173-0","article-title":"A perceptually adaptive long-term tracking method for the complete occlusion and disappearance of a target","volume":"15","author":"Chen","year":"2023","journal-title":"Cogn. Comput."},{"key":"10.1016\/j.patcog.2026.113791_b28","doi-asserted-by":"crossref","first-page":"105","DOI":"10.1016\/j.ins.2022.03.047","article-title":"Residual memory inference network for regression tracking with weighted gradient harmonized loss","volume":"597","author":"Zhang","year":"2022","journal-title":"Inform. Sci."},{"key":"10.1016\/j.patcog.2026.113791_b29","unstructured":"Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Doll\u00e1r, Ross Girshick, Masked autoencoders are scalable vision learners, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 16000\u201316009."},{"key":"10.1016\/j.patcog.2026.113791_b30","doi-asserted-by":"crossref","unstructured":"Heng Fan, Liting Lin, Fan Yang, Peng Chu, Ge Deng, Sijia Yu, Hexin Bai, Yong Xu, Chunyuan Liao, Haibin Ling, Lasot: A high-quality benchmark for large-scale single object tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2019, pp. 5374\u20135383.","DOI":"10.1109\/CVPR.2019.00552"},{"key":"10.1016\/j.patcog.2026.113791_b31","doi-asserted-by":"crossref","unstructured":"Xiao Wang, Xiujun Shu, Zhipeng Zhang, Bo Jiang, Yaowei Wang, Yonghong Tian, Feng Wu, Towards more flexible and accurate object tracking with natural language: Algorithms and benchmark, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 13763\u201313773.","DOI":"10.1109\/CVPR46437.2021.01355"},{"key":"10.1016\/j.patcog.2026.113791_b32","doi-asserted-by":"crossref","unstructured":"Xin Chen, Bin Yan, Jiawen Zhu, Dong Wang, Xiaoyun Yang, Huchuan Lu, Transformer tracking, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 8126\u20138135.","DOI":"10.1109\/CVPR46437.2021.00803"},{"issue":"9","key":"10.1016\/j.patcog.2026.113791_b33","doi-asserted-by":"crossref","first-page":"3433","DOI":"10.1109\/TCSVT.2020.3038720","article-title":"Grounding-tracking-integration","volume":"31","author":"Yang","year":"2020","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"10.1016\/j.patcog.2026.113791_b34","first-page":"4446","article-title":"Divert more attention to vision-language tracking","volume":"35","author":"Guo","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.patcog.2026.113791_b35","doi-asserted-by":"crossref","unstructured":"Jiawei Ge, Jiuxin Cao, Xuelin Zhu, Xinyu Zhang, Chang Liu, Kun Wang, Bo Liu, Consistencies are all you need for semi-supervised vision-language tracking, in: Proceedings of the 32nd ACM International Conference on Multimedia, 2024, pp. 1895\u20131904.","DOI":"10.1145\/3664647.3680657"},{"key":"10.1016\/j.patcog.2026.113791_b36","article-title":"Progressive semantic-visual alignment and refinement for vision-language tracking","author":"Liang","year":"2024","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"issue":"5","key":"10.1016\/j.patcog.2026.113791_b37","doi-asserted-by":"crossref","first-page":"1","DOI":"10.1145\/3726529","article-title":"Beyond visual cues: Synchronously exploring target-centric semantics for vision-language tracking","volume":"21","author":"Ge","year":"2025","journal-title":"ACM Trans. Multimed. Comput. Commun. Appl."},{"key":"10.1016\/j.patcog.2026.113791_b38","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2025.110787","article-title":"Joint feature extraction and alignment in object tracking with vision-language model","volume":"152","author":"Zhu","year":"2025","journal-title":"Eng. Appl. Artif. Intell."},{"key":"10.1016\/j.patcog.2026.113791_b39","doi-asserted-by":"crossref","first-page":"10","DOI":"10.1016\/j.patrec.2023.02.023","article-title":"Transformer vision-language tracking via proxy token guided cross-modal fusion","volume":"168","author":"Zhao","year":"2023","journal-title":"Pattern Recognit. Lett."},{"key":"10.1016\/j.patcog.2026.113791_b40","doi-asserted-by":"crossref","unstructured":"Zhipeng Zhang, Yihao Liu, Xiao Wang, Bing Li, Weiming Hu, Learn to match: Automatic matching network design for visual tracking, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2021, pp. 13339\u201313348.","DOI":"10.1109\/ICCV48922.2021.01309"},{"issue":"21","key":"10.1016\/j.patcog.2026.113791_b41","doi-asserted-by":"crossref","first-page":"798","DOI":"10.1049\/ell2.12610","article-title":"Joint visual template and natural language for robust visual tracking","volume":"58","author":"Wang","year":"2022","journal-title":"Electron. Lett."},{"key":"10.1016\/j.patcog.2026.113791_b42","series-title":"Computer Vision\u2013ECCV 2020: 16th European Conference, Glasgow, UK, August 23\u201328, 2020, Proceedings, Part XXI 16","first-page":"771","article-title":"Ocean: Object-aware anchor-free tracking","author":"Zhang","year":"2020"},{"key":"10.1016\/j.patcog.2026.113791_b43","doi-asserted-by":"crossref","unstructured":"Xin Li, Yuqing Huang, Zhenyu He, Yaowei Wang, Huchuan Lu, Ming-Hsuan Yang, Citetracker: Correlating image and text for visual tracking, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2023, pp. 9974\u20139983.","DOI":"10.1109\/ICCV51070.2023.00915"},{"key":"10.1016\/j.patcog.2026.113791_b44","doi-asserted-by":"crossref","unstructured":"Chunhui Zhang, Xin Sun, Yiqian Yang, Li Liu, Qiong Liu, Xi Zhou, Yanfeng Wang, All in one: Exploring unified vision-language tracking with multi-modal alignment, in: Proceedings of the 31st ACM International Conference on Multimedia, 2023, pp. 5552\u20135561.","DOI":"10.1145\/3581783.3611803"},{"key":"10.1016\/j.patcog.2026.113791_b45","series-title":"Beyond visual cues: Synchronously exploring target-centric semantics for vision-language tracking","author":"Ge","year":"2023"},{"key":"10.1016\/j.patcog.2026.113791_b46","doi-asserted-by":"crossref","DOI":"10.1109\/TMM.2024.3410141","article-title":"Language-guided dual-modal local correspondence for single object tracking","author":"Yu","year":"2024","journal-title":"IEEE Trans. Multimed."}],"container-title":["Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326007569?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320326007569?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,6,8]],"date-time":"2026-06-08T14:47:28Z","timestamp":1780930048000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0031320326007569"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,12]]},"references-count":46,"alternative-id":["S0031320326007569"],"URL":"https:\/\/doi.org\/10.1016\/j.patcog.2026.113791","relation":{},"ISSN":["0031-3203"],"issn-type":[{"value":"0031-3203","type":"print"}],"subject":[],"published":{"date-parts":[[2026,12]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Updatable one-stream Vision-Language tracking via multilayer perceptual memory network","name":"articletitle","label":"Article Title"},{"value":"Pattern Recognition","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.patcog.2026.113791","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Published by Elsevier Ltd.","name":"copyright","label":"Copyright"}],"article-number":"113791"}}