{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,4]],"date-time":"2026-03-04T16:56:42Z","timestamp":1772643402713,"version":"3.50.1"},"reference-count":58,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100001809","name":"the National Natural Science Foundation of China","doi-asserted-by":"crossref","id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"crossref"}]},{"name":"the Natural Science Foundation of Henan"},{"name":"the Joint Fund Key Project of Science and Technology R&D Plan of Henan Province, China"},{"name":"the Distinguished Youth Science Foundation of Henan province of China"},{"name":"the Henan Province Key R&D Project"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Vis Comput"],"published-print":{"date-parts":[[2026,1]]},"DOI":"10.1007\/s00371-026-04360-x","type":"journal-article","created":{"date-parts":[[2026,1,26]],"date-time":"2026-01-26T03:43:38Z","timestamp":1769399018000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Sematrack: semantic-driven unified vision-language tracking"],"prefix":"10.1007","volume":"42","author":[{"given":"Jianwei","family":"Zhang","sequence":"first","affiliation":[]},{"given":"Liusen","family":"Xu","sequence":"additional","affiliation":[]},{"given":"Huanlong","family":"Zhang","sequence":"additional","affiliation":[]},{"given":"Xinyu","family":"Yan","sequence":"additional","affiliation":[]},{"given":"Bin","family":"Jiang","sequence":"additional","affiliation":[]},{"given":"Jingjing","family":"Wu","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2026,1,26]]},"reference":[{"key":"4360_CR1","doi-asserted-by":"crossref","unstructured":"Zhu, H., Lu, Q., Xue, L., Zhang, P., Yuan, G.: Vision-language tracking with clip and interactive prompt learning. IEEE Trans. Intell. Trans. Syst. (2024)","DOI":"10.1109\/TITS.2024.3520103"},{"key":"4360_CR2","unstructured":"Ge, J., Chen, X., Cao, J., Zhu, X., Liu, B.: Beyond visual cues: Synchronously exploring target-centric semantics for vision-language tracking (2023). arXiv preprint arXiv:2311.17085"},{"key":"4360_CR3","doi-asserted-by":"publisher","first-page":"10","DOI":"10.1016\/j.patrec.2023.02.023","volume":"168","author":"H Zhao","year":"2023","unstructured":"Zhao, H., Wang, X., Wang, D., Lu, H., Ruan, X.: Transformer vision-language tracking via proxy token guided cross-modal fusion. Pattern Recogn. Lett. 168, 10\u201316 (2023)","journal-title":"Pattern Recogn. Lett."},{"issue":"7","key":"4360_CR4","doi-asserted-by":"publisher","first-page":"9186","DOI":"10.1109\/TPAMI.2022.3232854","volume":"45","author":"C Zhang","year":"2022","unstructured":"Zhang, C., Huang, G., Liu, L., Huang, S., Yang, Y., Wan, X., Ge, S., Tao, D.: Webuav-3m: a benchmark for unveiling the power of million-scale deep UAV tracking. IEEE Trans. Pattern Anal. Mach. Intell. 45(7), 9186\u20139205 (2022)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"4360_CR5","doi-asserted-by":"crossref","unstructured":"Zhai, J.-T., Zhang, Q., Wu, T., Chen, X.-Y., Liu, J.-J., Cheng, M.-M.: Slan: Self-locator aided network for vision-language understanding. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 21949\u201321958 (2023)","DOI":"10.1109\/ICCV51070.2023.02006"},{"key":"4360_CR6","doi-asserted-by":"publisher","unstructured":"Lan, J.-P., Cheng, Z.-Q., He, J.-Y., Li, C., Luo, B., Bao, X., Xiang, W., Geng, Y., Xie, X.: Procontext: Exploring progressive context transformer for tracking. In: ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 1\u20135 (2023). https:\/\/doi.org\/10.1109\/ICASSP49357.2023.10094971","DOI":"10.1109\/ICASSP49357.2023.10094971"},{"key":"4360_CR7","doi-asserted-by":"crossref","unstructured":"Wei, X., Bai, Y., Zheng, Y., Shi, D., Gong, Y.: Autoregressive visual tracking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 9697\u20139706 (2023)","DOI":"10.1109\/CVPR52729.2023.00935"},{"key":"4360_CR8","doi-asserted-by":"crossref","unstructured":"Lu, Q., Yuan, G., Li, C., Zhu, H., Qin, X.: Natural language guided attention mixer for object tracking. In: 2023 4th International Conference on Information Science, Parallel and Distributed Systems (ISPDS), pp. 160\u2013164 (2023). IEEE","DOI":"10.1109\/ISPDS58840.2023.10235726"},{"key":"4360_CR9","doi-asserted-by":"crossref","unstructured":"Wu, D., Han, W., Wang, T., Dong, X., Zhang, X., Shen, J.: Referring multi-object tracking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 14633\u201314642 (2023)","DOI":"10.1109\/CVPR52729.2023.01406"},{"key":"4360_CR10","doi-asserted-by":"crossref","unstructured":"Li, Y., Yu, J., Cai, Z., Pan, Y.: Cross-modal target retrieval for tracking by natural language. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 4931\u20134940 (2022)","DOI":"10.1109\/CVPRW56347.2022.00540"},{"issue":"5","key":"4360_CR11","doi-asserted-by":"publisher","DOI":"10.1007\/s11704-020-0027-8","volume":"15","author":"Q Zhou","year":"2021","unstructured":"Zhou, Q., Wang, R., Li, J., Tian, N., Zhang, W.: Siamese single object tracking algorithm with natural language prior. Front. Comp. Sci. 15(5), 155335 (2021)","journal-title":"Front. Comp. Sci."},{"key":"4360_CR12","doi-asserted-by":"crossref","unstructured":"Feng, Q., Ablavsky, V., Bai, Q., Sclaroff, S.: Siamese natural language tracker: Tracking by natural language descriptions with siamese trackers. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5851\u20135860 (2021)","DOI":"10.1109\/CVPR46437.2021.00579"},{"key":"4360_CR13","doi-asserted-by":"crossref","unstructured":"Wang, X., Shu, X., Zhang, Z., Jiang, B., Wang, Y., Tian, Y., Wu, F.: Towards more flexible and accurate object tracking with natural language: Algorithms and benchmark. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 13763\u201313773 (2021)","DOI":"10.1109\/CVPR46437.2021.01355"},{"key":"4360_CR14","doi-asserted-by":"crossref","unstructured":"Li, X., Huang, Y., He, Z., Wang, Y., Lu, H., Yang, M.-H.: Citetracker: Correlating image and text for visual tracking. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 9974\u20139983 (2023)","DOI":"10.1109\/ICCV51070.2023.00915"},{"issue":"9","key":"4360_CR15","doi-asserted-by":"publisher","first-page":"4529","DOI":"10.1109\/TCSVT.2023.3288353","volume":"33","author":"R Wang","year":"2023","unstructured":"Wang, R., Tang, Z., Zhou, Q., Liu, X., Hui, T., Tan, Q., Liu, S.: Unified transformer with isomorphic branches for natural language tracking. IEEE Trans. Circuits Syst. Video Technol. 33(9), 4529\u20134541 (2023). https:\/\/doi.org\/10.1109\/TCSVT.2023.3288353","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"4360_CR16","doi-asserted-by":"crossref","unstructured":"Ye, B., Chang, H., Ma, B., Shan, S., Chen, X.: Joint feature learning and relation modeling for tracking: A one-stream framework. In: European Conference on Computer Vision, pp. 341\u2013357 (2022). Springer","DOI":"10.1007\/978-3-031-20047-2_20"},{"key":"4360_CR17","doi-asserted-by":"crossref","unstructured":"Chen, B., Li, P., Bai, L., Qiao, L., Shen, Q., Li, B., Gan, W., Wu, W., Ouyang, W.: Backbone is all your need: A simplified architecture for visual object tracking. In: European Conference on Computer Vision, pp. 375\u2013392 (2022). Springer","DOI":"10.1007\/978-3-031-20047-2_22"},{"key":"4360_CR18","doi-asserted-by":"crossref","unstructured":"Ma, D., Wu, X.: Capsule-based object tracking with natural language specification. In: Proceedings of the 29th ACM International Conference on Multimedia, pp. 1948\u20131956 (2021)","DOI":"10.1145\/3474085.3475349"},{"issue":"7","key":"4360_CR19","doi-asserted-by":"publisher","first-page":"1168","DOI":"10.3390\/rs16071168","volume":"16","author":"P Ye","year":"2024","unstructured":"Ye, P., Xiao, G., Liu, J.: Multimodal features alignment for vision-language object tracking. Remote Sensing 16(7), 1168 (2024)","journal-title":"Remote Sensing"},{"key":"4360_CR20","doi-asserted-by":"crossref","unstructured":"Ma, Y., Tang, Y., Yang, W., Zhang, T., Zhang, J., Kang, M.: Unifying visual and vision-language tracking via contrastive learning. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, pp. 4107\u20134116 (2024)","DOI":"10.1609\/aaai.v38i5.28205"},{"key":"4360_CR21","doi-asserted-by":"crossref","unstructured":"Zuo, J., Wu, T., Shi, M., Liu, X., Zhao, X.: Multi-modal object tracking with vision-language adaptive fusion and alignment. In: 2023 5th International Conference on Robotics, Intelligent Control and Artificial Intelligence (RICAI), pp. 1125\u20131133 (2023). IEEE","DOI":"10.1109\/RICAI60863.2023.10489325"},{"key":"4360_CR22","doi-asserted-by":"crossref","unstructured":"Souvik\u00a0Chowdhury, B.S.: Beyond words: Esc-net revolutionizes vqa by elevating visual features and defying language priors. Computational Intelligence (2024)","DOI":"10.1111\/coin.70010"},{"key":"4360_CR23","doi-asserted-by":"crossref","unstructured":"Shao, Y., He, S., Ye, Q., Feng, Y., Luo, W., Chen, J.: Context-aware integration of language and visual references for natural language tracking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 19208\u201319217 (2024)","DOI":"10.1109\/CVPR52733.2024.01817"},{"key":"4360_CR24","doi-asserted-by":"crossref","unstructured":"Ma, D., Wu, X.: Tracking by natural language specification with long short-term context decoupling. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 14012\u201314021 (2023)","DOI":"10.1109\/ICCV51070.2023.01288"},{"key":"4360_CR25","doi-asserted-by":"crossref","unstructured":"Zhou, L., Zhou, Z., Mao, K., He, Z.: Joint visual grounding and tracking with natural language specification. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 23151\u201323160 (2023)","DOI":"10.1109\/CVPR52729.2023.02217"},{"key":"4360_CR26","first-page":"4446","volume":"35","author":"M Guo","year":"2022","unstructured":"Guo, M., Zhang, Z., Fan, H., Jing, L.: Divert more attention to vision-language tracking. Adv. Neural. Inf. Process. Syst. 35, 4446\u20134460 (2022)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"key":"4360_CR27","doi-asserted-by":"crossref","unstructured":"Li, Z., Tao, R., Gavves, E., Snoek, C.G.M., Smeulders, A.W.M.: Tracking by natural language specification. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2017)","DOI":"10.1109\/CVPR.2017.777"},{"key":"4360_CR28","unstructured":"Wang, X., Li, C., Yang, R., Zhang, T., Tang, J., Luo, B.: Describe and attend to track: Learning natural language guided structural representation and visual attention for object tracking (2018). arXiv preprint arXiv:1811.10014"},{"key":"4360_CR29","doi-asserted-by":"publisher","first-page":"1720","DOI":"10.1109\/TMM.2023.3285441","volume":"26","author":"H Zhang","year":"2023","unstructured":"Zhang, H., Wang, J., Zhang, J., Zhang, T., Zhong, B.: One-stream vision-language memory network for object tracking. IEEE Trans. Multimedia 26, 1720\u20131730 (2023)","journal-title":"IEEE Trans. Multimedia"},{"key":"4360_CR30","doi-asserted-by":"crossref","unstructured":"Zhang, C., Sun, X., Yang, Y., Liu, L., Liu, Q., Zhou, X., Wang, Y.: All in one: Exploring unified vision-language tracking with multi-modal alignment. In: Proceedings of the 31st ACM International Conference on Multimedia, pp. 5552\u20135561 (2023)","DOI":"10.1145\/3581783.3611803"},{"key":"4360_CR31","doi-asserted-by":"crossref","unstructured":"Souvik\u00a0Chowdhury, B.S.: Qsfvqa: A time efficient, scalable and optimized vqa framework. Arabian J. Sci. Eng., 10479\u201310491 (2023)","DOI":"10.1007\/s13369-023-07661-8"},{"key":"4360_CR32","unstructured":"Vaswani, A.: Attention is all you need. Adv. Neural Inf. Process. Syst. (2017)"},{"key":"4360_CR33","unstructured":"Chen, T., Kornblith, S., Norouzi, M., Hinton, G.: A simple framework for contrastive learning of visual representations. In: International Conference on Machine Learning, pp. 1597\u20131607 (2020). PMLR"},{"key":"4360_CR34","doi-asserted-by":"crossref","unstructured":"Law, H., Deng, J.: Cornernet: Detecting objects as paired keypoints. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 734\u2013750 (2018)","DOI":"10.1007\/978-3-030-01264-9_45"},{"key":"4360_CR35","doi-asserted-by":"crossref","unstructured":"Rezatofighi, H., Tsoi, N., Gwak, J., Sadeghian, A., Reid, I., Savarese, S.: Generalized intersection over union: A metric and a loss for bounding box regression. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 658\u2013666 (2019)","DOI":"10.1109\/CVPR.2019.00075"},{"issue":"12","key":"4360_CR36","doi-asserted-by":"publisher","first-page":"5586","DOI":"10.1109\/TKDE.2021.3070203","volume":"34","author":"Y Zhang","year":"2021","unstructured":"Zhang, Y., Yang, Q.: A survey on multi-task learning. IEEE Trans. Knowl. Data Eng. 34(12), 5586\u20135609 (2021)","journal-title":"IEEE Trans. Knowl. Data Eng."},{"key":"4360_CR37","unstructured":"Alexey, D.: An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv: 2010.11929 (2020)"},{"key":"4360_CR38","doi-asserted-by":"crossref","unstructured":"Zheng, Y., Zhong, B., Liang, Q., Mo, Z., Zhang, S., Li, X.: Odtrack: Online dense temporal token learning for visual tracking. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 38, pp. 7588\u20137596 (2024)","DOI":"10.1609\/aaai.v38i7.28591"},{"key":"4360_CR39","unstructured":"Kenton, J.D.M.-W.C., Toutanova, L.K.: Bert: Pre-training of deep bidirectional transformers for language understanding. In: Proceedings of naacL-HLT, vol. 1, p. 2 (2019). Minneapolis, Minnesota"},{"key":"4360_CR40","doi-asserted-by":"crossref","unstructured":"Fan, H., Lin, L., Yang, F., Chu, P., Deng, G., Yu, S., Bai, H., Xu, Y., Liao, C., Ling, H.: Lasot: A high-quality benchmark for large-scale single object tracking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 5374\u20135383 (2019)","DOI":"10.1109\/CVPR.2019.00552"},{"key":"4360_CR41","doi-asserted-by":"crossref","unstructured":"Li, G., Duan, N., Fang, Y., Gong, M., Jiang, D.: Unicoder-vl: A universal encoder for vision and language by cross-modal pre-training. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol. 34, pp. 11336\u201311344 (2020)","DOI":"10.1609\/aaai.v34i07.6795"},{"key":"4360_CR42","doi-asserted-by":"crossref","unstructured":"Wang, X., Huang, Q., Celikyilmaz, A., Gao, J., Shen, D., Wang, Y.-F., Wang, W.Y., Zhang, L.: Reinforced cross-modal matching and self-supervised imitation learning for vision-language navigation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6629\u20136638 (2019)","DOI":"10.1109\/CVPR.2019.00679"},{"key":"4360_CR43","doi-asserted-by":"crossref","unstructured":"Cui, Y., Jiang, C., Wang, L., Wu, G.: Mixformer: End-to-end tracking with iterative mixed attention. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 13608\u201313618 (2022)","DOI":"10.1109\/CVPR52688.2022.01324"},{"key":"4360_CR44","doi-asserted-by":"crossref","unstructured":"Zhang, J., Yan, X., Zhang, H., Xu, L., Jiang, B., Zhong, B.: Vision-language discriminative fusion network for object tracking. The Journal of Supercomputing (2025)","DOI":"10.2139\/ssrn.5129830"},{"issue":"10","key":"4360_CR45","doi-asserted-by":"publisher","first-page":"9053","DOI":"10.1109\/TCSVT.2024.3395352","volume":"34","author":"G Zhang","year":"2024","unstructured":"Zhang, G., Zhong, B., Liang, Q., Mo, Z., Li, N., Song, S.: One-stream stepwise decreasing for vision-language tracking. IEEE Trans. Circuits Syst. Video Technol. 34(10), 9053\u20139063 (2024). https:\/\/doi.org\/10.1109\/TCSVT.2024.3395352","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"4360_CR46","doi-asserted-by":"crossref","unstructured":"Zheng, Y., Zhong, B., Liang, Q., Li, G., Ji, R., Li, X.: Towards unified token learning for vision-language tracking. IEEE Transactions on Circuits and Systems for Video Technology (2023)","DOI":"10.1109\/TCSVT.2023.3301933"},{"key":"4360_CR47","doi-asserted-by":"crossref","unstructured":"Feng, Q., Ablavsky, V., Bai, Q., Li, G., Sclaroff, S.: Real-time visual object tracking with natural language description. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, pp. 700\u2013709 (2020)","DOI":"10.1109\/WACV45572.2020.9093425"},{"key":"4360_CR48","unstructured":"Chenlong, X., Bineng, Z., Qihua, L., Yaozong, Z., Guorong, L., Shuxiang, S.: Less is more: Token context-aware learning for object tracking. arXiv preprint arXiv:2501.00758 (2025)"},{"key":"4360_CR49","doi-asserted-by":"crossref","unstructured":"Chen, X., Peng, H., Wang, D., Lu, H., Hu, H.: Seqtrack: Sequence to sequence learning for visual object tracking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 14572\u201314581 (2023)","DOI":"10.1109\/CVPR52729.2023.01400"},{"key":"4360_CR50","doi-asserted-by":"crossref","unstructured":"Xie, F., Chu, L., Li, J., Lu, Y., Ma, C.: Videotrack: Learning to track objects via video transformer. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 22826\u201322835 (2023)","DOI":"10.1109\/CVPR52729.2023.02186"},{"key":"4360_CR51","doi-asserted-by":"crossref","unstructured":"Gao, S., Zhou, C., Ma, C., Wang, X., Yuan, J.: Aiatrack: Attention in attention for transformer visual tracking. In: European Conference on Computer Vision, pp. 146\u2013164 (2022). Springer","DOI":"10.1007\/978-3-031-20047-2_9"},{"key":"4360_CR52","doi-asserted-by":"crossref","unstructured":"Chen, X., Yan, B., Zhu, J., Wang, D., Yang, X., Lu, H.: Transformer tracking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 8126\u20138135 (2021)","DOI":"10.1109\/CVPR46437.2021.00803"},{"key":"4360_CR53","doi-asserted-by":"crossref","unstructured":"Chen, Z., Zhong, B., Li, G., Zhang, S., Ji, R.: Siamese box adaptive network for visual tracking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6668\u20136677 (2020)","DOI":"10.1109\/CVPR42600.2020.00670"},{"key":"4360_CR54","doi-asserted-by":"crossref","unstructured":"Li, B., Wu, W., Wang, Q., Zhang, F., Xing, J., Yan, J.: Siamrpn++: Evolution of siamese visual tracking with very deep networks. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 4282\u20134291 (2019)","DOI":"10.1109\/CVPR.2019.00441"},{"key":"4360_CR55","doi-asserted-by":"crossref","unstructured":"Bertinetto, L., Valmadre, J., Henriques, J.F., Vedaldi, A., Torr, P.H.: Fully-convolutional siamese networks for object tracking. In: Computer Vision\u2013ECCV 2016 Workshops: Amsterdam, The Netherlands, October 8-10 and 15-16, 2016, Proceedings, Part II 14, pp. 850\u2013865 (2016). Springer","DOI":"10.1007\/978-3-319-48881-3_56"},{"issue":"9","key":"4360_CR56","doi-asserted-by":"publisher","first-page":"1834","DOI":"10.1109\/TPAMI.2014.2388226","volume":"37","author":"Y Wu","year":"2015","unstructured":"Wu, Y., Lim, J., Yang, M.-H.: Object tracking benchmark. IEEE Trans. Pattern Anal. Mach. Intell. 37(9), 1834\u20131848 (2015). https:\/\/doi.org\/10.1109\/TPAMI.2014.2388226","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"4360_CR57","doi-asserted-by":"crossref","unstructured":"Zhang, C., Ge, S., Zhang, K., Zeng, D.: Accurate uav tracking with distance-injected overlap maximization. In: Proceedings of the 28th ACM International Conference on Multimedia, pp. 565\u2013573 (2020)","DOI":"10.1145\/3394171.3413959"},{"key":"4360_CR58","unstructured":"Tekalp, A.M.: Digital Video Processing. Prentice Hall Press (2015)"}],"container-title":["The Visual Computer"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00371-026-04360-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00371-026-04360-x","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00371-026-04360-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,4]],"date-time":"2026-03-04T12:45:51Z","timestamp":1772628351000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00371-026-04360-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,1]]},"references-count":58,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2026,1]]}},"alternative-id":["4360"],"URL":"https:\/\/doi.org\/10.1007\/s00371-026-04360-x","relation":{},"ISSN":["0178-2789","1432-2315"],"issn-type":[{"value":"0178-2789","type":"print"},{"value":"1432-2315","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,1]]},"assertion":[{"value":"18 June 2025","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"9 January 2026","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"26 January 2026","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare that there are no conflict of interest regarding the publication of this paper.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}},{"value":"The research presented in this paper does not involve any human or animal subjects. All data used in this study are publicly available. Therefore, no ethical approval or informed consent was required for this research.","order":3,"name":"Ethics","group":{"name":"EthicsHeading","label":"Ethical approval and consent to participate"}}],"article-number":"142"}}