{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,23]],"date-time":"2026-06-23T04:08:29Z","timestamp":1782187709413,"version":"3.54.5"},"reference-count":81,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2026,1,20]],"date-time":"2026-01-20T00:00:00Z","timestamp":1768867200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,1,20]],"date-time":"2026-01-20T00:00:00Z","timestamp":1768867200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62176037"],"award-info":[{"award-number":["62176037"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2026,2]]},"DOI":"10.1007\/s11263-025-02666-2","type":"journal-article","created":{"date-parts":[[2026,1,20]],"date-time":"2026-01-20T11:58:30Z","timestamp":1768910310000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Efficient Vision Transformer with Token Sparsification for Event-Based Object Tracking"],"prefix":"10.1007","volume":"134","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-0061-5465","authenticated-orcid":false,"given":"Jiqing","family":"Zhang","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xin","family":"Yang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Haoming","family":"Tang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yuanchen","family":"Wang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Baocai","family":"Yin","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Huibing","family":"Wang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xianping","family":"Fu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2026,1,20]]},"reference":[{"issue":"3","key":"2666_CR1","doi-asserted-by":"publisher","first-page":"4110","DOI":"10.1109\/TNNLS.2022.3201830","volume":"35","author":"Y Alkendi","year":"2022","unstructured":"Alkendi, Y., Azzam, R., Ayyad, A., Javed, S., Seneviratne, L., & Zweiri, Y. (2022). Neuromorphic camera denoising using graph neural network-driven transformers. IEEE Transactions on Neural Networks and Learning Systems, 35(3), 4110\u20134124.","journal-title":"IEEE Transactions on Neural Networks and Learning Systems"},{"issue":"8","key":"2666_CR2","doi-asserted-by":"publisher","first-page":"1619","DOI":"10.1109\/TPAMI.2010.226","volume":"33","author":"B Babenko","year":"2010","unstructured":"Babenko, B., Yang, M. H., & Belongie, S. (2010). Robust object tracking with online multiple instance learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(8), 1619\u20131632.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"2666_CR3","doi-asserted-by":"crossref","unstructured":"Bertinetto, L., Valmadre, J., Henriques, J. F., Vedaldi, A. & Torr, P. H. (2016). Fully-convolutional siamese networks for object tracking. In: European Conference on Computer Vision, pp. 850\u2013865. Springer.","DOI":"10.1007\/978-3-319-48881-3_56"},{"key":"2666_CR4","doi-asserted-by":"crossref","unstructured":"Bhat, G., Danelljan, M., Gool, L. V., & Timofte, R. (2019). Learning discriminative model prediction for tracking. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 6182\u20136191.","DOI":"10.1109\/ICCV.2019.00628"},{"issue":"7","key":"2666_CR5","doi-asserted-by":"publisher","first-page":"7266","DOI":"10.1109\/TCSVT.2025.3540089","volume":"35","author":"B Cai","year":"2025","unstructured":"Cai, B., Wang, H., Yao, M., & Fu, X. (2025). Focus more on what? guiding multi-task training for end-to-end person search. IEEE Transactions on Circuits and Systems for Video Technology, 35(7), 7266\u20137278.","journal-title":"IEEE Transactions on Circuits and Systems for Video Technology"},{"key":"2666_CR6","doi-asserted-by":"crossref","unstructured":"Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020). End-to-end object detection with transformers. In: European Conference on Computer Vision, pp. 213\u2013229. Springer.","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"2666_CR7","doi-asserted-by":"crossref","unstructured":"Chen, B., Li, P., Bai, L., Qiao, L., Shen, Q., Li, B., Gan, W., Wu, W., & Ouyang, W. (2022). Backbone is all your need: A simplified architecture for visual object tracking. In: European Conference on Computer Vision, pp. 375\u2013392. Springer.","DOI":"10.1007\/978-3-031-20047-2_22"},{"key":"2666_CR8","doi-asserted-by":"crossref","unstructured":"Chen, H., Suter, D., Wu, Q., & Wang, H. (2020). End-to-end learning of object motion estimation from retinal events for event-based object tracking. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a034, pp. 10,534\u201310,541.","DOI":"10.1609\/aaai.v34i07.6625"},{"key":"2666_CR9","doi-asserted-by":"crossref","unstructured":"Chen, X., Liu, Z., Tang, H., Yi, L., Zhao, H., & Han, S. (2023). Sparsevit: Revisiting activation sparsity for efficient high-resolution vision transformer. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 2061\u20132070.","DOI":"10.1109\/CVPR52729.2023.00205"},{"key":"2666_CR10","unstructured":"Chen, X., Peng, H., Wang, D., Lu, H., & Hu, H. (2023). Seqtrack: Sequence to sequence learning for visual object tracking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 14,572\u201314,581."},{"key":"2666_CR11","doi-asserted-by":"crossref","unstructured":"Chen, X., Yan, B., Zhu, J., Wang, D., Yang, X., & Lu, H. (2021). Transformer tracking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8126\u20138135.","DOI":"10.1109\/CVPR46437.2021.00803"},{"key":"2666_CR12","doi-asserted-by":"crossref","unstructured":"Chen, Z., Zhang, J., Xu, Y., & Tao, D. (2023). Transformer-based context condensation for boosting feature pyramids in object detection. International Journal of Computer Vision, 131(10), 2738\u20132756.","DOI":"10.1007\/s11263-023-01830-w"},{"key":"2666_CR13","unstructured":"Cho, H., Jeong, Y., Kim, T., & Yoon, K. J. (2023). Non-coaxial event-guided motion deblurring with spatial alignment. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 12,492\u201312,503."},{"key":"2666_CR14","unstructured":"Cui, Y., Jiang, C., Wang, L., & Wu, G. (2022). Mixformer: End-to-end tracking with iterative mixed attention. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 13,608\u201313,618."},{"key":"2666_CR15","doi-asserted-by":"crossref","unstructured":"Danelljan, M., Bhat, G., Khan, F. S., & Felsberg, M. (2019). Atom: Accurate tracking by overlap maximization. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 4660\u20134669.","DOI":"10.1109\/CVPR.2019.00479"},{"key":"2666_CR16","doi-asserted-by":"crossref","unstructured":"Danelljan, M., Gool, L. V., & Timofte, R. (2020). Probabilistic regression for visual tracking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 7183\u20137192.","DOI":"10.1109\/CVPR42600.2020.00721"},{"key":"2666_CR17","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et\u00a0al. (2020) An image is worth 16x16 words: Transformers for image recognition at scale. In: International Conference on Learning Representations, pp. 1\u201321."},{"key":"2666_CR18","doi-asserted-by":"crossref","unstructured":"Fayyaz, M., Koohpayegani, S. A., Jafari, F. R., Sengupta, S., Joze, H. R. V., Sommerlade, E., Pirsiavash, H., & Gall, J. (2022). Adaptive token sampling for efficient vision transformers. In: European Conference on Computer Vision, pp. 396\u2013414. Springer.","DOI":"10.1007\/978-3-031-20083-0_24"},{"key":"2666_CR19","doi-asserted-by":"crossref","unstructured":"Gao, L., Su, H., Gehrig, D., Cannici, M., Scaramuzza, D., & Kneip, L. (2023). A 5-point minimal solver for event camera relative motion estimation. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 8049\u20138059.","DOI":"10.1109\/ICCV51070.2023.00739"},{"key":"2666_CR20","doi-asserted-by":"crossref","unstructured":"Gao, S., Zhou, C., Ma, C., Wang, X., & Yuan, J. (2022). Aiatrack: Attention in attention for transformer visual tracking. In: European Conference on Computer Vision, pp. 146\u2013164. Springer.","DOI":"10.1007\/978-3-031-20047-2_9"},{"key":"2666_CR21","unstructured":"Gao, S., Zhou, C., & Zhang, J. (2023). Generalized relation modeling for transformer tracking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 18,686\u201318,695."},{"issue":"8014","key":"2666_CR22","doi-asserted-by":"publisher","first-page":"1034","DOI":"10.1038\/s41586-024-07409-w","volume":"629","author":"D Gehrig","year":"2024","unstructured":"Gehrig, D., & Scaramuzza, D. (2024). Low-latency automotive vision with event cameras. Nature, 629(8014), 1034\u20131040.","journal-title":"Nature"},{"key":"2666_CR23","doi-asserted-by":"crossref","unstructured":"Gehrig, M., & Scaramuzza, D. (2023). Recurrent vision transformers for object detection with event cameras. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 13,884\u201313,893.","DOI":"10.1109\/CVPR52729.2023.01334"},{"key":"2666_CR24","unstructured":"He, K., Chen, X., Xie, S., Li, Y., Doll\u00e1r, P., & Girshick, R. (2022). Masked autoencoders are scalable vision learners. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 16,000\u201316,009."},{"key":"2666_CR25","doi-asserted-by":"crossref","unstructured":"Kong, Z., Dong, P., Ma, X., Meng, X., Niu, W., Sun, M., Shen, X., Yuan, G., Ren, B., Tang, H., et\u00a0al. (2022). Spvit: Enabling faster vision transformers via latency-aware soft token pruning. In: European Conference on Computer Vision, pp. 620\u2013640.","DOI":"10.1007\/978-3-031-20083-0_37"},{"issue":"7","key":"2666_CR26","doi-asserted-by":"publisher","first-page":"1346","DOI":"10.1109\/TPAMI.2016.2574707","volume":"39","author":"X Lagorce","year":"2016","unstructured":"Lagorce, X., Orchard, G., Galluppi, F., Shi, B. E., & Benosman, R. B. (2016). Hots: a hierarchy of event-based time-surfaces for pattern recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 39(7), 1346\u20131359.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"2666_CR27","doi-asserted-by":"crossref","unstructured":"Law, H., & Deng, J. (2018). Cornernet: Detecting objects as paired keypoints. In: European Conference on Computer Vision, pp. 734\u2013750.","DOI":"10.1007\/978-3-030-01264-9_45"},{"key":"2666_CR28","doi-asserted-by":"crossref","unstructured":"Li, B., Wu, W., Wang, Q., Zhang, F., Xing, J., & Yan, J. (2019). Siamrpn++: Evolution of siamese visual tracking with very deep networks. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 4282\u20134291.","DOI":"10.1109\/CVPR.2019.00441"},{"key":"2666_CR29","doi-asserted-by":"crossref","unstructured":"Li, B., Yan, J., Wu, W., Zhu, Z., & Hu, X. (2018). High performance visual tracking with siamese region proposal network. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 8971\u20138980.","DOI":"10.1109\/CVPR.2018.00935"},{"key":"2666_CR30","unstructured":"Liang, J., Yang, Y., Li, B., Duan, P., Xu, Y., & Shi, B. (2023). Coherent event guided low-light video enhancement. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 10,615\u201310,625."},{"key":"2666_CR31","unstructured":"Liang, Y., Ge, C., Tong, Z., Song, Y., Wang, J., & Xie, P. (2022). Not all patches are what you need: Expediting vision transformers via token reorganizations. arXiv preprint arXiv:2202.07800."},{"key":"2666_CR32","doi-asserted-by":"crossref","unstructured":"Litzenberger, M., Posch, C., Bauer, D., Belbachir, A. N., Schon, P., Kohn, B., & Garn, H. (2006). Embedded vision system for real-time object tracking using an asynchronous transient vision sensor. In: 2006 IEEE 12th Digital Signal Processing Workshop & 4th IEEE Signal Processing Education Workshop, pp. 173\u2013178. IEEE.","DOI":"10.1109\/DSPWS.2006.265448"},{"key":"2666_CR33","doi-asserted-by":"crossref","unstructured":"Liu, Y., Gehrig, M., Messikommer, N., Cannici, M., & Scaramuzza, D. (2024). Revisiting token pruning for object detection and instance segmentation. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, pp. 2658\u20132668.","DOI":"10.1109\/WACV57701.2024.00264"},{"key":"2666_CR34","unstructured":"Loshchilov, I., & Hutter, F. (2017). Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101."},{"key":"2666_CR35","doi-asserted-by":"crossref","unstructured":"Ma, Q., Paudel, D. P., Chhatkuli, A., & Van\u00a0Gool, L. (2023). Deformable neural radiance fields using rgb and event cameras. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 3590\u20133600.","DOI":"10.1109\/ICCV51070.2023.00332"},{"key":"2666_CR36","doi-asserted-by":"crossref","unstructured":"Mayer, C., Danelljan, M., Bhat, G., Paul, M., Paudel, D. P., Yu, F., & Van\u00a0Gool, L. (2022). Transforming model prediction for tracking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8731\u20138740.","DOI":"10.1109\/CVPR52688.2022.00853"},{"issue":"4","key":"2666_CR37","doi-asserted-by":"publisher","first-page":"900","DOI":"10.1007\/s11263-020-01410-2","volume":"129","author":"M Mostafavi","year":"2021","unstructured":"Mostafavi, M., Wang, L., & Yoon, K. J. (2021). Learning to reconstruct hdr images from events, with applications to depth and flow prediction. International Journal of Computer Vision, 129(4), 900\u2013920.","journal-title":"International Journal of Computer Vision"},{"key":"2666_CR38","doi-asserted-by":"crossref","unstructured":"Peng, Y., Zhang, Y., Xiong, Z., Sun, X., & Wu, F. (2023). Get: group event transformer for event-based vision. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 6038\u20136048.","DOI":"10.1109\/ICCV51070.2023.00555"},{"key":"2666_CR39","doi-asserted-by":"crossref","unstructured":"Pikatkowska, E., Belbachir, A. N., Schraml, S., & Gelautz, M. (2012). Spatiotemporal multiple persons tracking using dynamic vision sensor. In: 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops, pp. 35\u201340. IEEE.","DOI":"10.1109\/CVPRW.2012.6238892"},{"key":"2666_CR40","unstructured":"Ramesh, B., Zhang, S., Lee, Z.W., Gao, Z., Orchard, G., & Xiang, C. (2018). Long-term object tracking with a moving event camera. In: British Machine Vision Conference, pp. 1\u201312."},{"issue":"1","key":"2666_CR41","first-page":"13937","volume":"34","author":"Y Rao","year":"2021","unstructured":"Rao, Y., Zhao, W., Liu, B., Lu, J., Zhou, J., & Hsieh, C. J. (2021). Dynamicvit: Efficient vision transformers with dynamic token sparsification. Advances in Neural Information Processing Systems, 34(1), 13937\u201313949.","journal-title":"Advances in Neural Information Processing Systems"},{"issue":"12","key":"2666_CR42","doi-asserted-by":"publisher","first-page":"1394","DOI":"10.1007\/s11263-017-1050-6","volume":"126","author":"H Rebecq","year":"2018","unstructured":"Rebecq, H., Gallego, G., Mueggler, E., & Scaramuzza, D. (2018). Emvs: Event-based multi-view stereo-3d reconstruction with an event camera in real-time. International Journal of Computer Vision, 126(12), 1394\u20131414.","journal-title":"International Journal of Computer Vision"},{"key":"2666_CR43","doi-asserted-by":"crossref","unstructured":"Rezatofighi, H., Tsoi, N., Gwak, J., Sadeghian, A., Reid, I., & Savarese, S. (2019). Generalized intersection over union: A metric and a loss for bounding box regression. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 658\u2013666.","DOI":"10.1109\/CVPR.2019.00075"},{"issue":"12","key":"2666_CR44","doi-asserted-by":"publisher","first-page":"7742","DOI":"10.1109\/TPAMI.2024.3396116","volume":"46","author":"S Shiba","year":"2024","unstructured":"Shiba, S., Klose, Y., Aoki, Y., & Gallego, G. (2024). Secrets of event-based optical flow, depth and ego-motion estimation by contrast maximization. IEEE Transactions on Pattern Analysis and Machine Intelligence, 46(12), 7742\u20137759.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"2666_CR45","doi-asserted-by":"crossref","unstructured":"Sun, C., Zhang, J., Wang, Y., Ge, H., Xia, Q., Yin, B., & Yang, X. (2025). Exploring historical information for rgbe visual tracking with mamba. In: Proceedings of the Computer Vision and Pattern Recognition Conference, pp. 6500\u20136509.","DOI":"10.1109\/CVPR52734.2025.00609"},{"key":"2666_CR46","unstructured":"Tang, C., Wang, X., Huang, J., Jiang, B., Zhu, L., Zhang, J., Wang, Y., & Tian, Y. (2022). Revisiting color-event based tracking: A unified network, dataset, and metric. arXiv preprint arXiv:2211.11010."},{"key":"2666_CR47","unstructured":"Tang, Y., Han, K., Wang, Y., Xu, C., Guo, J., Xu, C., & Tao, D. (2022). Patch slimming for efficient vision transformers. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 12,165\u201312,174."},{"key":"2666_CR48","unstructured":"Tian, Y., & Andrade-Cetto, J. (2022). Event transformer flownet for optical flow estimation. In: British Machine Vision Conference, pp. 1\u201313."},{"issue":"1","key":"2666_CR49","first-page":"1","volume":"30","author":"A Vaswani","year":"2017","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, \u0141, & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30(1), 1\u201311.","journal-title":"Advances in neural information processing systems"},{"key":"2666_CR50","doi-asserted-by":"crossref","unstructured":"Voigtlaender, P., Luiten, J., Torr, P. H., & Leibe, B. (2020). Siam r-cnn: Visual tracking by re-detection. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 6578\u20136588.","DOI":"10.1109\/CVPR42600.2020.00661"},{"issue":"1","key":"2666_CR51","doi-asserted-by":"publisher","first-page":"7237","DOI":"10.1109\/TIP.2022.3220938","volume":"31","author":"Z Wan","year":"2022","unstructured":"Wan, Z., Dai, Y., & Mao, Y. (2022). Learning dense and continuous optical flow from an event camera. IEEE Transactions on Image Processing, 31(1), 7237\u20137251.","journal-title":"IEEE Transactions on Image Processing"},{"issue":"1","key":"2666_CR52","doi-asserted-by":"publisher","first-page":"10001","DOI":"10.1109\/TMM.2024.3405650","volume":"26","author":"H Wang","year":"2024","unstructured":"Wang, H., Yao, M., Chen, Y., Xu, Y., Liu, H., Jia, W., Fu, X., & Wang, Y. (2024). Manifold-based incomplete multi-view clustering via bi-consistency guidance. IEEE Transactions on Multimedia, 26(1), 10001\u201310014.","journal-title":"IEEE Transactions on Multimedia"},{"issue":"3","key":"2666_CR53","doi-asserted-by":"publisher","first-page":"1997","DOI":"10.1109\/TCYB.2023.3318601","volume":"54","author":"X Wang","year":"2023","unstructured":"Wang, X., Li, J., Zhu, L., Zhang, Z., Chen, Z., Li, X., Wang, Y., Tian, Y., & Wu, F. (2023). Visevent: Reliable object tracking via collaboration of frame and event flows. IEEE Transactions on Cybernetics, 54(3), 1997\u20132010.","journal-title":"IEEE Transactions on Cybernetics"},{"key":"2666_CR54","doi-asserted-by":"crossref","unstructured":"Wei, X., Bai, Y., Zheng, Y., Shi, D., & Gong, Y. (2023). Autoregressive visual tracking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 9697\u20139706.","DOI":"10.1109\/CVPR52729.2023.00935"},{"key":"2666_CR55","doi-asserted-by":"crossref","unstructured":"Xu, Y., Wang, Z., Li, Z., Yuan, Y., & Yu, G. (2020). Siamfc++: Towards robust and accurate visual tracking with target estimation guidelines. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a034, pp. 12,549\u201312,556.","DOI":"10.1609\/aaai.v34i07.6944"},{"key":"2666_CR56","doi-asserted-by":"crossref","unstructured":"Xu, Y., Zhang, Z., Zhang, M., Sheng, K., Li, K., Dong, W., Zhang, L., Xu, C., & Sun, X. (2022). Evo-vit: Slow-fast token evolution for dynamic vision transformer. In: Proceedings of the AAAI Conference on Artificial Intelligence, vol.\u00a036, pp. 2964\u20132972.","DOI":"10.1609\/aaai.v36i3.20202"},{"key":"2666_CR57","unstructured":"Yan, B., Peng, H., Fu, J., Wang, D., & Lu, H. (2021). Learning spatio-temporal transformer for visual tracking. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 10,448\u201310,457."},{"key":"2666_CR58","unstructured":"Yang, D., He, J., Ma, Y., Yu, Q., & Zhang, T. (2023). Foreground-background distribution modeling transformer for visual object tracking. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 10,117\u201310,127."},{"key":"2666_CR59","unstructured":"Yang, Y., Han, J., Liang, J., Sato, I., & Shi, B. (2023). Learning event guided high dynamic range video reconstruction. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 13,924\u201313,934."},{"issue":"1","key":"2666_CR60","first-page":"1538","volume":"27","author":"M Yao","year":"2024","unstructured":"Yao, M., Wang, H., Chen, Y., & Fu, X. (2024). Between\/within view information completing for tensorial incomplete multi-view clustering. IEEE Transactions on Multimedia, 27(1), 1538\u20131550.","journal-title":"IEEE Transactions on Multimedia"},{"key":"2666_CR61","doi-asserted-by":"crossref","unstructured":"Ye, B., Chang, H., Ma, B., Shan, S., & Chen, X. (2022). Joint feature learning and relation modeling for tracking: A one-stream framework. In: European Conference on Computer Vision, pp. 341\u2013357. Springer.","DOI":"10.1007\/978-3-031-20047-2_20"},{"key":"2666_CR62","doi-asserted-by":"crossref","unstructured":"Yin, H., Vahdat, A., Alvarez, J. M., Mallya, A., Kautz, J., & Molchanov, P. (2022). A-vit: Adaptive tokens for efficient vision transformer. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 10,809\u201310,818.","DOI":"10.1109\/CVPR52688.2022.01054"},{"key":"2666_CR63","doi-asserted-by":"crossref","unstructured":"Yu, N., Ma, T., Zhang, J., Zhang, Y., Bao, Q., Wei, X., & Yang, X. (2024). Adaptive vision transformer for event-based human pose estimation. In: Proceedings of the 32nd ACM International Conference on Multimedia, pp. 2833\u20132841.","DOI":"10.1145\/3664647.3681401"},{"key":"2666_CR64","doi-asserted-by":"crossref","unstructured":"Zeng, Y., Fu, J., & Chao, H. (2020). Learning joint spatial-temporal transformations for video inpainting. In: European Conference on Computer Vision, pp. 528\u2013543. Springer.","DOI":"10.1007\/978-3-030-58517-4_31"},{"key":"2666_CR65","doi-asserted-by":"crossref","unstructured":"Zhang, H., Zhang, J., Dong, B., Peers, P., Wu, W., Wei, X., Heide, F., & Yang, X. (2023). In the blink of an eye: Event-based emotion recognition. In: ACM SIGGRAPH 2023 Conference Proceedings, pp. 1\u201311.","DOI":"10.1145\/3588432.3591511"},{"key":"2666_CR66","doi-asserted-by":"crossref","unstructured":"Zhang, H., Zhang, L., Dai, Y., Li, H., & Koniusz, P. (2023). Event-guided multi-patch network with self-supervision for non-uniform motion deblurring. International Journal of Computer Vision, 131(2), 453\u2013470.","DOI":"10.1007\/s11263-022-01708-3"},{"issue":"5","key":"2666_CR67","doi-asserted-by":"publisher","first-page":"1857","DOI":"10.1007\/s11263-023-01959-8","volume":"132","author":"J Zhang","year":"2024","unstructured":"Zhang, J., Dong, B., Fu, Y., Wang, Y., Wei, X., Yin, B., & Yang, X. (2024). A universal event-based plug-in module for visual object tracking in degraded conditions. International Journal of Computer Vision, 132(5), 1857\u20131879.","journal-title":"International Journal of Computer Vision"},{"issue":"5","key":"2666_CR68","doi-asserted-by":"publisher","first-page":"1857","DOI":"10.1007\/s11263-023-01959-8","volume":"132","author":"J Zhang","year":"2024","unstructured":"Zhang, J., Dong, B., Fu, Y., Wang, Y., Wei, X., Yin, B., & Yang, X. (2024). A universal event-based plug-in module for visual object tracking in degraded conditions. International Journal of Computer Vision, 132(5), 1857\u20131879.","journal-title":"International Journal of Computer Vision"},{"key":"2666_CR69","doi-asserted-by":"crossref","unstructured":"Zhang, J., Dong, B., Zhang, H., Ding, J., Heide, F., Yin, B., & Yang, X. (2022). Spiking transformers for event-based single object tracking. In: Proceedings of the IEEE\/CVF conference on Computer Vision and Pattern Recognition, pp. 8801\u20138810.","DOI":"10.1109\/CVPR52688.2022.00860"},{"key":"2666_CR70","doi-asserted-by":"crossref","unstructured":"Zhang, J., Wang, Y., Liu, W., Li, M., Bai, J., Yin, B., & Yang, X. (2023). Frame-event alignment and fusion network for high frame rate tracking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 9781\u20139790.","DOI":"10.1109\/CVPR52729.2023.00943"},{"key":"2666_CR71","unstructured":"Zhang, J., Yang, X., Fu, Y., Wei, X., Yin, B., & Dong, B. (2021). Object tracking by jointly exploiting frame and event domain. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 13,043\u201313,052."},{"issue":"1","key":"2666_CR72","doi-asserted-by":"publisher","first-page":"1009","DOI":"10.1109\/TIP.2025.3533213","volume":"34","author":"J Zhang","year":"2025","unstructured":"Zhang, J., Zhang, M., Wang, Y., Liu, Q., Yin, B., Li, H., & Yang, X. (2025). Spiking neural networks with adaptive membrane time constant for event-based tracking. IEEE Transactions on Image Processing, 34(1), 1009\u20131021.","journal-title":"IEEE Transactions on Image Processing"},{"key":"2666_CR73","doi-asserted-by":"crossref","unstructured":"Zhang, K., Fu, J., & Liu, D. (2022). Flow-guided transformer for video inpainting. In: European Conference on Computer Vision, pp. 74\u201390. Springer.","DOI":"10.1007\/978-3-031-19797-0_5"},{"key":"2666_CR74","doi-asserted-by":"crossref","unstructured":"Zhang, Q., Xu, Y., Zhang, J., & Tao, D. (2023). Vitaev2: Vision transformer advanced by exploring inductive bias for image recognition and beyond. International Journal of Computer Vision, 131(5), 1141\u20131162.","DOI":"10.1007\/s11263-022-01739-w"},{"key":"2666_CR75","doi-asserted-by":"crossref","unstructured":"Zhang, Z., & Peng, H. (2019). Deeper and wider siamese networks for real-time visual tracking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 4591\u20134600.","DOI":"10.1109\/CVPR.2019.00472"},{"key":"2666_CR76","doi-asserted-by":"crossref","unstructured":"Zhang, Z., Peng, H., Fu, J., Li, B., & Hu, W. (2020). Ocean: Object-aware anchor-free tracking. In: European Conference on Computer Vision, pp. 771\u2013787. Springer.","DOI":"10.1007\/978-3-030-58589-1_46"},{"key":"2666_CR77","doi-asserted-by":"crossref","unstructured":"Zheng, Y., Zhong, B., Liang, Q., Mo, Z., Zhang, S., & Li, X. (2024). Odtrack: Online dense temporal token learning for visual tracking. arXiv preprint arXiv:2401.01686.","DOI":"10.1609\/aaai.v38i7.28591"},{"issue":"5","key":"2666_CR78","doi-asserted-by":"publisher","first-page":"1284","DOI":"10.1007\/s11263-023-01754-5","volume":"131","author":"C Zhou","year":"2023","unstructured":"Zhou, C., Teng, M., Han, J., Liang, J., Xu, C., Cao, G., & Shi, B. (2023). Deblurring low-light images with events. International Journal of Computer Vision, 131(5), 1284\u20131298.","journal-title":"International Journal of Computer Vision"},{"key":"2666_CR79","doi-asserted-by":"crossref","unstructured":"Zhu, J., Lai, S., Chen, X., Wang, D., & Lu, H. (2023). Visual prompt multi-modal tracking. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 9516\u20139526.","DOI":"10.1109\/CVPR52729.2023.00918"},{"issue":"1","key":"2666_CR80","first-page":"7462","volume":"35","author":"Z Zhu","year":"2022","unstructured":"Zhu, Z., Hou, J., & Lyu, X. (2022). Learning graph-embedded key-event back-tracing for object tracking in event clouds. Advances in Neural Information Processing Systems, 35(1), 7462\u20137476.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"2666_CR81","doi-asserted-by":"crossref","unstructured":"Zhu, Z., Hou, J., & Wu, D. O. (2023). Cross-modal orthogonal high-rank augmentation for rgb-event transformer-trackers. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 22,045\u201322,055.","DOI":"10.1109\/ICCV51070.2023.02015"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-025-02666-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11263-025-02666-2","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-025-02666-2.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,17]],"date-time":"2026-02-17T15:21:13Z","timestamp":1771341673000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11263-025-02666-2"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,1,20]]},"references-count":81,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2026,2]]}},"alternative-id":["2666"],"URL":"https:\/\/doi.org\/10.1007\/s11263-025-02666-2","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,1,20]]},"assertion":[{"value":"16 May 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"30 September 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"20 January 2026","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}],"article-number":"75"}}