{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T04:10:08Z","timestamp":1765339808577,"version":"3.46.0"},"publisher-location":"New York, NY, USA","reference-count":52,"publisher":"ACM","funder":[{"name":"the Project of Guangxi Science and Technology","award":["2025GXNSFAA069676,2024GXNSFGA010001"],"award-info":[{"award-number":["2025GXNSFAA069676,2024GXNSFGA010001"]}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["U23A20383,62472109,62466051,62402252"],"award-info":[{"award-number":["U23A20383,62472109,62466051,62402252"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Guangxi ?Young Bagui Scholar? Teams for Innovation and Research Project, the Research Project of Guangxi Normal University","award":["2024DF001"],"award-info":[{"award-number":["2024DF001"]}]},{"name":"Guangxi Colleges and Universities Key Laboratory of Intelligent Software","award":["2024B01"],"award-info":[{"award-number":["2024B01"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,27]]},"DOI":"10.1145\/3746027.3755282","type":"proceedings-article","created":{"date-parts":[[2025,10,25]],"date-time":"2025-10-25T07:26:51Z","timestamp":1761377211000},"page":"8067-8076","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Explicit Context Reasoning with Supervision for Visual Tracking"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0003-0805-7853","authenticated-orcid":false,"given":"Fansheng","family":"Zeng","sequence":"first","affiliation":[{"name":"Guangxi Normal University, Guilin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3423-1539","authenticated-orcid":false,"given":"Bineng","family":"Zhong","sequence":"additional","affiliation":[{"name":"Guangxi Normal University, Guilin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8711-1851","authenticated-orcid":false,"given":"Haiying","family":"Xia","sequence":"additional","affiliation":[{"name":"Guangxi Normal University, Guilin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-3472-842X","authenticated-orcid":false,"given":"Yufei","family":"Tan","sequence":"additional","affiliation":[{"name":"Guangxi Normal University, Guilin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-1541-1717","authenticated-orcid":false,"given":"Xiantao","family":"Hu","sequence":"additional","affiliation":[{"name":"Nanjing University of Science and Technology, Nanjing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0003-5934-8837","authenticated-orcid":false,"given":"Liangtao","family":"Shi","sequence":"additional","affiliation":[{"name":"Hefei University of Technology, Hefei, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0280-2640","authenticated-orcid":false,"given":"Shuxiang","family":"Song","sequence":"additional","affiliation":[{"name":"Guangxi Normal University, Guilin, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,10,27]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01802"},{"key":"e_1_3_2_1_2_1","volume-title":"European conference on computer vision","volume":"7","author":"Benchmark UT","year":"2016","unstructured":"UT Benchmark. 2016. A benchmark and simulator for uav tracking. In European conference on computer vision, Vol. 7."},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-48881-3_56"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00879"},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01400"},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00803"},{"key":"e_1_3_2_1_7_1","first-page":"5158","article-title":"SiamBAN: Target-aware tracking with Siamese box adaptive network","volume":"45","author":"Chen Zedu","year":"2022","unstructured":"Zedu Chen, Bineng Zhong, Guorong Li, Shengping Zhang, Rongrong Ji, Zhenjun Tang, and Xianxian Li. 2022. SiamBAN: Target-aware tracking with Siamese box adaptive network. IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. 45, 4 (2022), 5158-5173.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01324"},{"key":"e_1_3_2_1_9_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.733"},{"key":"e_1_3_2_1_10_1","volume-title":"An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929","author":"Dosovitskiy Alexey","year":"2020","unstructured":"Alexey Dosovitskiy. 2020. An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929 (2020)."},{"key":"e_1_3_2_1_11_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-020-01387-y"},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00552"},{"key":"e_1_3_2_1_13_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01356"},{"key":"e_1_3_2_1_14_1","volume-title":"Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752 [cs.LG] https:\/\/arxiv.org\/abs\/2312.00752","author":"Gu Albert","year":"2024","unstructured":"Albert Gu and Tri Dao. 2024. Mamba: Linear-Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752 [cs.LG] https:\/\/arxiv.org\/abs\/2312.00752"},{"key":"e_1_3_2_1_15_1","unstructured":"Albert Gu Ankit Gupta Karan Goel and Christopher R\u00e9. 2022. On the Parameterization and Initialization of Diagonal State Space Models. arXiv:2206.11893 [cs.LG] https:\/\/arxiv.org\/abs\/2206.11893"},{"key":"e_1_3_2_1_16_1","unstructured":"Ankit Gupta Albert Gu and Jonathan Berant. 2022. Diagonal State Spaces are as Effective as Structured State Spaces. arXiv:2203.14343 [cs.LG] https:\/\/arxiv.org\/abs\/2203.14343"},{"key":"e_1_3_2_1_17_1","volume-title":"Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking. arXiv preprint arXiv:2412.15691","author":"Hu Xiantao","year":"2024","unstructured":"Xiantao Hu, Ying Tai, Xu Zhao, Chen Zhao, Zhenyu Zhang, Jun Li, Bineng Zhong, and Jian Yang. 2024a. Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking. arXiv preprint arXiv:2412.15691 (2024)."},{"key":"e_1_3_2_1_18_1","volume-title":"Adaptive Perception for Unified Visual Multi-modal Object Tracking. arXiv preprint arXiv:2502.06583","author":"Hu Xiantao","year":"2025","unstructured":"Xiantao Hu, Bineng Zhong, Qihua Liang, Zhiyi Mo, Liangtao Shi, Ying Tai, and Jian Yang. 2025. Adaptive Perception for Unified Visual Multi-modal Object Tracking. arXiv preprint arXiv:2502.06583 (2025)."},{"key":"e_1_3_2_1_19_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2024.3396289"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3289624"},{"key":"e_1_3_2_1_21_1","volume-title":"Got-10k: A large high-diversity benchmark for generic object tracking in the wild","author":"Huang Lianghua","year":"2019","unstructured":"Lianghua Huang, Xin Zhao, and Kaiqi Huang. 2019. Got-10k: A large high-diversity benchmark for generic object tracking in the wild. IEEE transactions on pattern analysis and machine intelligence, Vol. 43, 5 (2019), 1562-1577."},{"key":"e_1_3_2_1_22_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00441"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00935"},{"key":"e_1_3_2_1_24_1","volume-title":"MambaLCT: Boosting Tracking via Long-term Context State Space Model. arXiv preprint arXiv:2412.13615","author":"Li Xiaohai","year":"2024","unstructured":"Xiaohai Li, Bineng Zhong, Qihua Liang, Guorong Li, Zhiyi Mo, and Shuxiang Song. 2024. MambaLCT: Boosting Tracking via Long-term Context State Space Model. arXiv preprint arXiv:2412.13615 (2024)."},{"key":"e_1_3_2_1_25_1","volume-title":"Focal Loss for Dense Object Detection. arXiv preprint arXiv:1708.02002","author":"Lin T","year":"2017","unstructured":"T Lin. 2017. Focal Loss for Dense Object Detection. arXiv preprint arXiv:1708.02002 (2017)."},{"key":"e_1_3_2_1_26_1","first-page":"740","volume-title":"Switzerland","author":"Lin Tsung-Yi","year":"2014","unstructured":"Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll\u00e1r, and C Lawrence Zitnick. 2014. Microsoft coco: Common objects in context. In Computer vision-ECCV 2014: 13th European conference, zurich, Switzerland, September 6-12, 2014, proceedings, part v 13. Springer, 740-755."},{"key":"e_1_3_2_1_27_1","unstructured":"Yue Liu Yunjie Tian Yuzhong Zhao Hongtian Yu Lingxi Xie Yaowei Wang Qixiang Ye Jianbin Jiao and Yunfan Liu. 2024. VMamba: Visual State Space Model. arXiv:2401.10166 [cs.CV] https:\/\/arxiv.org\/abs\/2401.10166"},{"key":"e_1_3_2_1_28_1","unstructured":"Ilya Loshchilov and Frank Hutter. 2019. Decoupled Weight Decay Regularization. arXiv:1711.05101 [cs.LG] https:\/\/arxiv.org\/abs\/1711.05101"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01246-5_19"},{"key":"e_1_3_2_1_30_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00075"},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2025.3557570"},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i5.28286"},{"key":"e_1_3_2_1_33_1","volume-title":"Jan Kautz, Scott W. Linderman, and Wonmin Byeon.","author":"Smith Jimmy T. H.","year":"2023","unstructured":"Jimmy T. H. Smith, Shalini De Mello, Jan Kautz, Scott W. Linderman, and Wonmin Byeon. 2023. Convolutional State Space Models for Long-Range Spatiotemporal Modeling. arXiv:2310.19694 [cs.LG] https:\/\/arxiv.org\/abs\/2310.19694"},{"key":"e_1_3_2_1_34_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.inffus.2023.101881"},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i6.28325"},{"key":"e_1_3_2_1_36_1","volume-title":"Fast-iTPN: Integrally pre-trained transformer pyramid network with token migration","author":"Tian Yunjie","year":"2024","unstructured":"Yunjie Tian, Lingxi Xie, Jihao Qiu, Jianbin Jiao, Yaowei Wang, Qi Tian, and Qixiang Ye. 2024. Fast-iTPN: Integrally pre-trained transformer pyramid network with token migration. IEEE Transactions on Pattern Analysis and Machine Intelligence (2024)."},{"key":"e_1_3_2_1_37_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01355"},{"key":"e_1_3_2_1_38_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00935"},{"key":"e_1_3_2_1_39_1","volume-title":"CBAM: Convolutional Block Attention Module. arXiv:1807.06521 [cs.CV] https:\/\/arxiv.org\/abs\/1807.06521","author":"Woo Sanghyun","year":"2018","unstructured":"Sanghyun Woo, Jongchan Park, Joon-Young Lee, and In So Kweon. 2018. CBAM: Convolutional Block Attention Module. arXiv:1807.06521 [cs.CV] https:\/\/arxiv.org\/abs\/1807.06521"},{"key":"e_1_3_2_1_40_1","unstructured":"Fei Xie Chunyu Wang Guangting Wang Yue Cao Wankou Yang and Wenjun Zeng. 2022. Correlation-Aware Deep Tracking. arXiv:2203.01666 [cs.CV] https:\/\/arxiv.org\/abs\/2203.01666"},{"key":"e_1_3_2_1_41_1","volume-title":"Robust Tracking via Mamba-based Context-aware Token Learning. arXiv preprint arXiv:2412.13611","author":"Xie Jinxia","year":"2024","unstructured":"Jinxia Xie, Bineng Zhong, Qihua Liang, Ning Li, Zhiyi Mo, and Shuxiang Song. 2024a. Robust Tracking via Mamba-based Context-aware Token Learning. arXiv preprint arXiv:2412.13611 (2024)."},{"key":"e_1_3_2_1_42_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01826"},{"key":"e_1_3_2_1_43_1","unstructured":"Yinda Xu Zeyu Wang Zuoxin Li Ye Yuan and Gang Yu. 2020. SiamFC: Towards Robust and Accurate Visual Tracking with Target Estimation Guidelines. arXiv:1911.06188 [cs.CV] https:\/\/arxiv.org\/abs\/1911.06188"},{"key":"e_1_3_2_1_44_1","volume-title":"Unifying Motion and Appearance Cues for Visual Tracking via Shared Queries","author":"Xue Chaocan","year":"2024","unstructured":"Chaocan Xue, Bineng Zhong, Qihua Liang, Haiying Xia, and Shuxiang Song. 2024. Unifying Motion and Appearance Cues for Visual Tracking via Shared Queries. IEEE Transactions on Circuits and Systems for Video Technology (2024)."},{"key":"e_1_3_2_1_45_1","unstructured":"Chaocan Xue Bineng Zhong Qihua Liang Yaozong Zheng Ning Li Yuanliang Xue and Shuxiang Song. 2025. Similarity-Guided Layer-Adaptive Vision Transformer for UAV Tracking. arXiv:2503.06625 [cs.CV] https:\/\/arxiv.org\/abs\/2503.06625"},{"key":"e_1_3_2_1_46_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01028"},{"key":"e_1_3_2_1_47_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00928"},{"key":"e_1_3_2_1_48_1","unstructured":"Yijun Yang Zhaohu Xing Lequan Yu Chunwang Huang Huazhu Fu and Lei Zhu. 2024. Vivim: a Video Vision Mamba for Medical Video Segmentation. arXiv:2401.14168 [cs.CV] https:\/\/arxiv.org\/abs\/2401.14168"},{"key":"e_1_3_2_1_49_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20047-2_20"},{"key":"e_1_3_2_1_50_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58589-1_46"},{"key":"e_1_3_2_1_51_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i7.28591"},{"key":"e_1_3_2_1_52_1","volume-title":"Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model. arXiv:2401.09417 [cs.CV] https:\/\/arxiv.org\/abs\/2401.09417 endthebibl","author":"Zhu Lianghui","year":"2024","unstructured":"Lianghui Zhu, Bencheng Liao, Qian Zhang, Xinlong Wang, Wenyu Liu, and Xinggang Wang. 2024. Vision Mamba: Efficient Visual Representation Learning with Bidirectional State Space Model. arXiv:2401.09417 [cs.CV] https:\/\/arxiv.org\/abs\/2401.09417 endthebibl"}],"event":{"name":"MM '25: The 33rd ACM International Conference on Multimedia","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Dublin Ireland","acronym":"MM '25"},"container-title":["Proceedings of the 33rd ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3746027.3755282","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T04:07:32Z","timestamp":1765339652000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3746027.3755282"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,27]]},"references-count":52,"alternative-id":["10.1145\/3746027.3755282","10.1145\/3746027"],"URL":"https:\/\/doi.org\/10.1145\/3746027.3755282","relation":{},"subject":[],"published":{"date-parts":[[2025,10,27]]},"assertion":[{"value":"2025-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}