{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,11]],"date-time":"2026-03-11T11:35:54Z","timestamp":1773228954112,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":50,"publisher":"ACM","funder":[{"name":"Knut and Alice Wallenberg Foundation"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,10,27]]},"DOI":"10.1145\/3728423.3759411","type":"proceedings-article","created":{"date-parts":[[2025,10,8]],"date-time":"2025-10-08T15:32:07Z","timestamp":1759937527000},"page":"18-30","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["Towards Robust Identity Incorporation in Sports Video Captioning Systems"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0009-0007-0396-8921","authenticated-orcid":false,"given":"Karol","family":"Wojtulewicz","sequence":"first","affiliation":[{"name":"Link\u00f6ping University, Link\u00f6ping, Sweden"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-1367-1594","authenticated-orcid":false,"given":"Niklas","family":"Carlsson","sequence":"additional","affiliation":[{"name":"Link\u00f6ping University, Link\u00f6ping, Sweden"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2025,10,27]]},"reference":[{"key":"e_1_3_2_2_1_1","unstructured":"Gedas Bertasius Heng Wang and Lorenzo Torresani. 2021. Is Space-Time Attention All You Need for Video Understanding?. In ICML."},{"key":"e_1_3_2_2_2_1","unstructured":"Jing Bi Jiebo Luo and Chenliang Xu. 2021. Procedure planning in instructional videos via contextual modeling and model-based policy learning. In ICCV."},{"key":"e_1_3_2_2_3_1","unstructured":"Tom B. Brown Benjamin Mann Nick Ryder Melanie Subbiah Jared Kaplan et al. 2020. Language models are few-shot learners. In NIPS."},{"key":"e_1_3_2_2_4_1","doi-asserted-by":"crossref","unstructured":"Joao Carreira and Andrew Zisserman. 2017. Quo Vadis Action Recognition? A New Model and the Kinetics Dataset. In CVPR.","DOI":"10.1109\/CVPR.2017.502"},{"key":"e_1_3_2_2_5_1","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2020.113891"},{"key":"e_1_3_2_2_6_1","unstructured":"Adrien Deli\u00e8ge et al. 2023. SoccerNet 2023 Challenges Results. arXiv preprint arXiv:2306.00000 (2023)."},{"key":"e_1_3_2_2_7_1","unstructured":"Adrien Deli\u00e8ge et al. 2024. SoccerNet 2024 Challenges Results. arXiv preprint arXiv:2406.00000 (2024)."},{"key":"e_1_3_2_2_8_1","volume-title":"Kenton Lee, and Kristina Toutanova.","author":"Devlin Jacob","year":"2019","unstructured":"Jacob Devlin, Ming Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of deep bidirectional transformers for language understanding. In NAACL HLT."},{"key":"e_1_3_2_2_9_1","volume-title":"Identifying players in broadcast videos using graph convolutional network. Pattern Recognition","author":"Feng Tao","year":"2022","unstructured":"Tao Feng, Kaifan Ji, Ang Bian, Chang Liu, and Jianzhou Zhang. 2022. Identifying players in broadcast videos using graph convolutional network. Pattern Recognition (2022)."},{"key":"e_1_3_2_2_10_1","volume-title":"William Yang Wang, et al","author":"Fu Tsu-Jui","year":"2022","unstructured":"Tsu-Jui Fu, Linjie Li, Zhe Gan, Kevin Lin, William Yang Wang, et al., 2022. VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling. arXiv."},{"key":"e_1_3_2_2_11_1","doi-asserted-by":"crossref","unstructured":"James Hong Haotian Zhang Micha\u00ebl Gharbi Matthew Fisher and Kayvon Fatahalian. 2022. Spotting Temporally Precise Fine-Grained Events in Video. In ECCV.","DOI":"10.1007\/978-3-031-19833-5_3"},{"key":"e_1_3_2_2_12_1","doi-asserted-by":"crossref","unstructured":"Phillip Isola Jun-Yan Zhu Tinghui Zhou and Alexei A Efros. 2017. Image-to-image translation with conditional adversarial networks. In CVPR.","DOI":"10.1109\/CVPR.2017.632"},{"key":"e_1_3_2_2_13_1","volume-title":"CVPR Workshops.","author":"Koshkina Maria","unstructured":"Maria Koshkina and James H. Elder. 2024. A General Framework for Jersey Number Recognition in Sports Video. In CVPR Workshops."},{"key":"e_1_3_2_2_14_1","unstructured":"Junnan Li Dongxu Li Silvio Savarese and Steven Hoi. 2023. Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models. In ICML."},{"key":"e_1_3_2_2_15_1","unstructured":"Xinyu Lin et al. 2024. Generalized Jersey Number Recognition Using Multi-task Learning. arXiv preprint arXiv:2404.00000 (2024)."},{"key":"e_1_3_2_2_16_1","first-page":"12345","article-title":"Automated player identification and indexing in American football videos using jersey number recognition","volume":"13","author":"Liu Hongshan","year":"2023","unstructured":"Hongshan Liu, Colin Adreon, Noah Wagnon, Abdul Latif Bamba, Xueshen Li, Huapu Liu, Steven MacCall, and Yu Gan. 2023. Automated player identification and indexing in American football videos using jersey number recognition. Scientific Reports, Vol. 13 (2023), 12345.","journal-title":"Scientific Reports"},{"key":"e_1_3_2_2_17_1","doi-asserted-by":"crossref","unstructured":"Dennis Ljung Niklas Carlsson and Patrick Lambrix. 2019. Player pairs valuation in ice hockey. In MLSA at ECML\/PKDD.","DOI":"10.1007\/978-3-030-17274-9_7"},{"key":"e_1_3_2_2_18_1","volume-title":"Little","author":"Lu Wei-Lwun","year":"2011","unstructured":"Wei-Lwun Lu, Jo-Anne Ting, Kevin P. Murphy, and James J. Little. 2011. Identifying players in broadcast sports videos using conditional random fields. In CVPR."},{"key":"e_1_3_2_2_19_1","unstructured":"Huaishao Luo Lei Ji Botian Shi Haoyang Huang Nan Duan et al. 2020. UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation. arXiv."},{"key":"e_1_3_2_2_20_1","doi-asserted-by":"crossref","unstructured":"Antoine Miech Jean-Baptiste Alayrac Lucas Smaira Ivan Laptev Josef Sivic and Andrew Zisserman. 2020. End-to-End Learning of Visual Representations From Uncurated Instructional Videos. In CVPR.","DOI":"10.1109\/CVPR42600.2020.00990"},{"key":"e_1_3_2_2_21_1","volume-title":"SoccerNet-Caption: Dense Video Captioning for Soccer Broadcasts. In CVPR Workshops.","author":"Mkhallati Hassan","year":"2023","unstructured":"Hassan Mkhallati, Anthony Cioppa, Silvio Giancola, Bernard Ghanem, and Marc Van Droogenbroeck. 2023. SoccerNet-Caption: Dense Video Captioning for Soccer Broadcasts. In CVPR Workshops."},{"key":"e_1_3_2_2_22_1","unstructured":"Arsha Nagrani Shan Yang Anurag Arnab Aren Jansen Cordelia Schmid and Chen Sun. 2021. Attention Bottlenecks for Multimodal Fusion. In NeurIPS."},{"key":"e_1_3_2_2_23_1","doi-asserted-by":"crossref","unstructured":"Jae Sung Park Trevor Darrell and Anna Rohrbach. 2020. Identity-Aware Multi-sentence Video Description. In ECCV.","DOI":"10.1007\/978-3-030-58589-1_22"},{"key":"e_1_3_2_2_24_1","first-page":"1234","author":"Mengya Qi","year":"2022","unstructured":"Mengya Qi et al., 2022. CLIP-ReIdent: Contrastive Training for Player Re-Identification. In ACM Multimedia. 1234-1245.","journal-title":"CLIP-ReIdent: Contrastive Training for Player Re-Identification. In ACM Multimedia."},{"key":"e_1_3_2_2_25_1","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2019.2921655"},{"key":"e_1_3_2_2_26_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01329"},{"key":"e_1_3_2_2_27_1","volume-title":"Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, et al.","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, et al., 2021. Learning Transferable Visual Models From Natural Language Supervision. In ICML."},{"key":"e_1_3_2_2_28_1","unstructured":"Alec Radford Jeffrey Wu Rewon Child David Luan Dario Amodei et al. 2019b. Language models are unsupervised multitask learners. OpenAI blog (2019)."},{"key":"e_1_3_2_2_29_1","unstructured":"Alec Radford Jeff Wu Rewon Child David Luan Dario Amodei and Ilya Sutskever. 2019a. Language Models are Unsupervised Multitask Learners. (2019)."},{"key":"e_1_3_2_2_30_1","first-page":"1","article-title":"Exploring the limits of transfer learning with a unified text-to-text transformer","volume":"21","author":"Raffel Colin","year":"2020","unstructured":"Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. 2020. Exploring the limits of transfer learning with a unified text-to-text transformer. Journal of machine learning research, Vol. 21, 140 (2020), 1-67.","journal-title":"Journal of machine learning research"},{"key":"e_1_3_2_2_31_1","unstructured":"Aditya Rao et al. 2025. Towards Universal Soccer Video Understanding. In CVPR."},{"key":"e_1_3_2_2_32_1","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-016-0987-1"},{"key":"e_1_3_2_2_33_1","volume-title":"High-Resolution Image Synthesis with Latent Diffusion Models. CVPR","author":"Rombach Robin","year":"2022","unstructured":"Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Bjorn Ommer. 2022. High-Resolution Image Synthesis with Latent Diffusion Models. CVPR (2022)."},{"key":"e_1_3_2_2_34_1","unstructured":"Paul Hongsuck Seo Arsha Nagrani Anurag Arnab and Cordelia Schmid. [n.d.]. End-to-End Generative Pretraining for Multimodal Video Captioning. In CVPR. 17959-17969."},{"key":"e_1_3_2_2_35_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P18-1238"},{"key":"e_1_3_2_2_36_1","volume-title":"SoccerNet Game State Reconstruction: End-to-End Athlete Tracking and Identification. In CVPR Workshops.","author":"Somers Vladimir","year":"2024","unstructured":"Vladimir Somers, Anthony Cioppa, Silvio Giancola, Alexandre Alahi, Bernard Ghanem, and Marc Van Droogenbroeck. 2024. SoccerNet Game State Reconstruction: End-to-End Athlete Tracking and Identification. In CVPR Workshops."},{"key":"e_1_3_2_2_37_1","volume-title":"Videomae: Masked autoencoders are data-efficient learners for self-supervised video pre-training. In NeurIPS.","author":"Tong Zhan","year":"2022","unstructured":"Zhan Tong, Yibing Song, Jue Wang, and Limin Wang. 2022. Videomae: Masked autoencoders are data-efficient learners for self-supervised video pre-training. In NeurIPS."},{"key":"e_1_3_2_2_38_1","unstructured":"Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones et al. 2017. Attention is all you need. In NeurIPS."},{"key":"e_1_3_2_2_39_1","doi-asserted-by":"crossref","unstructured":"Karan Vats et al. 2021. Multi-task Learning for Jersey Number Recognition in Ice Hockey. In ACM Multimedia.","DOI":"10.1145\/3475722.3482794"},{"key":"e_1_3_2_2_40_1","volume-title":"Translating videos to natural language using deep recurrent neural networks. arXiv","author":"Venugopalan Subhashini","year":"2014","unstructured":"Subhashini Venugopalan, Huijuan Xu, and et.al., 2014. Translating videos to natural language using deep recurrent neural networks. arXiv (2014)."},{"key":"e_1_3_2_2_41_1","doi-asserted-by":"crossref","unstructured":"Limin Wang Bingkun Huang Zhiyu Zhao Zhan Tong Yinan He et al. 2023. Videomae v2: Scaling video masked autoencoders with dual masking. In CVPR.","DOI":"10.1109\/CVPR52729.2023.01398"},{"key":"e_1_3_2_2_42_1","doi-asserted-by":"publisher","unstructured":"Wei-Lwun Lu J.-A Ting J. J. Little and K. P. Murphy. 2013. Learning to Track and Identify Players from Broadcast Sports Videos. IEEE Transactions on Pattern Analysis and Machine Intelligence (2013). doi:10.1109\/TPAMI.2012.242","DOI":"10.1109\/TPAMI.2012.242"},{"key":"e_1_3_2_2_43_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19836-6_2"},{"key":"e_1_3_2_2_44_1","volume-title":"T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise Event Spotting in Sports Videos. In CVPR Workshops.","author":"Xarles Artur","year":"2024","unstructured":"Artur Xarles, Sergio Escalera, Thomas B. Moeslund, and Albert Clap\u00e9s. 2024. T-DEED: Temporal-Discriminability Enhancer Encoder-Decoder for Precise Event Spotting in Sports Videos. In CVPR Workshops."},{"key":"e_1_3_2_2_45_1","unstructured":"Yichao Yan Ning Zhuang Bingbing Ni Jian Zhang Minghao Xu et al. 2022. Fine-Grained Video Captioning via Graph-based Multi-Granularity Interaction Learning. IEEE Transactions on Pattern Analysis and Machine Intelligence (2022)."},{"key":"e_1_3_2_2_46_1","volume-title":"Antoine Miech, Jordi Pont-Tuset, Ivan Laptev, Josef Sivic, and Cordelia Schmid.","author":"Yang Antoine","year":"2023","unstructured":"Antoine Yang, Arsha Nagrani, Paul Hongsuck Seo, Antoine Miech, Jordi Pont-Tuset, Ivan Laptev, Josef Sivic, and Cordelia Schmid. 2023. Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning. In CVPR."},{"key":"e_1_3_2_2_47_1","doi-asserted-by":"crossref","unstructured":"Zekun Yang Noa Garcia Chenhui Chu Mayu Otani Yuta Nakashima and Haruo Takemura. 2020. BERT Representations for Video Question Answering. In WACV.","DOI":"10.1109\/WACV45572.2020.9093596"},{"key":"e_1_3_2_2_48_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.512"},{"key":"e_1_3_2_2_49_1","doi-asserted-by":"crossref","unstructured":"Huanyu Yu Shuo Cheng Bingbing Ni Minsi Wang Jian Zhang and Xiaokang Yang. 2018. Fine-Grained Video Captioning for Sports Narrative. In CVPR.","DOI":"10.1109\/CVPR.2018.00629"},{"key":"e_1_3_2_2_50_1","doi-asserted-by":"crossref","unstructured":"Chen Lin Zhang Jianxin Wu and Yin Li. 2022. ActionFormer: Localizing Moments of Actions with Transformers. In ECCV.","DOI":"10.1007\/978-3-031-19772-7_29"}],"event":{"name":"MM '25: The 33rd ACM International Conference on Multimedia","location":"Dublin Ireland","acronym":"MM '25","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 8th International ACM Workshop on Multimedia Content Analysis in Sports"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3728423.3759411","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,10]],"date-time":"2026-03-10T14:30:53Z","timestamp":1773153053000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3728423.3759411"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,27]]},"references-count":50,"alternative-id":["10.1145\/3728423.3759411","10.1145\/3728423"],"URL":"https:\/\/doi.org\/10.1145\/3728423.3759411","relation":{},"subject":[],"published":{"date-parts":[[2025,10,27]]},"assertion":[{"value":"2025-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}