{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,11]],"date-time":"2026-04-11T05:53:55Z","timestamp":1775886835857,"version":"3.50.1"},"publisher-location":"New York, NY, USA","reference-count":42,"publisher":"ACM","license":[{"start":{"date-parts":[[2023,10,26]],"date-time":"2023-10-26T00:00:00Z","timestamp":1698278400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2023,10,26]]},"DOI":"10.1145\/3581783.3612161","type":"proceedings-article","created":{"date-parts":[[2023,10,27]],"date-time":"2023-10-27T07:26:54Z","timestamp":1698391614000},"page":"5623-5633","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":6,"title":["AdaCLIP: Towards Pragmatic Multimodal Video Retrieval"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-5465-2819","authenticated-orcid":false,"given":"Zhiming","family":"Hu","sequence":"first","affiliation":[{"name":"Samsung AI Centre Toronto, Toronto, ON, Canada"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-2096-5656","authenticated-orcid":false,"given":"Angela Ning","family":"Ye","sequence":"additional","affiliation":[{"name":"Samsung AI Centre Toronto, Toronto, ON, Canada"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6020-3406","authenticated-orcid":false,"given":"Salar","family":"Hosseini Khorasgani","sequence":"additional","affiliation":[{"name":"Samsung AI Centre Toronto, Toronto, ON, Canada"}]},{"ORCID":"https:\/\/orcid.org\/0009-0008-0598-8966","authenticated-orcid":false,"given":"Iqbal","family":"Mohomed","sequence":"additional","affiliation":[{"name":"Samsung AI Centre Toronto, Toronto, ON, Canada"}]}],"member":"320","published-online":{"date-parts":[[2023,10,27]]},"reference":[{"key":"e_1_3_2_2_1_1","volume-title":"Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval. arXiv preprint arXiv:2104.00650","author":"Bain Max","year":"2021","unstructured":"Max Bain, Arsha Nagrani, G\u00fcl Varol, and Andrew Zisserman. 2021. Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval. arXiv preprint arXiv:2104.00650 (2021)."},{"key":"e_1_3_2_2_2_1","volume-title":"A CLIP-Hitchhiker's Guide to Long Video Retrieval. arXiv preprint arXiv:2205.08508","author":"Bain Max","year":"2022","unstructured":"Max Bain, Arsha Nagrani, G\u00fcl Varol, and Andrew Zisserman. 2022. A CLIP-Hitchhiker's Guide to Long Video Retrieval. arXiv preprint arXiv:2205.08508 (2022)."},{"key":"e_1_3_2_2_3_1","first-page":"9508","article-title":"Learning with Differentiable Pertubed Optimizers","volume":"33","author":"Berthet Quentin","year":"2020","unstructured":"Quentin Berthet, Mathieu Blondel, Olivier Teboul, Marco Cuturi, Jean-Philippe Vert, and Francis Bach. 2020. Learning with Differentiable Pertubed Optimizers. Advances in Neural Information Processing Systems, Vol. 33 (2020), 9508--9519.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_2_4_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00513"},{"key":"e_1_3_2_2_5_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00293"},{"key":"e_1_3_2_2_6_1","volume-title":"Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss. arXiv preprint arXiv:2109.04290","author":"Cheng Xing","year":"2021","unstructured":"Xing Cheng, Hezheng Lin, Xiangyu Wu, Fan Yang, and Dong Shen. 2021. Improving Video-Text Retrieval by Multi-Stream Corpus Alignment and Dual Softmax Loss. arXiv preprint arXiv:2109.04290 (2021)."},{"key":"e_1_3_2_2_7_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00238"},{"key":"e_1_3_2_2_8_1","volume-title":"TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval. arXiv preprint arXiv:2104.08271","author":"Croitoru Ioana","year":"2021","unstructured":"Ioana Croitoru, Simion-Vlad Bogolin, Yang Liu, Samuel Albanie, Marius Leordeanu, Hailin Jin, and Andrew Zisserman. 2021. TEACHTEXT: CrossModal Generalized Distillation for Text-Video Retrieval. arXiv preprint arXiv:2104.08271 (2021)."},{"key":"e_1_3_2_2_9_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"e_1_3_2_2_10_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW53098.2021.00374"},{"key":"e_1_3_2_2_11_1","volume-title":"CLIP2Video: Mastering Video-Text Retrieval via Image CLIP. arXiv preprint arXiv:2106.11097","author":"Fang Han","year":"2021","unstructured":"Han Fang, Pengfei Xiong, Luhui Xu, and Yu Chen. 2021. CLIP2Video: Mastering Video-Text Retrieval via Image CLIP. arXiv preprint arXiv:2106.11097 (2021)."},{"key":"e_1_3_2_2_12_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20083-0_24"},{"key":"e_1_3_2_2_13_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58548-8_13"},{"key":"e_1_3_2_2_14_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00495"},{"key":"e_1_3_2_2_15_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.618"},{"key":"e_1_3_2_2_16_1","volume-title":"Gaussian Error Linear Units (GELUs). arXiv preprint arXiv:1606.08415","author":"Hendrycks Dan","year":"2016","unstructured":"Dan Hendrycks and Kevin Gimpel. 2016. Gaussian Error Linear Units (GELUs). arXiv preprint arXiv:1606.08415 (2016)."},{"key":"e_1_3_2_2_17_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00140"},{"key":"e_1_3_2_2_18_1","doi-asserted-by":"publisher","DOI":"10.1145\/3524273.3528181"},{"key":"e_1_3_2_2_19_1","first-page":"153","article-title":"mmSampler: Efficient Frame Sampler for Multimodal Video Retrieval","volume":"4","author":"Hu Zhiming","year":"2022","unstructured":"Zhiming Hu, Ning Ye, and Iqbal Mohomed. 2022b. mmSampler: Efficient Frame Sampler for Multimodal Video Retrieval. Proc. of Machine Learning and Systems, Vol. 4 (2022), 153--171.","journal-title":"Proc. of Machine Learning and Systems"},{"key":"e_1_3_2_2_20_1","volume-title":"Categorical Reparameterization with Gumbel-Softmax. arXiv preprint arXiv:1611.01144","author":"Jang Eric","year":"2016","unstructured":"Eric Jang, Shixiang Gu, and Ben Poole. 2016. Categorical Reparameterization with Gumbel-Softmax. arXiv preprint arXiv:1611.01144 (2016)."},{"key":"e_1_3_2_2_21_1","volume-title":"Cross-Modal Adapter for Text-Video Retrieval. arXiv preprint arXiv:2211.09623","author":"Jiang Haojun","year":"2022","unstructured":"Haojun Jiang, Jianke Zhang, Rui Huang, Chunjiang Ge, Zanlin Ni, Jiwen Lu, Jie Zhou, Shiji Song, and Gao Huang. 2022b. Cross-Modal Adapter for Text-Video Retrieval. arXiv preprint arXiv:2211.09623 (2022)."},{"key":"e_1_3_2_2_22_1","volume-title":"Tencent Text-Video Retrieval: Hierarchical Cross-Modal Interactions with Multi-Level Representations","author":"Jiang Jie","year":"2022","unstructured":"Jie Jiang, Shaobo Min, Weijie Kong, Hongfa Wang, Zhifeng Li, and Wei Liu. 2022a. Tencent Text-Video Retrieval: Hierarchical Cross-Modal Interactions with Multi-Level Representations. IEEE Access (2022)."},{"key":"e_1_3_2_2_23_1","first-page":"30291","article-title":"Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations","volume":"35","author":"Jin Peng","year":"2022","unstructured":"Peng Jin, Jinfa Huang, Fenglin Liu, Xian Wu, Shen Ge, Guoli Song, David Clifton, and Jie Chen. 2022. Expectation-Maximization Contrastive Learning for Compact Video-and-Language Representations. Advances in Neural Information Processing Systems, Vol. 35 (2022), 30291--30306.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_2_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.83"},{"key":"e_1_3_2_2_25_1","unstructured":"Y. Liu S. Albanie A. Nagrani and A. Zisserman. 2019. Use What You Have: Video Retrieval using Representations from Collaborative Experts. In arXiv preprint arxiv:1907.13487."},{"key":"e_1_3_2_2_26_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19781-9_19"},{"key":"e_1_3_2_2_27_1","volume-title":"CLIP4Clip: An Empirical Study of Clip for End to End Video Clip Retrieval. arXiv preprint arXiv:2104.08860","author":"Luo Huaishao","year":"2021","unstructured":"Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, and Tianrui Li. 2021. CLIP4Clip: An Empirical Study of Clip for End to End Video Clip Retrieval. arXiv preprint arXiv:2104.08860 (2021)."},{"key":"e_1_3_2_2_28_1","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3547910"},{"key":"e_1_3_2_2_29_1","volume-title":"Proc. of the","author":"Meng Yue","unstructured":"Yue Meng, Chung-Ching Lin, Rameswar Panda, Prasanna Sattigeri, Leonid Karlinsky, Aude Oliva, Kate Saenko, and Rogerio Feris. 2020. AR-Net: Adaptive Frame Resolution for Efficient Action Recognition. In Proc. of the ECCV. Springer, 86--104."},{"key":"e_1_3_2_2_30_1","volume-title":"Learning a Text-Video Embedding from Incomplete and Heterogeneous Data. arXiv:1804.02516","author":"Miech Antoine","year":"2018","unstructured":"Antoine Miech, Ivan Laptev, and Josef Sivic. 2018. Learning a Text-Video Embedding from Incomplete and Heterogeneous Data. arXiv:1804.02516 (2018)."},{"key":"e_1_3_2_2_31_1","volume-title":"Mexican Conference on Pattern Recognition. Springer, 3--12","author":"Andr\u00e9s Jes\u00fas","unstructured":"Jes\u00fas Andr\u00e9s Portillo-Quintero et al. 2021. A Straightforward Framework for Video Retrieval Using CLIP. In Mexican Conference on Pattern Recognition. Springer, 3--12."},{"key":"e_1_3_2_2_32_1","volume-title":"Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al.","author":"Radford Alec","year":"2021","unstructured":"Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, et al. 2021. Learning Transferable Visual Models from Natural Language Supervision. arXiv preprint arXiv:2103.00020 (2021)."},{"key":"e_1_3_2_2_33_1","first-page":"13937","article-title":"DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification","volume":"34","author":"Rao Yongming","year":"2021","unstructured":"Yongming Rao, Wenliang Zhao, Benlin Liu, Jiwen Lu, Jie Zhou, and Cho-Jui Hsieh. 2021. DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification. Advances in Neural Information Processing Systems, Vol. 34 (2021), 13937--13949.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"e_1_3_2_2_34_1","doi-asserted-by":"publisher","DOI":"10.1145\/2393347.2396345"},{"key":"e_1_3_2_2_35_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19833-5_5"},{"key":"e_1_3_2_2_36_1","volume-title":"Disentangled Representation Learning for Text-Video Retrieval. arXiv preprint arXiv:2203.07111","author":"Wang Qiang","year":"2022","unstructured":"Qiang Wang, Yanhao Zhang, Yun Zheng, Pan Pan, and Xian-Sheng Hua. 2022b. Disentangled Representation Learning for Text-Video Retrieval. arXiv preprint arXiv:2203.07111 (2022)."},{"key":"e_1_3_2_2_37_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01594"},{"key":"e_1_3_2_2_38_1","volume-title":"Reparameterizable Subset Sampling via Continuous Relaxations. arXiv preprint arXiv:1901.10517","author":"Xie Sang Michael","year":"2019","unstructured":"Sang Michael Xie and Stefano Ermon. 2019. Reparameterizable Subset Sampling via Continuous Relaxations. arXiv preprint arXiv:1901.10517 (2019)."},{"key":"e_1_3_2_2_39_1","volume-title":"Proc. of the IEEE\/CVF CVPR. 5288--5296","author":"Xu Jun","year":"2016","unstructured":"Jun Xu, Tao Mei, Ting Yao, and Yong Rui. 2016. MSRVTT: A Large Video Description Dataset for Bridging Video and Language. In Proc. of the IEEE\/CVF CVPR. 5288--5296."},{"key":"e_1_3_2_2_40_1","doi-asserted-by":"publisher","DOI":"10.1145\/3384419.3431159"},{"key":"e_1_3_2_2_41_1","volume-title":"CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment. arXiv preprint arXiv:2209.06430","author":"Xue Hongwei","year":"2022","unstructured":"Hongwei Xue, Yuchong Sun, Bei Liu, Jianlong Fu, Ruihua Song, Houqiang Li, and Jiebo Luo. 2022. CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment. arXiv preprint arXiv:2209.06430 (2022)."},{"key":"e_1_3_2_2_42_1","doi-asserted-by":"publisher","DOI":"10.1145\/3477495.3531950"}],"event":{"name":"MM '23: The 31st ACM International Conference on Multimedia","location":"Ottawa ON Canada","acronym":"MM '23","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 31st ACM International Conference on Multimedia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3581783.3612161","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3581783.3612161","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,22]],"date-time":"2025-08-22T00:05:57Z","timestamp":1755821157000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3581783.3612161"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,10,26]]},"references-count":42,"alternative-id":["10.1145\/3581783.3612161","10.1145\/3581783"],"URL":"https:\/\/doi.org\/10.1145\/3581783.3612161","relation":{},"subject":[],"published":{"date-parts":[[2023,10,26]]},"assertion":[{"value":"2023-10-27","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}