{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,28]],"date-time":"2025-11-28T21:16:47Z","timestamp":1764364607778,"version":"3.41.0"},"publisher-location":"New York, NY, USA","reference-count":59,"publisher":"ACM","license":[{"start":{"date-parts":[[2022,7,6]],"date-time":"2022-07-06T00:00:00Z","timestamp":1657065600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2022,7,6]]},"DOI":"10.1145\/3477495.3531960","type":"proceedings-article","created":{"date-parts":[[2022,7,7]],"date-time":"2022-07-07T15:12:13Z","timestamp":1657206733000},"page":"949-959","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":20,"title":["CRET"],"prefix":"10.1145","author":[{"given":"Kaixiang","family":"Ji","sequence":"first","affiliation":[{"name":"Ant Group, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jiajia","family":"Liu","sequence":"additional","affiliation":[{"name":"Ant Group, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Weixiang","family":"Hong","sequence":"additional","affiliation":[{"name":"Ant Group, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Liheng","family":"Zhong","sequence":"additional","affiliation":[{"name":"Ant Group, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jian","family":"Wang","sequence":"additional","affiliation":[{"name":"Ant Group, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jingdong","family":"Chen","sequence":"additional","affiliation":[{"name":"Ant Group, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Wei","family":"Chu","sequence":"additional","affiliation":[{"name":"Ant Group, Hangzhou, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"320","published-online":{"date-parts":[[2022,7,7]]},"reference":[{"key":"e_1_3_2_2_1_1","doi-asserted-by":"crossref","unstructured":"Elad Amrani Rami Ben-Ari Daniel Rotman and Alex Bronstein. 2021. Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning. In AAAI. Elad Amrani Rami Ben-Ari Daniel Rotman and Alex Bronstein. 2021. Noise Estimation Using Density Estimation for Self-Supervised Multimodal Learning. In AAAI.","DOI":"10.1609\/aaai.v35i8.16822"},{"key":"e_1_3_2_2_2_1","doi-asserted-by":"crossref","unstructured":"Relja Arandjelovic Petr Gron\u00e1t Akihiko Torii Tom\u00e1s Pajdla and Josef Sivic. 2016. NetVLAD: CNN Architecture for Weakly Supervised Place Recognition. In CVPR. Relja Arandjelovic Petr Gron\u00e1t Akihiko Torii Tom\u00e1s Pajdla and Josef Sivic. 2016. NetVLAD: CNN Architecture for Weakly Supervised Place Recognition. In CVPR.","DOI":"10.1109\/CVPR.2016.572"},{"key":"e_1_3_2_2_3_1","volume-title":"Dolan","author":"Chen David L.","year":"2011","unstructured":"David L. Chen and William B . Dolan . 2011 . Collecting Highly Parallel Data for Paraphrase Evaluation. In ACL. David L. Chen and William B. Dolan. 2011. Collecting Highly Parallel Data for Paraphrase Evaluation. In ACL."},{"key":"e_1_3_2_2_4_1","doi-asserted-by":"crossref","unstructured":"Shizhe Chen Yida Zhao Qin Jin and Qi Wu. 2020. Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning. In CVPR. Shizhe Chen Yida Zhao Qin Jin and Qi Wu. 2020. Fine-Grained Video-Text Retrieval With Hierarchical Graph Reasoning. In CVPR.","DOI":"10.1109\/CVPR42600.2020.01065"},{"key":"e_1_3_2_2_5_1","volume-title":"Piotr Doll\u00e1 r, and C. Lawrence Zitnick","author":"Chen Xinlei","year":"2015","unstructured":"Xinlei Chen , Hao Fang , Tsung-Yi Lin , Ramakrishna Vedantam , Saurabh Gupta , Piotr Doll\u00e1 r, and C. Lawrence Zitnick . 2015 . Microsoft COCO Captions: Data Collection and Evaluation Server . arXiv (2015). Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Doll\u00e1 r, and C. Lawrence Zitnick. 2015. Microsoft COCO Captions: Data Collection and Evaluation Server. arXiv (2015)."},{"key":"e_1_3_2_2_6_1","volume-title":"BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In NAACL-HLT.","author":"Devlin Jacob","year":"2019","unstructured":"Jacob Devlin , Ming-Wei Chang , Kenton Lee , and Kristina Toutanova . 2019 . BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In NAACL-HLT. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In NAACL-HLT."},{"key":"e_1_3_2_2_7_1","doi-asserted-by":"crossref","unstructured":"Haiwen Diao Ying Zhang Lin Ma and Huchuan Lu. 2021. Similarity Reasoning and Filtration for Image-Text Matching. In AAAI. Haiwen Diao Ying Zhang Lin Ma and Huchuan Lu. 2021. Similarity Reasoning and Filtration for Image-Text Matching. In AAAI.","DOI":"10.1609\/aaai.v35i2.16209"},{"key":"e_1_3_2_2_8_1","unstructured":"Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai Thomas Unterthiner Mostafa Dehghani Matthias Minderer Georg Heigold Sylvain Gelly Jakob Uszkoreit and Neil Houlsby. 2021 a. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In ICLR. Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai Thomas Unterthiner Mostafa Dehghani Matthias Minderer Georg Heigold Sylvain Gelly Jakob Uszkoreit and Neil Houlsby. 2021 a. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In ICLR."},{"key":"e_1_3_2_2_9_1","unstructured":"Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai Thomas Unterthiner Mostafa Dehghani Matthias Minderer Georg Heigold Sylvain Gelly Jakob Uszkoreit and Neil Houlsby. 2021 b. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In ICLR. Alexey Dosovitskiy Lucas Beyer Alexander Kolesnikov Dirk Weissenborn Xiaohua Zhai Thomas Unterthiner Mostafa Dehghani Matthias Minderer Georg Heigold Sylvain Gelly Jakob Uszkoreit and Neil Houlsby. 2021 b. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In ICLR."},{"key":"e_1_3_2_2_10_1","doi-asserted-by":"crossref","unstructured":"Valentin Gabeur Chen Sun Karteek Alahari and Cordelia Schmid. 2020. Multi-modal Transformer for Video Retrieval. In ECCV. Valentin Gabeur Chen Sun Karteek Alahari and Cordelia Schmid. 2020. Multi-modal Transformer for Video Retrieval. In ECCV.","DOI":"10.1007\/978-3-030-58548-8_13"},{"key":"e_1_3_2_2_11_1","unstructured":"Michael Gutmann and Aapo Hyv\u00e4rinen. 2010. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. In AISTATS. Michael Gutmann and Aapo Hyv\u00e4rinen. 2010. Noise-contrastive estimation: A new estimation principle for unnormalized statistical models. In AISTATS."},{"key":"e_1_3_2_2_12_1","unstructured":"Kaiming He Xiangyu Zhang Shaoqing Ren and Jian Sun. 2016. Deep Residual Learning for Image Recognition. In CVPR. Kaiming He Xiangyu Zhang Shaoqing Ren and Jian Sun. 2016. Deep Residual Learning for Image Recognition. In CVPR."},{"key":"e_1_3_2_2_13_1","volume-title":"Russell","author":"Hendricks Lisa Anne","year":"2017","unstructured":"Lisa Anne Hendricks , Oliver Wang , Eli Shechtman , Josef Sivic , Trevor Darrell , and Bryan C . Russell . 2017 . Localizing Moments in Video with Natural Language. In ICCV. Lisa Anne Hendricks, Oliver Wang, Eli Shechtman, Josef Sivic, Trevor Darrell, and Bryan C. Russell. 2017. Localizing Moments in Video with Natural Language. In ICCV."},{"key":"e_1_3_2_2_14_1","volume-title":"Communications in Statistics - Theory and Methods","volume":"19","author":"Henze N.","year":"1990","unstructured":"N. Henze and B. Zirkler . 1990. A class of invariant consistent tests for multivariate normality . Communications in Statistics - Theory and Methods , Vol. 19 ( 1990 ). N. Henze and B. Zirkler. 1990. A class of invariant consistent tests for multivariate normality. Communications in Statistics - Theory and Methods, Vol. 19 (1990)."},{"key":"e_1_3_2_2_15_1","doi-asserted-by":"crossref","unstructured":"Weixiang Hong Yu-Ting Chang Haifang Qin Wei-Chih Hung Yi-Hsuan Tsai and Ming-Hsuan Yang. 2020. Image Hashing via Linear Discriminant Learning. In WACV. Weixiang Hong Yu-Ting Chang Haifang Qin Wei-Chih Hung Yi-Hsuan Tsai and Ming-Hsuan Yang. 2020. Image Hashing via Linear Discriminant Learning. In WACV.","DOI":"10.1109\/WACV45572.2020.9093487"},{"key":"e_1_3_2_2_16_1","doi-asserted-by":"crossref","unstructured":"Weixiang Hong Kaixiang Ji Jiajia Liu Jian Wang Jingdong Chen and Wei Chu. 2021. GilBERT: Generative Vision-Language Pre-Training for Image-Text Retrieval. In SIGIR. Weixiang Hong Kaixiang Ji Jiajia Liu Jian Wang Jingdong Chen and Wei Chu. 2021. GilBERT: Generative Vision-Language Pre-Training for Image-Text Retrieval. In SIGIR.","DOI":"10.1145\/3404835.3462838"},{"key":"e_1_3_2_2_17_1","doi-asserted-by":"crossref","unstructured":"Weixiang Hong Jingjing Meng and Junsong Yuan. 2018a. Distributed Composite Quantization. In AAAI. Weixiang Hong Jingjing Meng and Junsong Yuan. 2018a. Distributed Composite Quantization. In AAAI.","DOI":"10.1609\/aaai.v32i1.11294"},{"key":"e_1_3_2_2_18_1","doi-asserted-by":"crossref","unstructured":"Weixiang Hong Jingjing Meng and Junsong Yuan. 2018b. Tensorized projection for high-dimensional binary embedding. In AAAI. Weixiang Hong Jingjing Meng and Junsong Yuan. 2018b. Tensorized projection for high-dimensional binary embedding. In AAAI.","DOI":"10.1609\/aaai.v32i1.11292"},{"key":"e_1_3_2_2_19_1","volume-title":"Asymmetric Mapping Quantization for Nearest Neighbor Search. T-PAMI","author":"Hong Weixiang","year":"2019","unstructured":"Weixiang Hong , Xueyan Tang , Jingjing Meng , and Junsong Yuan . 2019. Asymmetric Mapping Quantization for Nearest Neighbor Search. T-PAMI ( 2019 ). Weixiang Hong, Xueyan Tang, Jingjing Meng, and Junsong Yuan. 2019. Asymmetric Mapping Quantization for Nearest Neighbor Search. T-PAMI (2019)."},{"key":"e_1_3_2_2_20_1","doi-asserted-by":"crossref","unstructured":"Weixiang Hong Zhenzhen Wang Ming Yang and Junsong Yuan. 2018c. Conditional Generative Adversarial Network for Structured Domain Adaptation. In CVPR. Weixiang Hong Zhenzhen Wang Ming Yang and Junsong Yuan. 2018c. Conditional Generative Adversarial Network for Structured Domain Adaptation. In CVPR.","DOI":"10.1109\/CVPR.2018.00145"},{"key":"e_1_3_2_2_21_1","doi-asserted-by":"crossref","unstructured":"Weixiang Hong and Junsong Yuan. 2018. Fried Binary Embedding: From High-Dimensional Visual Features to High-Dimensional Binary Codes. In T-IP. Weixiang Hong and Junsong Yuan. 2018. Fried Binary Embedding: From High-Dimensional Visual Features to High-Dimensional Binary Codes. In T-IP.","DOI":"10.1109\/CVPR.2017.659"},{"key":"e_1_3_2_2_22_1","doi-asserted-by":"crossref","unstructured":"Weixiang Hong Junsong Yuan and Sreyasee Das Bhattacharjee. 2017. Fried Binary Embedding for High-Dimensional Visual Features. In CVPR. Weixiang Hong Junsong Yuan and Sreyasee Das Bhattacharjee. 2017. Fried Binary Embedding for High-Dimensional Visual Features. In CVPR.","DOI":"10.1109\/CVPR.2017.659"},{"key":"e_1_3_2_2_23_1","doi-asserted-by":"crossref","first-page":"2","DOI":"10.1080\/00031305.1997.10473947","article-title":"1997. A Look at the Rule of Three","volume":"51","author":"Jovanovic B. D.","year":"1997","unstructured":"B. D. Jovanovic and P. S. Levy . 1997. A Look at the Rule of Three . The American Statistician , Vol. 51 , 2 ( 1997 ), 137--139. B. D. Jovanovic and P. S. Levy. 1997. A Look at the Rule of Three. The American Statistician, Vol. 51, 2 (1997), 137--139.","journal-title":"The American Statistician"},{"key":"e_1_3_2_2_24_1","volume-title":"Exploring the Limits of Language Modeling. arXiv","author":"J\u00f3zefowicz Rafal","year":"2016","unstructured":"Rafal J\u00f3zefowicz , Oriol Vinyals , Mike Schuster , Noam Shazeer , and Yonghui Wu. 2016. Exploring the Limits of Language Modeling. arXiv ( 2016 ). Rafal J\u00f3zefowicz, Oriol Vinyals, Mike Schuster, Noam Shazeer, and Yonghui Wu. 2016. Exploring the Limits of Language Modeling. arXiv (2016)."},{"key":"e_1_3_2_2_25_1","volume-title":"Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, Mustafa Suleyman, and Andrew Zisserman.","author":"Kay Will","year":"2017","unstructured":"Will Kay , Jo a o Carreira , Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, Mustafa Suleyman, and Andrew Zisserman. 2017 . The Kinetics Human Action Video Dataset . arXiv (2017). Will Kay, Jo a o Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, Mustafa Suleyman, and Andrew Zisserman. 2017. The Kinetics Human Action Video Dataset. arXiv (2017)."},{"key":"e_1_3_2_2_26_1","volume-title":"Kingma and Jimmy Ba","author":"Diederik","year":"2015","unstructured":"Diederik P. Kingma and Jimmy Ba . 2015 . Adam : A Method for Stochastic Optimization. In ICLR. Diederik P. Kingma and Jimmy Ba. 2015. Adam: A Method for Stochastic Optimization. In ICLR."},{"key":"e_1_3_2_2_27_1","volume-title":"Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations. IJCV","author":"Krishna Ranjay","year":"2017","unstructured":"Ranjay Krishna , Yuke Zhu , Oliver Groth , Justin Johnson , Kenji Hata , Joshua Kravitz , Stephanie Chen , Yannis Kalantidis , Li-Jia Li , David A. Shamma , Michael S. Bernstein , and Li Fei-Fei . 2017 . Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations. IJCV (2017). Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li-Jia Li, David A. Shamma, Michael S. Bernstein, and Li Fei-Fei. 2017. Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations. IJCV (2017)."},{"key":"e_1_3_2_2_28_1","volume-title":"Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling. arXiv","author":"Lei Jie","year":"2021","unstructured":"Jie Lei , Linjie Li , Luowei Zhou , Zhe Gan , Tamara L. Berg , Mohit Bansal , and Jingjing Liu . 2021. Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling. arXiv ( 2021 ). Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, and Jingjing Liu. 2021. Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling. arXiv (2021)."},{"key":"e_1_3_2_2_29_1","volume-title":"HERO: Hierarchical Encoder for Video Language Omni-representation Pre-training. In EMNLP.","author":"Li Linjie","year":"2020","unstructured":"Linjie Li , Yen-Chun Chen , Yu Cheng , Zhe Gan , Licheng Yu , and Jingjing Liu . 2020 . HERO: Hierarchical Encoder for Video Language Omni-representation Pre-training. In EMNLP. Linjie Li, Yen-Chun Chen, Yu Cheng, Zhe Gan, Licheng Yu, and Jingjing Liu. 2020. HERO: Hierarchical Encoder for Video Language Omni-representation Pre-training. In EMNLP."},{"key":"e_1_3_2_2_30_1","volume-title":"HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval. arXiv","author":"Liu Song","year":"2021","unstructured":"Song Liu , Haoqi Fan , Shengsheng Qian , Yiru Chen , Wenkui Ding , and Zhongyuan Wang . 2021. HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval. arXiv ( 2021 ). Song Liu, Haoqi Fan, Shengsheng Qian, Yiru Chen, Wenkui Ding, and Zhongyuan Wang. 2021. HiT: Hierarchical Transformer with Momentum Contrast for Video-Text Retrieval. arXiv (2021)."},{"key":"e_1_3_2_2_31_1","unstructured":"Yang Liu Samuel Albanie Arsha Nagrani and Andrew Zisserman. 2019. Use What You Have: Video retrieval using representations from collaborative experts. In BMVC. Yang Liu Samuel Albanie Arsha Nagrani and Andrew Zisserman. 2019. Use What You Have: Video retrieval using representations from collaborative experts. In BMVC."},{"key":"e_1_3_2_2_32_1","volume-title":"SGDR: Stochastic Gradient Descent with Warm Restarts. In ICLR.","author":"Loshchilov Ilya","year":"2017","unstructured":"Ilya Loshchilov and Frank Hutter . 2017 . SGDR: Stochastic Gradient Descent with Warm Restarts. In ICLR. Ilya Loshchilov and Frank Hutter. 2017. SGDR: Stochastic Gradient Descent with Warm Restarts. In ICLR."},{"key":"e_1_3_2_2_33_1","volume-title":"UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation. arXiv","author":"Luo Huaishao","year":"2020","unstructured":"Huaishao Luo , Lei Ji , Botian Shi , Haoyang Huang , Nan Duan , Tianrui Li , Jason Li , Taroon Bharti , and Ming Zhou . 2020. UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation. arXiv ( 2020 ). Huaishao Luo, Lei Ji, Botian Shi, Haoyang Huang, Nan Duan, Tianrui Li, Jason Li, Taroon Bharti, and Ming Zhou. 2020. UniVL: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation. arXiv (2020)."},{"key":"e_1_3_2_2_34_1","volume-title":"CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval. arXiv","author":"Luo Huaishao","year":"2021","unstructured":"Huaishao Luo , Lei Ji , Ming Zhong , Yang Chen , Wen Lei , Nan Duan , and Tianrui Li. 2021. CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval. arXiv ( 2021 ). Huaishao Luo, Lei Ji, Ming Zhong, Yang Chen, Wen Lei, Nan Duan, and Tianrui Li. 2021. CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval. arXiv (2021)."},{"key":"e_1_3_2_2_35_1","volume-title":"Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using Transformer Encoders. arXiv","author":"Messina Nicola","year":"2020","unstructured":"Nicola Messina , Giuseppe Amato , Andrea Esuli , Fabrizio Falchi , Claudio Gennaro , and St\u00e9 phane Marchand-Maillet . 2020. Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using Transformer Encoders. arXiv ( 2020 ). Nicola Messina, Giuseppe Amato, Andrea Esuli, Fabrizio Falchi, Claudio Gennaro, and St\u00e9 phane Marchand-Maillet. 2020. Fine-grained Visual Textual Alignment for Cross-Modal Retrieval using Transformer Encoders. arXiv (2020)."},{"key":"e_1_3_2_2_36_1","doi-asserted-by":"crossref","unstructured":"Antoine Miech Jean-Baptiste Alayrac Lucas Smaira Ivan Laptev Josef Sivic and Andrew Zisserman. 2020. End-to-End Learning of Visual Representations From Uncurated Instructional Videos. In CVPR. Antoine Miech Jean-Baptiste Alayrac Lucas Smaira Ivan Laptev Josef Sivic and Andrew Zisserman. 2020. End-to-End Learning of Visual Representations From Uncurated Instructional Videos. In CVPR.","DOI":"10.1109\/CVPR42600.2020.00990"},{"key":"e_1_3_2_2_37_1","volume-title":"Learning a Text-Video Embedding from Incomplete and Heterogeneous Data. arXiv","author":"Miech Antoine","year":"2018","unstructured":"Antoine Miech , Ivan Laptev , and Josef Sivic . 2018. Learning a Text-Video Embedding from Incomplete and Heterogeneous Data. arXiv ( 2018 ). Antoine Miech, Ivan Laptev, and Josef Sivic. 2018. Learning a Text-Video Embedding from Incomplete and Heterogeneous Data. arXiv (2018)."},{"key":"e_1_3_2_2_38_1","doi-asserted-by":"crossref","unstructured":"Antoine Miech Dimitri Zhukov Jean-Baptiste Alayrac Makarand Tapaswi Ivan Laptev and Josef Sivic. 2019. HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips. In ICCV. Antoine Miech Dimitri Zhukov Jean-Baptiste Alayrac Makarand Tapaswi Ivan Laptev and Josef Sivic. 2019. HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips. In ICCV.","DOI":"10.1109\/ICCV.2019.00272"},{"key":"e_1_3_2_2_39_1","volume-title":"Efficient estimation of word representations in vector space. arXiv","author":"Mikolov Tomas","year":"2013","unstructured":"Tomas Mikolov , Kai Chen , Greg Corrado , and Jeffrey Dean . 2013. Efficient estimation of word representations in vector space. arXiv ( 2013 ). Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. Efficient estimation of word representations in vector space. arXiv (2013)."},{"key":"e_1_3_2_2_40_1","volume-title":"Florian Metze, Alexander G. Hauptmann, Jo a o F. Henriques, and Andrea Vedaldi.","author":"Patrick Mandela","year":"2021","unstructured":"Mandela Patrick , Po-Yao Huang , Yuki Markus Asano , Florian Metze, Alexander G. Hauptmann, Jo a o F. Henriques, and Andrea Vedaldi. 2021 . Support-set bottlenecks for video-text representation learning. In ICLR. Mandela Patrick, Po-Yao Huang, Yuki Markus Asano, Florian Metze, Alexander G. Hauptmann, Jo a o F. Henriques, and Andrea Vedaldi. 2021. Support-set bottlenecks for video-text representation learning. In ICLR."},{"key":"e_1_3_2_2_41_1","volume-title":"Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever.","author":"Radford Alec","year":"2021","unstructured":"Alec Radford , Jong Wook Kim , Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021 . Learning Transferable Visual Models From Natural Language Supervision. In ICML. Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. In ICML."},{"key":"e_1_3_2_2_42_1","doi-asserted-by":"crossref","unstructured":"Anna Rohrbach Marcus Rohrbach and Bernt Schiele. 2015. The Long-Short Story of Movie Description. In GCPR. Anna Rohrbach Marcus Rohrbach and Bernt Schiele. 2015. The Long-Short Story of Movie Description. In GCPR.","DOI":"10.1109\/CVPR.2015.7298940"},{"key":"e_1_3_2_2_43_1","volume-title":"ImageNet Large Scale Visual Recognition Challenge. IJCV","author":"Russakovsky Olga","year":"2015","unstructured":"Olga Russakovsky , Jia Deng , Hao Su , Jonathan Krause , Sanjeev Satheesh , Sean Ma , Zhiheng Huang , Andrej Karpathy , Aditya Khosla , Michael S. Bernstein , Alexander C. Berg , and Fei-Fei Li. 2015. ImageNet Large Scale Visual Recognition Challenge. IJCV ( 2015 ). Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael S. Bernstein, Alexander C. Berg, and Fei-Fei Li. 2015. ImageNet Large Scale Visual Recognition Challenge. IJCV (2015)."},{"key":"e_1_3_2_2_44_1","volume-title":"Introduction to linear algebra","author":"Strang G.","year":"1993","unstructured":"G. Strang . 1993. Introduction to linear algebra . Wellesley-Cambridge Press Wellesley ( 1993 ). G. Strang. 1993. Introduction to linear algebra. Wellesley-Cambridge Press Wellesley (1993)."},{"key":"e_1_3_2_2_45_1","volume-title":"Alemi","author":"Szegedy Christian","year":"2017","unstructured":"Christian Szegedy , Sergey Ioffe , Vincent Vanhoucke , and Alexander A . Alemi . 2017 . Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning. In AAAI. Christian Szegedy, Sergey Ioffe, Vincent Vanhoucke, and Alexander A. Alemi. 2017. Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning. In AAAI."},{"key":"e_1_3_2_2_46_1","unstructured":"Hugo Touvron Matthieu Cord Matthijs Douze Francisco Massa Alexandre Sablayrolles and Herv\u00e9 J\u00e9 gou. 2021 a. Training data-efficient image transformers & distillation through attention. In ICML. Hugo Touvron Matthieu Cord Matthijs Douze Francisco Massa Alexandre Sablayrolles and Herv\u00e9 J\u00e9 gou. 2021 a. Training data-efficient image transformers & distillation through attention. In ICML."},{"key":"e_1_3_2_2_47_1","volume-title":"2021 b. Going deeper with Image Transformers. arXiv","author":"Touvron Hugo","year":"2021","unstructured":"Hugo Touvron , Matthieu Cord , Alexandre Sablayrolles , Gabriel Synnaeve , and Herv\u00e9 J\u00e9gou . 2021 b. Going deeper with Image Transformers. arXiv ( 2021 ). Hugo Touvron, Matthieu Cord, Alexandre Sablayrolles, Gabriel Synnaeve, and Herv\u00e9 J\u00e9gou. 2021 b. Going deeper with Image Transformers. arXiv (2021)."},{"key":"e_1_3_2_2_48_1","unstructured":"Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N. Gomez Lukasz Kaiser and Illia Polosukhin. 2017. Attention is All you Need. In NIPS. Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan N. Gomez Lukasz Kaiser and Illia Polosukhin. 2017. Attention is All you Need. In NIPS."},{"key":"e_1_3_2_2_49_1","doi-asserted-by":"crossref","unstructured":"Subhashini Venugopalan Huijuan Xu Jeff Donahue Marcus Rohrbach Raymond J. Mooney and Kate Saenko. 2015. Translating Videos to Natural Language Using Deep Recurrent Neural Networks. In NAACL-HLT. Subhashini Venugopalan Huijuan Xu Jeff Donahue Marcus Rohrbach Raymond J. Mooney and Kate Saenko. 2015. Translating Videos to Natural Language Using Deep Recurrent Neural Networks. In NAACL-HLT.","DOI":"10.3115\/v1\/N15-1173"},{"key":"e_1_3_2_2_50_1","volume-title":"T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval. arXiv","author":"Wang Xiaohan","year":"2021","unstructured":"Xiaohan Wang , Linchao Zhu , and Yi Yang . 2021. T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval. arXiv ( 2021 ). Xiaohan Wang, Linchao Zhu, and Yi Yang. 2021. T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval. arXiv (2021)."},{"key":"e_1_3_2_2_51_1","doi-asserted-by":"crossref","unstructured":"Yu Wu Linchao Zhu Yan Yan and Yi Yang. 2019. Dual Attention Matching for Audio-Visual Event Localization. In ICCV. Yu Wu Linchao Zhu Yan Yan and Yi Yang. 2019. Dual Attention Matching for Audio-Visual Event Localization. In ICCV.","DOI":"10.1109\/ICCV.2019.00639"},{"key":"e_1_3_2_2_52_1","doi-asserted-by":"crossref","unstructured":"Jun Xu Tao Mei Ting Yao and Yong Rui. 2016. MSR-VTT: A Large Video Description Dataset for Bridging Video and Language. In CVPR. Jun Xu Tao Mei Ting Yao and Yong Rui. 2016. MSR-VTT: A Large Video Description Dataset for Bridging Video and Language. In CVPR.","DOI":"10.1109\/CVPR.2016.571"},{"key":"e_1_3_2_2_53_1","volume-title":"TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment. arXiv","author":"Yang Jianwei","year":"2021","unstructured":"Jianwei Yang , Yonatan Bisk , and Jianfeng Gao . 2021. TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment. arXiv ( 2021 ). Jianwei Yang, Yonatan Bisk, and Jianfeng Gao. 2021. TACo: Token-aware Cascade Contrastive Learning for Video-Text Alignment. arXiv (2021)."},{"key":"e_1_3_2_2_54_1","unstructured":"Youngjae Yu Jongseok Kim and Gunhee Kim. 2018. A Joint Sequence Fusion Model for Video Question Answering and Retrieval. In ECCV. Youngjae Yu Jongseok Kim and Gunhee Kim. 2018. A Joint Sequence Fusion Model for Video Question Answering and Retrieval. In ECCV."},{"key":"e_1_3_2_2_55_1","unstructured":"Youngjae Yu Hyungjin Ko Jongwook Choi and Gunhee Kim. 2017. End-to-End Concept Word Detection for Video Captioning Retrieval and Question Answering. In CVPR. Youngjae Yu Hyungjin Ko Jongwook Choi and Gunhee Kim. 2017. End-to-End Concept Word Detection for Video Captioning Retrieval and Question Answering. In CVPR."},{"key":"e_1_3_2_2_56_1","volume-title":"Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet. arXiv","author":"Yuan Li","year":"2021","unstructured":"Li Yuan , Yunpeng Chen , Tao Wang , Weihao Yu , Yujun Shi , Francis E. H. Tay , Jiashi Feng , and Shuicheng Yan . 2021. Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet. arXiv ( 2021 ). Li Yuan, Yunpeng Chen, Tao Wang, Weihao Yu, Yujun Shi, Francis E. H. Tay, Jiashi Feng, and Shuicheng Yan. 2021. Tokens-to-Token ViT: Training Vision Transformers from Scratch on ImageNet. arXiv (2021)."},{"key":"e_1_3_2_2_57_1","volume-title":"Cross-Modal and Hierarchical Modeling of Video and Text. arXiv","author":"Zhang Bowen","year":"2018","unstructured":"Bowen Zhang , Hexiang Hu , and Fei Sha . 2018. Cross-Modal and Hierarchical Modeling of Video and Text. arXiv ( 2018 ). Bowen Zhang, Hexiang Hu, and Fei Sha. 2018. Cross-Modal and Hierarchical Modeling of Video and Text. arXiv (2018)."},{"key":"e_1_3_2_2_58_1","volume-title":"MGSampler: An Explainable Sampling Strategy for Video Action Recognition. arXiv","author":"Zhi Yuan","year":"2021","unstructured":"Yuan Zhi , Zhan Tong , Limin Wang , and Gangshan Wu. 2021. MGSampler: An Explainable Sampling Strategy for Video Action Recognition. arXiv ( 2021 ). Yuan Zhi, Zhan Tong, Limin Wang, and Gangshan Wu. 2021. MGSampler: An Explainable Sampling Strategy for Video Action Recognition. arXiv (2021)."},{"key":"e_1_3_2_2_59_1","unstructured":"Linchao Zhu and Yi Yang. 2020. ActBERT: Learning Global-Local Video-Text Representations. In CVPR. Linchao Zhu and Yi Yang. 2020. ActBERT: Learning Global-Local Video-Text Representations. In CVPR."}],"event":{"name":"SIGIR '22: The 45th International ACM SIGIR Conference on Research and Development in Information Retrieval","sponsor":["SIGIR ACM Special Interest Group on Information Retrieval"],"location":"Madrid Spain","acronym":"SIGIR '22"},"container-title":["Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3477495.3531960","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3477495.3531960","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T18:10:19Z","timestamp":1750183819000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3477495.3531960"}},"subtitle":["Cross-Modal Retrieval Transformer for Efficient Text-Video Retrieval"],"short-title":[],"issued":{"date-parts":[[2022,7,6]]},"references-count":59,"alternative-id":["10.1145\/3477495.3531960","10.1145\/3477495"],"URL":"https:\/\/doi.org\/10.1145\/3477495.3531960","relation":{},"subject":[],"published":{"date-parts":[[2022,7,6]]},"assertion":[{"value":"2022-07-07","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}