{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T17:19:36Z","timestamp":1777655976339,"version":"3.51.4"},"publisher-location":"New York, NY, USA","reference-count":37,"publisher":"ACM","license":[{"start":{"date-parts":[[2023,6,12]],"date-time":"2023-06-12T00:00:00Z","timestamp":1686528000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2023,6,12]]},"DOI":"10.1145\/3591106.3592247","type":"proceedings-article","created":{"date-parts":[[2023,6,8]],"date-time":"2023-06-08T22:33:38Z","timestamp":1686263618000},"page":"298-306","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":3,"title":["Shot Retrieval and Assembly with Text Script for Video Montage Generation"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-8163-6569","authenticated-orcid":false,"given":"Guoxing","family":"Yang","sequence":"first","affiliation":[{"name":"Renmin University of China, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2620-6296","authenticated-orcid":false,"given":"Haoyu","family":"Lu","sequence":"additional","affiliation":[{"name":"Renmin University of China, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2614-8121","authenticated-orcid":false,"given":"Zelong","family":"Sun","sequence":"additional","affiliation":[{"name":"Renmin University of China, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0280-7724","authenticated-orcid":false,"given":"Zhiwu","family":"Lu","sequence":"additional","affiliation":[{"name":"Renmin University of China, China"}]}],"member":"320","published-online":{"date-parts":[[2023,6,12]]},"reference":[{"key":"e_1_3_2_2_1_1","doi-asserted-by":"publisher","DOI":"10.1109\/69.738360"},{"key":"e_1_3_2_2_2_1","doi-asserted-by":"crossref","unstructured":"Alex Andonian Camilo Fosco Mathew Monfort Allen Lee Rog\u00e9rio Feris Carl Vondrick and Aude Oliva. 2020. We Have So Much in Common: Modeling Semantic Relational Set Abstractions in Videos. In ECCV Vol.\u00a012363. 18\u201334.","DOI":"10.1007\/978-3-030-58523-5_2"},{"key":"e_1_3_2_2_3_1","doi-asserted-by":"crossref","unstructured":"Max Bain Arsha Nagrani G\u00fcl Varol and Andrew Zisserman. 2021. Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval. In ICCV. 1708\u20131718.","DOI":"10.1109\/ICCV48922.2021.00175"},{"key":"e_1_3_2_2_4_1","volume-title":"UNITER: UNiversal Image-TExt Representation Learning. In ECCV, Vol.\u00a012375. 104\u2013120.","author":"Chen Yen-Chun","year":"2020","unstructured":"Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed\u00a0El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, and Jingjing Liu. 2020. UNITER: UNiversal Image-TExt Representation Learning. In ECCV, Vol.\u00a012375. 104\u2013120."},{"key":"e_1_3_2_2_5_1","doi-asserted-by":"publisher","DOI":"10.1145\/211430.211431"},{"key":"e_1_3_2_2_6_1","volume-title":"Proceedings of the 2019 Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT). 4171\u20134186","author":"Devlin Jacob","year":"2019","unstructured":"Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. 2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (NAACL-HLT). 4171\u20134186."},{"key":"e_1_3_2_2_7_1","unstructured":"Fartash Faghri David\u00a0J. Fleet Jamie\u00a0Ryan Kiros and Sanja Fidler. 2018. VSE++: Improving Visual-Semantic Embeddings with Hard Negatives. In BMVC. 12."},{"key":"e_1_3_2_2_8_1","doi-asserted-by":"crossref","unstructured":"David\u00a0F. Fouhey Weicheng Kuo Alexei\u00a0A. Efros and Jitendra Malik. 2018. From Lifestyle Vlogs to Everyday Interactions. In CVPR. 4991\u20135000.","DOI":"10.1109\/CVPR.2018.00524"},{"key":"e_1_3_2_2_9_1","unstructured":"Andrea Frome Gregory\u00a0S. Corrado Jonathon Shlens Samy Bengio Jeffrey Dean Marc\u2019Aurelio Ranzato and Tom\u00e1s Mikolov. 2013. DeViSE: A Deep Visual-Semantic Embedding Model. In NeurIPS. 2121\u20132129."},{"key":"e_1_3_2_2_10_1","doi-asserted-by":"crossref","unstructured":"De-An Huang Shyamal Buch Lucio\u00a0M. Dery Animesh Garg Li Fei-Fei and Juan\u00a0Carlos Niebles. 2018. Finding \"It\": Weakly-Supervised Reference-Aware Visual Grounding in Instructional Videos. In CVPR. 5948\u20135957.","DOI":"10.1109\/CVPR.2018.00623"},{"key":"e_1_3_2_2_11_1","volume-title":"WenLan: Bridging vision and language by large-scale multi-modal pre-training. arXiv preprint arXiv:2103.06561","author":"Huo Yuqi","year":"2021","unstructured":"Yuqi Huo, Manli Zhang, Guangzhen Liu, Haoyu Lu, Yizhao Gao, Guoxing Yang, Jingyuan Wen, Heng Zhang, Baogui Xu, Weihao Zheng, 2021. WenLan: Bridging vision and language by large-scale multi-modal pre-training. arXiv preprint arXiv:2103.06561 (2021). https:\/\/arxiv.org\/abs\/2103.06561"},{"key":"e_1_3_2_2_12_1","unstructured":"Chao Jia Yinfei Yang Ye Xia Yi-Ting Chen Zarana Parekh Hieu Pham Quoc\u00a0V. Le Yun-Hsuan Sung Zhen Li and Tom Duerig. 2021. Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision. In ICML. 4904\u20134916."},{"key":"e_1_3_2_2_13_1","unstructured":"Wonjae Kim Bokyung Son and Ildoo Kim. 2021. ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision. In ICML Vol.\u00a0139. 5583\u20135594."},{"key":"e_1_3_2_2_14_1","doi-asserted-by":"crossref","unstructured":"Ranjay Krishna Kenji Hata Frederic Ren Li Fei-Fei and Juan\u00a0Carlos Niebles. 2017. Dense-Captioning Events in Videos. In ICCV. 706\u2013715.","DOI":"10.1109\/ICCV.2017.83"},{"key":"e_1_3_2_2_15_1","doi-asserted-by":"publisher","DOI":"10.1145\/3072959.3073653"},{"key":"e_1_3_2_2_16_1","volume-title":"Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling. CVPR","author":"Lei Jie","year":"2021","unstructured":"Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara\u00a0L Berg, Mohit Bansal, and Jingjing Liu. 2021. Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling. CVPR (2021), 7331\u20137341."},{"key":"e_1_3_2_2_17_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1167"},{"key":"e_1_3_2_2_18_1","doi-asserted-by":"crossref","unstructured":"Gen Li Nan Duan Yuejian Fang Ming Gong and Daxin Jiang. 2020. Unicoder-VL: A Universal Encoder for Vision and Language by Cross-Modal Pre-Training. In AAAI. 11336\u201311344.","DOI":"10.1609\/aaai.v34i07.6795"},{"key":"e_1_3_2_2_19_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.161"},{"key":"e_1_3_2_2_20_1","volume-title":"VisualBERT: A Simple and Performant Baseline for Vision and Language. arXiv preprint arXiv:1908.03557","author":"Li Liunian\u00a0Harold","year":"2019","unstructured":"Liunian\u00a0Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, and Kai-Wei Chang. 2019. VisualBERT: A Simple and Performant Baseline for Vision and Language. arXiv preprint arXiv:1908.03557 (2019). https:\/\/arxiv.org\/abs\/1908.03557"},{"key":"e_1_3_2_2_21_1","volume-title":"Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks. In ECCV, Vol.\u00a012375. 121\u2013137.","author":"Li Xiujun","year":"2020","unstructured":"Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, Yejin Choi, and Jianfeng Gao. 2020. Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks. In ECCV, Vol.\u00a012375. 121\u2013137."},{"key":"e_1_3_2_2_22_1","unstructured":"Jiasen Lu Dhruv Batra Devi Parikh and Stefan Lee. 2019. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks. In NeurIPS. 13\u201323."},{"key":"e_1_3_2_2_23_1","doi-asserted-by":"crossref","unstructured":"Antoine Miech Jean-Baptiste Alayrac Lucas Smaira Ivan Laptev Josef Sivic and Andrew Zisserman. 2020. End-to-End Learning of Visual Representations from Uncurated Instructional Videos. In CVPR.","DOI":"10.1109\/CVPR42600.2020.00990"},{"key":"e_1_3_2_2_24_1","doi-asserted-by":"crossref","unstructured":"Antoine Miech Dimitri Zhukov Jean-Baptiste Alayrac Makarand Tapaswi Ivan Laptev and Josef Sivic. 2019. HowTo100M: Learning a Text-Video Embedding by Watching Hundred Million Narrated Video Clips. In ICCV. 2630\u20132640.","DOI":"10.1109\/ICCV.2019.00272"},{"key":"e_1_3_2_2_25_1","unstructured":"Alec Radford Jong\u00a0Wook Kim Chris Hallacy Aditya Ramesh Gabriel Goh Sandhini Agarwal Girish Sastry Amanda Askell Pamela Mishkin Jack Clark Gretchen Krueger and Ilya Sutskever. 2021. Learning Transferable Visual Models From Natural Language Supervision. In ICML. 8748\u20138763."},{"key":"e_1_3_2_2_26_1","doi-asserted-by":"crossref","unstructured":"Marcus Rohrbach Sikandar Amin Mykhaylo Andriluka and Bernt Schiele. 2012. A database for fine grained activity detection of cooking activities. In CVPR.","DOI":"10.1109\/CVPR.2012.6247801"},{"key":"e_1_3_2_2_27_1","doi-asserted-by":"publisher","DOI":"10.1145\/1518701.1518825"},{"key":"e_1_3_2_2_28_1","unstructured":"Weijie Su Xizhou Zhu Yue Cao Bin Li Lewei Lu Furu Wei and Jifeng Dai. 2020. VL-BERT: Pre-training of Generic Visual-Linguistic Representations. In ICLR. https:\/\/openreview.net\/forum?id=SygXPaEYvH"},{"key":"e_1_3_2_2_29_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-1514"},{"key":"e_1_3_2_2_30_1","doi-asserted-by":"crossref","unstructured":"Makarand Tapaswi Yukun Zhu Rainer Stiefelhagen Antonio Torralba Raquel Urtasun and Sanja Fidler. 2016. MovieQA: Understanding Stories in Movies through Question-Answering. In CVPR. 4631\u20134640.","DOI":"10.1109\/CVPR.2016.501"},{"key":"e_1_3_2_2_31_1","doi-asserted-by":"publisher","DOI":"10.1145\/2984511.2984569"},{"key":"e_1_3_2_2_32_1","doi-asserted-by":"publisher","DOI":"10.1145\/3355089.3356520"},{"key":"e_1_3_2_2_33_1","doi-asserted-by":"crossref","unstructured":"Xiaohan Wang Linchao Zhu and Yi Yang. 2021. T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval. In CVPR. 5079\u20135088.","DOI":"10.1109\/CVPR46437.2021.00504"},{"key":"e_1_3_2_2_34_1","volume-title":"Transcript to Video: Efficient Clip Sequencing from Texts. arXiv preprint arXiv:2107.11851","author":"Xiong Yu","year":"2021","unstructured":"Yu Xiong, Fabian\u00a0Caba Heilbron, and Dahua Lin. 2021. Transcript to Video: Efficient Clip Sequencing from Texts. arXiv preprint arXiv:2107.11851 (2021). https:\/\/arxiv.org\/abs\/2107.11851"},{"key":"e_1_3_2_2_35_1","doi-asserted-by":"crossref","unstructured":"Jun Xu Tao Mei Ting Yao and Yong Rui. 2016. MSR-VTT: A large video description dataset for bridging video and language. In CVPR. 5288\u20135296.","DOI":"10.1109\/CVPR.2016.571"},{"key":"e_1_3_2_2_36_1","doi-asserted-by":"crossref","unstructured":"Youngjae Yu Jongseok Kim and Gunhee Kim. 2018. A joint sequence fusion model for video question answering and retrieval. In ECCV. 487\u2013503.","DOI":"10.1007\/978-3-030-01234-2_29"},{"key":"e_1_3_2_2_37_1","doi-asserted-by":"crossref","unstructured":"Linchao Zhu and Yi Yang. 2020. ActBERT: Learning global-local video-text representations. In CVPR. 8743\u20138752.","DOI":"10.1109\/CVPR42600.2020.00877"}],"event":{"name":"ICMR '23: International Conference on Multimedia Retrieval","location":"Thessaloniki Greece","acronym":"ICMR '23","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2023 ACM International Conference on Multimedia Retrieval"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3591106.3592247","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3591106.3592247","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T17:51:22Z","timestamp":1750182682000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3591106.3592247"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,6,12]]},"references-count":37,"alternative-id":["10.1145\/3591106.3592247","10.1145\/3591106"],"URL":"https:\/\/doi.org\/10.1145\/3591106.3592247","relation":{},"subject":[],"published":{"date-parts":[[2023,6,12]]},"assertion":[{"value":"2023-06-12","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}