{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,5]],"date-time":"2026-06-05T16:10:26Z","timestamp":1780675826302,"version":"3.54.1"},"publisher-location":"New York, NY, USA","reference-count":32,"publisher":"ACM","license":[{"start":{"date-parts":[[2022,6,27]],"date-time":"2022-06-27T00:00:00Z","timestamp":1656288000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2022,6,27]]},"DOI":"10.1145\/3512527.3531403","type":"proceedings-article","created":{"date-parts":[[2022,6,23]],"date-time":"2022-06-23T22:23:32Z","timestamp":1656023012000},"page":"322-329","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":12,"title":["Learning Sample Importance for Cross-Scenario Video Temporal Grounding"],"prefix":"10.1145","author":[{"given":"Peijun","family":"Bao","sequence":"first","affiliation":[{"name":"Peking University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yadong","family":"Mu","sequence":"additional","affiliation":[{"name":"Peking University, Beijing, China"}],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"320","published-online":{"date-parts":[[2022,6,27]]},"reference":[{"key":"e_1_3_2_2_1_1","doi-asserted-by":"crossref","unstructured":"Lisa Anne Hendricks Oliver Wang Eli Shechtman Josef Sivic Trevor Darrell and Bryan Russell. 2017. Localizing moments in video with natural language. In ICCV.  Lisa Anne Hendricks Oliver Wang Eli Shechtman Josef Sivic Trevor Darrell and Bryan Russell. 2017. Localizing moments in video with natural language. In ICCV.","DOI":"10.1109\/ICCV.2017.618"},{"key":"e_1_3_2_2_2_1","doi-asserted-by":"crossref","unstructured":"Peijun Bao Qian Zheng and Yadong Mu. 2021. Dense Events Grounding in Video. In AAAI.  Peijun Bao Qian Zheng and Yadong Mu. 2021. Dense Events Grounding in Video. In AAAI.","DOI":"10.1609\/aaai.v35i2.16175"},{"key":"e_1_3_2_2_3_1","volume-title":"Rubi: Reducing unimodal biases for visual question answering. In NeurIPS.","author":"Cadene Remi","year":"2019","unstructured":"Remi Cadene , Corentin Dancette , Matthieu Cord , Devi Parikh , 2019 . Rubi: Reducing unimodal biases for visual question answering. In NeurIPS. Remi Cadene, Corentin Dancette, Matthieu Cord, Devi Parikh, et al. 2019. Rubi: Reducing unimodal biases for visual question answering. In NeurIPS."},{"key":"e_1_3_2_2_4_1","doi-asserted-by":"crossref","unstructured":"Joao Carreira and Andrew Zisserman. 2017. Quo vadis action recognition? a new model and the kinetics dataset. In CVPR.  Joao Carreira and Andrew Zisserman. 2017. Quo vadis action recognition? a new model and the kinetics dataset. In CVPR.","DOI":"10.1109\/CVPR.2017.502"},{"key":"e_1_3_2_2_5_1","doi-asserted-by":"crossref","unstructured":"Long Chen Xin Yan Jun Xiao Hanwang Zhang Shiliang Pu and Yueting Zhuang. 2020. Counterfactual Samples Synthesizing for Robust Visual Question Answering. (2020).  Long Chen Xin Yan Jun Xiao Hanwang Zhang Shiliang Pu and Yueting Zhuang. 2020. Counterfactual Samples Synthesizing for Robust Visual Question Answering. (2020).","DOI":"10.1109\/CVPR42600.2020.01081"},{"key":"e_1_3_2_2_6_1","volume-title":"Tall: Temporal activity localization via language query. In ICCV.","author":"Gao Jiyang","year":"2017","unstructured":"Jiyang Gao , Chen Sun , Zhenheng Yang , and Ram Nevatia . 2017 . Tall: Temporal activity localization via language query. In ICCV. Jiyang Gao, Chen Sun, Zhenheng Yang, and Ram Nevatia. 2017. Tall: Temporal activity localization via language query. In ICCV."},{"key":"e_1_3_2_2_7_1","volume-title":"Excl: Extractive clip localization using natural language descriptions. arXiv preprint arXiv:1904.02755","author":"Ghosh Soham","year":"2019","unstructured":"Soham Ghosh , Anuva Agarwal , Zarana Parekh , and Alexander Hauptmann . 2019 . Excl: Extractive clip localization using natural language descriptions. arXiv preprint arXiv:1904.02755 (2019). Soham Ghosh, Anuva Agarwal, Zarana Parekh, and Alexander Hauptmann. 2019. Excl: Extractive clip localization using natural language descriptions. arXiv preprint arXiv:1904.02755 (2019)."},{"key":"e_1_3_2_2_8_1","unstructured":"Xinzhe Han Shuhui Wang Chi Su Qingming Huang and Qi Tian. 2021. Greedy gradient ensemble for robust visual question answering. In ICCV.  Xinzhe Han Shuhui Wang Chi Su Qingming Huang and Qi Tian. 2021. Greedy gradient ensemble for robust visual question answering. In ICCV."},{"key":"e_1_3_2_2_9_1","doi-asserted-by":"crossref","unstructured":"Lisa Anne Hendricks Oliver Wang Eli Shechtman Josef Sivic Trevor Darrell and Bryan Russell. 2018. Localizing moments in video with temporal language. In EMNLP.  Lisa Anne Hendricks Oliver Wang Eli Shechtman Josef Sivic Trevor Darrell and Bryan Russell. 2018. Localizing moments in video with temporal language. In EMNLP.","DOI":"10.18653\/v1\/D18-1168"},{"key":"e_1_3_2_2_10_1","volume-title":"Long short-term memory. Neural computation","author":"Hochreiter Sepp","year":"1997","unstructured":"Sepp Hochreiter and J\u00fcrgen Schmidhuber . 1997. Long short-term memory. Neural computation ( 1997 ). Sepp Hochreiter and J\u00fcrgen Schmidhuber. 1997. Long short-term memory. Neural computation (1997)."},{"key":"e_1_3_2_2_11_1","volume-title":"Glove: Global vectors for word representation. In EMNLP.","author":"Jeffrey Pennington RichardSocher","year":"2014","unstructured":"RichardSocher Jeffrey Pennington and Christopher D Manning . 2014 . Glove: Global vectors for word representation. In EMNLP. RichardSocher Jeffrey Pennington and ChristopherD Manning. 2014. Glove: Global vectors for word representation. In EMNLP."},{"key":"e_1_3_2_2_12_1","volume-title":"Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980","author":"Kingma Diederik P","year":"2014","unstructured":"Diederik P Kingma and Jimmy Ba . 2014 . Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014). Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980 (2014)."},{"key":"e_1_3_2_2_13_1","doi-asserted-by":"crossref","unstructured":"Ranjay Krishna Kenji Hata Frederic Ren Li Fei-Fei and Juan Carlos Niebles. 2017. Dense-captioning events in videos. In ICCV.  Ranjay Krishna Kenji Hata Frederic Ren Li Fei-Fei and Juan Carlos Niebles. 2017. Dense-captioning events in videos. In ICCV.","DOI":"10.1109\/ICCV.2017.83"},{"key":"e_1_3_2_2_14_1","volume-title":"Bmn: Boundary-matching network for temporal action proposal generation. In ICCV.","author":"Lin Tianwei","year":"2019","unstructured":"Tianwei Lin , Xiao Liu , Xin Li , Errui Ding , and Shilei Wen . 2019 . Bmn: Boundary-matching network for temporal action proposal generation. In ICCV. Tianwei Lin, Xiao Liu, Xin Li, Errui Ding, and Shilei Wen. 2019. Bmn: Boundary-matching network for temporal action proposal generation. In ICCV."},{"key":"e_1_3_2_2_15_1","unstructured":"Bingbin Liu Serena Yeung Edward Chou De-An Huang Li Fei-Fei and Juan Carlos Niebles. 2018c. Temporal modular networks for retrieving complex compositional activities in videos. In ECCV.  Bingbin Liu Serena Yeung Edward Chou De-An Huang Li Fei-Fei and Juan Carlos Niebles. 2018c. Temporal modular networks for retrieving complex compositional activities in videos. In ECCV."},{"key":"e_1_3_2_2_16_1","unstructured":"Daizong Liu Xiaoye Qu Jianfeng Dong Pan Zhou Yu Cheng Wei Wei Zichuan Xu and Yulai Xie. 2021. Context-aware Biaffine Localizing Network for Temporal Sentence Grounding. In CVPR.  Daizong Liu Xiaoye Qu Jianfeng Dong Pan Zhou Yu Cheng Wei Wei Zichuan Xu and Yulai Xie. 2021. Context-aware Biaffine Localizing Network for Temporal Sentence Grounding. In CVPR."},{"key":"e_1_3_2_2_17_1","doi-asserted-by":"crossref","unstructured":"Meng Liu Xiang Wang Liqiang Nie Xiangnan He Baoquan Chen and Tat-Seng Chua. 2018a. Attentive moment retrieval in videos. In SIGIR.  Meng Liu Xiang Wang Liqiang Nie Xiangnan He Baoquan Chen and Tat-Seng Chua. 2018a. Attentive moment retrieval in videos. In SIGIR.","DOI":"10.1145\/3209978.3210003"},{"key":"e_1_3_2_2_18_1","doi-asserted-by":"crossref","unstructured":"Meng Liu Xiang Wang Liqiang Nie Qi Tian Baoquan Chen and Tat-Seng Chua. 2018b. Cross-modal moment localization in videos. In ACM MM.  Meng Liu Xiang Wang Liqiang Nie Qi Tian Baoquan Chen and Tat-Seng Chua. 2018b. Cross-modal moment localization in videos. In ACM MM.","DOI":"10.1145\/3240508.3240549"},{"key":"e_1_3_2_2_19_1","unstructured":"Jiaxin Qi Yulei Niu Jianqiang Huang and Hanwang Zhang. 2020. Two Causal Principles for Improving Visual Dialog. In CVPR.  Jiaxin Qi Yulei Niu Jianqiang Huang and Hanwang Zhang. 2020. Two Causal Principles for Improving Visual Dialog. In CVPR."},{"key":"e_1_3_2_2_20_1","unstructured":"Sainandan Ramakrishnan Aishwarya Agrawal and Stefan Lee. 2018. Overcoming language priors in visual question answering with adversarial regularization. In NeurIPS.  Sainandan Ramakrishnan Aishwarya Agrawal and Stefan Lee. 2018. Overcoming language priors in visual question answering with adversarial regularization. In NeurIPS."},{"key":"e_1_3_2_2_21_1","doi-asserted-by":"crossref","unstructured":"Cristian Rodriguez-Opazo Edison Marrese-Taylor Basura Fernando Hongdong Li and Stephen Gould. 2021. DORi: Discovering Object Relationships for Moment Localization of a Natural Language Query in a Video. In WACV.  Cristian Rodriguez-Opazo Edison Marrese-Taylor Basura Fernando Hongdong Li and Stephen Gould. 2021. DORi: Discovering Object Relationships for Moment Localization of a Natural Language Query in a Video. In WACV.","DOI":"10.1109\/WACV48630.2021.00112"},{"key":"e_1_3_2_2_22_1","doi-asserted-by":"crossref","unstructured":"Mattia Soldan Mengmeng Xu Sisi Qu Jesper Tegner and Bernard Ghanem. 2021. VLG-Net: Video-language graph matching network for video grounding. In ICCV.  Mattia Soldan Mengmeng Xu Sisi Qu Jesper Tegner and Bernard Ghanem. 2021. VLG-Net: Video-language graph matching network for video grounding. In ICCV.","DOI":"10.1109\/ICCVW54120.2021.00361"},{"key":"e_1_3_2_2_23_1","volume-title":"Compositional Temporal Visual Grounding of Natural Language Event Descriptions. arXiv preprint arXiv:1912.02256","author":"Stroud Jonathan C","year":"2019","unstructured":"Jonathan C Stroud , Ryan McCaffrey , Rada Mihalcea , Jia Deng , and Olga Russakovsky . 2019. Compositional Temporal Visual Grounding of Natural Language Event Descriptions. arXiv preprint arXiv:1912.02256 ( 2019 ). Jonathan C Stroud, Ryan McCaffrey, Rada Mihalcea, Jia Deng, and Olga Russakovsky. 2019. Compositional Temporal Visual Grounding of Natural Language Event Descriptions. arXiv preprint arXiv:1912.02256 (2019)."},{"key":"e_1_3_2_2_24_1","doi-asserted-by":"crossref","unstructured":"Kaihua Tang Yulei Niu Jianqiang Huang Jiaxin Shi and Hanwang Zhang. 2020. Unbiased scene graph generation from biased training. In CVPR.  Kaihua Tang Yulei Niu Jianqiang Huang Jiaxin Shi and Hanwang Zhang. 2020. Unbiased scene graph generation from biased training. In CVPR.","DOI":"10.1109\/CVPR42600.2020.00377"},{"key":"e_1_3_2_2_25_1","doi-asserted-by":"crossref","unstructured":"Jingwen Wang Lin Ma and Wenhao Jiang. 2020. Temporally Grounding Language Queries in Videos by Contextual Boundary-aware Prediction. In AAAI.  Jingwen Wang Lin Ma and Wenhao Jiang. 2020. Temporally Grounding Language Queries in Videos by Contextual Boundary-aware Prediction. In AAAI.","DOI":"10.1609\/aaai.v34i07.6897"},{"key":"e_1_3_2_2_26_1","doi-asserted-by":"crossref","unstructured":"Weining Wang Yan Huang and Liang Wang. 2019 a. Language-driven temporal activity localization: A semantic matching reinforcement learning model. In CVPR.  Weining Wang Yan Huang and Liang Wang. 2019 a. Language-driven temporal activity localization: A semantic matching reinforcement learning model. In CVPR.","DOI":"10.1109\/CVPR.2019.00042"},{"key":"e_1_3_2_2_27_1","doi-asserted-by":"crossref","unstructured":"Weining Wang Yan Huang and Liang Wang. 2019 b. Language-driven Temporal Activity Localization: A Semantic Matching Reinforcement Learning Model. In CVPR.  Weining Wang Yan Huang and Liang Wang. 2019 b. Language-driven Temporal Activity Localization: A Semantic Matching Reinforcement Learning Model. In CVPR.","DOI":"10.1109\/CVPR.2019.00042"},{"key":"e_1_3_2_2_28_1","doi-asserted-by":"crossref","unstructured":"Yitian Yuan Lin Ma Jingwen Wang Wei Liu and Wenwu Zhu. 2019. Semantic Conditioned Dynamic Modulation for Temporal Sentence Grounding in Videos. In NeurIPS.  Yitian Yuan Lin Ma Jingwen Wang Wei Liu and Wenwu Zhu. 2019. Semantic Conditioned Dynamic Modulation for Temporal Sentence Grounding in Videos. In NeurIPS.","DOI":"10.1109\/TPAMI.2020.3038993"},{"key":"e_1_3_2_2_29_1","doi-asserted-by":"crossref","unstructured":"Da Zhang Xiyang Dai Xin Wang Yuan-Fang Wang and Larry S Davis. 2019 a. Man: Moment alignment network for natural language moment retrieval via iterative graph adjustment. In CVPR.  Da Zhang Xiyang Dai Xin Wang Yuan-Fang Wang and Larry S Davis. 2019 a. Man: Moment alignment network for natural language moment retrieval via iterative graph adjustment. In CVPR.","DOI":"10.1109\/CVPR.2019.00134"},{"key":"e_1_3_2_2_30_1","doi-asserted-by":"crossref","unstructured":"Songyang Zhang Houwen Peng Jianlong Fu and Jiebo Luo. 2020. Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language. In AAAI.  Songyang Zhang Houwen Peng Jianlong Fu and Jiebo Luo. 2020. Learning 2D Temporal Adjacent Networks for Moment Localization with Natural Language. In AAAI.","DOI":"10.1609\/aaai.v34i07.6984"},{"key":"e_1_3_2_2_31_1","doi-asserted-by":"crossref","unstructured":"Songyang Zhang Jinsong Su and Jiebo Luo. 2019 c. Exploiting Temporal Relationships in Video Moment Localization with Natural Language. In ACM MM.  Songyang Zhang Jinsong Su and Jiebo Luo. 2019 c. Exploiting Temporal Relationships in Video Moment Localization with Natural Language. In ACM MM.","DOI":"10.1145\/3343031.3350879"},{"key":"e_1_3_2_2_32_1","doi-asserted-by":"crossref","unstructured":"Zhu Zhang Zhijie Lin Zhou Zhao and Zhenxin Xiao. 2019 b. Cross-modal interaction networks for query-based moment retrieval in videos. In SIGIR.  Zhu Zhang Zhijie Lin Zhou Zhao and Zhenxin Xiao. 2019 b. Cross-modal interaction networks for query-based moment retrieval in videos. In SIGIR.","DOI":"10.1145\/3331184.3331235"}],"event":{"name":"ICMR '22: International Conference on Multimedia Retrieval","location":"Newark NJ USA","acronym":"ICMR '22","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 2022 International Conference on Multimedia Retrieval"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3512527.3531403","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3512527.3531403","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T19:30:12Z","timestamp":1750188612000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3512527.3531403"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,6,27]]},"references-count":32,"alternative-id":["10.1145\/3512527.3531403","10.1145\/3512527"],"URL":"https:\/\/doi.org\/10.1145\/3512527.3531403","relation":{},"subject":[],"published":{"date-parts":[[2022,6,27]]},"assertion":[{"value":"2022-06-27","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}