{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,15]],"date-time":"2025-11-15T10:28:44Z","timestamp":1763202524680,"version":"3.41.0"},"publisher-location":"New York, NY, USA","reference-count":36,"publisher":"ACM","license":[{"start":{"date-parts":[[2021,8,24]],"date-time":"2021-08-24T00:00:00Z","timestamp":1629763200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.acm.org\/publications\/policies\/copyright_policy#Background"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["No.61902321, No. U19B2037"],"award-info":[{"award-number":["No.61902321, No. U19B2037"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100007225","name":"Ministry of Science and Technology","doi-asserted-by":"publisher","award":["2020AAA0106900"],"award-info":[{"award-number":["2020AAA0106900"]}],"id":[{"id":"10.13039\/100007225","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2021,8,24]]},"DOI":"10.1145\/3460426.3463616","type":"proceedings-article","created":{"date-parts":[[2021,9,1]],"date-time":"2021-09-01T22:50:29Z","timestamp":1630536629000},"page":"201-209","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":4,"title":["Local-enhanced Interaction for Temporal Moment Localization"],"prefix":"10.1145","author":[{"given":"Guoqiang","family":"Liang","sequence":"first","affiliation":[{"name":"Northwestern Polytechnical University, Xi'an, China"}]},{"given":"Shiyu","family":"Ji","sequence":"additional","affiliation":[{"name":"Northwestern Polytechnical University, Xi'an, China"}]},{"given":"Yanning","family":"Zhang","sequence":"additional","affiliation":[{"name":"Northwestern Polytechnical University, Xi'an, China"}]}],"member":"320","published-online":{"date-parts":[[2021,9]]},"reference":[{"key":"e_1_3_2_1_1_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.618"},{"key":"e_1_3_2_1_2_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.502"},{"key":"e_1_3_2_1_3_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D18-1015"},{"key":"e_1_3_2_1_4_1","doi-asserted-by":"crossref","unstructured":"Long Chen Chujie Lu Siliang Tang Jun Xiao Dong Zhang Chilie Tan and Xiaolin Li. 2020 b. Rethinking the Bottom-Up Framework for Query-Based Video Localization.. In AAAI. 10551--10558.  Long Chen Chujie Lu Siliang Tang Jun Xiao Dong Zhang Chilie Tan and Xiaolin Li. 2020 b. Rethinking the Bottom-Up Framework for Query-Based Video Localization.. In AAAI. 10551--10558.","DOI":"10.1609\/aaai.v34i07.6627"},{"key":"e_1_3_2_1_5_1","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58565-5_36"},{"key":"e_1_3_2_1_6_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01104"},{"key":"e_1_3_2_1_7_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00629"},{"key":"e_1_3_2_1_8_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.563"},{"key":"e_1_3_2_1_9_1","volume-title":"Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies","volume":"1","author":"Ghosh Soham","year":"2019","unstructured":"Soham Ghosh , Anuva Agarwal , Zarana Parekh , and Alexander G Hauptmann . 2019 . ExCL: Extractive Clip Localization Using Natural Language Descriptions . In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies , Volume 1 (Long and Short Papers). 1984--1990. Soham Ghosh, Anuva Agarwal, Zarana Parekh, and Alexander G Hauptmann. 2019. ExCL: Extractive Clip Localization Using Natural Language Descriptions. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). 1984--1990."},{"key":"e_1_3_2_1_10_1","volume-title":"Tripping through time: Efficient localization of activities in videos. arXiv preprint arXiv:1904.09936","author":"Hahn Meera","year":"2019","unstructured":"Meera Hahn , Asim Kadav , James M Rehg , and Hans Peter Graf . 2019. Tripping through time: Efficient localization of activities in videos. arXiv preprint arXiv:1904.09936 ( 2019 ). Meera Hahn, Asim Kadav, James M Rehg, and Hans Peter Graf. 2019. Tripping through time: Efficient localization of activities in videos. arXiv preprint arXiv:1904.09936 (2019)."},{"key":"e_1_3_2_1_11_1","volume-title":"Tinne Tuytelaars, and Luc V Gool.","author":"Jia Xu","year":"2016","unstructured":"Xu Jia , Bert De Brabandere , Tinne Tuytelaars, and Luc V Gool. 2016 . Dynamic filter networks. Advances in neural information processing systems, Vol. 29 (2016), 667--675. Xu Jia, Bert De Brabandere, Tinne Tuytelaars, and Luc V Gool. 2016. Dynamic filter networks. Advances in neural information processing systems, Vol. 29 (2016), 667--675."},{"key":"e_1_3_2_1_12_1","doi-asserted-by":"publisher","DOI":"10.1145\/3323873.3325019"},{"key":"e_1_3_2_1_13_1","volume-title":"Kingma and Jimmy Ba","author":"Diederik","year":"2015","unstructured":"Diederik P. Kingma and Jimmy Ba . 2015 . Adam : A Method for Stochastic Optimization. In 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7--9, 2015, Conference Track Proceedings, Yoshua Bengio and Yann LeCun (Eds .). http:\/\/arxiv.org\/abs\/1412.6980 Diederik P. Kingma and Jimmy Ba. 2015. Adam: A Method for Stochastic Optimization. In 3rd International Conference on Learning Representations, ICLR 2015, San Diego, CA, USA, May 7--9, 2015, Conference Track Proceedings, Yoshua Bengio and Yann LeCun (Eds.). http:\/\/arxiv.org\/abs\/1412.6980"},{"key":"e_1_3_2_1_14_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6793"},{"key":"e_1_3_2_1_15_1","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3414026"},{"key":"e_1_3_2_1_16_1","doi-asserted-by":"publisher","DOI":"10.1145\/3209978.3210003"},{"key":"e_1_3_2_1_17_1","volume-title":"Cross-modal Moment Localization in Videos. In 2018 ACM Multimedia Conference on Multimedia Conference, MM 2018","author":"Liu Meng","year":"2018","unstructured":"Meng Liu , Xiang Wang , Liqiang Nie , Qi Tian , Baoquan Chen , and Tat-Seng Chua . 2018 b. Cross-modal Moment Localization in Videos. In 2018 ACM Multimedia Conference on Multimedia Conference, MM 2018 , Seoul, Republic of Korea, October 22--26 , 2018, Susanne Boll, Kyoung Mu Lee, Jiebo Luo, Wenwu Zhu, Hyeran Byun, Chang Wen Chen, Rainer Lienhart, and Tao Mei (Eds.). ACM, 843--851. https:\/\/doi.org\/10.1145\/3240508.3240549 10.1145\/3240508.3240549 Meng Liu, Xiang Wang, Liqiang Nie, Qi Tian, Baoquan Chen, and Tat-Seng Chua. 2018b. Cross-modal Moment Localization in Videos. In 2018 ACM Multimedia Conference on Multimedia Conference, MM 2018, Seoul, Republic of Korea, October 22--26, 2018, Susanne Boll, Kyoung Mu Lee, Jiebo Luo, Wenwu Zhu, Hyeran Byun, Chang Wen Chen, Rainer Lienhart, and Tao Mei (Eds.). ACM, 843--851. https:\/\/doi.org\/10.1145\/3240508.3240549"},{"key":"e_1_3_2_1_18_1","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-1518"},{"key":"e_1_3_2_1_19_1","volume-title":"Local-Global Video-Text Interactions for Temporal Grounding. In 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020","author":"Mun Jonghwan","year":"2020","unstructured":"Jonghwan Mun , Minsu Cho , and Bohyung Han . 2020 . Local-Global Video-Text Interactions for Temporal Grounding. In 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020 , Seattle, WA, USA, June 13--19 , 2020. IEEE, 10807--10816. https:\/\/doi.org\/10.1109\/CVPR42600.2020.01082 10.1109\/CVPR42600.2020.01082 Jonghwan Mun, Minsu Cho, and Bohyung Han. 2020. Local-Global Video-Text Interactions for Temporal Grounding. In 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition, CVPR 2020, Seattle, WA, USA, June 13--19, 2020. IEEE, 10807--10816. https:\/\/doi.org\/10.1109\/CVPR42600.2020.01082"},{"key":"e_1_3_2_1_20_1","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1162"},{"key":"e_1_3_2_1_21_1","volume-title":"2020 a. VLG-Net: Video-Language Graph Matching Network for Video Grounding. arXiv e-prints","author":"Qu Sisi","year":"2020","unstructured":"Sisi Qu , Mattia Soldan , Mengmeng Xu , Jesper Tegner , and Bernard Ghanem . 2020 a. VLG-Net: Video-Language Graph Matching Network for Video Grounding. arXiv e-prints ( 2020 ), arXiv--2011. Sisi Qu, Mattia Soldan, Mengmeng Xu, Jesper Tegner, and Bernard Ghanem. 2020 a. VLG-Net: Video-Language Graph Matching Network for Video Grounding. arXiv e-prints (2020), arXiv--2011."},{"key":"e_1_3_2_1_22_1","volume-title":"Fine-grained Iterative Attention Network for Temporal Language Localization in Videos. In MM '20: The 28th ACM International Conference on Multimedia, Virtual Event \/ Seattle, WA, USA, October 12--16","author":"Qu Xiaoye","year":"2020","unstructured":"Xiaoye Qu , Pengwei Tang , Zhikang Zou , Yu Cheng , Jianfeng Dong , Pan Zhou , and Zichuan Xu . 2020 b . Fine-grained Iterative Attention Network for Temporal Language Localization in Videos. In MM '20: The 28th ACM International Conference on Multimedia, Virtual Event \/ Seattle, WA, USA, October 12--16 , 2020, Chang Wen Chen, Rita Cucchiara, Xian-Sheng Hua, Guo-Jun Qi, Elisa Ricci, Zhengyou Zhang, and Roger Zimmermann (Eds.). ACM, 4280--4288. https:\/\/doi.org\/10.1145\/3394171.3414053 10.1145\/3394171.3414053 Xiaoye Qu, Pengwei Tang, Zhikang Zou, Yu Cheng, Jianfeng Dong, Pan Zhou, and Zichuan Xu. 2020 b. Fine-grained Iterative Attention Network for Temporal Language Localization in Videos. In MM '20: The 28th ACM International Conference on Multimedia, Virtual Event \/ Seattle, WA, USA, October 12--16, 2020, Chang Wen Chen, Rita Cucchiara, Xian-Sheng Hua, Guo-Jun Qi, Elisa Ricci, Zhengyou Zhang, and Roger Zimmermann (Eds.). ACM, 4280--4288. https:\/\/doi.org\/10.1145\/3394171.3414053"},{"key":"e_1_3_2_1_23_1","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00207"},{"key":"e_1_3_2_1_24_1","doi-asserted-by":"publisher","DOI":"10.1109\/WACV45572.2020.9093328"},{"key":"e_1_3_2_1_25_1","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.510"},{"key":"e_1_3_2_1_26_1","doi-asserted-by":"crossref","unstructured":"Jingwen Wang Lin Ma and Wenhao Jiang. 2020. Temporally Grounding Language Queries in Videos by Contextual Boundary-Aware Prediction.. In AAAI. 12168--12175.  Jingwen Wang Lin Ma and Wenhao Jiang. 2020. Temporally Grounding Language Queries in Videos by Contextual Boundary-Aware Prediction.. In AAAI. 12168--12175.","DOI":"10.1609\/aaai.v34i07.6897"},{"key":"e_1_3_2_1_27_1","volume-title":"Dynamic coattention networks for question answering. arXiv preprint arXiv:1611.01604","author":"Xiong Caiming","year":"2016","unstructured":"Caiming Xiong , Victor Zhong , and Richard Socher . 2016. Dynamic coattention networks for question answering. arXiv preprint arXiv:1611.01604 ( 2016 ). Caiming Xiong, Victor Zhong, and Richard Socher. 2016. Dynamic coattention networks for question answering. arXiv preprint arXiv:1611.01604 (2016)."},{"key":"e_1_3_2_1_28_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33019062"},{"key":"e_1_3_2_1_29_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01251"},{"key":"e_1_3_2_1_30_1","volume-title":"Condconv: Conditionally parameterized convolutions for efficient inference. In Advances in Neural Information Processing Systems. 1307--1318.","author":"Yang Brandon","year":"2019","unstructured":"Brandon Yang , Gabriel Bender , Quoc V Le , and Jiquan Ngiam . 2019 . Condconv: Conditionally parameterized convolutions for efficient inference. In Advances in Neural Information Processing Systems. 1307--1318. Brandon Yang, Gabriel Bender, Quoc V Le, and Jiquan Ngiam. 2019. Condconv: Conditionally parameterized convolutions for efficient inference. In Advances in Neural Information Processing Systems. 1307--1318."},{"key":"e_1_3_2_1_31_1","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2020.3016486"},{"key":"e_1_3_2_1_32_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33019159"},{"key":"e_1_3_2_1_33_1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01030"},{"key":"e_1_3_2_1_34_1","volume-title":"2020 b. Span-based Localizing Network for Natural Language Video Localization. arXiv preprint arXiv:2004.13931","author":"Zhang Hao","year":"2020","unstructured":"Hao Zhang , Aixin Sun , Wei Jing , and Joey Tianyi Zhou . 2020 b. Span-based Localizing Network for Natural Language Video Localization. arXiv preprint arXiv:2004.13931 ( 2020 ). Hao Zhang, Aixin Sun, Wei Jing, and Joey Tianyi Zhou. 2020 b. Span-based Localizing Network for Natural Language Video Localization. arXiv preprint arXiv:2004.13931 (2020)."},{"key":"e_1_3_2_1_35_1","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6984"},{"key":"e_1_3_2_1_36_1","volume-title":"2020 c. DyNet: Dynamic Convolution for Accelerating Convolutional Neural Networks. arXiv preprint arXiv:2004.10694","author":"Zhang Yikang","year":"2020","unstructured":"Yikang Zhang , Jian Zhang , Qiang Wang , and Zhao Zhong . 2020 c. DyNet: Dynamic Convolution for Accelerating Convolutional Neural Networks. arXiv preprint arXiv:2004.10694 ( 2020 ). Yikang Zhang, Jian Zhang, Qiang Wang, and Zhao Zhong. 2020 c. DyNet: Dynamic Convolution for Accelerating Convolutional Neural Networks. arXiv preprint arXiv:2004.10694 (2020)."}],"event":{"name":"ICMR '21: International Conference on Multimedia Retrieval","sponsor":["SIGMM ACM Special Interest Group on Multimedia"],"location":"Taipei Taiwan","acronym":"ICMR '21"},"container-title":["Proceedings of the 2021 International Conference on Multimedia Retrieval"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3460426.3463616","content-type":"unspecified","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3460426.3463616","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,17]],"date-time":"2025-06-17T20:17:03Z","timestamp":1750191423000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3460426.3463616"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2021,8,24]]},"references-count":36,"alternative-id":["10.1145\/3460426.3463616","10.1145\/3460426"],"URL":"https:\/\/doi.org\/10.1145\/3460426.3463616","relation":{},"subject":[],"published":{"date-parts":[[2021,8,24]]},"assertion":[{"value":"2021-09-01","order":2,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}