{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,11]],"date-time":"2026-01-11T08:49:53Z","timestamp":1768121393356,"version":"3.49.0"},"publisher-location":"Singapore","reference-count":45,"publisher":"Springer Nature Singapore","isbn-type":[{"value":"9789819557608","type":"print"},{"value":"9789819557615","type":"electronic"}],"license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-981-95-5761-5_30","type":"book-chapter","created":{"date-parts":[[2026,1,11]],"date-time":"2026-01-11T05:52:30Z","timestamp":1768110750000},"page":"431-444","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Cross Video-Text Grounding for\u00a0Advertising Video Editing"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-5919-620X","authenticated-orcid":false,"given":"Qingyang","family":"Liu","sequence":"first","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2026,1,12]]},"reference":[{"key":"30_CR1","doi-asserted-by":"crossref","unstructured":"Anne\u00a0Hendricks, L., Wang, O., Shechtman, E., Sivic, J., Darrell, T., Russell, B.: Localizing moments in video with natural language. In: CVPR (2017)","DOI":"10.1109\/ICCV.2017.618"},{"key":"30_CR2","doi-asserted-by":"crossref","unstructured":"Bain, M., Nagrani, A., Varol, G., Zisserman, A.: Frozen in time: A joint video and image encoder for end-to-end retrieval. In: CVPR (2021)","DOI":"10.1109\/ICCV48922.2021.00175"},{"key":"30_CR3","doi-asserted-by":"crossref","unstructured":"Buch, S., Eyzaguirre, C., Gaidon, A., Wu, J., Fei-Fei, L., Niebles, J.C.: Revisiting the\" video\" in video-language understanding. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.00293"},{"key":"30_CR4","doi-asserted-by":"crossref","unstructured":"Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., Zagoruyko, S.: End-to-end object detection with transformers. In: ECCV (2020)","DOI":"10.1007\/978-3-030-58452-8_13"},{"key":"30_CR5","unstructured":"Chen, D., Dolan, W.B.: Collecting highly parallel data for paraphrase evaluation. In: ACL-HLT, pp. 190\u2013200 (2011)"},{"key":"30_CR6","doi-asserted-by":"crossref","unstructured":"Chen, J., Chen, X., Ma, L., Jie, Z., Chua, T.S.: Temporally grounding natural sentence in video. In: EMNLP (2018)","DOI":"10.18653\/v1\/P19-1183"},{"key":"30_CR7","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"333","DOI":"10.1007\/978-3-030-58548-8_20","volume-title":"Computer Vision \u2013 ECCV 2020","author":"S Chen","year":"2020","unstructured":"Chen, S., Jiang, W., Liu, W., Jiang, Y.-G.: Learning modality interaction for temporal sentence localization and event captioning in videos. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12349, pp. 333\u2013351. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58548-8_20"},{"key":"30_CR8","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"36","DOI":"10.1007\/978-3-030-58565-5_3","volume-title":"Computer Vision \u2013 ECCV 2020","author":"U Rafi","year":"2020","unstructured":"Rafi, U., Doering, A., Leibe, B., Gall, J.: Self-supervised keypoint correspondences for multi-person pose estimation and tracking in videos. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12365, pp. 36\u201352. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58565-5_3"},{"key":"30_CR9","unstructured":"Chen, Y.W., Tsai, Y.H., Yang, M.H.: End-to-end multi-modal video temporal grounding. In: NeurIPS (2021)"},{"key":"30_CR10","first-page":"17864","volume":"34","author":"B Cheng","year":"2021","unstructured":"Cheng, B., Schwing, A., Kirillov, A.: Per-pixel classification is not all you need for semantic segmentation. NeurIPS 34, 17864\u201317875 (2021)","journal-title":"NeurIPS"},{"key":"30_CR11","doi-asserted-by":"crossref","unstructured":"Dong, J., et al.: Dual encoding for zero-example video retrieval. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00957"},{"key":"30_CR12","doi-asserted-by":"crossref","unstructured":"Dzabraev, M., Kalashnikov, M., Komkov, S., Petiushko, A.: Mdmmt: Multidomain multimodal transformer for video retrieval. In: CVPR (2021)","DOI":"10.1109\/CVPRW53098.2021.00374"},{"key":"30_CR13","doi-asserted-by":"crossref","unstructured":"Hahn, M., Kadav, A., Rehg, J.M., Graf, H.P.: Tripping through time: efficient localization of activities in videos. arXiv preprint arXiv:1904.09936 (2019)","DOI":"10.5244\/C.34.135"},{"key":"30_CR14","doi-asserted-by":"crossref","unstructured":"Jiang, X., Xu, X., Zhang, J., Shen, F., Cao, Z., Shen, H.T.: Semi-supervised video paragraph grounding with contrastive encoder. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.00250"},{"key":"30_CR15","doi-asserted-by":"crossref","unstructured":"Krishna, R., Hata, K., Ren, F., Fei-Fei, L., Carlos\u00a0Niebles, J.: Dense-captioning events in videos. In: CVPR (2017)","DOI":"10.1109\/ICCV.2017.83"},{"key":"30_CR16","doi-asserted-by":"crossref","unstructured":"Lei, J., Li, L., Zhou, L., Gan, Z., Berg, T.L., Bansal, M., Liu, J.: Less is more: clipbert for video-and-language learning via sparse sampling. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.00725"},{"key":"30_CR17","doi-asserted-by":"crossref","unstructured":"Li, J., et al.: Compositional temporal grounding with structured variational cross-graph correspondence learning. In: CVPR (2022)","DOI":"10.1109\/CVPR52688.2022.00304"},{"key":"30_CR18","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"3","DOI":"10.1007\/978-3-030-01225-0_1","volume-title":"Computer Vision \u2013 ECCV 2018","author":"T Lin","year":"2018","unstructured":"Lin, T., Zhao, X., Su, H., Wang, C., Yang, M.: BSN: boundary sensitive network for temporal action proposal generation. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds.) ECCV 2018. LNCS, vol. 11208, pp. 3\u201321. Springer, Cham (2018). https:\/\/doi.org\/10.1007\/978-3-030-01225-0_1"},{"key":"30_CR19","doi-asserted-by":"crossref","unstructured":"Lin, T.Y., Goyal, P., Girshick, R., He, K., Doll\u00e1r, P.: Focal loss for dense object detection. In: ICCV (2017)","DOI":"10.1109\/ICCV.2017.324"},{"key":"30_CR20","doi-asserted-by":"crossref","unstructured":"Liu, B., Yeung, S., Chou, E., Huang, D.A., Fei-Fei, L., Niebles, J.C.: Temporal modular networks for retrieving complex compositional activities in videos. In: ECCV (2018)","DOI":"10.1007\/978-3-030-01219-9_34"},{"key":"30_CR21","doi-asserted-by":"crossref","unstructured":"Liu, M., Wang, X., Nie, L., Tian, Q., Chen, B., Chua, T.S.: Cross-modal moment localization in videos. In: ACM MM (2018)","DOI":"10.1145\/3240508.3240549"},{"key":"30_CR22","unstructured":"Loshchilov, I., Hutter, F.: Sgdr: Stochastic gradient descent with warm restarts. arXiv preprint arXiv:1608.03983 (2016)"},{"key":"30_CR23","unstructured":"Loshchilov, I., Hutter, F.: Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101 (2017)"},{"key":"30_CR24","doi-asserted-by":"crossref","unstructured":"Luo, H., et al.: Clip4clip: an empirical study of clip for end to end video clip retrieval. arXiv preprint arXiv:2104.08860 (2021)","DOI":"10.1016\/j.neucom.2022.07.028"},{"key":"30_CR25","doi-asserted-by":"crossref","unstructured":"Milletari, F., Navab, N., Ahmadi, S.A.: V-net: fully convolutional neural networks for volumetric medical image segmentation. In: 3DV (2016)","DOI":"10.1109\/3DV.2016.79"},{"key":"30_CR26","doi-asserted-by":"crossref","unstructured":"Mun, J., Cho, M., Han, B.: Local-global video-text interactions for temporal grounding. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.01082"},{"key":"30_CR27","doi-asserted-by":"crossref","unstructured":"Nan, G., et al.: Interventional video grounding with dual contrastive learning. In: CVPR (2021)","DOI":"10.1109\/CVPR46437.2021.00279"},{"key":"30_CR28","doi-asserted-by":"crossref","unstructured":"Rezatofighi, H., Tsoi, N., Gwak, J., Sadeghian, A., Reid, I., Savarese, S.: Generalized intersection over union: a metric and a loss for bounding box regression. In: CVPR (2019)","DOI":"10.1109\/CVPR.2019.00075"},{"key":"30_CR29","unstructured":"Rodriguez, C., Marrese-Taylor, E., Saleh, F.S., Li, H., Gould, S.: Proposal-free temporal moment localization of a natural-language query in video using guided attention. In: CVPR (2020)"},{"key":"30_CR30","doi-asserted-by":"crossref","unstructured":"Rohrbach, A., Rohrbach, M., Qiu, W., Friedrich, A., Pinkal, M., Schiele, B.: Coherent multi-sentence video description with variable level of detail. In: GCPR (2014)","DOI":"10.1007\/978-3-319-11752-2_15"},{"key":"30_CR31","doi-asserted-by":"crossref","unstructured":"Soldan, M., Xu, M., Qu, S., Tegner, J., Ghanem, B.: Vlg-net: video-language graph matching network for video grounding. In: CVPR (2021)","DOI":"10.1109\/ICCVW54120.2021.00361"},{"key":"30_CR32","doi-asserted-by":"crossref","unstructured":"Stewart, R., Andriluka, M., Ng, A.Y.: End-to-end people detection in crowded scenes. In: CVPR (2016)","DOI":"10.1109\/CVPR.2016.255"},{"key":"30_CR33","doi-asserted-by":"crossref","unstructured":"Tang, Z., Cho, J., Lei, J., Bansal, M.: Perceiver-vl: efficient vision-and-language modeling with iterative latent attention. in: cvpr (2023)","DOI":"10.1109\/WACV56688.2023.00439"},{"key":"30_CR34","unstructured":"Vaswani, A., et al.: Attention is all you need. NeurIPS (2017)"},{"key":"30_CR35","doi-asserted-by":"crossref","unstructured":"Wang, J., Ma, L., Jiang, W.: Temporally grounding language queries in videos by contextual boundary-aware prediction. In: AAAI (2020)","DOI":"10.1609\/aaai.v34i07.6897"},{"key":"30_CR36","doi-asserted-by":"crossref","unstructured":"Xu, H., He, K., Plummer, B.A., Sigal, L., Sclaroff, S., Saenko, K.: Multilevel language and vision integration for text-to-clip retrieval. In: AAAI (2019)","DOI":"10.1609\/aaai.v33i01.33019062"},{"key":"30_CR37","doi-asserted-by":"crossref","unstructured":"Xu, R., Xiong, C., Chen, W., Corso, J.: Jointly modeling deep video and compositional text to bridge vision and language in a unified framework. In: AAAI (2015)","DOI":"10.1609\/aaai.v29i1.9512"},{"key":"30_CR38","doi-asserted-by":"crossref","unstructured":"Yuan, Y., Mei, T., Zhu, W.: To find where you talk: temporal sentence localization in video with attention based location regression. In: AAAI (2019)","DOI":"10.1609\/aaai.v33i01.33019159"},{"key":"30_CR39","doi-asserted-by":"crossref","unstructured":"Zeng, R., Xu, H., Huang, W., Chen, P., Tan, M., Gan, C.: Dense regression network for video grounding. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.01030"},{"key":"30_CR40","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"20","DOI":"10.1007\/978-3-030-01261-8_2","volume-title":"Computer Vision \u2013 ECCV 2018","author":"A Prabhu","year":"2018","unstructured":"Prabhu, A., Varma, G., Namboodiri, A.: Deep expander networks: efficient deep networks from graph theory. In: Ferrari, V., Hebert, M., Sminchisescu, C., Weiss, Y. (eds.) ECCV 2018. LNCS, vol. 11217, pp. 20\u201336. Springer, Cham (2018). https:\/\/doi.org\/10.1007\/978-3-030-01261-8_2"},{"key":"30_CR41","doi-asserted-by":"crossref","unstructured":"Zhang, H., Sun, A., Jing, W., Zhou, J.T.: Span-based localizing network for natural language video localization. arXiv preprint arXiv:2004.13931 (2020)","DOI":"10.18653\/v1\/2020.acl-main.585"},{"key":"30_CR42","doi-asserted-by":"crossref","unstructured":"Zhang, S., Peng, H., Fu, J., Luo, J.: Learning 2d temporal adjacent networks for moment localization with natural language. In: AAAI (2020)","DOI":"10.1609\/aaai.v34i07.6984"},{"key":"30_CR43","doi-asserted-by":"crossref","unstructured":"Zhang, Z., Han, X., Song, X., Yan, Y., Nie, L.: Multi-modal interaction graph convolutional network for temporal language localization in videos. TIP 30 (2021)","DOI":"10.1109\/TIP.2021.3113791"},{"key":"30_CR44","doi-asserted-by":"crossref","unstructured":"Zhao, Y., Xiong, Y., Wang, L., Wu, Z., Tang, X., Lin, D.: Temporal action detection with structured segment networks. In: CVPR (2017)","DOI":"10.1109\/ICCV.2017.317"},{"key":"30_CR45","doi-asserted-by":"crossref","unstructured":"Zhu, L., Yang, Y.: Actbert: learning global-local video-text representations. In: CVPR (2020)","DOI":"10.1109\/CVPR42600.2020.00877"}],"container-title":["Lecture Notes in Computer Science","Pattern Recognition and Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-95-5761-5_30","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,11]],"date-time":"2026-01-11T05:52:34Z","timestamp":1768110754000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-95-5761-5_30"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"ISBN":["9789819557608","9789819557615"],"references-count":45,"URL":"https:\/\/doi.org\/10.1007\/978-981-95-5761-5_30","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]},"assertion":[{"value":"12 January 2026","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"PRCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Chinese Conference on Pattern Recognition and Computer Vision  (PRCV)","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Shanghai","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"15 October 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18 October 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"8","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"ccprcv2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/2025.prcv.cn\/index.asp","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}