{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,15]],"date-time":"2025-11-15T10:36:42Z","timestamp":1763203002202,"version":"3.40.3"},"reference-count":73,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62441601","62036007","U22A2096","62176198"],"award-info":[{"award-number":["62441601","62036007","U22A2096","62176198"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100012226","name":"Fundamental Research Funds for the Central Universities","doi-asserted-by":"publisher","award":["QTZX23042"],"award-info":[{"award-number":["QTZX23042"]}],"id":[{"id":"10.13039\/501100012226","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Multimedia"],"published-print":{"date-parts":[[2025]]},"DOI":"10.1109\/tmm.2024.3521758","type":"journal-article","created":{"date-parts":[[2025,2,5]],"date-time":"2025-02-05T19:13:48Z","timestamp":1738782828000},"page":"1772-1782","source":"Crossref","is-referenced-by-count":2,"title":["ETC: Temporal Boundary Expand Then Clarify for Weakly Supervised Video Grounding With Multimodal Large Language Model"],"prefix":"10.1109","volume":"27","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-7069-7486","authenticated-orcid":false,"given":"Guozhang","family":"Li","sequence":"first","affiliation":[{"name":"State Key Laboratory of Integrated Services Networks, School of Electronic Engineering, Xidian University, Xi&#x0027;an, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xinpeng","family":"Ding","sequence":"additional","affiliation":[{"name":"School of Engineering, The Hong Kong University of Science and Technology, Hong Kong"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-4603-847X","authenticated-orcid":false,"given":"De","family":"Cheng","sequence":"additional","affiliation":[{"name":"State Key Laboratory of Integrated Services Networks, School of Telecommunications Engineering, Xidian University, Xi&#x0027;an, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7950-4233","authenticated-orcid":false,"given":"Jie","family":"Li","sequence":"additional","affiliation":[{"name":"State Key Laboratory of Integrated Services Networks, School of Electronic Engineering, Xidian University, Xi&#x0027;an, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4695-6134","authenticated-orcid":false,"given":"Nannan","family":"Wang","sequence":"additional","affiliation":[{"name":"State Key Laboratory of Integrated Services Networks, School of Telecommunications Engineering, Xidian University, Xi&#x0027;an, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7985-0037","authenticated-orcid":false,"given":"Xinbo","family":"Gao","sequence":"additional","affiliation":[{"name":"Chongqing Key Laboratory of Image Cognition, Chongqing University of Posts and Telecommunications, Chongqing, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01026"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.279"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/d18-1167"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/jas.2017.7510532"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/access.2020.2992749"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.730"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01387"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.01186"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6820"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6984"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58604-1_10"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01511"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2021.3096087"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/iccv48922.2021.00711"},{"key":"ref15","first-page":"18123","article-title":"Counterfactual contrastive learning for weakly-supervised vision-language grounding","volume":"33","author":"Zhang","year":"2020","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i3.20263"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01813"},{"article-title":"Visual instruction tuning","year":"2023","author":"Liu","key":"ref18"},{"article-title":"VideoLLM: Modeling video sequence with large language models","year":"2023","author":"Chen","key":"ref19"},{"key":"ref20","first-page":"20482","article-title":"3D-LLM: Injecting the 3D world into large language models","volume":"36","author":"Hong","year":"2023","journal-title":"Adv. Neural Inf. Process. Syst."},{"article-title":"VisualBERT: A simple and performant baseline for vision and language","year":"2019","author":"Li","key":"ref21"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/iccv48922.2021.00147"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00331"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.618"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01108"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/WACV.2019.00032"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2022.3222664"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-19781-9_33"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2022.3140611"},{"key":"ref30","first-page":"5267","article-title":"TALL: Temporal activity localization via language query","volume-title":"Proc. IEEE Int. Conf. Comput. Vis.","author":"Gao","year":"2017"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01248"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.33018199"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i4.16406"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2022.3187288"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v36i3.20163"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01082"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.6627"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00279"},{"key":"ref39","first-page":"12168","article-title":"Temporally grounding language queries in videos by contextual boundary-aware prediction","volume-title":"Proc. AAAI Conf. Artif. Intell.","author":"Wang","year":"2020"},{"key":"ref40","first-page":"11573","article-title":"Support-set based cross-supervision for video grounding","volume-title":"Proc. IEEE\/CVF Int. Conf. Comput. Vis.","author":"Ding","year":"2021"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2021.3063631"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1109\/ICME57554.2024.10687973"},{"key":"ref43","article-title":"MomentDiff: Generative video moment retrieval from random to real","volume":"36","author":"Li","year":"2024","journal-title":"Adv Neural Inf. Process. Syst."},{"article-title":"Weakly-supervised multi-level attentional reconstruction network for grounding textual queries in videos","year":"2020","author":"Song","key":"ref44"},{"key":"ref45","first-page":"1481","article-title":"WSLLN: Weakly supervised natural language localization networks","volume-title":"Proc. Conf. Empirical Methods Natural Lang. Process. 9th Int. Joint Conf. Natural Lang. Process. (EMNLP-IJCNLP)","author":"Gao","year":"2019"},{"key":"ref46","first-page":"267","article-title":"Explore inter-contrast between videos via composition for weakly supervised temporal sentence grounding","volume-title":"Proc. AAAI Conf. Artif. Intell.","author":"Chen","year":"2022"},{"key":"ref47","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford","year":"2021"},{"issue":"PMLR","key":"ref48","first-page":"4904","article-title":"Scaling up visual and vision-language representation learning with noisy text supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Jia","year":"2021"},{"article-title":"HILM-D: Towards high-resolution understanding in multimodal large language models for autonomous driving","year":"2023","author":"Ding","key":"ref49"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1016\/j.image.2022.116742"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1007\/s11023-020-09548-1"},{"article-title":"Llama: Open and efficient foundation language models","year":"2023","author":"Touvron","key":"ref52"},{"key":"ref53","first-page":"23716","article-title":"Flamingo: A visual language model for few-shot learning","volume":"35","author":"Alayrac","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"ref54","first-page":"19730","article-title":"BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Li","year":"2023"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01030"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2020.3038993"},{"article-title":"Look closer to ground better: Weakly-supervised temporal grounding of sentence in video","year":"2020","author":"Chen","key":"ref57"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413862"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00832"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1145\/3474085.3475278"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2021.3058614"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00631"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612495"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01249"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1810.04805"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413967"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.83"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46448-0_31"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298698"},{"key":"ref70","first-page":"4724","volume-title":"Proc. 2017 IEEE Conf. Comput. Vis. Pattern Recognit.","author":"Carreira","year":"2017"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.510"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1162"},{"key":"ref73","first-page":"1195","article-title":"Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results","volume":"30","author":"Tarvainen","year":"2017","journal-title":"Adv. Neural Inf. Process. Syst."}],"container-title":["IEEE Transactions on Multimedia"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6046\/10844992\/10874219.pdf?arnumber=10874219","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,4,7]],"date-time":"2025-04-07T21:56:15Z","timestamp":1744062975000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10874219\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":73,"URL":"https:\/\/doi.org\/10.1109\/tmm.2024.3521758","relation":{},"ISSN":["1520-9210","1941-0077"],"issn-type":[{"type":"print","value":"1520-9210"},{"type":"electronic","value":"1941-0077"}],"subject":[],"published":{"date-parts":[[2025]]}}}