{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,15]],"date-time":"2026-03-15T22:22:56Z","timestamp":1773613376098,"version":"3.50.1"},"reference-count":61,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"1","license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62176144"],"award-info":[{"award-number":["62176144"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["62076153"],"award-info":[{"award-number":["62076153"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"name":"Fundamental Research Project of Shandong, China","award":["2025CXGC010113"],"award-info":[{"award-number":["2025CXGC010113"]}]},{"name":"Fundamental Research Project of Shandong, China","award":["ZR2024MF043"],"award-info":[{"award-number":["ZR2024MF043"]}]},{"name":"Fundamental Research Project of Shandong, China","award":["ZR2024ZD08"],"award-info":[{"award-number":["ZR2024ZD08"]}]},{"DOI":"10.13039\/501100010040","name":"Taishan Scholar Project of Shandong, China","doi-asserted-by":"publisher","award":["ts20190924"],"award-info":[{"award-number":["ts20190924"]}],"id":[{"id":"10.13039\/501100010040","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Circuits Syst. Video Technol."],"published-print":{"date-parts":[[2026,1]]},"DOI":"10.1109\/tcsvt.2025.3597097","type":"journal-article","created":{"date-parts":[[2025,8,8]],"date-time":"2025-08-08T18:41:58Z","timestamp":1754678518000},"page":"1234-1248","source":"Crossref","is-referenced-by-count":1,"title":["VisualRAG: Knowledge-Guided Retrieval Augmentation for Image-Text Matching"],"prefix":"10.1109","volume":"36","author":[{"given":"Hengchang","family":"Wang","sequence":"first","affiliation":[{"name":"School of Information Science and Engineering, Shandong Normal University, Jinan, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9121-5124","authenticated-orcid":false,"given":"Li","family":"Liu","sequence":"additional","affiliation":[{"name":"School of Information Science and Engineering, Shandong Normal University, Jinan, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6259-7533","authenticated-orcid":false,"given":"Huaxiang","family":"Zhang","sequence":"additional","affiliation":[{"name":"School of Information Science and Engineering, Shandong Normal University, Jinan, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-2993-7142","authenticated-orcid":false,"given":"Lei","family":"Zhu","sequence":"additional","affiliation":[{"name":"School of Electronic and Information Engineering, Tongji University, Shanghai, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7778-8807","authenticated-orcid":false,"given":"Xiaojun","family":"Chang","sequence":"additional","affiliation":[{"name":"School of Information Science and Technology, University of Science and Technology of China, Hefei, China"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0007-4500-2519","authenticated-orcid":false,"given":"Hao","family":"Du","sequence":"additional","affiliation":[{"name":"School of Information Science and Engineering, Shandong Normal University, Jinan, China"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/ACCESS.2023.3308931"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00512"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-47969-4_13"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/j.displa.2024.102710"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2023.3280734"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2023.3348297"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1145\/3580501"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01847"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52729.2023.01031"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3307554"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01524"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i16.29789"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2023.3327645"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3253548"},{"key":"ref15","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","volume":"139","author":"Radford"},{"key":"ref16","first-page":"12888","article-title":"BLIP: Bootstrapping language-image pre-training for unified vision-language understanding and generation","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Li"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02226"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v37i9.26263"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3339489"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2021.3128254"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i8.32902"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01390"},{"key":"ref23","first-page":"19730","article-title":"BLIP-2: Bootstrapping language-image pre-training with frozen image encoders and large language models","volume-title":"Proc. Int. Conf. Mach. Learn. (ICML)","author":"Li"},{"key":"ref24","article-title":"Retrieval-augmented generation for large language models: A survey","author":"Gao","year":"2023","journal-title":"arXiv:2312.10997"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612103"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01455"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01095"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00359"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01302"},{"key":"ref30","article-title":"VSE++: Improving visual-semantic embeddings with hard negatives","author":"Faghri","year":"2017","journal-title":"arXiv:1707.05612"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2022.3220297"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3611703"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICME55011.2023.00337"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2023.3288370"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2022.3148470"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2022\/158"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2024.3369968"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1145\/3664647.3680591"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i7.28538"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2024.3358411"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2024.3392619"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1145\/3397271.3401467"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52733.2024.01361"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1007\/s00530-024-01525-3"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1007\/s00530-024-01539-x"},{"issue":"8","key":"ref46","first-page":"9","article-title":"Language models are unsupervised multitask learners","volume":"1","author":"Radford","year":"2019","journal-title":"OpenAI Blog"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1016\/j.knosys.2024.111503"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01059"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00185"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58577-8_8"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2018.2821921"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2019.2953692"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01553"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01225-0_13"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"ref56","first-page":"1889","article-title":"Deep fragment embeddings for bidirectional image sentence mapping","volume-title":"Proc. Adv. Neural Inf. Process. Syst. (NeurIPS)","author":"Karpathy"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/TCSVT.2024.3480949"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2023.3261443"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2024.3396063"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i2.16209"}],"container-title":["IEEE Transactions on Circuits and Systems for Video Technology"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/76\/11365019\/11121359.pdf?arnumber=11121359","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,28]],"date-time":"2026-01-28T21:01:33Z","timestamp":1769634093000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11121359\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,1]]},"references-count":61,"journal-issue":{"issue":"1"},"URL":"https:\/\/doi.org\/10.1109\/tcsvt.2025.3597097","relation":{},"ISSN":["1051-8215","1558-2205"],"issn-type":[{"value":"1051-8215","type":"print"},{"value":"1558-2205","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,1]]}}}