{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T19:47:27Z","timestamp":1775072847916,"version":"3.50.1"},"reference-count":87,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,1,1]],"date-time":"2025-01-01T00:00:00Z","timestamp":1735689600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"National Key R&amp;D Plan of China"},{"name":"Technological Innovation Cooperation","award":["2021YFE0117000"],"award-info":[{"award-number":["2021YFE0117000"]}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["42090010"],"award-info":[{"award-number":["42090010"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["41971349"],"award-info":[{"award-number":["41971349"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["41930107"],"award-info":[{"award-number":["41930107"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. Multimedia"],"published-print":{"date-parts":[[2025]]},"DOI":"10.1109\/tmm.2025.3535373","type":"journal-article","created":{"date-parts":[[2025,1,28]],"date-time":"2025-01-28T18:44:24Z","timestamp":1738089864000},"page":"3781-3796","source":"Crossref","is-referenced-by-count":8,"title":["Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking for Image-Text Retrieval"],"prefix":"10.1109","volume":"27","author":[{"ORCID":"https:\/\/orcid.org\/0009-0009-5748-9437","authenticated-orcid":false,"given":"Wenzhang","family":"Wei","sequence":"first","affiliation":[{"name":"School of Remote Sensing and Information Engineering, Wuhan University, Wuhan, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-9467-9680","authenticated-orcid":false,"given":"Zhipeng","family":"Gui","sequence":"additional","affiliation":[{"name":"School of Remote Sensing and Information Engineering, Wuhan University, Wuhan, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0005-1813-8897","authenticated-orcid":false,"given":"Changguang","family":"Wu","sequence":"additional","affiliation":[{"name":"School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0006-9278-7323","authenticated-orcid":false,"given":"Anqi","family":"Zhao","sequence":"additional","affiliation":[{"name":"State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Collaborative Innovation Center of Geospatial Technology, Wuhan University, Wuhan, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9842-0796","authenticated-orcid":false,"given":"Dehua","family":"Peng","sequence":"additional","affiliation":[{"name":"School of Remote Sensing and Information Engineering, Wuhan University, Wuhan, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3971-0512","authenticated-orcid":false,"given":"Huayi","family":"Wu","sequence":"additional","affiliation":[{"name":"State Key Laboratory of Information Engineering in Surveying, Mapping and Remote Sensing, Collaborative Innovation Center of Geospatial Technology, Wuhan University, Wuhan, China"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.5555\/3045118.3045336"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1109\/tmm.2021.3072479"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/tmm.2020.2972830"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2016.2587640"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1109\/tmm.2020.3003592"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1080\/13658816.2012.739692"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1016\/j.ipm.2024.103767"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.24963\/ijcai.2022\/158"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/tmm.2023.3316077"},{"key":"ref10","article-title":"VSE++: Improving visual-semantic embeddings with hard negatives","volume-title":"Proc. Brit. Mach. Vis. Conf.","author":"Faghri","year":"2017"},{"key":"ref11","first-page":"2121","article-title":"DeViSE: A deep visual-semantic embedding model","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Frome","year":"2013"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298932"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1145\/3394171.3413961"},{"key":"ref14","first-page":"1889","article-title":"Deep fragment embeddings for bidirectional image sentence mapping","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Karpathy","year":"2014"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00645"},{"key":"ref16","article-title":"Unifying visual-semantic embeddings with multimodal neural language models","author":"Kiros","year":"2014"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1145\/3404835.3462829"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01553"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1038\/s41467-022-33136-9"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00516"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01225-0_13"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01267"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01521"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00208"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02243"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1162\/tacl_a_00166"},{"key":"ref28","article-title":"The Caltech-UCSD birds-200-2011 dataset","author":"Wah","year":"2010"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1145\/3580501"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/tcsvt.2024.3358411"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58601-0_33"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2021.3088863"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1145\/3383184"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/tip.2023.3348297"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.01093"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00475"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/WACV45572.2020.9093614"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i2.16209"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01455"},{"key":"ref40","article-title":"ViLBERT: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Lu","year":"2019"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58577-8_7"},{"key":"ref42","first-page":"9694","article-title":"Align before fuse: Vision and language representation learning with momentum distillation","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Li","year":"2021"},{"key":"ref43","first-page":"5583","article-title":"ViLT: Vision-and-language transformer without convolution or region supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Kim","year":"2021"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02228"},{"key":"ref45","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford","year":"2021"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3611817"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1145\/3581783.3612408"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00831"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548237"},{"key":"ref50","first-page":"11934","article-title":"A differentiable semantic metric approximation in probabilistic embedding for cross-modal retrieval","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Li","year":"2022"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00182"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.154"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.389"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1007\/s11042-022-14311-y"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01189"},{"key":"ref56","article-title":"Understanding image retrieval re-ranking: A graph neural network perspective","author":"Zhang","year":"2020"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2018.2846566"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/access.2020.2992187"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1145\/3343031.3350875"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/tgrs.2022.3163706"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/tcsvt.2023.3254530"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1145\/3539618.3591712"},{"key":"ref63","article-title":"Prototype-based aleatoric uncertainty quantification for cross-modal retrieval","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Li","year":"2024"},{"key":"ref64","first-page":"9929","article-title":"Understanding contrastive representation learning through alignment and uniformity on the hypersphere","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Wang","year":"2020"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00252"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref67","article-title":"Layer normalization","author":"Ba","year":"2016"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.123"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-020-01395-y"},{"key":"ref70","article-title":"Composed image retrieval with text feedback via multi-grained uncertainty regularization","author":"Chen","year":"2022"},{"key":"ref71","first-page":"7482","article-title":"Multi-task learning using uncertainty to weigh losses for scene geometry and semantics","volume-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recognit.","author":"Kendall","year":"2018"},{"key":"ref72","doi-asserted-by":"publisher","DOI":"10.1109\/tmm.2020.3019710"},{"key":"ref73","doi-asserted-by":"publisher","DOI":"10.1109\/tmm.2020.3024822"},{"key":"ref74","doi-asserted-by":"publisher","DOI":"10.1109\/tmm.2022.3141603"},{"key":"ref75","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2022.3148470"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.328"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/tpami.2016.2577031"},{"key":"ref78","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00636"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.634"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01216-8_12"},{"key":"ref81","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"ref83","doi-asserted-by":"crossref","DOI":"10.3115\/v1\/D14-1179","article-title":"Learning phrase representations using RNN encoder-decoder for statistical machine translation","volume-title":"Proc. Conf. Empirical Methods Natural Lang. Process.","author":"Cho","year":"2014"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.3115\/v1\/D14-1162"},{"key":"ref85","article-title":"BERT: Pre-training of deep bidirectional transformers for language understanding","volume-title":"Proc. North Amer. Ch. Assoc. Comput. Linguistics","author":"Devlin","year":"2019"},{"key":"ref86","article-title":"Representation learning with contrastive predictive coding","author":"Oord","year":"2018"},{"key":"ref87","article-title":"Crisscrossed captions: Extended intramodal and intermodal semantic similarity judgments for MS-COCO","volume-title":"Proc. Conf. Eur. Ch. Assoc. Comput. Linguistics","author":"Parekh","year":"2020"}],"container-title":["IEEE Transactions on Multimedia"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/6046\/10844992\/10856444.pdf?arnumber=10856444","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,6,12]],"date-time":"2025-06-12T17:43:41Z","timestamp":1749750221000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10856444\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025]]},"references-count":87,"URL":"https:\/\/doi.org\/10.1109\/tmm.2025.3535373","relation":{},"ISSN":["1520-9210","1941-0077"],"issn-type":[{"value":"1520-9210","type":"print"},{"value":"1941-0077","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025]]}}}