{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,4]],"date-time":"2026-03-04T17:06:09Z","timestamp":1772643969054,"version":"3.50.1"},"reference-count":60,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T00:00:00Z","timestamp":1765324800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T00:00:00Z","timestamp":1765324800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Vis Comput"],"published-print":{"date-parts":[[2026,1]]},"DOI":"10.1007\/s00371-025-04291-z","type":"journal-article","created":{"date-parts":[[2025,12,10]],"date-time":"2025-12-10T07:51:46Z","timestamp":1765353106000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Enhancing cross-modal retrieval through element-level semantic enrichment and momentum contrast"],"prefix":"10.1007","volume":"42","author":[{"given":"Jiayi","family":"Fu","sequence":"first","affiliation":[]},{"given":"Meng","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Kaiqi","family":"Yang","sequence":"additional","affiliation":[]},{"given":"Hao","family":"Chen","sequence":"additional","affiliation":[]},{"given":"Guangyun","family":"Lu","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,12,10]]},"reference":[{"key":"4291_CR1","doi-asserted-by":"publisher","unstructured":"Faghri, F., Fleet, D.J., Kiros, J.R., et al.: Vse++: Improving visual-semantic embeddings with hard negatives. BMVC (2017). https:\/\/doi.org\/10.48550\/arXiv.1707.05612","DOI":"10.48550\/arXiv.1707.05612"},{"key":"4291_CR2","doi-asserted-by":"publisher","unstructured":"Zhen, L., Hu, P., Wang, X., et al.: Deep supervised cross-modal retrieval. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 10394\u201310403 (2019). https:\/\/doi.org\/10.1109\/CVPR.2019.01064","DOI":"10.1109\/CVPR.2019.01064"},{"key":"4291_CR3","doi-asserted-by":"publisher","unstructured":"Jiang, Q.Y., Li, W.J.: Deep cross-modal hashing. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 3232\u20133240 (2017). https:\/\/doi.org\/10.1109\/CVPR.2017.348","DOI":"10.1109\/CVPR.2017.348"},{"key":"4291_CR4","doi-asserted-by":"publisher","unstructured":"Lee, K.H., Chen, X., Hua, G., et\u00a0al.: Stacked cross attention for image-text matching. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 201\u2013216 (2018). https:\/\/doi.org\/10.48550\/arXiv.1803.08024","DOI":"10.48550\/arXiv.1803.08024"},{"key":"4291_CR5","doi-asserted-by":"publisher","unstructured":"Zhang, K., Mao, Z., Wang, Q., et\u00a0al.: Negative-aware attention framework for image-text matching. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 15661\u201315670 (2022). https:\/\/doi.org\/10.1109\/CVPR52688.2022.01521","DOI":"10.1109\/CVPR52688.2022.01521"},{"key":"4291_CR6","doi-asserted-by":"publisher","unstructured":"Lin, T.Y., Maire, M., Belongie, S., et\u00a0al.: Microsoft coco: Common objects in context. In: Computer Vision\u2013ECCV 2014, pp. 740\u2013755 (2014). https:\/\/doi.org\/10.48550\/arXiv.1405.0312","DOI":"10.48550\/arXiv.1405.0312"},{"key":"4291_CR7","doi-asserted-by":"publisher","unstructured":"Anderson, P., He, X., Buehler, C., et\u00a0al.: Bottom-up and top-down attention for image captioning and visual question answering. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 6077\u20136086 (2018). https:\/\/doi.org\/10.1109\/CVPR.2018.00636","DOI":"10.1109\/CVPR.2018.00636"},{"key":"4291_CR8","doi-asserted-by":"publisher","unstructured":"Long, S., Han, S.C., Wan, X., et\u00a0al.: Gradual: Graph-based dual-modal representation for image-text matching. In: Proceedings of the IEEE\/CVF Winter Conference on Applications of Computer Vision, pp. 3459\u20133468 (2022). https:\/\/doi.org\/10.1109\/WACV51458.2022.00252","DOI":"10.1109\/WACV51458.2022.00252"},{"key":"4291_CR9","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1908.02265","author":"J Lu","year":"2019","unstructured":"Lu, J., Batra, D., Parikh, D., et al.: Vilbert: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. NeurIPS (2019). https:\/\/doi.org\/10.48550\/arXiv.1908.02265","journal-title":"NeurIPS"},{"key":"4291_CR10","doi-asserted-by":"publisher","unstructured":"Li, X., Yin, X., Li, C., et\u00a0al.: Oscar: Object-semantics aligned pre-training for vision-language tasks. In: Computer Vision\u2013ECCV 2020: 16th European Conference, Glasgow, UK, August 23\u201328, 2020, Proceedings, Part XXX 16, pp. 121\u2013137 (2020). https:\/\/doi.org\/10.1007\/978-3-030-58577-8_8","DOI":"10.1007\/978-3-030-58577-8_8"},{"key":"4291_CR11","doi-asserted-by":"publisher","unstructured":"Chen, Y.C., Li, L., Yu, L., et\u00a0al.: Uniter: Universal image-text representation learning. In: European Conference on Computer Vision, pp. 104\u2013120 (2020). https:\/\/doi.org\/10.48550\/arXiv.1909.11740","DOI":"10.48550\/arXiv.1909.11740"},{"key":"4291_CR12","doi-asserted-by":"publisher","unstructured":"Liu, F., Ye, R., Wang, X., et\u00a0al.: Hal: Improved text-image matching by mitigating visual semantic hubs. In: Proceedings of the AAAI Conference on Artificial Intelligence, pp. 11563\u201311571 (2020). https:\/\/doi.org\/10.48550\/arXiv.1911.10097","DOI":"10.48550\/arXiv.1911.10097"},{"key":"4291_CR13","doi-asserted-by":"crossref","unstructured":"Pan, Z., Wu, F., Zhang, B.: Fine-grained image-text matching by cross-modal hard aligning network. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 19275\u201319284 (2023). https:\/\/ieeexplore.ieee.org\/document\/10203409","DOI":"10.1109\/CVPR52729.2023.01847"},{"key":"4291_CR14","doi-asserted-by":"publisher","first-page":"7005","DOI":"10.1109\/TCSVT.2022.3178844","volume":"32","author":"S Cao","year":"2022","unstructured":"Cao, S., An, G., Zheng, Z., et al.: Vision-enhanced and consensus-aware transformer for image captioning. IEEE Trans. Circuits Syst. Video Technol. 32, 7005\u20137018 (2022). https:\/\/doi.org\/10.1109\/TCSVT.2022.3178844","journal-title":"IEEE Trans. Circuits Syst. Video Technol."},{"key":"4291_CR15","doi-asserted-by":"publisher","unstructured":"He, K., Fan, H., Wu, Y., et\u00a0al.: Momentum contrast for unsupervised visual representation learning. In: 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9729\u20139738 (2020). https:\/\/doi.org\/10.48550\/arXiv.1911.05722","DOI":"10.48550\/arXiv.1911.05722"},{"key":"4291_CR16","doi-asserted-by":"publisher","first-page":"21271","DOI":"10.48550\/arXiv.2006.07733","volume":"33","author":"JB Grill","year":"2020","unstructured":"Grill, J.B., Strub, F., Altch\u00e9, F., et al.: Bootstrap your own latent: a new approach to self-supervised learning. NeurIPS 33, 21271\u201321284 (2020). https:\/\/doi.org\/10.48550\/arXiv.2006.07733","journal-title":"NeurIPS"},{"key":"4291_CR17","doi-asserted-by":"publisher","unstructured":"Kim, D., Kim, N., Kwak, S.: Improving cross-modal retrieval with a set of diverse embeddings. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 23422\u201323431 (2023). https:\/\/doi.org\/10.48550\/arXiv.2211.16761","DOI":"10.48550\/arXiv.2211.16761"},{"key":"4291_CR18","doi-asserted-by":"publisher","unstructured":"Zhu, H., Zhang, C., Wei, Y., et\u00a0al.: Esa: External space attention aggregation for image-text retrieval. IEEE Transactions on Circuits and Systems for Video Technology, pp. 6131\u20136143 (2023). https:\/\/doi.org\/10.1109\/TCSVT.2023.3253548","DOI":"10.1109\/TCSVT.2023.3253548"},{"key":"4291_CR19","doi-asserted-by":"publisher","first-page":"8037","DOI":"10.1109\/TCSVT.2022.3182426","volume":"32","author":"S Yang","year":"2022","unstructured":"Yang, S., Li, Q., Li, W., et al.: Dual-level representation enhancement on characteristic and context for image-text retrieval. IEEE Trans Circuits Syst Video Technol 32, 8037\u20138050 (2022). https:\/\/doi.org\/10.1109\/TCSVT.2022.3182426","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"4291_CR20","doi-asserted-by":"publisher","unstructured":"Chen, T., Deng, J., Luo, J.: Adaptive offline quintuplet loss for image-text matching. In: Computer Vision\u2013ECCV 2020: 16th European Conference, Glasgow, UK, August 23\u201328, 2020, Proceedings, Part XIII, pp. 549\u2013565 (2020). https:\/\/doi.org\/10.48550\/arXiv.2003.03669","DOI":"10.48550\/arXiv.2003.03669"},{"key":"4291_CR21","doi-asserted-by":"publisher","unstructured":"Schroff, F., Kalenichenko, D., Philbin, J.: Facenet: A unified embedding for face recognition and clustering. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 815\u2013823 (2015). https:\/\/doi.org\/10.1109\/CVPR.2015.7298682","DOI":"10.1109\/CVPR.2015.7298682"},{"key":"4291_CR22","doi-asserted-by":"publisher","unstructured":"Oh\u00a0Song, H., Xiang, Y., Jegelka, S., et\u00a0al.: Deep metric learning via lifted structured feature embedding. In: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4004\u20134012 (2016). https:\/\/doi.org\/10.48550\/arXiv.1511.06452","DOI":"10.48550\/arXiv.1511.06452"},{"key":"4291_CR23","doi-asserted-by":"publisher","unstructured":"Devlin, J., Chang, M.W., Lee, K., et\u00a0al.: Bert: Pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 4171\u20134186 (2018). https:\/\/doi.org\/10.48550\/arXiv:1810.04805","DOI":"10.48550\/arXiv:1810.04805"},{"key":"4291_CR24","doi-asserted-by":"publisher","first-page":"6000","DOI":"10.48550\/arXiv.1706.03762","volume":"30","author":"A Vaswani","year":"2017","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., et al.: Attention is all you need. NeurIPS 30, 6000\u20136010 (2017). https:\/\/doi.org\/10.48550\/arXiv.1706.03762","journal-title":"NeurIPS"},{"key":"4291_CR25","doi-asserted-by":"publisher","first-page":"67","DOI":"10.1162\/tacl_a_00166","volume":"2","author":"P Young","year":"2015","unstructured":"Young, P., Lai, A., Hodosh, M., et al.: From image descriptions to visual denotations: new similarity metrics for semantic inference over event descriptions. Nlpcsillinoisedu 2, 67\u201378 (2015). https:\/\/doi.org\/10.1162\/tacl_a_00166","journal-title":"Nlpcsillinoisedu"},{"key":"4291_CR26","doi-asserted-by":"publisher","first-page":"2121","DOI":"10.5555\/2999792.2999849","volume":"26","author":"A Frome","year":"2013","unstructured":"Frome, A., Corrado, G.S., Shlens, J., et al.: Devise: a deep visual-semantic embedding model. NeurIPS 26, 2121\u20132129 (2013). https:\/\/doi.org\/10.5555\/2999792.2999849","journal-title":"NeurIPS"},{"key":"4291_CR27","doi-asserted-by":"publisher","DOI":"10.1109\/TIP.2020.3038354","author":"Y Zhang","year":"2020","unstructured":"Zhang, Y., Zhou, W., Wang, M., et al.: Deep relation embedding for cross-modal retrieval. IEEE Trans. Image Process. (2020). https:\/\/doi.org\/10.1109\/TIP.2020.3038354","journal-title":"IEEE Trans. Image Process."},{"key":"4291_CR28","doi-asserted-by":"publisher","unstructured":"Li, K., Zhang, Y., Li, K., et\u00a0al.: Visual semantic reasoning for image-text matching. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision (ICCV), pp. 4654\u20134662 (2019). https:\/\/doi.org\/10.1109\/ICCV.2019.00475","DOI":"10.1109\/ICCV.2019.00475"},{"key":"4291_CR29","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1411.2539","author":"R Kiros","year":"2014","unstructured":"Kiros, R., Salakhutdinov, R., Zemel, R.S.: Unifying visual-semantic embeddings with multimodal neural language models. Comput. Sci. (2014). https:\/\/doi.org\/10.48550\/arXiv.1411.2539","journal-title":"Comput. Sci."},{"key":"4291_CR30","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2106.06509","author":"Z Ji","year":"2021","unstructured":"Ji, Z., Chen, K., Wang, H.: Step-wise hierarchical alignment network for image-text matching. IJCAI (2021). https:\/\/doi.org\/10.48550\/arXiv.2106.06509","journal-title":"IJCAI"},{"key":"4291_CR31","doi-asserted-by":"publisher","first-page":"5959","DOI":"10.1007\/s11063-022-11121-z","volume":"55","author":"Y Wang","year":"2022","unstructured":"Wang, Y., Ji, Z., Chen, K., et al.: Coren: multi-modal co-occurrence transformer reasoning network for image-text retrieval. Neural Process. Lett. 55, 5959\u20135978 (2022). https:\/\/doi.org\/10.1007\/s11063-022-11121-z","journal-title":"Neural Process. Lett."},{"key":"4291_CR32","doi-asserted-by":"publisher","first-page":"7154","DOI":"10.1109\/TIP.2022.3220051","volume":"31","author":"L Zhang","year":"2022","unstructured":"Zhang, L., Wu, X.: Latent space semantic supervision based on knowledge distillation for cross-modal retrieval. IEEE Trans. Image Process. 31, 7154\u20137164 (2022). (ieeexplore.ieee.org\/document\/9945996)","journal-title":"IEEE Trans. Image Process."},{"key":"4291_CR33","doi-asserted-by":"publisher","unstructured":"Han, H., Zheng, Q., Dai, G., et\u00a0al.: Learning to rematch mismatched pairs for robust cross-modal retrieval. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 26679\u201326688 (2024). https:\/\/doi.org\/10.48550\/arXiv.2403.05105","DOI":"10.48550\/arXiv.2403.05105"},{"key":"4291_CR34","doi-asserted-by":"publisher","unstructured":"Chun, S., Oh, S.J., de\u00a0Rezende, R.S., et\u00a0al.: Probabilistic embeddings for cross-modal retrieval. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 8415\u20138424 (2021). https:\/\/doi.org\/10.48550\/arXiv.2101.05068","DOI":"10.48550\/arXiv.2101.05068"},{"key":"4291_CR35","doi-asserted-by":"publisher","first-page":"1979","DOI":"10.1109\/CVPR.2019.00208","volume":"66","author":"Y Song","year":"2019","unstructured":"Song, Y., Soleymani, M.: Polysemous visual-semantic embedding for cross-modal retrieval. IEEE 66, 1979\u20131988 (2019). https:\/\/doi.org\/10.1109\/CVPR.2019.00208","journal-title":"IEEE"},{"issue":"4","key":"4291_CR36","doi-asserted-by":"publisher","first-page":"1083","DOI":"10.1109\/TMI.2022.3223683","volume":"42","author":"R Liu","year":"2022","unstructured":"Liu, R., Wang, T., Li, H., et al.: Tmm-nets: transferred multi-to mono-modal generation for lupus retinopathy diagnosis. IEEE Trans. Med. Imaging 42(4), 1083\u20131094 (2022). https:\/\/doi.org\/10.1109\/TMI.2022.3223683","journal-title":"IEEE Trans. Med. Imaging"},{"key":"4291_CR37","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2107.00641","author":"J Yang","year":"2021","unstructured":"Yang, J., Li, C., Zhang, P., et al.: Focal self-attention for local-global interactions in vision transformers. Adv. Neural Inf. Process. Syst. (2021). https:\/\/doi.org\/10.48550\/arXiv.2107.00641","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"4291_CR38","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1007\/s00371-024-03496-y","volume":"41","author":"Y Ma","year":"2024","unstructured":"Ma, Y., Wang, M., Lu, G., et al.: Multi-label semantic sharing based on graph convolutional network for image-to-text retrieval. Visual Comput. 41, 1\u201314 (2024). https:\/\/doi.org\/10.1007\/s00371-024-03496-y","journal-title":"Visual Comput."},{"issue":"5","key":"4291_CR39","doi-asserted-by":"publisher","first-page":"3091","DOI":"10.1007\/s00371-023-03012-8","volume":"40","author":"M Zhu","year":"2024","unstructured":"Zhu, M., Zhao, C., Wang, N., et al.: Domain-aware double attention network for zero-shot sketch-based image retrieval with similarity loss. Vis. Comput. 40(5), 3091\u20133101 (2024). https:\/\/doi.org\/10.1007\/s00371-023-03012-8","journal-title":"Vis. Comput."},{"key":"4291_CR40","doi-asserted-by":"publisher","unstructured":"Diao, H., Zhang, Y., Ma, L., et\u00a0al.: Similarity reasoning and filtration for image-text matching. In: Proceedings of the AAAI Conference on Artificial Intelligence, pp. 1218\u20131226 (2021). https:\/\/doi.org\/10.48550\/arXiv.2101.01368","DOI":"10.48550\/arXiv.2101.01368"},{"issue":"8","key":"4291_CR41","doi-asserted-by":"publisher","first-page":"4499","DOI":"10.1109\/TNNLS.2021.3116209","volume":"34","author":"Z Xie","year":"2021","unstructured":"Xie, Z., Zhang, W., Sheng, B., et al.: Bagfn: broad attentive graph fusion network for high-order feature interactions. IEEE Trans. Neural Netw. Learn. Syst. 34(8), 4499\u20134513 (2021). https:\/\/doi.org\/10.1109\/TNNLS.2021.3116209","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"4291_CR42","doi-asserted-by":"publisher","first-page":"8748","DOI":"10.48550\/arXiv.2103.00020","volume":"66","author":"A Radford","year":"2021","unstructured":"Radford, A., Kim, J.W., Hallacy, C., et al.: Learning transferable visual models from natural language supervision. Int. Conf. Mach. Learn. 66, 8748\u20138763 (2021). https:\/\/doi.org\/10.48550\/arXiv.2103.00020","journal-title":"Int. Conf. Mach. Learn."},{"key":"4291_CR43","doi-asserted-by":"publisher","unstructured":"Kim, W., Son, B., Kim, I.: Vilt: Vision-and-language transformer without convolution or region supervision. International Conference on Machine Learning, pp. 5583\u20135594 (2021). https:\/\/doi.org\/10.48550\/arXiv.2102.03334","DOI":"10.48550\/arXiv.2102.03334"},{"key":"4291_CR44","doi-asserted-by":"publisher","unstructured":"Chen, T., Kornblith, S., Norouzi, M., et\u00a0al.: A simple framework for contrastive learning of visual representations. International Conference on Machine Learning, pp. 1597\u20131607 (2020). https:\/\/doi.org\/10.48550\/arXiv.2002.05709","DOI":"10.48550\/arXiv.2002.05709"},{"key":"4291_CR45","doi-asserted-by":"publisher","unstructured":"Li, H., Bin, Y., Liao, J., et\u00a0al.: Your negative may not be true negative: Boosting image-text matching with false negative elimination. In: Proceedings of the 31st ACM International Conference on Multimedia, pp. 924\u2013934 (2023). https:\/\/doi.org\/10.48550\/arXiv.2308.04380","DOI":"10.48550\/arXiv.2308.04380"},{"key":"4291_CR46","doi-asserted-by":"publisher","unstructured":"Oord, A.v.d., Li, Y., Vinyals, O.: Representation learning with contrastive predictive coding. arXiv preprint arXiv:1807.03748. https:\/\/doi.org\/10.48550\/arXiv.1807.03748 (2018)","DOI":"10.48550\/arXiv.1807.03748"},{"key":"4291_CR47","doi-asserted-by":"publisher","first-page":"1724","DOI":"10.48550\/arXiv.1406.1078","volume":"66","author":"K Cho","year":"2014","unstructured":"Cho, K., Van Merrienboer, B., Gulcehre, C., et al.: Learning phrase representations using RNN encoder-decoder for statistical machine translation. Comput. Sci. 66, 1724\u20131734 (2014). https:\/\/doi.org\/10.48550\/arXiv.1406.1078","journal-title":"Comput. Sci."},{"key":"4291_CR48","doi-asserted-by":"publisher","unstructured":"Wang, H., He, D., Wu, W., et\u00a0al.: Coder: Coupled diversity-sensitive momentum contrastive learning for image-text retrieval. In: European Conference on Computer Vision, pp. 700\u2013716 (2022). https:\/\/doi.org\/10.48550\/arXiv.2208.09843","DOI":"10.48550\/arXiv.2208.09843"},{"key":"4291_CR49","doi-asserted-by":"publisher","unstructured":"Liu, S., Fan, H., Qian, S., et\u00a0al.: Hit: Hierarchical transformer with momentum contrast for video-text retrieval. Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 11915\u201311925 (2021). https:\/\/doi.org\/10.48550\/arXiv.2103.15049","DOI":"10.48550\/arXiv.2103.15049"},{"key":"4291_CR50","doi-asserted-by":"publisher","unstructured":"Han, X., He, S., Zhang, L., et\u00a0al.: Text-based person search with limited data. BMVC, pp. 1\u201313 (2021). https:\/\/doi.org\/10.48550\/arXiv.2110.10807","DOI":"10.48550\/arXiv.2110.10807"},{"key":"4291_CR51","doi-asserted-by":"publisher","unstructured":"Wei, J., Xu, X., Yang, Y., et\u00a0al.: Universal weighting metric learning for cross-modal matching. In: 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 13005\u201313014 (2020). https:\/\/doi.org\/10.48550\/arXiv.2010.03403","DOI":"10.48550\/arXiv.2010.03403"},{"key":"4291_CR52","doi-asserted-by":"publisher","unstructured":"Liu, C., Mao, Z., Zhang, T., et\u00a0al.: Graph structured network for image-text matching. In: 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 10921\u201310930 (2020). https:\/\/doi.org\/10.48550\/arXiv.2004.00277","DOI":"10.48550\/arXiv.2004.00277"},{"key":"4291_CR53","doi-asserted-by":"publisher","unstructured":"Qu, L., Liu, M., Cao, D., et\u00a0al.: Context-aware multi-view summarization network for image-text matching. In: Proceedings of the 28th ACM International Conference on Multimedia, pp. 1047\u20131055 (2020). https:\/\/doi.org\/10.1145\/3394171.3413961","DOI":"10.1145\/3394171.3413961"},{"key":"4291_CR54","doi-asserted-by":"publisher","unstructured":"Chen, J., Hu, H., Wu, H., et\u00a0al.: Learning the best pooling strategy for visual semantic embedding. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 15789\u201315798 (2021). https:\/\/doi.org\/10.48550\/arXiv.2011.04305","DOI":"10.48550\/arXiv.2011.04305"},{"key":"4291_CR55","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2305.16566","volume":"287","author":"Z Li","year":"2024","unstructured":"Li, Z., Guo, C., Wang, X., et al.: Integrating listwise ranking into pairwise-based image-text retrieval. Knowl.-Based Syst. 287, 111431 (2024). https:\/\/doi.org\/10.48550\/arXiv.2305.16566","journal-title":"Knowl.-Based Syst."},{"key":"4291_CR56","doi-asserted-by":"publisher","first-page":"5222","DOI":"10.1109\/ICPR48806.2021.9413172","volume":"66","author":"N Messina","year":"2021","unstructured":"Messina, N., Falchi, F., Esuli, A., et al.: Transformer reasoning network for image-text matching and retrieval. IEEE 66, 5222\u20135229 (2021). https:\/\/doi.org\/10.1109\/ICPR48806.2021.9413172","journal-title":"IEEE"},{"key":"4291_CR57","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1711.05101","author":"I Loshchilov","year":"2017","unstructured":"Loshchilov, I., Hutter, F.: Decoupled weight decay regularization. ICLR (2017). https:\/\/doi.org\/10.48550\/arXiv.1711.05101","journal-title":"ICLR"},{"key":"4291_CR58","doi-asserted-by":"publisher","unstructured":"Wang, H., Zhang, Y., Ji, Z., et\u00a0al.: Consensus-aware visual-semantic embedding for image-text matching. In: Computer Vision\u2013ECCV 2020: 16th European Conference, Glasgow, UK, August 23\u201328, 2020, Proceedings, Part XXIV, pp. 18\u201334 (2020). https:\/\/doi.org\/10.48550\/arXiv.2007.08883","DOI":"10.48550\/arXiv.2007.08883"},{"key":"4291_CR59","doi-asserted-by":"publisher","unstructured":"Qu, L., Liu, M., Wu, J., et\u00a0al.: Dynamic modality interaction modeling for image-text retrieval. In: Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 1104\u20131113 (2021). https:\/\/doi.org\/10.1145\/3404835.3462829","DOI":"10.1145\/3404835.3462829"},{"key":"4291_CR60","unstructured":"Van der Maaten, L., Hinton, G.: Visualizing data using t-sne. Journal of Machine Learning Research, pp. 2579\u20132605 (2008). https:\/\/jmlr.org\/papers\/v9\/vandermaaten08a.html"}],"container-title":["The Visual Computer"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00371-025-04291-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00371-025-04291-z","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00371-025-04291-z.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,4]],"date-time":"2026-03-04T13:01:23Z","timestamp":1772629283000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00371-025-04291-z"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,10]]},"references-count":60,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2026,1]]}},"alternative-id":["4291"],"URL":"https:\/\/doi.org\/10.1007\/s00371-025-04291-z","relation":{},"ISSN":["0178-2789","1432-2315"],"issn-type":[{"value":"0178-2789","type":"print"},{"value":"1432-2315","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,12,10]]},"assertion":[{"value":"23 December 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"18 September 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"10 December 2025","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"There is no conflict of interest with any individual\/organization for the present work.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}],"article-number":"34"}}