{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,24]],"date-time":"2026-03-24T15:31:51Z","timestamp":1774366311659,"version":"3.50.1"},"publisher-location":"Singapore","reference-count":32,"publisher":"Springer Nature Singapore","isbn-type":[{"value":"9789819555666","type":"print"},{"value":"9789819555673","type":"electronic"}],"license":[{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,1,1]],"date-time":"2026-01-01T00:00:00Z","timestamp":1767225600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-981-95-5567-3_14","type":"book-chapter","created":{"date-parts":[[2026,1,22]],"date-time":"2026-01-22T21:13:33Z","timestamp":1769116413000},"page":"197-211","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["GMM-Based Comprehensive Feature Extraction and\u00a0Relative Distance Preservation for\u00a0Few-Shot Cross-Modal Retrieval"],"prefix":"10.1007","author":[{"given":"Chengsong","family":"Sun","sequence":"first","affiliation":[]},{"given":"Weiping","family":"Li","sequence":"additional","affiliation":[]},{"given":"Xiang","family":"Yuan","sequence":"additional","affiliation":[]},{"given":"Yuankun","family":"Liu","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2026,1,23]]},"reference":[{"key":"14_CR1","doi-asserted-by":"crossref","unstructured":"Cao, H., Zhang, Y., Zhu, S., Wang, L.: Pro-CLIP: a CLIP-based category measurement network through prototype and regularized optimal transportation. IEEE Trans. Instrum. Measur. (2024)","DOI":"10.1109\/TIM.2024.3485403"},{"key":"14_CR2","unstructured":"Caron, M., Misra, I., Mairal, J., Goyal, P., Bojanowski, P., Joulin, A.: Unsupervised learning of visual features by contrasting cluster assignments. In: Proceedings of the 34th International Conference on Neural Information Processing Systems. NIPS 2020, Curran Associates Inc., Red Hook, NY, USA (2020)"},{"key":"14_CR3","unstructured":"Chen, T., Kornblith, S., Norouzi, M., Hinton, G.: A simple framework for contrastive learning of visual representations. In: Proceedings of the 37th International Conference on Machine Learning, ICML 2020. JMLR.org (2020)"},{"key":"14_CR4","doi-asserted-by":"crossref","unstructured":"Chua, T.S., Tang, J., Hong, R., Li, H., Luo, Z., Zheng, Y.: NUS-WIDE: a real-world web image database from National University of Singapore, pp.\u00a01\u20139 (2009)","DOI":"10.1145\/1646396.1646452"},{"key":"14_CR5","doi-asserted-by":"crossref","unstructured":"Fu, Z., Zhang, L., Xia, H., Mao, Z.: Linguistic-aware patch slimming framework for fine-grained cross-modal alignment. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 26307\u201326316 (2024)","DOI":"10.1109\/CVPR52733.2024.02485"},{"key":"14_CR6","doi-asserted-by":"crossref","unstructured":"He, K., Fan, H., Wu, Y., Xie, S., Girshick, R.: Momentum contrast for unsupervised visual representation learning. In: 2020 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 9726\u20139735 (2020)","DOI":"10.1109\/CVPR42600.2020.00975"},{"key":"14_CR7","doi-asserted-by":"crossref","unstructured":"Hotelling, H.: Relations between two sets of variates. In: Breakthroughs in Statistics: Methodology and Distribution, pp. 162\u2013190. Springer (1992)","DOI":"10.1007\/978-1-4612-4380-9_14"},{"key":"14_CR8","doi-asserted-by":"crossref","unstructured":"Hou, Z., et al.: GraphMAE: self-supervised masked graph autoencoders. In: Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, KDD 2022, pp. 594\u2013604. Association for Computing Machinery, New York, NY, USA (2022)","DOI":"10.1145\/3534678.3539321"},{"key":"14_CR9","doi-asserted-by":"crossref","unstructured":"Hu, P., Peng, D., Zhu, H., Zhen, L., Lin, J.: Learning cross-modal retrieval with noisy labels. In: 2021 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 5399\u20135409 (2021)","DOI":"10.1109\/CVPR46437.2021.00536"},{"issue":"6","key":"14_CR10","doi-asserted-by":"publisher","first-page":"2968","DOI":"10.1109\/TPAMI.2021.3052490","volume":"44","author":"Y Huang","year":"2021","unstructured":"Huang, Y., Wang, J., Wang, L.: Few-shot image and sentence matching via aligned cross-modal memory. IEEE Trans. Pattern Anal. Mach. Intell. 44(6), 2968\u20132983 (2021)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"3","key":"14_CR11","doi-asserted-by":"publisher","first-page":"2917","DOI":"10.1109\/TNNLS.2023.3284666","volume":"35","author":"M Kang","year":"2023","unstructured":"Kang, M., Zhu, R., Chen, D., Liu, X., Yu, W.: CM-GAN: a cross-modal generative adversarial network for imputing completely missing data in digital industry. IEEE Trans. Neural Netw. Learn. Syst. 35(3), 2917\u20132926 (2023)","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"14_CR12","doi-asserted-by":"crossref","unstructured":"Lee, K.H., Chen, X., Hua, G., Hu, H., He, X.: Stacked cross attention for image-text matching. In: Proceedings of the European Conference on Computer Vision (ECCV), pp. 201\u2013216 (2018)","DOI":"10.1007\/978-3-030-01225-0_13"},{"key":"14_CR13","unstructured":"Li, X., et al.: Align before fuse: vision and language representation. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR), pp. 11257\u201311267 (2021)"},{"key":"14_CR14","doi-asserted-by":"crossref","unstructured":"Pham, K., Huynh, C., Lim, S.N., Shrivastava, A.: Composing object relations and attributes for image-text matching. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 14354\u201314363 (2024)","DOI":"10.1109\/CVPR52733.2024.01361"},{"key":"14_CR15","unstructured":"Radford, A., et\u00a0al.: Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning, pp. 8748\u20138763. PMLR (2021)"},{"key":"14_CR16","unstructured":"Rashtchian, C., Young, P., Hodosh, M., Hockenmaier, J.: Collecting image annotations using Amazon\u2019s Mechanical Turk. In: Proceedings of the NAACL HLT 2010 Workshop on Creating Speech and Language Data with Amazon\u2019s Mechanical Turk, pp. 139\u2013147 (2010)"},{"key":"14_CR17","doi-asserted-by":"crossref","unstructured":"Rasiwasia, N., et al.: A new approach to cross-modal multimedia retrieval. In: Proceedings of the 18th ACM International Conference on Multimedia, pp. 251\u2013260 (2010)","DOI":"10.1145\/1873951.1873987"},{"key":"14_CR18","unstructured":"Sun, Q., Fang, Y., Wu, L., Wang, X., Cao, Y.: EVA-CLIP: improved training techniques for CLIP at scale. arXiv preprint arXiv:2303.15389 (2023)"},{"key":"14_CR19","doi-asserted-by":"crossref","unstructured":"Tian, J., Wang, K., Xu, X., Cao, Z., Shen, F., Shen, H.: Multimodal disentanglement variational autoencoders for zero-shot cross-modal retrieval. In: Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 960\u2013969 (2022)","DOI":"10.1145\/3477495.3532028"},{"key":"14_CR20","unstructured":"Veli\u010dkovi\u0107, P., Fedus, W., Hamilton, W.L., Li\u00f2, P., Bengio, Y., Hjelm, R.D.: Deep graph infomax. In: International Conference on Learning Representations (2019)"},{"key":"14_CR21","doi-asserted-by":"crossref","unstructured":"Wang, S., Lai, H., Shi, Z.: Know yourself and know others: efficient common representation learning for few-shot cross-modal retrieval. In: Proceedings of the 2021 International Conference on Multimedia Retrieval, pp. 303\u2013311 (2021)","DOI":"10.1145\/3460426.3463632"},{"key":"14_CR22","doi-asserted-by":"crossref","unstructured":"Wang, T., Li, F., Zhu, L., Li, J., Zhang, Z., Shen, H.T.: Cross-modal retrieval: a systematic review of methods and future directions. Proc. IEEE (2025)","DOI":"10.1109\/JPROC.2024.3525147"},{"key":"14_CR23","doi-asserted-by":"crossref","unstructured":"Wang, Z., Gao, Z., Han, M., Yang, Y., Shen, H.T.: Estimating the semantics via sector embedding for image-text retrieval. IEEE Trans. Multimedia (2024)","DOI":"10.1109\/TMM.2024.3407664"},{"key":"14_CR24","doi-asserted-by":"publisher","first-page":"2226","DOI":"10.1109\/TIP.2024.3374111","volume":"33","author":"Z Wang","year":"2024","unstructured":"Wang, Z., Xu, X., Wei, J., Xie, N., Yang, Y., Shen, H.T.: Semantics disentangling for cross-modal retrieval. IEEE Trans. Image Process. 33, 2226\u20132237 (2024)","journal-title":"IEEE Trans. Image Process."},{"key":"14_CR25","unstructured":"Xie, J., Kuang, J., Lin, Z., Ouyang, J., Zhao, Z., Shen, Y.: FLEX-CLIP: feature-level generation network enhanced clip for X-shot cross-modal retrieval (2024)"},{"key":"14_CR26","doi-asserted-by":"crossref","unstructured":"Xiong, G., Meng, M., Zhang, T., Zhang, D., Zhang, Y.: Reference-aware adaptive network for image-text matching. IEEE Trans. Circuits Syst. Video Technol. (2024)","DOI":"10.1109\/TCSVT.2024.3392619"},{"issue":"6","key":"14_CR27","doi-asserted-by":"publisher","first-page":"3030","DOI":"10.1109\/TPAMI.2020.3045530","volume":"44","author":"X Xu","year":"2022","unstructured":"Xu, X., Lin, K., Yang, Y., Hanjalic, A., Shen, H.: Joint feature synthesis and embedding: adversarial cross-modal retrieval revisited. IEEE Trans. Pattern Anal. Mach. Intell. 44(6), 3030\u20133047 (2022)","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"14_CR28","series-title":"Lecture Notes in Computer Science","doi-asserted-by":"publisher","first-page":"763","DOI":"10.1007\/978-3-030-58598-3_45","volume-title":"Computer Vision \u2013 ECCV 2020","author":"B Yang","year":"2020","unstructured":"Yang, B., Liu, C., Li, B., Jiao, J., Ye, Q.: Prototype mixture models for few-shot semantic segmentation. In: Vedaldi, A., Bischof, H., Brox, T., Frahm, J.-M. (eds.) ECCV 2020. LNCS, vol. 12353, pp. 763\u2013778. Springer, Cham (2020). https:\/\/doi.org\/10.1007\/978-3-030-58598-3_45"},{"key":"14_CR29","unstructured":"Yang, Y., Yuan, H., Li, X., Lin, Z., Torr, P., Tao, D.: Neural collapse inspired feature-classifier alignment for few-shot class incremental learning. arXiv preprint arXiv:2302.03004 (2023)"},{"key":"14_CR30","doi-asserted-by":"crossref","unstructured":"Zhang, Y., Ji, Z., Wang, D., Pang, Y., Li, X.: User: unified semantic enhancement with momentum contrast for image-text retrieval. IEEE Trans. Image Process. (2024)","DOI":"10.1109\/TIP.2023.3348297"},{"key":"14_CR31","doi-asserted-by":"crossref","unstructured":"Zhao, B., Wen, X., Han, K.: Learning semi-supervised gaussian mixture models for generalized category discovery. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 16623\u201316633 (2023)","DOI":"10.1109\/ICCV51070.2023.01524"},{"key":"14_CR32","doi-asserted-by":"crossref","unstructured":"Zhou, K., Hassan, F.H., Hoon, G.K.: The state of the art for cross-modal retrieval: a survey. IEEE Access (2023)","DOI":"10.1109\/ACCESS.2023.3338548"}],"container-title":["Lecture Notes in Computer Science","Pattern Recognition and Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-981-95-5567-3_14","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,1,22]],"date-time":"2026-01-22T21:13:39Z","timestamp":1769116419000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-981-95-5567-3_14"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026]]},"ISBN":["9789819555666","9789819555673"],"references-count":32,"URL":"https:\/\/doi.org\/10.1007\/978-981-95-5567-3_14","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026]]},"assertion":[{"value":"23 January 2026","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"PRCV","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Chinese Conference on Pattern Recognition and Computer Vision  (PRCV)","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Shanghai","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"China","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"15 October 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"18 October 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"8","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"ccprcv2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"http:\/\/2025.prcv.cn\/index.asp","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}