{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,12,6]],"date-time":"2025-12-06T08:14:35Z","timestamp":1765008875993,"version":"3.46.0"},"publisher-location":"New York, NY, USA","reference-count":44,"publisher":"ACM","funder":[{"name":"Project 2022xjkk0704-1 of the Talent Base of the Ministry of Science and Technology, Research on Cross Language Information Retrieval and Semantic Understanding Technology Based on Multimodal Data, 2022-2025","award":["2022xjkk0704-1"],"award-info":[{"award-number":["2022xjkk0704-1"]}]},{"name":"The Open Project of Silk Road Multilingual Cognitive Computing International Cooperation Joint Laboratory"},{"name":"Outstanding Graduate Student Innovation Project of Xinjiang University XJDX2025YJS196, Research on Chinese-Kazakh Information Retrieval Technology Based on Knowledge Graph, 2025-2026","award":["XJDX2025YJS196"],"award-info":[{"award-number":["XJDX2025YJS196"]}]}],"content-domain":{"domain":["dl.acm.org"],"crossmark-restriction":true},"short-container-title":[],"published-print":{"date-parts":[[2025,12,9]]},"DOI":"10.1145\/3743093.3771037","type":"proceedings-article","created":{"date-parts":[[2025,12,6]],"date-time":"2025-12-06T08:08:11Z","timestamp":1765008491000},"page":"1-8","update-policy":"https:\/\/doi.org\/10.1145\/crossmark-policy","source":"Crossref","is-referenced-by-count":0,"title":["SAFE-AKT: Kazakh Image-Text Retrieval via Semantic-Agnostic Feature Enhancement and Adaptive Knowledge Transfer"],"prefix":"10.1145","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-1122-4395","authenticated-orcid":false,"given":"Ping","family":"Hu","sequence":"first","affiliation":[{"name":"School of Computer Science and Technology, Xinjiang University, Urumqi, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-3767-9081","authenticated-orcid":false,"given":"Zhiqun","family":"Cao","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Xinjiang University, Urumqi, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-7846-8597","authenticated-orcid":false,"given":"Changle","family":"Yin","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Xinjiang University, Urumqi, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0001-8931-5775","authenticated-orcid":false,"given":"Minqiang","family":"Xu","sequence":"additional","affiliation":[{"name":"National Engineering Research Center of Speech and Language Information Processing, IFlytek, University of Science and Technology, Hefei, China"}]},{"ORCID":"https:\/\/orcid.org\/0009-0004-4307-0778","authenticated-orcid":false,"given":"Jingjing","family":"He","sequence":"additional","affiliation":[{"name":"The Document and Information Center, Xinjiang Institute of Ecology and Geography Chinese Academy of Science, Urumqi, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-8031-9609","authenticated-orcid":false,"given":"Lumei","family":"Zhou","sequence":"additional","affiliation":[{"name":"School of Computer Science and Technology, Xinjiang University, Urumqi, Xinjiang, China"}]}],"member":"320","published-online":{"date-parts":[[2025,12,6]]},"reference":[{"key":"e_1_3_3_3_2_2","doi-asserted-by":"crossref","unstructured":"Gulinigeer Abudouwaili Sirajahmat Ruzmamat Kahaerjiang Abiderexiti Tuergen Yibulayin Nian Yi and Aishan Wumaier. 2025. Research on morphological knowledge-guided low-resource agglutinative languages-Chinese translation. Complex & Intelligent Systems (CIS) 11 3 (2025) 168.","DOI":"10.1007\/s40747-025-01780-5"},{"key":"e_1_3_3_3_3_2","doi-asserted-by":"crossref","unstructured":"Nursulu Buketova Aigul Aratayeva and Assel Amrenova. 2025. The Evolutionary Process of Root Morphemes into Relic Morphemes in the Kazakh Language. Turkic Studies Journal 7 2 (2025) 148\u2013166.","DOI":"10.32523\/2664-5157-2025-2-148-166"},{"key":"e_1_3_3_3_4_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v39i2.32186"},{"key":"e_1_3_3_3_5_2","first-page":"6848","volume-title":"Proceedings of the Language Resources and Evaluation Conference (LREC)","author":"Carlsson Fredrik","year":"2022","unstructured":"Fredrik Carlsson, Philipp Eisen, Faton Rekathati, and Magnus Sahlgren. 2022. Cross-lingual and multilingual clip. In Proceedings of the Language Resources and Evaluation Conference (LREC). 6848\u20136854."},{"key":"e_1_3_3_3_6_2","doi-asserted-by":"crossref","unstructured":"Xiumei Chen Xiangtao Zheng and Xiaoqiang Lu. 2025. Context-Aware Local\u2013Global Semantic Alignment for Remote Sensing Image\u2013Text Retrieval. IEEE Transactions on Geoscience and Remote Sensing (TGRS) 63 2 (2025) 1\u201312.","DOI":"10.1109\/TGRS.2025.3552304"},{"key":"e_1_3_3_3_7_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00276"},{"key":"e_1_3_3_3_8_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.747"},{"key":"e_1_3_3_3_9_2","doi-asserted-by":"crossref","unstructured":"Gabriel\u00a0Oliveira dos Santos Diego A.\u00a0B. Moreira Alef Iury\u00a0Siqueira Ferreira Jhessica Silva Luiz Pereira Pedro Bueno Thiago Sousa Helena\u00a0Almeida Maia N\u00e1dia F\u00e9lix\u00a0F. da Silva Esther Colombini H\u00e9lio Pedrini and Sandra Avila. 2023. CAPIVARA: Cost-Efficient Approach for Improving Multilingual CLIP Performance on Low-Resource Languages. CoRR abs\/2310.13683 (2023).","DOI":"10.18653\/v1\/2023.mrl-1.15"},{"key":"e_1_3_3_3_10_2","volume-title":"International Conference on Learning Representations (ICLR)","author":"Dosovitskiy Alexey","year":"2021","unstructured":"Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. 2021. An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In International Conference on Learning Representations (ICLR). https:\/\/openreview.net\/forum?id=YicbFdNTTy"},{"key":"e_1_3_3_3_11_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/W16-3210"},{"key":"e_1_3_3_3_12_2","doi-asserted-by":"crossref","unstructured":"Yajie Gu Mingjie Wang Jianhou Gan Yiming Zhao Jiatian Mei and Chuanzhi Zhang. 2025. Text semantic-guided adaptive feature aggregation for image-text retrieval. Multimedia Systems 31 4 (2025) 300.","DOI":"10.1007\/s00530-025-01881-8"},{"key":"e_1_3_3_3_13_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01142"},{"key":"e_1_3_3_3_14_2","unstructured":"Geoffrey\u00a0E. Hinton Oriol Vinyals and Jeffrey Dean. 2015. Distilling the Knowledge in a Neural Network. CoRR abs\/1503.02531 (2015). http:\/\/arxiv.org\/abs\/1503.02531"},{"key":"e_1_3_3_3_15_2","doi-asserted-by":"crossref","unstructured":"Aashi Jain Mandy Guo Krishna Srinivasan Ting Chen Sneha Kudugunta Chao Jia Yinfei Yang and Jason Baldridge. 2021. Mural: multimodal multitask retrieval across languages. arXiv preprint arXiv:https:\/\/arXiv.org\/abs\/2109.05125 (2021). https:\/\/arxiv.org\/abs\/2109.05125","DOI":"10.18653\/v1\/2021.findings-emnlp.293"},{"key":"e_1_3_3_3_16_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1356"},{"key":"e_1_3_3_3_17_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00273"},{"key":"e_1_3_3_3_18_2","doi-asserted-by":"crossref","unstructured":"Zheng Li Caili Guo Xin Wang Hao Zhang and Lin Hu. 2025. Multi-view visual semantic embedding for cross-modal image\u2013text retrieval. Pattern Recognition (PR) 159 (2025) 111088. https:\/\/www.sciencedirect.com\/science\/article\/pii\/S0031320324008392","DOI":"10.1016\/j.patcog.2024.111088"},{"key":"e_1_3_3_3_19_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/N19-1112"},{"key":"e_1_3_3_3_20_2","doi-asserted-by":"crossref","unstructured":"Xiaoyang Liu Shanghong Dai Giacomo Fiumara and Pasquale De Meo. 2023. An adversarial training method for text classification. Journal of King Saud University - Computer and Information Sciences 35 8 (2023) 101697.","DOI":"10.1016\/j.jksuci.2023.101697"},{"key":"e_1_3_3_3_21_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-46311-2_32"},{"key":"e_1_3_3_3_22_2","doi-asserted-by":"crossref","unstructured":"Bingjun Luo Jinpeng Wang Zewen Wang Junjie Zhu and Xibin Zhao. 2025. Graph-Based Cross-Domain Knowledge Distillation for Cross-Dataset Text-to-Image Person Retrieval. Proceedings of the AAAI Conference on Artificial Intelligence (AAAI) 39 1 (2025) 568\u2013576.","DOI":"10.1609\/aaai.v39i1.32037"},{"key":"e_1_3_3_3_23_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00397"},{"key":"e_1_3_3_3_24_2","doi-asserted-by":"publisher","DOI":"10.1007\/978-981-15-5971-6_83"},{"key":"e_1_3_3_3_25_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00409"},{"key":"e_1_3_3_3_26_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.emnlp-main.213"},{"key":"e_1_3_3_3_27_2","doi-asserted-by":"publisher","DOI":"10.1109\/ICASSP49357.2023.10094821"},{"key":"e_1_3_3_3_28_2","unstructured":"Christoph Schuhmann Romain Beaumont Richard Vencu Cade Gordon Ross Wightman Mehdi Cherti Theo Coombes Aarush Katta Clayton Mullis Mitchell Wortsman et\u00a0al. 2022. Laion-5b: An open large-scale dataset for training next generation image-text models. Advances in neural information processing systems (NeurIPS) 35 (2022) 25278\u201325294."},{"key":"e_1_3_3_3_29_2","doi-asserted-by":"publisher","DOI":"10.1145\/3404835.3463257"},{"key":"e_1_3_3_3_30_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/P19-1452"},{"key":"e_1_3_3_3_31_2","volume-title":"In Proceedings of the International Conference on Learning Representations (ICLR)","author":"Tian Yonglong","year":"2020","unstructured":"Yonglong Tian, Dilip Krishnan, and Phillip Isola. 2020. Contrastive Representation Distillation. In In Proceedings of the International Conference on Learning Representations (ICLR)."},{"key":"e_1_3_3_3_32_2","first-page":"126500","volume-title":"Advances in Neural Information Processing Systems (NeurIPS)","author":"Vendrow Edward","year":"2024","unstructured":"Edward Vendrow, Omiros Pantazis, Alexander Shepard, Gabriel Brostow, Kate\u00a0E. Jones, Oisin Mac\u00a0Aodha, Sara Beery, and Grant Van\u00a0Horn. 2024. INQUIRE: A Natural World Text-to-Image Retrieval Benchmark. In Advances in Neural Information Processing Systems (NeurIPS) , Vol.\u00a037. 126500\u2013126514."},{"key":"e_1_3_3_3_33_2","doi-asserted-by":"crossref","unstructured":"Di Wang Jiabo Tian Xiao Liang Yumin Tian and Lihuo He. 2025. Global-aware Fragment Representation Aggregation Network for image\u2013text retrieval. Pattern Recognition (PR) 159 (2025) 111085.","DOI":"10.1016\/j.patcog.2024.111085"},{"key":"e_1_3_3_3_34_2","doi-asserted-by":"publisher","DOI":"10.1145\/3503161.3548003"},{"key":"e_1_3_3_3_35_2","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i6.28376"},{"key":"e_1_3_3_3_36_2","doi-asserted-by":"crossref","unstructured":"Yabing Wang Shuhui Wang Hao Luo Jianfeng Dong Fan Wang Meng Han Xun Wang and Meng Wang. 2024. Dual-view curricular optimal transport for cross-lingual cross-modal retrieval. IEEE Transactions on Image Processing (TIP) 33 (2024) 1522\u20131533.","DOI":"10.1109\/TIP.2024.3365248"},{"key":"e_1_3_3_3_37_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.acl-long.70"},{"key":"e_1_3_3_3_38_2","doi-asserted-by":"publisher","DOI":"10.1109\/CSECS64665.2025.11009656"},{"key":"e_1_3_3_3_39_2","first-page":"8229","volume-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops","author":"Xiao Ling","year":"2024","unstructured":"Ling Xiao and Toshihiko Yamasaki. 2024. Boosting Fine-grained Fashion Retrieval with Relational Knowledge Distillation. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR) Workshops. 8229\u20138234."},{"key":"e_1_3_3_3_40_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01200"},{"key":"e_1_3_3_3_41_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01759"},{"key":"e_1_3_3_3_42_2","doi-asserted-by":"publisher","unstructured":"Liang Zhang Anwen Hu and Qin Jin. 2022. Generalizing Multimodal Pre-training into Multilingual via Language Acquisition. CoRR abs\/2206.11091 (2022). 10.48550\/arXiv.2206.11091","DOI":"10.48550\/arXiv.2206.11091"},{"key":"e_1_3_3_3_43_2","doi-asserted-by":"publisher","DOI":"10.1145\/3477495.3531783"},{"key":"e_1_3_3_3_44_2","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-emnlp.483"},{"key":"e_1_3_3_3_45_2","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00414"}],"event":{"name":"MMAsia '25: ACM Multimedia Asia","location":"Kuala Lumpur Malaysia","acronym":"MMAsia '25","sponsor":["SIGMM ACM Special Interest Group on Multimedia"]},"container-title":["Proceedings of the 7th ACM International Conference on Multimedia in Asia"],"original-title":[],"link":[{"URL":"https:\/\/dl.acm.org\/doi\/pdf\/10.1145\/3743093.3771037","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,12,6]],"date-time":"2025-12-06T08:11:06Z","timestamp":1765008666000},"score":1,"resource":{"primary":{"URL":"https:\/\/dl.acm.org\/doi\/10.1145\/3743093.3771037"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,6]]},"references-count":44,"alternative-id":["10.1145\/3743093.3771037","10.1145\/3743093"],"URL":"https:\/\/doi.org\/10.1145\/3743093.3771037","relation":{},"subject":[],"published":{"date-parts":[[2025,12,6]]},"assertion":[{"value":"2025-12-06","order":3,"name":"published","label":"Published","group":{"name":"publication_history","label":"Publication History"}}]}}