{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,17]],"date-time":"2026-03-17T05:27:33Z","timestamp":1773725253849,"version":"3.50.1"},"reference-count":46,"publisher":"Springer Science and Business Media LLC","issue":"4","license":[{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,2,1]],"date-time":"2026-02-01T00:00:00Z","timestamp":1769904000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"name":"National Research Foundation of Kore","award":["2023R1A2C2006264"],"award-info":[{"award-number":["2023R1A2C2006264"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Neural Comput &amp; Applic"],"published-print":{"date-parts":[[2026,2]]},"DOI":"10.1007\/s00521-025-11693-6","type":"journal-article","created":{"date-parts":[[2026,2,18]],"date-time":"2026-02-18T04:12:50Z","timestamp":1771387970000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Leveraging contrastive learning for cross-modal(X-modal) person identification"],"prefix":"10.1007","volume":"38","author":[{"given":"Unse","family":"Fatima","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zafran","family":"Khan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Piotr","family":"Indyk","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Kin-Choong","family":"Yow","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Moongu","family":"Jeon","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2026,2,18]]},"reference":[{"key":"11693_CR1","doi-asserted-by":"publisher","unstructured":"Deng J, Guo J, Xue N, Zafeiriou, S.: Arcface, (2019) Additive angular margin loss for deep face recognition. 4685\u20134694. https:\/\/doi.org\/10.1109\/CVPR.2019.00482","DOI":"10.1109\/CVPR.2019.00482"},{"issue":"10","key":"11693_CR2","doi-asserted-by":"publisher","first-page":"1651","DOI":"10.1109\/TCSVT.2014.2305495","volume":"24","author":"Z Lai","year":"2014","unstructured":"Lai Z, Xu Y, Jin Z, Zhang D (2014) Human gait recognition via sparse discriminant projection learning. IEEE Trans Circuits Syst Video Technol 24(10):1651\u20131662. https:\/\/doi.org\/10.1109\/TCSVT.2014.2305495","journal-title":"IEEE Trans Circuits Syst Video Technol"},{"key":"11693_CR3","doi-asserted-by":"publisher","unstructured":"Zeng K, Ning M, Wang Y, Guo Y (2020) Hierarchical clustering with hard-batch triplet loss for person re-identification. 13654\u201313662. https:\/\/doi.org\/10.1109\/CVPR42600.2020.01367","DOI":"10.1109\/CVPR42600.2020.01367"},{"key":"11693_CR4","doi-asserted-by":"publisher","first-page":"13779","DOI":"10.1109\/CVPR46437.2021.01357","volume-title":"Dyglip: A dynamic graph model with link prediction for accurate multi-camera multiple object tracking","author":"K Quach","year":"2021","unstructured":"Quach K, Nguyen P, Le H, Truong T, Duong C, Tran M, Luu K (2021). Dyglip: A dynamic graph model with link prediction for accurate multi-camera multiple object tracking. IEEE Computer Society, Los Alamitos, CA, USA, 13779\u201313788. https:\/\/doi.org\/10.1109\/CVPR46437.2021.01357"},{"key":"11693_CR5","doi-asserted-by":"publisher","first-page":"106","DOI":"10.1007\/s11263-010-0347-5","volume":"90","author":"CC Loy","year":"2010","unstructured":"Loy CC, Xiang T, Gong S (2010) Time-delayed correlation analysis for multi-camera activity understanding. Int J Comput Vision 90:106\u2013129","journal-title":"Int J Comput Vision"},{"key":"11693_CR6","unstructured":"Zheng T, Deng W, Hu J (2017) Cross-age LFW: A database for studying cross-age face recognition in unconstrained environments, arXiv:abs\/1708.08197"},{"key":"11693_CR7","first-page":"529","volume-title":"Face recognition in unconstrained videos with matched background similarity","author":"L Wolf","year":"2011","unstructured":"Wolf L, Hassner T, Maoz I (2011). Face recognition in unconstrained videos with matched background similarity. IEEE, 529\u2013534"},{"key":"11693_CR8","doi-asserted-by":"crossref","unstructured":"Moschoglou S, Papaioannou A, Sagonas C, Deng J, Kotsia I, Zafeiriou S (2017) Agedb: the first manually collected, in-the-wild age database. 51\u201359","DOI":"10.1109\/CVPRW.2017.250"},{"key":"11693_CR9","doi-asserted-by":"publisher","unstructured":"Kemelmacher-Shlizerman I, Seitz SM, Miller D, Brossard E (2016) The megaface benchmark: 1 million faces for recognition at scale. 4873\u20134882. https:\/\/doi.org\/10.1109\/CVPR.2016.527","DOI":"10.1109\/CVPR.2016.527"},{"key":"11693_CR10","doi-asserted-by":"crossref","unstructured":"Guo Y, Zhang L, Hu Y, He X, Gao J (2016) Ms-celeb-1m: A dataset and benchmark for large-scale face recognition. In: Computer Vision\u2013ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11-14, 2016, Proceedings, Part III 14, 87\u2013102. Springer","DOI":"10.1007\/978-3-319-46487-9_6"},{"key":"11693_CR11","unstructured":"Yi D, Lei Z, Liao S, Li SZ (2014) Learning face representation from scratch. CoRR arXiv:abs\/1411.7923"},{"key":"11693_CR12","doi-asserted-by":"publisher","unstructured":"Guo J, Zhu X, Zhao C, Cao D, Lei Z, Li SZ (2020) Learning meta face recognition in unseen domains.6162\u20136171. https:\/\/doi.org\/10.1109\/CVPR42600.2020.00620","DOI":"10.1109\/CVPR42600.2020.00620"},{"key":"11693_CR13","doi-asserted-by":"publisher","unstructured":"Faraki M, Yu X, Tsai Y-H, Suh Y, Chandraker M (2021) Cross-domain similarity learning for face recognition in unseen domains. 15287\u201315296. https:\/\/doi.org\/10.1109\/CVPR46437.2021.01504","DOI":"10.1109\/CVPR46437.2021.01504"},{"issue":"215\u2013244","key":"11693_CR14","doi-asserted-by":"publisher","first-page":"10","DOI":"10.1016\/j.neucom.2020.10.081","volume":"429","author":"M Wang","year":"2021","unstructured":"Wang M, Deng W (2021) Deep face recognition: A survey. Neurocomputing 429(215\u2013244):10. https:\/\/doi.org\/10.1016\/j.neucom.2020.10.081","journal-title":"Neurocomputing"},{"key":"11693_CR15","doi-asserted-by":"publisher","unstructured":"Florian S, Dmitry K, James, P.: Facenet, (2015) A unified embedding for face recognition and clustering. 815\u2013823. https:\/\/doi.org\/10.1109\/CVPR.2015.7298682","DOI":"10.1109\/CVPR.2015.7298682"},{"key":"11693_CR16","unstructured":"Finn C, Abbeel P, Levine S (2017). Model-agnostic meta-learning for fast adaptation of deep networks. PMLR,1126\u20131135"},{"key":"11693_CR17","doi-asserted-by":"crossref","unstructured":"Kim Y, Park W, Roh M, Shin J (2020) Groupface: Learning latent groups and constructing group-based representations for face recognition,arXiv:abs\/2005.10497","DOI":"10.1109\/CVPR42600.2020.00566"},{"key":"11693_CR18","doi-asserted-by":"crossref","unstructured":"Hao W, Yitong W, Zheng Z, Xing J, Dihong G, Jingchao Z, Zhifeng L, Wei L (2018) Cosface: Large margin cosine loss for deep face recognition. 5265\u20135274","DOI":"10.1109\/CVPR.2018.00552"},{"key":"11693_CR19","doi-asserted-by":"publisher","unstructured":"Shi Y, Yu X, Sohn K, Chandraker M, Jain AK (2020) Towards universal representation learning for deep face recognition. 6816\u20136825. https:\/\/doi.org\/10.1109\/CVPR42600.2020.00685","DOI":"10.1109\/CVPR42600.2020.00685"},{"key":"11693_CR20","doi-asserted-by":"crossref","unstructured":"RoyChowdhury A, Yu X, Sohn K, Learned-Miller E, Chandraker M (2020) Improving face recognition by clustering unlabeled faces in the wild. In: Computer Vision ECCV, 119\u2013136. Springer, Cham","DOI":"10.1007\/978-3-030-58586-0_8"},{"key":"11693_CR21","doi-asserted-by":"crossref","unstructured":"Wang F, Xiang X, Cheng J, Yuille, A.: Normface, (2017) L2 hypersphere embedding for face verification","DOI":"10.1145\/3123266.3123359"},{"key":"11693_CR22","unstructured":"Ranjan R, Castillo C, Chellappa R (2017) L2-constrained softmax loss for discriminative face verification. ArXiv arXiv:abs\/1703.09507"},{"key":"11693_CR23","doi-asserted-by":"crossref","unstructured":"Kim M, Jain AK, Liu, X.: Adaface, (2022) Quality adaptive margin for face recognition","DOI":"10.1109\/CVPR52688.2022.01819"},{"key":"11693_CR24","unstructured":"Sohn K, Shang W, Yu X, Chandraker M (2019) Unsupervised domain adaptation for distance metric learning. https:\/\/openreview.net\/forum?id=BklhAj09K7"},{"key":"11693_CR25","doi-asserted-by":"publisher","unstructured":"Yao X, Bai Y, Zhang X, Zhang Y, Sun Q, Chen R, Li R, Yu B (2022) Pcl: Proxy-based contrastive learning for domain generalization. 7087\u20137097. https:\/\/doi.org\/10.1109\/CVPR52688.2022.00696","DOI":"10.1109\/CVPR52688.2022.00696"},{"key":"11693_CR26","unstructured":"Snell J, Swersky K, Zemel R (2017) Prototypical networks for few-shot learning. Advances in neural information processing systems 30"},{"key":"11693_CR27","doi-asserted-by":"crossref","unstructured":"Sung F, Yang Y, Zhang L, Xiang T, Torr PH, Hospedales TM (2018) Learning to compare: Relation network for few-shot learning. pp 1199\u20131208","DOI":"10.1109\/CVPR.2018.00131"},{"key":"11693_CR28","doi-asserted-by":"publisher","unstructured":"Shu X, Yuan D, Liu Q, Liu J (2020) Adaptive weight part-based convolutional network for person re-identification. Multimedia Tools and Applications 79 https:\/\/doi.org\/10.1007\/s11042-020-09018-x","DOI":"10.1007\/s11042-020-09018-x"},{"issue":"976\u2013985","key":"11693_CR29","doi-asserted-by":"publisher","first-page":"10","DOI":"10.1109\/TIP.2020.3037518","volume":"30","author":"D Yuan","year":"2021","unstructured":"Yuan D, Chang X, Huang P-Y, Liu Q, He Z (2021) Self-supervised deep correlation tracking. IEEE Trans Image Process 30(976\u2013985):10. https:\/\/doi.org\/10.1109\/TIP.2020.3037518","journal-title":"IEEE Trans Image Process"},{"key":"11693_CR30","doi-asserted-by":"crossref","unstructured":"Yuan D, Chang X, Liu Q, Wang D, He Z (2021) Active learning for deep visual tracking. CoRR arXiv:abs\/2110.13259","DOI":"10.31219\/osf.io\/z36jf"},{"issue":"108349","key":"11693_CR31","doi-asserted-by":"publisher","first-page":"10","DOI":"10.1016\/j.knosys.2022.108349","volume":"242","author":"J Peng","year":"2022","unstructured":"Peng J, Jiang G, Wang H (2022) Cooperative refinement learning for domain adaptive person re-identification. Knowl-Based Syst 242(108349):10. https:\/\/doi.org\/10.1016\/j.knosys.2022.108349","journal-title":"Knowl-Based Syst"},{"issue":"102979","key":"11693_CR32","doi-asserted-by":"publisher","first-page":"10","DOI":"10.1016\/j.inffus.2025.102979","volume":"118","author":"X Zuo","year":"2025","unstructured":"Zuo X, Peng J, Cheng T, Wang H (2025) Modality-perceptive harmonization network for visible-infrared person re-identification. Information Fusion 118(102979):10. https:\/\/doi.org\/10.1016\/j.inffus.2025.102979","journal-title":"Information Fusion"},{"key":"11693_CR33","unstructured":"Liu Z, Luo P, Wang X, Tang, (2018) X Large-scale celebfaces attributes (celeba) dataset 15:11"},{"key":"11693_CR34","unstructured":"Huang GB, Learned-Miller E (2014) Labeled faces in the wild: Updates and new reporting procedures,14"},{"key":"11693_CR35","doi-asserted-by":"crossref","unstructured":"Zhang L, Xiang T, Gong S (2017) Learning a deep embedding model for zero-shot learning. CoRR arXiv:abs\/1611.05088","DOI":"10.1109\/CVPR.2017.321"},{"key":"11693_CR36","doi-asserted-by":"publisher","unstructured":"Xie G-S, Liu L, Jin X, Zhu F, Zhang Z, Qin J, Yao Y, Shao L (2019) Attentive region embedding network for zero-shot learning. 9376\u20139385. https:\/\/doi.org\/10.1109\/CVPR.2019.00961","DOI":"10.1109\/CVPR.2019.00961"},{"key":"11693_CR37","unstructured":"Faghri F, Fleet DJ, Kiros JR, Fidler S (2018) VSE++: improved visual-semantic embeddings. CoRR arXiv:abs\/1707.05612"},{"key":"11693_CR38","doi-asserted-by":"crossref","unstructured":"Li K, Zhang Y, Li K, Li Y, Fu Y (2019) Visual semantic reasoning for image-text matching. CoRR arXiv:abs\/1909.02701","DOI":"10.1109\/ICCV.2019.00475"},{"key":"11693_CR39","doi-asserted-by":"crossref","unstructured":"Lee K, Chen X, Hua G, Hu H, He X (2018) Stacked cross attention for image-text matching. CoRR arXiv:abs\/1803.08024","DOI":"10.1007\/978-3-030-01225-0_13"},{"key":"11693_CR40","doi-asserted-by":"publisher","first-page":"492","DOI":"10.1007\/978-3-030-65414-6_34","volume-title":"Computer Vision - ECCV 2020 Workshops","author":"J Yu","year":"2020","unstructured":"Yu J, Hao X, Xie H, Yu Y (2020) Fair face recognition using data balancing, enhancement and fusion. In: Bartoli A, Fusiello A (eds) Computer Vision - ECCV 2020 Workshops. Springer, Cham, 492\u2013505"},{"key":"11693_CR41","doi-asserted-by":"crossref","unstructured":"Yuan L, Liu L, Pu X, Li Z, Li H, Gao X (2023) Pro-face: A generic framework for privacy-preserving recognizable obfuscation of face images","DOI":"10.1145\/3503161.3548202"},{"key":"11693_CR42","doi-asserted-by":"publisher","unstructured":"Kou Z, Shang L, Zhang Y, Duan S, Wang D (2022) Can i only share my eyes? a web crowdsourcing based face partition approach towards privacy-aware face recognition. In: Proceedings of the ACM Web Conference 2022. WWW \u201922, pp. 3611\u20133622. Association for Computing Machinery, New York, NY, USA . https:\/\/doi.org\/10.1145\/3485447.3512256","DOI":"10.1145\/3485447.3512256"},{"key":"11693_CR43","doi-asserted-by":"publisher","unstructured":"Kou Z, Tian Y, Jiang M, Zhang, X.: Fade, (2024). A face segment driven identity anonymization framework for fair face recognition, vol \u201924. Association for Computing Machinery, New York, NY, USA, 1121\u20131131. https:\/\/doi.org\/10.1145\/3627673.3679737","DOI":"10.1145\/3627673.3679737"},{"key":"11693_CR44","unstructured":"Radford A, Kim JW, Hallacy C, Ramesh A, Goh G, Agarwal S, Sastry G, Askell A, Mishkin P, Clark J, Krueger G, Sutskever I (2021) Learning transferable visual models from natural language supervision. CoRR arXiv:abs\/2103.00020"},{"key":"11693_CR45","unstructured":"Jia C, Yang Y, Xia Y, Chen Y, Parekh Z, Pham H, Le QV, Sung Y, Li Z, Duerig T (2021) Scaling up visual and vision-language representation learning with noisy text supervision. CoRR arXiv:abs\/2102.05918"},{"key":"11693_CR46","unstructured":"Kim W, Son B, Kim I (2021) ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision. https:\/\/arxiv.org\/abs\/2102.03334"}],"container-title":["Neural Computing and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00521-025-11693-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00521-025-11693-6","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00521-025-11693-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,17]],"date-time":"2026-03-17T03:45:42Z","timestamp":1773719142000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00521-025-11693-6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,2]]},"references-count":46,"journal-issue":{"issue":"4","published-print":{"date-parts":[[2026,2]]}},"alternative-id":["11693"],"URL":"https:\/\/doi.org\/10.1007\/s00521-025-11693-6","relation":{},"ISSN":["0941-0643","1433-3058"],"issn-type":[{"value":"0941-0643","type":"print"},{"value":"1433-3058","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,2]]},"assertion":[{"value":"8 December 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"5 December 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"18 February 2026","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}],"article-number":"53"}}