{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,1,9]],"date-time":"2026-01-09T18:10:45Z","timestamp":1767982245662,"version":"3.49.0"},"reference-count":52,"publisher":"Springer Science and Business Media LLC","issue":"19","license":[{"start":{"date-parts":[[2023,12,12]],"date-time":"2023-12-12T00:00:00Z","timestamp":1702339200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,12,12]],"date-time":"2023-12-12T00:00:00Z","timestamp":1702339200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["52204177"],"award-info":[{"award-number":["52204177"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["52304182"],"award-info":[{"award-number":["52304182"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100012226","name":"Fundamental Research Funds for the Central Universities","doi-asserted-by":"publisher","award":["2020QN49"],"award-info":[{"award-number":["2020QN49"]}],"id":[{"id":"10.13039\/501100012226","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Multimed Tools Appl"],"DOI":"10.1007\/s11042-023-17675-x","type":"journal-article","created":{"date-parts":[[2023,12,12]],"date-time":"2023-12-12T07:02:31Z","timestamp":1702364551000},"page":"57811-57828","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":9,"title":["Task-like training paradigm in CLIP for zero-shot sketch-based image retrieval"],"prefix":"10.1007","volume":"83","author":[{"given":"Haoxiang","family":"Zhang","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4475-845X","authenticated-orcid":false,"given":"Deqiang","family":"Cheng","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3345-9665","authenticated-orcid":false,"given":"He","family":"Jiang","sequence":"additional","affiliation":[]},{"given":"Jingjing","family":"Liu","sequence":"additional","affiliation":[]},{"given":"Qiqi","family":"Kou","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2023,12,12]]},"reference":[{"key":"17675_CR1","doi-asserted-by":"crossref","unstructured":"Rui Y, Huang TS, Chang S-F (1999) Image retrieval: current techniques, promising directions, and open issues. J Vis Commun Image Represent 10(1):39\u201362","DOI":"10.1006\/jvci.1999.0413"},{"issue":"8","key":"17675_CR2","doi-asserted-by":"publisher","first-page":"831","DOI":"10.1109\/34.531802","volume":"18","author":"DL Swets","year":"1996","unstructured":"Swets DL, Weng JJ (1996) Using discriminant eigenfeatures for image retrieval. IEEE Trans Pattern Anal Mach Intell 18(8):831\u2013836","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"issue":"7","key":"17675_CR3","doi-asserted-by":"publisher","first-page":"790","DOI":"10.1016\/j.cviu.2013.02.005","volume":"117","author":"R Hu","year":"2013","unstructured":"Hu R, Collomosse J (2013) A performance evaluation of gradient field hog descriptor for sketch based image retrieval. Comput Vis Image Underst 117(7):790\u2013806","journal-title":"Comput Vis Image Underst"},{"key":"17675_CR4","doi-asserted-by":"crossref","unstructured":"Liu L, Shen F, Shen Y, Liu X, Shao L (2017) Deep sketch hashing: fast free-hand sketch-based image retrieval. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 2862\u20132871","DOI":"10.1109\/CVPR.2017.247"},{"key":"17675_CR5","doi-asserted-by":"crossref","unstructured":"Han C, Cheng D, Kou Q, Wang X, Chen L, Zhao J (2022) Self-supervised monocular depth estimation with multi-scale structure similarity loss. Multimedia Tools and Applications, 1\u201316","DOI":"10.1007\/s11042-022-14012-6"},{"key":"17675_CR6","doi-asserted-by":"crossref","unstructured":"Jiang H, Asad M, Liu J, Zhang H, Cheng D (2023) Single image detail enhancement via metropolis theorem. Multimedia Tools and Applications, 1\u201325","DOI":"10.1007\/s11042-023-16914-5"},{"key":"17675_CR7","doi-asserted-by":"publisher","first-page":"264","DOI":"10.1109\/LSP.2020.3043972","volume":"28","author":"Z Yang","year":"2021","unstructured":"Yang Z, Zhu X, Qian J, Liu P (2021) Dark-aware network for fine-grained sketch-based image retrieval. IEEE Signal Process Lett 28:264\u2013268","journal-title":"IEEE Signal Process Lett"},{"issue":"12","key":"17675_CR8","doi-asserted-by":"publisher","first-page":"1349","DOI":"10.1109\/34.895972","volume":"22","author":"AWM Smeulders","year":"2000","unstructured":"Smeulders AWM, Worring M, Santini S, Gupta A, Jain R (2000) Content-based image retrieval at the end of the early years. IEEE Trans Pattern Anal Mach Intell 22(12):1349\u20131380","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"17675_CR9","doi-asserted-by":"publisher","first-page":"2833","DOI":"10.1109\/TMM.2020.3017918","volume":"23","author":"T Dutta","year":"2020","unstructured":"Dutta T, Singh A, Biswas S (2020) Styleguide: zero-shot sketch-based image retrieval using style-guided image generation. IEEE Trans Multimed 23:2833\u20132842","journal-title":"IEEE Trans Multimed"},{"issue":"16","key":"17675_CR10","doi-asserted-by":"publisher","first-page":"13469","DOI":"10.1007\/s00521-022-07169-6","volume":"34","author":"S Jiao","year":"2022","unstructured":"Jiao S, Han X, Xiong F, Yang X, Han H, He L, Kuang L (2022) Deep cross-modal discriminant adversarial learning for zero-shot sketch-based image retrieval. Neural Comput & Applic 34(16):13469\u201313483","journal-title":"Neural Comput & Applic"},{"key":"17675_CR11","doi-asserted-by":"crossref","unstructured":"Zhang H, Liu S, Zhang C, Ren W, Wang R, Cao X (2016) Sketchnet: sketch classification with web images. In: Proceedings of the IEEE conference on computer vision and pattern recognition, pp 1105\u20131113","DOI":"10.1109\/CVPR.2016.125"},{"issue":"11","key":"17675_CR12","doi-asserted-by":"publisher","first-page":"2332","DOI":"10.1109\/TPAMI.2015.2408354","volume":"37","author":"Y Fu","year":"2015","unstructured":"Fu Y, Hospedales TM, Xiang T, Gong S (2015) Transductive multi-view zero-shot learning. IEEE Trans Pattern Anal Mach Intell 37(11):2332\u20132345","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"key":"17675_CR13","doi-asserted-by":"crossref","unstructured":"Yang Y, Luo YD, Chen WL, Shen FM, Shao J, Shen HT (2016) ACM: zero-Shot Hashing via Transferring Supervised Knowledge","DOI":"10.1145\/2964284.2964319"},{"key":"17675_CR14","doi-asserted-by":"crossref","unstructured":"Zhang Z, Saligrama V (2015) Zero-shot learning via semantic similarity embedding. In: In Proceedings of the IEEE international conference on computer vision, pp 4166\u20134174","DOI":"10.1109\/ICCV.2015.474"},{"key":"17675_CR15","doi-asserted-by":"publisher","DOI":"10.1016\/j.patcog.2022.108528","volume":"126","author":"O Tursun","year":"2022","unstructured":"Tursun O, Denman S, Sridharan S, Goan E, Fookes C (2022) An efficient framework for zero-shot sketch-based image retrieval. Pattern Recogn 126:108528","journal-title":"Pattern Recogn"},{"key":"17675_CR16","doi-asserted-by":"crossref","unstructured":"Jing T, Xia H, Hamm J, Ding Z (2022) Augmented multimodality fusion for generalized zero-shot sketch-based visual retrieval. IEEE Trans Image Process 31:3657\u20133668","DOI":"10.1109\/TIP.2022.3173815"},{"key":"17675_CR17","doi-asserted-by":"crossref","unstructured":"Sain A, Bhunia AK, Chowdhury PN, Koley S, Xiang T, Song Y-Z (2023) CLIP for all things zero-shot sketch-based image retrieval, Fine-Grained or Not. arXiv:2303.13440","DOI":"10.1109\/CVPR52729.2023.00271"},{"key":"17675_CR18","doi-asserted-by":"crossref","unstructured":"Zhu J, Xu X, Shen F, Lee RK-W, Wang Z, Shen HT (2020) Ocean: a dual learning approach for generalized zero-shot sketch-based image retrieval. In: 2020 IEEE international conference on multimedia and expo (ICME), pp 1\u20136","DOI":"10.1109\/ICME46284.2020.9102940"},{"key":"17675_CR19","doi-asserted-by":"crossref","unstructured":"Xu X, Yang M, Yang Y, Wang H (2020) Progressive domain-independent feature decomposition network for zero-shot sketch-based image retrieval. arXiv:2003.09869","DOI":"10.24963\/ijcai.2020\/137"},{"key":"17675_CR20","doi-asserted-by":"crossref","unstructured":"Dey S, Riba P, Dutta A, Llad JL, Song, Y-Z (2019) Doodle to search: practical zero-shot sketch-based image retrieval. In: 2019 IEEE\/CVF Conference on computer vision and pattern recognition (CVPR), pp 2174\u20132183","DOI":"10.1109\/CVPR.2019.00228"},{"key":"17675_CR21","doi-asserted-by":"crossref","unstructured":"Liu Q, Xie L, Wang H, Yuille AL (2019) Semantic-aware knowledge preservation for zero-shot sketch-based image retrieval. In: Proceedings of the IEEE\/CVF international conference on computer vision, pp 3662\u20133671","DOI":"10.1109\/ICCV.2019.00376"},{"key":"17675_CR22","doi-asserted-by":"crossref","unstructured":"Wang Z, Wang H, Yan J, Wu A, Deng C (2021) Domain-smoothing network for zero-shot sketch-based image retrieval. arXiv:2106.11841","DOI":"10.24963\/ijcai.2021\/158"},{"key":"17675_CR23","doi-asserted-by":"crossref","unstructured":"Wang W, Shi Y, Chen S, Peng Q, Zheng F, You X (2021) Norm-guided adaptive visual embedding for zero-shot sketch-based image retrieval. In: IJCAI, pp 1106\u20131112","DOI":"10.24963\/ijcai.2021\/153"},{"key":"17675_CR24","doi-asserted-by":"crossref","unstructured":"Zhang H, Jiang H, Wang Z, Cheng D (2023) Ontology-aware network for zero-shot sketch-based image retrieval. In Proceedings of the IEEE international conference on acoustics, speech and signal processing (ICASSP), pp 1\u20135","DOI":"10.1109\/ICASSP49357.2023.10094901"},{"key":"17675_CR25","unstructured":"Zhan Y-W, Luo X, Wang Y, Chen Z-D, Xu X-S (2022) Three-stream joint network for zero-shot sketch-based image retrieval. arXiv:2204.05666"},{"key":"17675_CR26","doi-asserted-by":"crossref","unstructured":"Wang K, Wang Y, Xu X, Liu X, Ou W, Lu H (2022) Prototype-based selective knowledge distillation for zero-shot sketch based image retrieval. In Proceedings of the 30th ACM international conference on multimedia, pp 601\u2013609","DOI":"10.1145\/3503161.3548382"},{"key":"17675_CR27","unstructured":"Radford A, Kim JW, Hallacy C, Ramesh A, Goh G, Agarwal S, Sastry G, Askell A, Mishkin P, Clark J (2021) Learning transferable visual models from natural language supervision. In: International conference on machine learning (ICML), pp 8748\u20138763"},{"key":"17675_CR28","doi-asserted-by":"crossref","unstructured":"Lin F, Li M, Li D, Hospedales T, Song Y-Z, Qi Y (2023) Zero-shot everything sketch-based image retrieval, and in explainable style. arXiv:2303.14348","DOI":"10.1109\/CVPR52729.2023.02236"},{"key":"17675_CR29","doi-asserted-by":"crossref","unstructured":"Shen Y, Liu L, Shen F, Shao L (2018) Zero-shot sketch-image hashing. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR), pp. 3598\u20133607","DOI":"10.1109\/CVPR.2018.00379"},{"key":"17675_CR30","doi-asserted-by":"publisher","first-page":"12943","DOI":"10.1609\/aaai.v34i07.6993","volume":"34","author":"Z Zhang","year":"2020","unstructured":"Zhang Z, Zhang Y, Feng R, Zhang T, Fan W (2020) Zero-shot sketch-based image retrieval via graph convolution network. In Proceedings of the conference on association for the advance of artificial intelligence (AAAI) 34:12943\u201312950","journal-title":"In Proceedings of the conference on association for the advance of artificial intelligence (AAAI)"},{"key":"17675_CR31","doi-asserted-by":"crossref","unstructured":"Dutta A, Akata Z (2019) Semantically tied paired cycle consistency for zero-shot sketch-based image retrieval. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (CVPR), pp 5089\u20135098","DOI":"10.1109\/CVPR.2019.00523"},{"key":"17675_CR32","doi-asserted-by":"publisher","DOI":"10.1016\/j.cviu.2022.103412","volume":"218","author":"J Li","year":"2022","unstructured":"Li J, Ling Z, Niu L, Zhang L (2022) Zero-shot sketch-based image retrieval with structure-aware asymmetric disentanglement. Comput Vis Image Underst 218:103412","journal-title":"Comput Vis Image Underst"},{"key":"17675_CR33","doi-asserted-by":"publisher","first-page":"8892","DOI":"10.1109\/TIP.2020.3020383","volume":"29","author":"C Deng","year":"2020","unstructured":"Deng C, Xu X, Wang H, Yang M, Tao D (2020) Progressive cross-modal semantic network for zero-shot sketch-based image retrieval. IEEE Trans Image Process 29:8892\u20138902","journal-title":"IEEE Trans Image Process"},{"key":"17675_CR34","unstructured":"Huang Z, Sun Y, Han C, Gao C, Sang N (2021) Modality-aware triplet hard mining for zero-shot sketch-based image retrieval. arXiv:2112.07966"},{"issue":"6","key":"17675_CR35","doi-asserted-by":"publisher","first-page":"84","DOI":"10.1145\/3065386","volume":"60","author":"A Krizhevsky","year":"2017","unstructured":"Krizhevsky A, Sutskever I, Hinton GE (2017) Imagenet classification with deep convolutional neural networks. Commun ACM 60(6):84\u201390","journal-title":"Commun ACM"},{"key":"17675_CR36","doi-asserted-by":"crossref","unstructured":"Oksuz K, Cam BC, Kalkan S, Akbas E (2020) Imbalance problems in object detection: a review. IEEE Trans Pattern Anal Mach Intell 43(10):3388\u20133415","DOI":"10.1109\/TPAMI.2020.2981890"},{"key":"17675_CR37","doi-asserted-by":"crossref","unstructured":"Liu X, He P, Chen W, Gao J (2019) Multi-task deep neural networks for natural language understanding. arXiv:1901.11504","DOI":"10.18653\/v1\/P19-1441"},{"key":"17675_CR38","unstructured":"Kendall A, Gal Y, Cipolla R (2018) Multi-task learning using uncertainty to weigh losses for scene geometry and semantics. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR)"},{"key":"17675_CR39","unstructured":"Zhang R, Fang R, Zhang W, Gao P, Li K, Dai J, Qiao Y, Li H (2021) Tip-adapter: training-free clip-adapter for better vision-language modeling. arXiv:2111.03930"},{"key":"17675_CR40","unstructured":"Almeida F, Xex G (2019) Word embeddings: a survey. arXiv:1901.09069"},{"key":"17675_CR41","doi-asserted-by":"crossref","unstructured":"Ermolov A, Mirvakhabova L, Khrulkov V, Sebe N, Oseledets I (2022) Hyperbolic vision transformers: combining improvements in metric learning. Proceedings of the IEEE computer society conference on computer vision and pattern recognition 2022-June, 7399\u20137409","DOI":"10.1109\/CVPR52688.2022.00726"},{"key":"17675_CR42","doi-asserted-by":"crossref","unstructured":"Tian J, Xu X, Shen, F, Yang Y, Shen HT (2022) TVT: three-way vision transformer through multi-modal hypersphere learning for zero-shot sketch-based image retrieval. In Proceedings of the 36th AAAI conference on artificial intelligence, AAAI 2022 36:2370\u20132378","DOI":"10.1609\/aaai.v36i2.20136"},{"key":"17675_CR43","doi-asserted-by":"crossref","unstructured":"Yelamarthi SK, Reddy SK, Mishra A, Mittal A (2018) A zero-shot framework for sketch based image retrieval. In Proceedings of the European conference on computer vision (ECCV), pp 300\u2013317","DOI":"10.1007\/978-3-030-01225-0_19"},{"key":"17675_CR44","doi-asserted-by":"crossref","unstructured":"Lin K, Xu X, Gao L, Wang Z, Shen HT (2020) Learning cross-aligned latent embeddings for zero-shot cross-modal retrieval. In Proceedings of the AAAI conference on artificial intelligence 34:11515\u201311522","DOI":"10.1609\/aaai.v34i07.6817"},{"key":"17675_CR45","doi-asserted-by":"crossref","unstructured":"Wang H, Deng C, Liu T, Tao D (2021) Transferable coupled network for zero-shot sketch-based image retrieval. IEEE Trans Pattern Anal Mach Intell","DOI":"10.24963\/ijcai.2021\/158"},{"key":"17675_CR46","unstructured":"Liang J, Zhou T, Liu D, Wang W (2023) CLUSTSEG: clustering for Universal Segmentation"},{"issue":"10","key":"17675_CR47","doi-asserted-by":"publisher","first-page":"6642","DOI":"10.1109\/TCSVT.2022.3177320","volume":"32","author":"L Yan","year":"2022","unstructured":"Yan L, Ma S, Wang Q, Chen Y, Zhang X, Savakis A, Liu D (2022) Video captioning using global-local representation. IEEE Trans Circ Syst Vid Technol 32(10):6642\u20136656","journal-title":"IEEE Trans Circ Syst Vid Technol"},{"key":"17675_CR48","first-page":"12826","volume":"35","author":"W Wang","year":"2022","unstructured":"Wang W, Liang J, Liu D (2022) Learning equivariant segmentation with instance-unique querying. Adv Neural Inform Process Syst 35:12826\u201312840","journal-title":"Adv Neural Inform Process Syst"},{"key":"17675_CR49","doi-asserted-by":"crossref","unstructured":"Tian J, Xu X, Wang Z, Shen F, Liu X (2021) Relationship-preserving knowledge distillation for zero-shot sketch based image retrieval. In Proceedings of the 29th ACM international conference on multimedia, pp 5473\u20135481","DOI":"10.1145\/3474085.3475676"},{"key":"17675_CR50","unstructured":"Maaten L, Hinton G (2008) Visualizing data using t-SNE. J Mach Learn Res 9:2579\u20132605"},{"key":"17675_CR51","doi-asserted-by":"crossref","unstructured":"Han C, Wang Q, Cui Y, Cao Z, Wang W, Qi S, Liu D (2023) E2VPT: an effective and efficient approach for visual prompt tuning. In Proceedings of the IEEE\/CVF International conference on computer vision (ICCV), pp 17491\u201317502","DOI":"10.1109\/ICCV51070.2023.01604"},{"key":"17675_CR52","doi-asserted-by":"crossref","unstructured":"Yan L, Han C, Xu Z, Liu D, Wang Q (2023) Prompt learns prompt: exploring knowledge-aware generative prompt collaboration for video captioning. In Proceedings of international joint conference on artificial intelligence (IJCAI), pp 1622\u20131630","DOI":"10.24963\/ijcai.2023\/180"}],"container-title":["Multimedia Tools and Applications"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-17675-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11042-023-17675-x\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11042-023-17675-x.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,5,25]],"date-time":"2024-05-25T06:17:17Z","timestamp":1716617837000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11042-023-17675-x"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,12,12]]},"references-count":52,"journal-issue":{"issue":"19","published-online":{"date-parts":[[2024,6]]}},"alternative-id":["17675"],"URL":"https:\/\/doi.org\/10.1007\/s11042-023-17675-x","relation":{},"ISSN":["1573-7721"],"issn-type":[{"value":"1573-7721","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,12,12]]},"assertion":[{"value":"12 October 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"2 November 2023","order":2,"name":"revised","label":"Revised","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"18 November 2023","order":3,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"12 December 2023","order":4,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors declare that they are not aware of the possibility of competing for financial interests or personal relationships affecting the work reported in this paper.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Competing interest"}}]}}