{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,7]],"date-time":"2026-04-07T16:17:11Z","timestamp":1775578631376,"version":"3.50.1"},"reference-count":40,"publisher":"Springer Science and Business Media LLC","issue":"5","license":[{"start":{"date-parts":[[2024,5,31]],"date-time":"2024-05-31T00:00:00Z","timestamp":1717113600000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2024,5,31]],"date-time":"2024-05-31T00:00:00Z","timestamp":1717113600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"funder":[{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["No.62201066"],"award-info":[{"award-number":["No.62201066"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100001809","name":"National Natural Science Foundation of China","doi-asserted-by":"publisher","award":["No.62001033"],"award-info":[{"award-number":["No.62001033"]}],"id":[{"id":"10.13039\/501100001809","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Complex Intell. Syst."],"published-print":{"date-parts":[[2024,10]]},"abstract":"<jats:title>Abstract<\/jats:title><jats:p>Sketch face recognition has recently gained significant attention in the field of computer vision due to its ability to quickly identify matched pairs of optical and sketch images. This technology has the potential to greatly improve the efficiency of law enforcement agencies in criminal investigations. However, there are still challenges that need to be addressed in sketch face recognition algorithms, such as modal differences and limited sample sizes. To overcome these issues, this study proposes a Residual Serialized Cross Grouping Transformer (RSCGT), which contains a residual serialized module to reduce the computation complexity, a two-layer Cross Grouping Transformer module that is capable of extracting modality-invariant context features, a domain adaptive module to mitigate the impact of modal differences. Additionally, we introduce a meta-learning training strategy to augment the generalization ability of this model. Experimental results demonstrate that the RSCGT achieves high accuracy in sketch face recognition tasks, even with small-scale datasets.<\/jats:p>","DOI":"10.1007\/s40747-024-01456-6","type":"journal-article","created":{"date-parts":[[2024,5,31]],"date-time":"2024-05-31T09:08:10Z","timestamp":1717146490000},"page":"6103-6116","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":8,"title":["Residual serialized cross grouping transformer for small scale sketch face recognition"],"prefix":"10.1007","volume":"10","author":[{"given":"Kangning","family":"Du","sequence":"first","affiliation":[]},{"given":"Yinkai","family":"Wang","sequence":"additional","affiliation":[]},{"given":"Jianqiang","family":"Yin","sequence":"additional","affiliation":[]},{"given":"Lin","family":"Cao","sequence":"additional","affiliation":[]},{"given":"Yanan","family":"Guo","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,5,31]]},"reference":[{"key":"1456_CR1","unstructured":"Vaswani A, Shazeer N, Parmar N, Uszkoreit J, Jones L, Gomez AN, Kaiser \u0141, Polosukhin I (2017) Attention is all you need. Adv Neural Inform Process Syst 30"},{"key":"1456_CR2","unstructured":"Dosovitskiy A, Beyer L, Kolesnikov A, Weissenborn D, Zhai X, Unterthiner T, Dehghani M, Minderer M, Heigold G, Gelly S, et al (2020) An image is worth 16x16 words: transformers for image recognition at scale. arXiv preprint arXiv:2010.11929"},{"key":"1456_CR3","doi-asserted-by":"crossref","unstructured":"Liu Z, Lin Y, Cao Y, Hu H, Wei Y, Zhang Z, Lin S, Guo B (2021) Swin transformer: Hierarchical vision transformer using shifted windows. In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 10012\u201310022","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"1456_CR4","doi-asserted-by":"crossref","unstructured":"Srinivas A, Lin T-Y, Parmar N, Shlens J, Abbeel P, Vaswani A (2021) Bottleneck transformers for visual recognition. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 16519\u201316529","DOI":"10.1109\/CVPR46437.2021.01625"},{"key":"1456_CR5","doi-asserted-by":"crossref","unstructured":"Wang H, Zhu Y, Green B, Adam H, Yuille A, Chen L-C (2020) Axial-deeplab: Stand-alone axial-attention for panoptic segmentation. In: European Conference on Computer Vision, pp. 108\u2013126. Springer","DOI":"10.1007\/978-3-030-58548-8_7"},{"issue":"3","key":"1456_CR6","doi-asserted-by":"publisher","first-page":"639","DOI":"10.1109\/TPAMI.2010.180","volume":"33","author":"B Klare","year":"2010","unstructured":"Klare B, Li Z, Jain AK (2010) Matching forensic sketches to mug shot photos. IEEE Trans Pattern Anal Mach Intell 33(3):639\u2013646","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"issue":"2","key":"1456_CR7","doi-asserted-by":"publisher","first-page":"91","DOI":"10.1023\/B:VISI.0000029664.99615.94","volume":"60","author":"DG Lowe","year":"2004","unstructured":"Lowe DG (2004) Distinctive image features from scale-invariant keypoints. Int J Comput Vis 60(2):91\u2013110","journal-title":"Int J Comput Vis"},{"issue":"7","key":"1456_CR8","doi-asserted-by":"publisher","first-page":"971","DOI":"10.1109\/TPAMI.2002.1017623","volume":"24","author":"T Ojala","year":"2002","unstructured":"Ojala T, Pietikainen M, Maenpaa T (2002) Multiresolution gray-scale and rotation invariant texture classification with local binary patterns. IEEE Trans Pattern Anal Mach Intell 24(7):971\u2013987","journal-title":"IEEE Trans Pattern Anal Mach Intell"},{"issue":"1","key":"1456_CR9","doi-asserted-by":"publisher","first-page":"191","DOI":"10.1109\/TIFS.2012.2228856","volume":"8","author":"H Han","year":"2012","unstructured":"Han H, Klare BF, Bonnen K, Jain AK (2012) Matching composite sketches to face photos: a component-based approach. IEEE Trans Inform Foren Secur 8(1):191\u2013204","journal-title":"IEEE Trans Inform Foren Secur"},{"issue":"1","key":"1456_CR10","doi-asserted-by":"publisher","first-page":"239","DOI":"10.1109\/TIFS.2012.2226580","volume":"8","author":"K Bonnen","year":"2012","unstructured":"Bonnen K, Klare BF, Jain AK (2012) Component-based representation in automated face recognition. IEEE Trans Inform Foren Secur 8(1):239\u2013253","journal-title":"IEEE Trans Inform Foren Secur"},{"key":"1456_CR11","doi-asserted-by":"publisher","first-page":"33","DOI":"10.1007\/BF02291478","volume":"40","author":"JC Gower","year":"1975","unstructured":"Gower JC (1975) Generalized procrustes analysis. Psychometrika 40:33\u201351","journal-title":"Psychometrika"},{"key":"1456_CR12","doi-asserted-by":"crossref","unstructured":"Zhang L, Lin L, Wu X, Ding S, Zhang L (2015) End-to-end photo-sketch generation via fully convolutional representation learning. In: Proceedings of the 5th ACM on International Conference on Multimedia Retrieval, pp. 627\u2013634","DOI":"10.1145\/2671188.2749321"},{"key":"1456_CR13","doi-asserted-by":"crossref","unstructured":"Mahfoud S, Daamouche A, Bengherabi M, Hadid A (2022) Hand-drawn face sketch recognition using rank-level fusion of image quality assessment metrics. Bull Polish Acad Sci Tech Sci 70(6)","DOI":"10.24425\/bpasts.2022.143554"},{"key":"1456_CR14","doi-asserted-by":"publisher","first-page":"9175","DOI":"10.1007\/s00521-019-04242-5","volume":"31","author":"W Wan","year":"2019","unstructured":"Wan W, Gao Y, Lee HJ (2019) Transfer deep feature learning for face sketch recognition. Neural Comput Appl 31:9175\u20139184","journal-title":"Neural Comput Appl"},{"key":"1456_CR15","doi-asserted-by":"crossref","unstructured":"Gui, S., Wang Z, Chen J, Zhou X, Zhang C, Cao Y (2023) Mt4mtl-kd: a multi-teacher knowledge distillation framework for triplet recognition. IEEE Trans Med Imaging","DOI":"10.1109\/TMI.2023.3345736"},{"key":"1456_CR16","doi-asserted-by":"publisher","first-page":"131749","DOI":"10.1109\/ACCESS.2019.2921382","volume":"7","author":"H Cheraghi","year":"2019","unstructured":"Cheraghi H, Lee HJ (2019) Sp-net: a novel framework to identify composite sketch. IEEE Access 7:131749\u2013131757","journal-title":"IEEE Access"},{"key":"1456_CR17","doi-asserted-by":"publisher","first-page":"872","DOI":"10.1109\/ACCESS.2020.3047108","volume":"9","author":"Y Guo","year":"2020","unstructured":"Guo Y, Cao L, Chen C, Du K, Fu C (2020) Domain alignment embedding network for sketch face recognition. IEEE Access 9:872\u2013882","journal-title":"IEEE Access"},{"key":"1456_CR18","doi-asserted-by":"publisher","first-page":"1019776","DOI":"10.3389\/fncom.2022.1019776","volume":"16","author":"B Chakravarthi","year":"2022","unstructured":"Chakravarthi B, Ng S-C, Ezilarasan M, Leung M-F (2022) Eeg-based emotion recognition using hybrid cnn and lstm classification. Front Comput Neurosci 16:1019776","journal-title":"Front Comput Neurosci"},{"key":"1456_CR19","doi-asserted-by":"crossref","unstructured":"Chen H, Wang Y, Guo T, Xu C, Deng Y, Liu Z, Ma S, Xu C, Xu C, Gao W (2021) Pre-trained image processing transformer. In: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 12299\u201312310","DOI":"10.1109\/CVPR46437.2021.01212"},{"key":"1456_CR20","first-page":"28877","volume":"34","author":"C Ying","year":"2021","unstructured":"Ying C, Cai T, Luo S, Zheng S, Ke G, He D, Shen Y, Liu T-Y (2021) Do transformers really perform badly for graph representation? Adv Neural Inform Process Syst 34:28877\u201328888","journal-title":"Adv Neural Inform Process Syst"},{"key":"1456_CR21","doi-asserted-by":"crossref","unstructured":"Wu B, Xu C, Dai X, Wan A, Zhang P, Yan Z, Tomizuka M, Gonzalez JE, Keutzer K, Vajda P (2021) Visual transformers: where do transformers really belong in vision models? In: Proceedings of the IEEE\/CVF International Conference on Computer Vision, pp. 599\u2013609","DOI":"10.1109\/ICCV48922.2021.00064"},{"key":"1456_CR22","unstructured":"Mehta S, Koncel-Kedziorski R, Rastegari M, Hajishirzi H (2019) Define: Deep factorized input token embeddings for neural sequence modeling. arXiv preprint arXiv:1911.12385"},{"key":"1456_CR23","doi-asserted-by":"crossref","unstructured":"Sangkloy P, Lu J, Fang C, Yu F, Hays J (2017) Scribbler: controlling deep image synthesis with sketch and color:5400\u20135409","DOI":"10.1109\/CVPR.2017.723"},{"issue":"10","key":"1456_CR24","doi-asserted-by":"publisher","first-page":"1403","DOI":"10.1587\/transfun.2021EAP1005","volume":"104","author":"L Cao","year":"2021","unstructured":"Cao L, Huo X, Guo Y, Du K (2021) Sketch face recognition via cascaded transformation generation network. IEICE Trans Fund Electron Commun Comput Sci 104(10):1403\u20131415","journal-title":"IEICE Trans Fund Electron Commun Comput Sci"},{"key":"1456_CR25","doi-asserted-by":"crossref","unstructured":"Zhang W, Wang X, Tang X (2011) Coupled information-theoretic encoding for face photo-sketch recognition. In: CVPR 2011, pp. 513\u2013520. IEEE","DOI":"10.1109\/CVPR.2011.5995324"},{"key":"1456_CR26","doi-asserted-by":"crossref","unstructured":"Galea C, Farrugia RA (2016) A large-scale software-generated face composite sketch database. In: 2016 International Conference of the Biometrics Special Interest Group (BIOSIG), pp. 1\u20135. IEEE","DOI":"10.1109\/BIOSIG.2016.7736902"},{"key":"1456_CR27","doi-asserted-by":"crossref","unstructured":"Wang N, Gao X, Li J (2018) Random sampling for fast face sketch synthesis. Elsevier","DOI":"10.1016\/j.patcog.2017.11.008"},{"key":"1456_CR28","doi-asserted-by":"crossref","unstructured":"Wan W, Lee HJ (2019) Generative adversarial multi-task learning for face sketch synthesis and recognition. In: 2019 IEEE International Conference on Image Processing (ICIP), pp. 4065\u20134069. IEEE","DOI":"10.1109\/ICIP.2019.8803617"},{"key":"1456_CR29","doi-asserted-by":"crossref","unstructured":"Kumar VA, Rajesh K, Antony R (2021) Cross domain descriptor for face sketch-photo image recognition. In: 2021 2nd International Conference on Advances in Computing, Communication, Embedded and Secure Systems (ACCESS), pp. 228\u2013231. IEEE","DOI":"10.1109\/ACCESS51619.2021.9563314"},{"key":"1456_CR30","doi-asserted-by":"publisher","first-page":"133","DOI":"10.1109\/TIFS.2022.3217738","volume":"18","author":"A George","year":"2022","unstructured":"George A, Mohammadi A, Marcel S (2022) Prepended domain transformer: heterogeneous face recognition without bells and whistles. IEEE Trans Inform Foren Secur 18:133\u2013146","journal-title":"IEEE Trans Inform Foren Secur"},{"key":"1456_CR31","doi-asserted-by":"crossref","unstructured":"Feng Y, Wu F, Huang Q, Jing X-Y, Ji Y, Yu J, Chen F, Han L (2019) Cross-modality multi-task deep metric learning for sketch face recognition. In: 2019 Chinese Automation Congress (CAC), pp. 2277\u20132281. IEEE","DOI":"10.1109\/CAC48633.2019.8996397"},{"issue":"8","key":"1456_CR32","doi-asserted-by":"publisher","first-page":"962","DOI":"10.1049\/cvi2.12209","volume":"17","author":"L Cao","year":"2023","unstructured":"Cao L, Yin J, Guo Y, Du K, Zhang F (2023) Sketch face recognition based on light semantic transformer network. IET Compute Vis 17(8):962\u2013976","journal-title":"IET Compute Vis"},{"key":"1456_CR33","doi-asserted-by":"crossref","unstructured":"Xiang J, Zhu G (2017) Joint face detection and facial expression recognition with mtcnn. In: 2017 4th International Conference on Information Science and Control Engineering (ICISCE), pp. 424\u2013427. IEEE","DOI":"10.1109\/ICISCE.2017.95"},{"key":"1456_CR34","unstructured":"Loshchilov I, Hutter F (2017) Decoupled weight decay regularization. arXiv preprint arXiv:1711.05101"},{"issue":"59","key":"1456_CR35","first-page":"1","volume":"17","author":"Y Ganin","year":"2016","unstructured":"Ganin Y, Ustinova E, Ajakan H, Germain P, Larochelle H, Laviolette F, March M, Lempitsky V (2016) Domain-adversarial training of neural networks. J Mach Learn Res 17(59):1\u201335","journal-title":"J Mach Learn Res"},{"key":"1456_CR36","unstructured":"Long M, Cao Z, Wang J, Jordan MI (2018) Conditional adversarial domain adaptation. Adv Neural Inform Process Syst 31"},{"key":"1456_CR37","unstructured":"Chen X, Wang S, Long M, Wang J (2019) Transferability vs. discriminability: Batch spectral penalization for adversarial domain adaptation. In: International Conference on Machine Learning, pp. 1081\u20131090. PMLR"},{"key":"1456_CR38","doi-asserted-by":"crossref","unstructured":"Mittal P, Jain A, Goswami G, Singh R, Vatsa M (2014) Recognizing composite sketches with digital face images via ssd dictionary. In: IEEE International Joint Conference on Biometrics, pp. 1\u20136. IEEE","DOI":"10.1109\/BTAS.2014.6996265"},{"key":"1456_CR39","doi-asserted-by":"publisher","first-page":"86","DOI":"10.1016\/j.inffus.2016.04.003","volume":"33","author":"P Mittal","year":"2017","unstructured":"Mittal P, Jain A, Goswami G, Vatsa M, Singh R (2017) Composite sketch recognition using saliency and attribute feedback. Inform Fus 33:86\u201399","journal-title":"Inform Fus"},{"key":"1456_CR40","doi-asserted-by":"crossref","unstructured":"Mittal P, Vatsa M, Singh R (2015) Composite sketch recognition via deep network-a transfer learning approach. In: 2015 International Conference on Biometrics (ICB), pp. 251\u2013256. IEEE","DOI":"10.1109\/ICB.2015.7139092"}],"container-title":["Complex &amp; Intelligent Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s40747-024-01456-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s40747-024-01456-6\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s40747-024-01456-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,9,14]],"date-time":"2024-09-14T15:07:32Z","timestamp":1726326452000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s40747-024-01456-6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,5,31]]},"references-count":40,"journal-issue":{"issue":"5","published-print":{"date-parts":[[2024,10]]}},"alternative-id":["1456"],"URL":"https:\/\/doi.org\/10.1007\/s40747-024-01456-6","relation":{},"ISSN":["2199-4536","2198-6053"],"issn-type":[{"value":"2199-4536","type":"print"},{"value":"2198-6053","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,5,31]]},"assertion":[{"value":"7 December 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"20 April 2024","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"31 May 2024","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors have no Conflict of interest in the publication of this paper.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}