{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,29]],"date-time":"2026-05-29T02:01:38Z","timestamp":1780020098919,"version":"3.53.1"},"reference-count":50,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Knowledge-Based Systems"],"published-print":{"date-parts":[[2026,7]]},"DOI":"10.1016\/j.knosys.2026.116181","type":"journal-article","created":{"date-parts":[[2026,5,16]],"date-time":"2026-05-16T00:02:15Z","timestamp":1778889735000},"page":"116181","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Distinguishing visually similar actions: Prompt-guided Semantic Prototype Modulation for few-shot action recognition"],"prefix":"10.1016","volume":"346","author":[{"ORCID":"https:\/\/orcid.org\/0009-0005-6939-0101","authenticated-orcid":false,"given":"Xiaoyang","family":"Li","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3932-7890","authenticated-orcid":false,"given":"Mingming","family":"Lu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Ruiqi","family":"Wang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Hao","family":"Li","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zewei","family":"Le","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"78","reference":[{"issue":"3","key":"10.1016\/j.knosys.2026.116181_b1","doi-asserted-by":"crossref","first-page":"167","DOI":"10.1007\/s40747-024-01774-9","article-title":"MANet: Motion-aware network for video action recognition","volume":"11","author":"Li","year":"2025","journal-title":"Complex Intell. Syst."},{"key":"10.1016\/j.knosys.2026.116181_b2","article-title":"Efficient motion-centric CLIP for compressed video action recognition","author":"Zhou","year":"2025","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.knosys.2026.116181_b3","series-title":"Pacific Rim International Conference on Artificial Intelligence","first-page":"195","article-title":"Action recognition based on multi-perspective feature excitation","author":"Li","year":"2024"},{"key":"10.1016\/j.knosys.2026.116181_b4","doi-asserted-by":"crossref","unstructured":"M. Wang, Z. Huang, X. Kong, G. Shen, G. Dai, J. Wang, Y. Liu, Action Detail Matters: Refining Video Recognition with Local Action Queries, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2025, pp. 19132\u201319142.","DOI":"10.1109\/CVPR52734.2025.01782"},{"key":"10.1016\/j.knosys.2026.116181_b5","doi-asserted-by":"crossref","unstructured":"T. Perrett, S. Sinha, T. Burghardt, M. Mirmehdi, D. Damen, Use Your Head: Improving Long-Tail Video Recognition, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 2415\u20132425.","DOI":"10.1109\/CVPR52729.2023.00239"},{"key":"10.1016\/j.knosys.2026.116181_b6","doi-asserted-by":"crossref","DOI":"10.1016\/j.engappai.2025.111818","article-title":"Causality thinking for large-scale long-tailed video action recognition","volume":"160","author":"Zhang","year":"2025","journal-title":"Eng. Appl. Artif. Intell."},{"key":"10.1016\/j.knosys.2026.116181_b7","series-title":"European Conference on Computer Vision","first-page":"320","article-title":"Long-tail temporal action segmentation with group-wise temporal logit adjustment","author":"Pang","year":"2024"},{"issue":"1","key":"10.1016\/j.knosys.2026.116181_b8","doi-asserted-by":"crossref","first-page":"48","DOI":"10.1007\/s00530-024-01624-1","article-title":"Long-tailed video recognition via majority-guided diffusion model","volume":"31","author":"Hu","year":"2025","journal-title":"Multimedia Syst."},{"key":"10.1016\/j.knosys.2026.116181_b9","doi-asserted-by":"crossref","DOI":"10.1016\/j.patcog.2023.110110","article-title":"HyRSM++: Hybrid relation guided temporal set matching for few-shot action recognition","volume":"147","author":"Wang","year":"2024","journal-title":"Pattern Recognit."},{"key":"10.1016\/j.knosys.2026.116181_b10","doi-asserted-by":"crossref","unstructured":"H. Rasheed, M.U. Khattak, M. Maaz, S. Khan, F.S. Khan, Fine-Tuned CLIP Models Are Efficient Video Learners, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 6545\u20136554.","DOI":"10.1109\/CVPR52729.2023.00633"},{"key":"10.1016\/j.knosys.2026.116181_b11","series-title":"EMCLR 2024 \u2013 Proceedings of the 1st International Workshop on Efficient Multimedia Computing under Limited Resources, Co-Located with MM 2024","first-page":"39","article-title":"Exploring the adaptation strategy of CLIP for few-shot action recognition","author":"Cao","year":"2024"},{"key":"10.1016\/j.knosys.2026.116181_b12","doi-asserted-by":"crossref","DOI":"10.1016\/j.neunet.2025.107211","article-title":"Combining various training and adaptation algorithms for ensemble few-shot classification","volume":"185","author":"Jiang","year":"2025","journal-title":"Neural Netw."},{"issue":"1","key":"10.1016\/j.knosys.2026.116181_b13","doi-asserted-by":"crossref","first-page":"45","DOI":"10.1007\/s10044-026-01627-w","article-title":"Few-shot classification via semi-supervised density-based agglomerative clustering","volume":"29","author":"Niu","year":"2026","journal-title":"Pattern Anal. Appl."},{"key":"10.1016\/j.knosys.2026.116181_b14","series-title":"Advances in Neural Information Processing Systems","article-title":"Prototypical networks for few-shot learning","author":"Snell","year":"2017"},{"key":"10.1016\/j.knosys.2026.116181_b15","doi-asserted-by":"crossref","unstructured":"L. Zhu, Y. Yang, Compound Memory Networks for Few-Shot Video Classification, in: Proceedings of the European Conference on Computer Vision, ECCV, 2018, pp. 751\u2013766.","DOI":"10.1007\/978-3-030-01234-2_46"},{"issue":"1","key":"10.1016\/j.knosys.2026.116181_b16","first-page":"273","article-title":"Label independent memory for semi-supervised few-shot video classification","volume":"44","author":"Zhu","year":"2020","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.knosys.2026.116181_b17","series-title":"European Conference on Computer Vision","first-page":"525","article-title":"Few-shot action recognition with permutation-invariant attention","author":"Zhang","year":"2020"},{"key":"10.1016\/j.knosys.2026.116181_b18","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"10618","article-title":"Few-shot video classification via temporal alignment","author":"Cao","year":"2020"},{"key":"10.1016\/j.knosys.2026.116181_b19","doi-asserted-by":"crossref","unstructured":"T. Perrett, A. Masullo, T. Burghardt, M. Mirmehdi, D. Damen, Temporal-Relational Crosstransformers for Few-Shot Action Recognition, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 475\u2013484.","DOI":"10.1109\/CVPR46437.2021.00054"},{"key":"10.1016\/j.knosys.2026.116181_b20","doi-asserted-by":"crossref","unstructured":"X. Wang, S. Zhang, Z. Qing, M. Tang, Z. Zuo, C. Gao, R. Jin, N. Sang, Hybrid Relation Guided Set Matching for Few-Shot Action Recognition, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 19948\u201319957.","DOI":"10.1109\/CVPR52688.2022.01932"},{"key":"10.1016\/j.knosys.2026.116181_b21","doi-asserted-by":"crossref","unstructured":"A. Thatipelli, S. Narayan, S. Khan, R.M. Anwer, F.S. Khan, B. Ghanem, Spatio-Temporal Relation Modeling for Few-Shot Action Recognition, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 19958\u201319967.","DOI":"10.1109\/CVPR52688.2022.01933"},{"key":"10.1016\/j.knosys.2026.116181_b22","doi-asserted-by":"crossref","unstructured":"J. Wu, T. Zhang, Z. Zhang, F. Wu, Y. Zhang, Motion-Modulated Temporal Fragment Alignment Network for Few-Shot Action Recognition, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 9151\u20139160.","DOI":"10.1109\/CVPR52688.2022.00894"},{"key":"10.1016\/j.knosys.2026.116181_b23","first-page":"1404","article-title":"TA2N: Two-stage action alignment network for few-shot action recognition","volume":"vol. 36, no. 2","author":"Li","year":"2022"},{"key":"10.1016\/j.knosys.2026.116181_b24","doi-asserted-by":"crossref","DOI":"10.1016\/j.cviu.2023.103911","article-title":"Hierarchical compositional representations for few-shot action recognition","volume":"240","author":"Li","year":"2024","journal-title":"Comput. Vis. Image Underst."},{"key":"10.1016\/j.knosys.2026.116181_b25","doi-asserted-by":"crossref","unstructured":"X. Wang, S. Zhang, Z. Qing, C. Gao, Y. Zhang, D. Zhao, N. Sang, MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Action Recognition, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 18011\u201318021.","DOI":"10.1109\/CVPR52729.2023.01727"},{"key":"10.1016\/j.knosys.2026.116181_b26","series-title":"Proceedings of the 38th International Conference on Machine Learning","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021"},{"issue":"6","key":"10.1016\/j.knosys.2026.116181_b27","doi-asserted-by":"crossref","first-page":"1899","DOI":"10.1007\/s11263-023-01917-4","article-title":"CLIP-guided prototype modulating for few-shot action recognition","volume":"132","author":"Wang","year":"2024","journal-title":"Int. J. Comput. Vis."},{"issue":"22","key":"10.1016\/j.knosys.2026.116181_b28","doi-asserted-by":"crossref","first-page":"11196","DOI":"10.1007\/s10489-024-05617-5","article-title":"Cross-modal guides spatio-temporal enrichment network for few-shot action recognition","volume":"54","author":"Chen","year":"2024","journal-title":"Appl. Intell."},{"key":"10.1016\/j.knosys.2026.116181_b29","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2024.112539","article-title":"Multi-view distillation based on multi-modal fusion for few-shot action recognition (CLIP-MDMF)","volume":"304","author":"Guo","year":"2024","journal-title":"Knowl.-Based Syst."},{"key":"10.1016\/j.knosys.2026.116181_b30","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2024.128649","article-title":"Consistency prototype module and motion compensation for few-shot action recognition (CLIP-CPM2C)","volume":"611","author":"Guo","year":"2025","journal-title":"Neurocomputing"},{"key":"10.1016\/j.knosys.2026.116181_b31","doi-asserted-by":"crossref","DOI":"10.1016\/j.knosys.2025.113965","article-title":"CLIP-MEI: Exploit more effective information for few-shot action recognition","author":"Deng","year":"2025","journal-title":"Knowl.-Based Syst."},{"key":"10.1016\/j.knosys.2026.116181_b32","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2024.127819","article-title":"A dual-prototype network combining query-specific and class-specific attentive learning for few-shot action recognition","volume":"598","author":"Jiang","year":"2024","journal-title":"Neurocomputing"},{"key":"10.1016\/j.knosys.2026.116181_b33","doi-asserted-by":"crossref","unstructured":"S. Lee, W. Moon, H.S. Seong, J.-P. Heo, Temporal Alignment-Free Video Matching for Few-Shot Action Recognition, in: Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, 2025, pp. 5412\u20135421.","DOI":"10.1109\/CVPR52734.2025.00509"},{"key":"10.1016\/j.knosys.2026.116181_b34","series-title":"European Conference on Computer Vision","first-page":"20","article-title":"Temporal segment networks: Towards good practices for deep action recognition","author":"Wang","year":"2016"},{"issue":"1","key":"10.1016\/j.knosys.2026.116181_b35","doi-asserted-by":"crossref","first-page":"625","DOI":"10.1109\/TNNLS.2023.3331841","article-title":"ActionCLIP: Adapting language-image pretrained models for video action recognition","volume":"36","author":"Wang","year":"2025","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"10.1016\/j.knosys.2026.116181_b36","doi-asserted-by":"crossref","unstructured":"X. Ni, Y. Liu, H. Wen, Y. Ji, J. Xiao, Y. Yang, Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition, in: Proceedings of the 2024 International Conference on Multimedia Retrieval, 2024, pp. 1\u201310.","DOI":"10.1145\/3652583.3658044"},{"key":"10.1016\/j.knosys.2026.116181_b37","doi-asserted-by":"crossref","unstructured":"J. Carreira, A. Zisserman, Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset, in: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 6299\u20136308.","DOI":"10.1109\/CVPR.2017.502"},{"key":"10.1016\/j.knosys.2026.116181_b38","doi-asserted-by":"crossref","unstructured":"R. Goyal, S. Ebrahimi Kahou, V. Michalski, J. Materzynska, S. Westphal, H. Kim, V. Haenel, I. Fruend, P. Yianilos, M. Mueller-Freitag, et al., The \u201cSomething Something\u201d Video Database for Learning and Evaluating Visual Common Sense, in: Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 5842\u20135850.","DOI":"10.1109\/ICCV.2017.622"},{"key":"10.1016\/j.knosys.2026.116181_b39","series-title":"UCF101: A dataset of 101 human actions classes from videos in the wild","author":"Soomro","year":"2012"},{"key":"10.1016\/j.knosys.2026.116181_b40","series-title":"2011 International Conference on Computer Vision","first-page":"2556","article-title":"HMDB: A large video database for human motion recognition","author":"Kuehne","year":"2011"},{"key":"10.1016\/j.knosys.2026.116181_b41","series-title":"Adam: A method for stochastic optimization","author":"Kingma","year":"2014"},{"issue":"1","key":"10.1016\/j.knosys.2026.116181_b42","doi-asserted-by":"crossref","first-page":"3","DOI":"10.1137\/120875909","article-title":"Euclidean distance geometry and applications","volume":"56","author":"Liberti","year":"2014","journal-title":"SIAM Rev."},{"key":"10.1016\/j.knosys.2026.116181_b43","doi-asserted-by":"crossref","DOI":"10.1016\/j.cviu.2025.104322","article-title":"Joint image-instance spatial\u2013temporal attention for few-shot action recognition","volume":"254","author":"Qian","year":"2025","journal-title":"Comput. Vis. Image Underst."},{"key":"10.1016\/j.knosys.2026.116181_b44","doi-asserted-by":"crossref","first-page":"2450","DOI":"10.1109\/TMM.2024.3521712","article-title":"Hierarchical motion-enhanced matching framework for few-shot action recognition","volume":"27","author":"Gao","year":"2024","journal-title":"IEEE Trans. Multimed."},{"key":"10.1016\/j.knosys.2026.116181_b45","article-title":"Multi-temporal ensemble for few-shot action recognition","author":"Jiang","year":"2025","journal-title":"Expert Syst. Appl."},{"key":"10.1016\/j.knosys.2026.116181_b46","series-title":"European Conference on Computer Vision","first-page":"38","article-title":"Efficient few-shot action recognition via multi-level post-reasoning","author":"Wu","year":"2024"},{"key":"10.1016\/j.knosys.2026.116181_b47","doi-asserted-by":"crossref","unstructured":"Z. Qian, X. Yao, Y. Huang, C. Zhang, J. Ying, H. Sun, Beyond label semantics: Language-guided action anatomy for few-shot action recognition, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2025, pp. 10421\u201310431.","DOI":"10.1109\/ICCV51701.2025.00970"},{"key":"10.1016\/j.knosys.2026.116181_b48","doi-asserted-by":"crossref","unstructured":"W. Pei, Q. Tan, G. Lu, J. Tian, J. Yu, D2ST-Adapter: Disentangled-and-deformable spatio-temporal adapter for few-shot action recognition, in: Proceedings of the IEEE\/CVF International Conference on Computer Vision, 2025, pp. 11317\u201311326.","DOI":"10.1109\/ICCV51701.2025.01053"},{"key":"10.1016\/j.knosys.2026.116181_b49","series-title":"UMAP: Uniform manifold approximation and projection for dimension reduction","author":"McInnes","year":"2018"},{"key":"10.1016\/j.knosys.2026.116181_b50","doi-asserted-by":"crossref","unstructured":"R.R. Selvaraju, M. Cogswell, A. Das, R. Vedantam, D. Parikh, D. Batra, Grad-CAM: Visual Explanations from Deep Networks via Gradient-Based Localization, in: Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 618\u2013626.","DOI":"10.1109\/ICCV.2017.74"}],"container-title":["Knowledge-Based Systems"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S095070512600907X?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S095070512600907X?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,29]],"date-time":"2026-05-29T01:04:44Z","timestamp":1780016684000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S095070512600907X"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,7]]},"references-count":50,"alternative-id":["S095070512600907X"],"URL":"https:\/\/doi.org\/10.1016\/j.knosys.2026.116181","relation":{},"ISSN":["0950-7051"],"issn-type":[{"value":"0950-7051","type":"print"}],"subject":[],"published":{"date-parts":[[2026,7]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Distinguishing visually similar actions: Prompt-guided Semantic Prototype Modulation for few-shot action recognition","name":"articletitle","label":"Article Title"},{"value":"Knowledge-Based Systems","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.knosys.2026.116181","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"116181"}}