{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T15:54:14Z","timestamp":1775058854542,"version":"3.50.1"},"reference-count":76,"publisher":"MDPI AG","issue":"11","license":[{"start":{"date-parts":[[2025,11,8]],"date-time":"2025-11-08T00:00:00Z","timestamp":1762560000000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0\/"}],"funder":[{"name":"XLIM, UMR CNRS 7252, University of Limoges"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["BDCC"],"abstract":"<jats:p>Deaf and hearing-impaired individuals rely on sign language, a visual communication system using hand shapes, facial expressions, and body gestures. Sign languages vary by region. For example, Arabic Sign Language (ArSL) is notably different from American Sign Language (ASL). This project focuses on creating an Arabic Sign Language Recognition (ArSLR) System tailored for healthcare, aiming to bridge communication gaps resulting from a lack of sign-proficient professionals and limited region-specific technological solutions. Our research addresses limitations in sign language recognition systems by introducing a novel framework centered on ResNet50ViT, a hybrid architecture that synergistically combines ResNet50\u2019s robust local feature extraction with the global contextual modeling of Vision Transformers (ViT). We also explored a tailored Vision Transformer variant (SignViT) for Arabic Sign Language as a comparative model. Our main contribution is the ResNet50ViT model, which significantly outperforms existing approaches, specifically targeting the challenges of capturing sequential hand movements, which traditional CNN-based methods struggle with. We utilized an extensive dataset incorporating both static (36 signs) and dynamic (92 signs) medical signs. Through targeted preprocessing techniques and optimization strategies, we achieved significant performance improvements over conventional approaches. In our experiments, the proposed ResNet50-ViT achieved a remarkable 99.86% accuracy on the ArSL dataset, setting a new state-of-the-art, demonstrating the effectiveness of integrating ResNet50\u2019s hierarchical local feature extraction with Vision Transformer\u2019s global contextual modeling. For comparison, a fine-tuned Vision Transformer (SignViT) attained 98.03% accuracy, confirming the strength of transformer-based approaches but underscoring the clear performance gain enabled by our hybrid architecture. We expect that RAFID will help deaf patients communicate better with healthcare providers without needing human interpreters.<\/jats:p>","DOI":"10.3390\/bdcc9110281","type":"journal-article","created":{"date-parts":[[2025,11,10]],"date-time":"2025-11-10T10:35:31Z","timestamp":1762770931000},"page":"281","update-policy":"https:\/\/doi.org\/10.3390\/mdpi_crossmark_policy","source":"Crossref","is-referenced-by-count":2,"title":["Hybrid Deep Learning Models for Arabic Sign Language Recognition in Healthcare Applications"],"prefix":"10.3390","volume":"9","author":[{"given":"Ibtihel","family":"Mansour","sequence":"first","affiliation":[{"name":"Innov\u2019COM, Sup\u2019Com, University of Carthage, Ariana 2083, Tunisia"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4618-8673","authenticated-orcid":false,"given":"Mohamed","family":"Hamroun","sequence":"additional","affiliation":[{"name":"XLIM, UMR CNRS 7252, University of Limoges, Avenue Albert Thomas, 87060 Limoges, France"},{"name":"3iL Ing\u00e9nieurs, 43 Rue de Sainte Anne, 87000 Limoges, France"}]},{"given":"Sonia","family":"Lajmi","sequence":"additional","affiliation":[{"name":"MIRACL Laboratory, Technopole of Sfax, University of Sfax, P.O. Box 242, Sfax 3031, Tunisia"},{"name":"Faculty of Computing and Information, Al-Baha University, Al-Baha 65779, Saudi Arabia"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2148-7965","authenticated-orcid":false,"given":"Ryma","family":"Abassi","sequence":"additional","affiliation":[{"name":"Innov\u2019COM, Sup\u2019Com, University of Carthage, Ariana 2083, Tunisia"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-7948-6143","authenticated-orcid":false,"given":"Damien","family":"Sauveron","sequence":"additional","affiliation":[{"name":"XLIM, UMR CNRS 7252, University of Limoges, Avenue Albert Thomas, 87060 Limoges, France"}]}],"member":"1968","published-online":{"date-parts":[[2025,11,8]]},"reference":[{"key":"ref_1","unstructured":"(2024, September 27). Deafness and Hearing Loss. Available online: https:\/\/www.who.int\/news-room\/fact-sheets\/detail\/deafness-and-hearing-loss."},{"key":"ref_2","unstructured":"(2025, April 15). Deafness and Hearing Loss Toolkit: Hearing Loss a Global Problem|RCGP Learning. Available online: https:\/\/elearning.rcgp.org.uk\/mod\/book\/view.php?id=12532&chapterid=288."},{"key":"ref_3","unstructured":"World Federation of the Deaf (2024, May 16). Canadian Association of the Deaf\u2014Association des Sourds du Canada. Available online: https:\/\/cad-asc.ca\/about-us\/about-cad-asc\/world-federation-of-the-deaf\/."},{"key":"ref_4","first-page":"8870750","article-title":"Integrated Mediapipe with a CNN Model for Arabic Sign Language Recognition","volume":"2023","author":"Rahim","year":"2023","journal-title":"J. Electr. Comput. Eng."},{"key":"ref_5","doi-asserted-by":"crossref","first-page":"939","DOI":"10.1007\/s10209-018-0622-8","article-title":"Automatic translation of Arabic text-to-Arabic sign language","volume":"18","author":"Luqman","year":"2019","journal-title":"Univers. Access Inf. Soc."},{"key":"ref_6","doi-asserted-by":"crossref","first-page":"96926","DOI":"10.1109\/ACCESS.2019.2929174","article-title":"Technical Approaches to Chinese Sign Language Processing: A Review","volume":"7","author":"Kamal","year":"2019","journal-title":"IEEE Access"},{"key":"ref_7","doi-asserted-by":"crossref","first-page":"4730","DOI":"10.1109\/ACCESS.2022.3231130","article-title":"SIGNFORMER: DeepVision Transformer for Sign Language Recognition","volume":"11","author":"Kothadiya","year":"2023","journal-title":"IEEE Access"},{"key":"ref_8","doi-asserted-by":"crossref","unstructured":"Shin, J., Miah, A.S.M., Hasan, M.A.M., Hirooka, K., Suzuki, K., Lee, H.S., and Jang, S.W. (2023). Korean Sign Language Recognition Using Transformer-Based Deep Neural Network. Appl. Sci., 13.","DOI":"10.3390\/app13053029"},{"key":"ref_9","doi-asserted-by":"crossref","unstructured":"Rathi, P., Kuwar Gupta, R., Agarwal, S., and Shukla, A. (2019, January 20\u201321). Sign Language Recognition Using ResNet50 Deep Neural Network Architecture. Proceedings of the 5th International Conference on Next Generation Computing Technologies (NGCT-2019), Dehradun, India.","DOI":"10.2139\/ssrn.3545064"},{"key":"ref_10","doi-asserted-by":"crossref","first-page":"7957","DOI":"10.1007\/s00521-019-04691-y","article-title":"Deep learning-based sign language recognition system for static signs","volume":"32","author":"Wadhawan","year":"2020","journal-title":"Neural Comput. Appl."},{"key":"ref_11","doi-asserted-by":"crossref","unstructured":"Thakar, S., Shah, S., Shah, B., and Nimkar, A.V. (2022). Sign Language to Text Conversion in Real Time using Transfer Learning. arXiv.","DOI":"10.1109\/GCAT55367.2022.9971953"},{"key":"ref_12","doi-asserted-by":"crossref","first-page":"8502","DOI":"10.1109\/ACCESS.2022.3142918","article-title":"Helping Hearing-Impaired in Emergency Situations: A Deep Learning-Based Approach","volume":"10","author":"Areeb","year":"2022","journal-title":"IEEE Access"},{"key":"ref_13","doi-asserted-by":"crossref","first-page":"4567989","DOI":"10.1155\/2022\/4567989","article-title":"Sign Language Recognition for Arabic Alphabets Using Transfer Learning Technique","volume":"2022","author":"Zakariah","year":"2022","journal-title":"Comput. Intell. Neurosci."},{"key":"ref_14","doi-asserted-by":"crossref","unstructured":"Luqman, H., and El-Alfy, E.-S.M. (2021). Towards Hybrid Multimodal Manual and Non-Manual Arabic Sign Language Recognition: mArSL Database and Pilot Study. Electronics, 10.","DOI":"10.3390\/electronics10141739"},{"key":"ref_15","doi-asserted-by":"crossref","first-page":"1384","DOI":"10.1016\/j.procs.2023.01.117","article-title":"Real-time Assamese Sign Language Recognition using MediaPipe and Deep Learning","volume":"218","author":"Bora","year":"2023","journal-title":"Procedia Comput. Sci."},{"key":"ref_16","unstructured":"\u00d6zdemir, O., K\u0131nd\u0131ro\u011flu, A.A., Camg\u00f6z, N.C., and Akarun, L. (2020). BosphorusSign22k Sign Language Recognition Dataset. arXiv."},{"key":"ref_17","doi-asserted-by":"crossref","first-page":"120010","DOI":"10.1063\/5.0181956","article-title":"CNN architecture based on VGG16 model for SIBI sign language","volume":"2909","author":"Suardi","year":"2023","journal-title":"AIP Conf. Proc."},{"key":"ref_18","doi-asserted-by":"crossref","unstructured":"Islam, M., Aloraini, M., Aladhadh, S., Habib, S., Khan, A., Alabdulatif, A., and Alanazi, T.M. (2023). Toward a Vision-Based Intelligent System: A Stacked Encoded Deep Learning Framework for Sign Language Recognition. Sensors, 23.","DOI":"10.3390\/s23229068"},{"key":"ref_19","doi-asserted-by":"crossref","first-page":"4759","DOI":"10.11591\/ijece.v14i4.pp4759-4774","article-title":"Design a smart platform translating Arabic sign language to English language","volume":"14","author":"Alamri","year":"2024","journal-title":"Int. J. Electr. Comput. Eng. (IJECE)"},{"key":"ref_20","unstructured":"(2025, October 20). GitHub\u2014Byhqsr\/Tzutalin-Labelimg: LabelImg Is a Graphical Image Annotation Tool and Label Object Bounding Boxes in Images. Available online: https:\/\/github.com\/byhqsr\/tzutalin-labelImg."},{"key":"ref_21","doi-asserted-by":"crossref","unstructured":"Noor, T.H., Noor, A., Alharbi, A.F., Faisal, A., Alrashidi, R., Alsaedi, A.S., Alharbi, G., Alsanoosy, T., and Alsaeedi, A. (2024). Real-Time Arabic Sign Language Recognition Using a Hybrid Deep Learning Model. Sensors, 24.","DOI":"10.3390\/s24113683"},{"key":"ref_22","doi-asserted-by":"crossref","unstructured":"Al-Barham, M., Sa\u2019Aleek, A.A., Al-Odat, M., Hamad, G., Al-Yaman, M., and Elnagar, A. (2022, January 21\u201323). Arabic Sign Language Recognition Using Deep Learning Models. Proceedings of the 2022 13th International Conference on Information and Communication Systems (ICICS), Irbid, Jordan.","DOI":"10.1109\/ICICS55353.2022.9811162"},{"key":"ref_23","first-page":"47","article-title":"Transfer Learning and Recurrent Neural Networks for Automatic Arabic Sign Language Recognition","volume":"Volume 113","author":"Hassanien","year":"2022","journal-title":"Proceedings of the 8th International Conference on Advanced Machine Learning and Technologies and Applications (AMLTA2022)"},{"key":"ref_24","doi-asserted-by":"crossref","unstructured":"Gochoo, M., Batnasan, G., Ahmed, A.A., Otgonbold, M.-E., Alnajjar, F., Shih, T.K., Tan, T.-H., and Wee, L.K. (2023, January 1\u20134). Fine-Tuning Vision Transformer for Arabic Sign Language Video Recognition on Augmented Small-Scale Dataset. Proceedings of the 2023 IEEE International Conference on Systems, Man, and Cybernetics (SMC), Honolulu, Oahu, HI, USA.","DOI":"10.1109\/SMC53992.2023.10394501"},{"key":"ref_25","doi-asserted-by":"crossref","first-page":"7478","DOI":"10.1109\/TNNLS.2022.3227717","article-title":"A Survey of Visual Transformers","volume":"35","author":"Liu","year":"2023","journal-title":"IEEE Trans. Neural Netw. Learn. Syst."},{"key":"ref_26","doi-asserted-by":"crossref","unstructured":"Maur\u00edcio, J., Domingues, I., and Bernardino, J. (2023). Comparing Vision Transformers and Convolutional Neural Networks for Image Classification: A Literature Review. Appl. Sci., 13.","DOI":"10.3390\/app13095521"},{"key":"ref_27","first-page":"633","article-title":"Automated recognition of Myanmar sign language using deep learning module","volume":"16","author":"Kyaw","year":"2024","journal-title":"Int. J. Inf. Technol."},{"key":"ref_28","doi-asserted-by":"crossref","first-page":"3328","DOI":"10.37624\/IJERT\/13.11.2020.3328-3334","article-title":"A Saudi Sign Language Recognition System based on Convolutional Neural Networks","volume":"13","year":"2020","journal-title":"Int. J. Eng. Res. Technol."},{"key":"ref_29","doi-asserted-by":"crossref","unstructured":"Balat, M., Awaad, R., Adel, H., Zaky, A.B., and Aly, S.A. (2024). Advanced Arabic Alphabet Sign Language Recognition Using Transfer Learning and Transformer Models. arXiv.","DOI":"10.1109\/ICCA62237.2024.10927914"},{"key":"ref_30","first-page":"161","article-title":"Designing SignSpeak, an Arabic Sign Language Recognition System","volume":"Volume 12426","author":"Stephanidis","year":"2020","journal-title":"Proceedings of the HCI International 2020\u2014Late Breaking Papers: Universal Access and Inclusive Design"},{"key":"ref_31","unstructured":"(2025, January 22). RVL-SLLL American Sign Language Database. Available online: https:\/\/engineering.purdue.edu\/RVL\/Database\/ASL\/asl-database-front.htm."},{"key":"ref_32","unstructured":"(2025, January 22). American Sign Language Video Dataset. Available online: https:\/\/crystal.uta.edu\/~athitsos\/projects\/asl_lexicon\/."},{"key":"ref_33","first-page":"401","article-title":"Combination of Tangent Distance and an Image Distortion Model for Appearance-Based Sign Language Recognition","volume":"Volume 3663","author":"Kropatsch","year":"2005","journal-title":"Pattern Recognition"},{"key":"ref_34","doi-asserted-by":"crossref","first-page":"e7653","DOI":"10.1002\/cpe.7653","article-title":"A review on computational methods based automated sign language recognition system for hearing and speech impaired community","volume":"35","author":"Robert","year":"2023","journal-title":"Concurr. Comput. Pract. Exp."},{"key":"ref_35","doi-asserted-by":"crossref","first-page":"012036","DOI":"10.1088\/1742-6596\/2868\/1\/012036","article-title":"Expression Recognition Based on Visual Transformers with Novel Attentional Fusion","volume":"2868","author":"Feng","year":"2024","journal-title":"J. Phys. Conf. Ser."},{"key":"ref_36","doi-asserted-by":"crossref","unstructured":"Yulvina, R., Putra, S.A., Rizkinia, M., Pujitresnani, A., Tenda, E.D., Yunus, R.E., Djumaryo, D.H., Yusuf, P.A., and Valindria, V. (2024). Hybrid Vision Transformer and Convolutional Neural Network for Multi-Class and Multi-Label Classification of Tuberculosis Anomalies on Chest X-Ray. Computers, 13.","DOI":"10.3390\/computers13120343"},{"key":"ref_37","doi-asserted-by":"crossref","first-page":"420","DOI":"10.1007\/s42979-021-00815-1","article-title":"Deep Learning: A Comprehensive Overview on Techniques, Taxonomy, Applications and Research Directions","volume":"2","author":"Sarker","year":"2021","journal-title":"SN Comput. Sci."},{"key":"ref_38","doi-asserted-by":"crossref","unstructured":"Taye, M.M. (2023). Understanding of Machine Learning with Deep Learning: Architectures, Workflow, Applications and Future Directions. Computers, 12.","DOI":"10.3390\/computers12050091"},{"key":"ref_39","doi-asserted-by":"crossref","unstructured":"Iman, M., Arabnia, H.R., and Rasheed, K. (2023). A Review of Deep Transfer Learning and Recent Advancements. Technologies, 11.","DOI":"10.3390\/technologies11020040"},{"key":"ref_40","doi-asserted-by":"crossref","first-page":"9859","DOI":"10.1007\/s13369-020-04758-2","article-title":"A Survey on Artificial Intelligence in Chinese Sign Language Recognition","volume":"45","author":"Jiang","year":"2020","journal-title":"Arab. J. Sci. Eng."},{"key":"ref_41","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., and Sun, J. (2016, January 27\u201330). Deep Residual Learning for Image Recognition. Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA.","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref_42","unstructured":"Hagen, A. (2024, September 22). Microsoft Vision Model: A State-of-the-Art Pretrained Vision Model. Microsoft Research. Available online: https:\/\/www.microsoft.com\/en-us\/research\/blog\/microsoft-vision-model-resnet-50-combines-web-scale-data-and-multi-task-learning-to-achieve-state-of-the-art\/."},{"key":"ref_43","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., and Gelly, S. (2021). An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. arXiv."},{"key":"ref_44","unstructured":"(2025, January 24). Gaudenz Boesch Vision Transformers (ViT) in Image Recognition: Full Guide\u2014Viso.ai. Available online: https:\/\/viso.ai\/deep-learning\/vision-transformer-vit\/."},{"key":"ref_45","doi-asserted-by":"crossref","unstructured":"Alharthi, N.M., and Alzahrani, S.M. (2023). Vision Transformers and Transfer Learning Approaches for Arabic Sign Language Recognition. Appl. Sci., 13.","DOI":"10.3390\/app132111625"},{"key":"ref_46","unstructured":"(2024, July 19). Arabic Sign Language Dictionary for the Deaf 2|Arab Organization of Sign Language Interpreters. Available online: https:\/\/selaa.org\/node\/215."},{"key":"ref_47","unstructured":"(2024, July 19). Arabic Sign Language Dictionary for the Deaf 1|Arab Organization of Sign Language Interpreters. Available online: https:\/\/selaa.org\/node\/204."},{"key":"ref_48","doi-asserted-by":"crossref","unstructured":"Schindler, K., and Van Gool, L. (2008, January 23\u201328). Action snippets: How many frames does human action recognition require?. Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition, Anchorage, AK, USA.","DOI":"10.1109\/CVPR.2008.4587730"},{"key":"ref_49","doi-asserted-by":"crossref","first-page":"57","DOI":"10.2478\/acss-2020-0007","article-title":"Hand Gesture Recognition in Video Sequences Using Deep Convolutional and Recurrent Neural Networks","volume":"25","author":"Obaid","year":"2020","journal-title":"Appl. Comput. Syst."},{"key":"ref_50","doi-asserted-by":"crossref","first-page":"91","DOI":"10.1016\/j.gltp.2022.04.020","article-title":"A review: Data pre-processing and data augmentation techniques","volume":"3","author":"Maharana","year":"2022","journal-title":"Glob. Transit. Proc."},{"key":"ref_51","doi-asserted-by":"crossref","unstructured":"Celebi, T., Shayea, I., El-Saleh, A.A., Ali, S., and Roslee, M. (2021, January 1\u20132). Histogram Equalization for Grayscale Images and Comparison with OpenCV Library. Proceedings of the 2021 IEEE 15th Malaysia International Conference on Communication (MICC), Virtual.","DOI":"10.1109\/MICC53484.2021.9642082"},{"key":"ref_52","doi-asserted-by":"crossref","unstructured":"Siby, T.A., Pal, S., Arlina, J., and Nagaraju, S. (September, January 31). Gesture based Real-Time Sign Language Recognition System. Proceedings of the 2022 International Conference on Connected Systems & Intelligence (CSI), Trivandrum, India.","DOI":"10.1109\/CSI54720.2022.9924024"},{"key":"ref_53","doi-asserted-by":"crossref","unstructured":"Kaur, H., Jakhetiya, V., Goyal, P., Khanna, P., Raman, B., and Kumar, S. (2023, January 3\u20135). Isolated Sign Language Recognition Using Deep Learning. Proceedings of the Computer Vision and Image Processing, Jammu, India.","DOI":"10.1007\/978-3-031-58535-7"},{"key":"ref_54","doi-asserted-by":"crossref","first-page":"67","DOI":"10.1007\/s42452-019-1800-x","article-title":"Performance of image pre-processing filters for noise removal in transformer oil images at different temperatures","volume":"2","author":"Maheshan","year":"2020","journal-title":"SN Appl. Sci."},{"key":"ref_55","first-page":"123","article-title":"Modified Non-local Means Filter for Color Image Denoising","volume":"39","author":"Wang","year":"2016","journal-title":"Rev. Tec. Fac. Ing. Univ. Zulia"},{"key":"ref_56","doi-asserted-by":"crossref","first-page":"545","DOI":"10.1111\/1754-9485.13261","article-title":"A review of medical image data augmentation techniques for deep learning applications","volume":"65","author":"Chlap","year":"2021","journal-title":"J. Med. Imaging Radiat. Oncol."},{"key":"ref_57","unstructured":"(2024, September 02). ImageNet. Available online: https:\/\/www.image-net.org\/update-mar-11-2021.php."},{"key":"ref_58","unstructured":"Brownlee, J. (2024, September 02). A Gentle Introduction to Transfer Learning for Deep Learning. MachineLearningMastery.com. Available online: https:\/\/machinelearningmastery.com\/transfer-learning-for-deep-learning\/."},{"key":"ref_59","doi-asserted-by":"crossref","first-page":"2203","DOI":"10.1109\/TIFS.2018.2812196","article-title":"Using Deep Convolutional Neural Network Architectures for Object Classification and Detection Within X-Ray Baggage Security Imagery","volume":"13","author":"Akcay","year":"2018","journal-title":"IEEE Trans. Inf. Forensics Secur."},{"key":"ref_60","first-page":"1295","article-title":"A Comprehensive Review of Convolutional Neural Networks based Disease Detection Strategies in Potato Agriculture","volume":"68","year":"2024","journal-title":"Potato Res."},{"key":"ref_61","doi-asserted-by":"crossref","unstructured":"Thongkhome, P., Yonezawa, T., and Kawaguchi, N. (2024, January 1\u20134). Performance Evaluation of KNIME Low Code Platform in Deep Learning Study and Optimal Hyperparameter Tuning. Proceedings of the TENCON 2024\u20142024 IEEE Region 10 Conference (TENCON), Singapore.","DOI":"10.1109\/TENCON61640.2024.10903074"},{"key":"ref_62","unstructured":"Tesfagergis, A.M. (2021). Transformer Networks for Short-Term Forecasting of Electricity Prosumption, LUT University."},{"key":"ref_63","doi-asserted-by":"crossref","unstructured":"Mogan, J.N., Lee, C.P., Lim, K.M., and Muthu, K.S. (2022). Gait-ViT: Gait Recognition with Vision Transformer. Sensors, 22.","DOI":"10.3390\/s22197362"},{"key":"ref_64","first-page":"599","article-title":"Classification Model Evaluation Metrics","volume":"12","author":"Vujovic","year":"2021","journal-title":"Int. J. Adv. Comput. Sci. Appl."},{"key":"ref_65","unstructured":"Team, K. (2024, September 10). Keras Documentation: EarlyStopping. Available online: https:\/\/keras.io\/api\/callbacks\/early_stopping\/."},{"key":"ref_66","unstructured":"Team, K. (2024, September 10). Keras Documentation: ModelCheckpoint. Available online: https:\/\/keras.io\/api\/callbacks\/model_checkpoint\/."},{"key":"ref_67","unstructured":"Team, K. (2024, September 10). Keras Documentation: ReduceLROnPlateau. Available online: https:\/\/keras.io\/api\/callbacks\/reduce_lr_on_plateau\/."},{"key":"ref_68","doi-asserted-by":"crossref","first-page":"312","DOI":"10.1016\/j.icte.2020.04.010","article-title":"The effect of batch size on the generalizability of the convolutional neural networks on a histopathology dataset","volume":"6","author":"Kandel","year":"2020","journal-title":"ICT Express"},{"key":"ref_69","doi-asserted-by":"crossref","unstructured":"Sharma, S., and Sharma, S. (2024, January 24\u201328). Comparison of Transfer learning-based Models for Sign- Language Recognition. Proceedings of the 2024 15th International Conference on Computing Communication and Networking Technologies (ICCCNT), Kamand, India.","DOI":"10.1109\/ICCCNT61001.2024.10723890"},{"key":"ref_70","unstructured":"Sulistya, Y.I., Bangun, E.T., and Tyas, D.A. (2025, March 12). CNN Ensemble Learning Method for Transfer Learning: A Review. Available online: https:\/\/www.researchgate.net\/publication\/381101834_CNN_Ensemble_Learning_Method_for_Transfer_learning_A_Review."},{"key":"ref_71","first-page":"319","article-title":"Arabic Sign Language Recognition using Lightweight CNN-based Architecture","volume":"13","author":"AlKhuraym","year":"2022","journal-title":"Int. J. Adv. Comput. Sci. Appl."},{"key":"ref_72","doi-asserted-by":"crossref","first-page":"81725","DOI":"10.1007\/s11042-024-18681-3","article-title":"Arabic sign language letters recognition using Vision Transformer","volume":"83","author":"Alnabih","year":"2024","journal-title":"Multimed. Tools Appl."},{"key":"ref_73","doi-asserted-by":"crossref","unstructured":"Herbaz, N., Idrissi, H.E., and Badri, A. (2025). Advanced Sign Language Recognition Using Deep Learning: A Study on Arabic Sign Language (ArSL) with VGGNet and ResNet50 Models. Res. Sq.","DOI":"10.21203\/rs.3.rs-5822261\/v1"},{"key":"ref_74","doi-asserted-by":"crossref","unstructured":"Dong, W., Shen, S., Han, Y., Tan, T., Wu, J., and Xu, H. (2025). Generative Models in Medical Visual Question Answering: A Survey. Appl. Sci., 15.","DOI":"10.3390\/app15062983"},{"key":"ref_75","unstructured":"Sandeep, R., Prakash, R., and Amit, D. (2025, March 14). Retrieval-Augmented Generation of Medical Vision-Language Models. Available online: https:\/\/www.researchgate.net\/publication\/389095901_Retrieval-Augmented_Generation_of_Medical_Vision-Language_Models."},{"key":"ref_76","doi-asserted-by":"crossref","unstructured":"Chen, L., Chen, Y., Ouyang, Z., Dou, H., Zhang, Y., and Sang, H. (2025). Boosting adversarial transferability in vision-language models via multimodal feature heterogeneity. Sci. Rep., 15.","DOI":"10.1038\/s41598-025-91802-6"}],"container-title":["Big Data and Cognitive Computing"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/www.mdpi.com\/2504-2289\/9\/11\/281\/pdf","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,10]],"date-time":"2025-11-10T11:12:47Z","timestamp":1762773167000},"score":1,"resource":{"primary":{"URL":"https:\/\/www.mdpi.com\/2504-2289\/9\/11\/281"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,11,8]]},"references-count":76,"journal-issue":{"issue":"11","published-online":{"date-parts":[[2025,11]]}},"alternative-id":["bdcc9110281"],"URL":"https:\/\/doi.org\/10.3390\/bdcc9110281","relation":{},"ISSN":["2504-2289"],"issn-type":[{"value":"2504-2289","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,11,8]]}}}