{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,11,20]],"date-time":"2025-11-20T13:21:27Z","timestamp":1763644887675,"version":"3.45.0"},"reference-count":101,"publisher":"Springer Science and Business Media LLC","issue":"15","license":[{"start":{"date-parts":[[2025,10,20]],"date-time":"2025-10-20T00:00:00Z","timestamp":1760918400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,10,20]],"date-time":"2025-10-20T00:00:00Z","timestamp":1760918400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"name":"the Interdisciplinary Program of Shanghai Jiao Tong University","award":["YG2023LC11","YG2023LC11","YG2023LC11","YG2023LC11","YG2023LC11","YG2023LC11"],"award-info":[{"award-number":["YG2023LC11","YG2023LC11","YG2023LC11","YG2023LC11","YG2023LC11","YG2023LC11"]}]},{"name":"the National Key Research and Development Program of China","award":["2022YFC2407000","2022YFC2407000","2022YFC2407000","2022YFC2407000","2022YFC2407000","2022YFC2407000"],"award-info":[{"award-number":["2022YFC2407000","2022YFC2407000","2022YFC2407000","2022YFC2407000","2022YFC2407000","2022YFC2407000"]}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Vis Comput"],"published-print":{"date-parts":[[2025,12]]},"DOI":"10.1007\/s00371-025-04067-5","type":"journal-article","created":{"date-parts":[[2025,10,20]],"date-time":"2025-10-20T14:33:48Z","timestamp":1760970828000},"page":"12399-12410","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["Z Visual-language foundation models for medical and clinical diagnosis and treatments"],"prefix":"10.1007","volume":"41","author":[{"given":"Haoran","family":"Guan","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiang","family":"Chen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Chengxing","family":"Shen","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaoyue","family":"Zhu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Huajun","family":"Xu","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2274-9998","authenticated-orcid":false,"given":"Chenyang","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,10,20]]},"reference":[{"issue":"4","key":"4067_CR1","doi-asserted-by":"publisher","first-page":"72","DOI":"10.61467\/2007.1558.2024.v15i4.522","volume":"15","author":"J D\u00edaz-Rodr\u00edguez","year":"2024","unstructured":"D\u00edaz-Rodr\u00edguez, J., et al.: Early detection of age-related macular degeneration using vision transformer-based architectures \u2013 a comparative study with offline metrics and data augmenting. Int. J. COP Infor. 15(4), 72\u201384 (2024)","journal-title":"Int. J. COP Infor."},{"key":"4067_CR2","doi-asserted-by":"publisher","unstructured":"Yige Peng, Lei Bi, Michael Fulham, Dagan Feng, Jinman Kim. \"Multi-modality Information Fusion for Radiomics-Based Neural Architecture Search.\" Springer International Publishing, 2020. https:\/\/doi.org\/10.1007\/978-3-030-59728-3_74","DOI":"10.1007\/978-3-030-59728-3_74"},{"key":"4067_CR3","unstructured":"Dosovitskiy, Alexey, et al. \"An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale.\"\u00a0International Conference on Learning Representations. 2020."},{"key":"4067_CR4","unstructured":"Vaswani, Ashish, et al. \"Attention is all you need.\"\u00a0Advances in neural information processing systems\u00a030 (2017)."},{"key":"4067_CR5","unstructured":"Radford, Alec et al. \u201cLearning Transferable Visual Models From Natural Language Supervision.\u201d\u00a0International Conference on Machine Learning\u00a0(2021)."},{"key":"4067_CR6","unstructured":"Porwal, Prasanna, et al. \"Idrid: Diabetic retinopathy\u2013segmentation and grading challenge.\"\u00a0Medical image analysis\u00a059 (2020): 101561."},{"key":"4067_CR7","doi-asserted-by":"crossref","unstructured":"Masood, Anum, et al. \"Cloud-based automated clinical decision support system for detection and diagnosis of lung cancer in chest CT.\"\u00a0IEEE journal of translational engineering in health and medicine\u00a08 (2019): 1\u201313.","DOI":"10.1109\/JTEHM.2019.2955458"},{"issue":"1","key":"4067_CR8","doi-asserted-by":"publisher","first-page":"143","DOI":"10.54254\/2755-2721\/104\/20241205","volume":"104","author":"M Yan","year":"2024","unstructured":"Yan, M.: advancements in image recognition: comparing cnns and vision transformers. Applied and Computational Engineering 104(1), 143\u2013149 (2024)","journal-title":"Applied and Computational Engineering"},{"issue":"8","key":"4067_CR9","doi-asserted-by":"publisher","first-page":"4499","DOI":"10.1109\/TNNLS.2021.3116209","volume":"34","author":"Z Xie","year":"2021","unstructured":"Xie, Z., Zhang, W., Sheng, B., et al.: Bagfn: broad attentive graph fusion network for high-order feature interactions. IEEE transactions on neural networks and learning systems 34(8), 4499\u20134513 (2021)","journal-title":"IEEE transactions on neural networks and learning systems"},{"key":"4067_CR10","doi-asserted-by":"crossref","unstructured":"Wang, Xiaosong, et al. \"Tienet: Text-image embedding network for common thorax disease classification and reporting in chest x-rays.\"\u00a0Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.","DOI":"10.1109\/CVPR.2018.00943"},{"key":"4067_CR11","doi-asserted-by":"publisher","unstructured":"Johnson, Alistair, et al. \"MIMIC-CXR Database\" (version 2.0.0).\u00a0PhysioNet\u00a0(2019). RRID:SCR_007345.\u00a0https:\/\/doi.org\/10.13026\/C2JT1Q","DOI":"10.13026\/C2JT1Q"},{"key":"4067_CR12","doi-asserted-by":"crossref","unstructured":"Wang, Zifeng, et al. \"Medclip: Contrastive learning from unpaired medical images and text.\"\u00a0Proceedings of the Conference on Empirical Methods in Natural Language Processing. Conference on Empirical Methods in Natural Language Processing. Vol. 2022. 2022.","DOI":"10.18653\/v1\/2022.emnlp-main.256"},{"key":"4067_CR13","unstructured":"Li, Chunyuan, et al. \"Llava-med: Training a large language-and-vision assistant for biomedicine in one day.\"\u00a0Advances in Neural Information Processing Systems\u00a036 (2023): 28541\u201328564."},{"key":"4067_CR14","doi-asserted-by":"crossref","unstructured":"Bannur, Shruthi, et al. \"Learning to exploit temporal structure for biomedical vision-language processing.\"\u00a0Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition. 2023.","DOI":"10.1109\/CVPR52729.2023.01442"},{"key":"4067_CR15","doi-asserted-by":"crossref","unstructured":"Li, Binxu, et al. \"Mmedagent: Learning to use medical tools with multi-modal agent.\"\u00a0arXiv preprint arXiv:2407.02483\u00a0(2024).","DOI":"10.18653\/v1\/2024.findings-emnlp.510"},{"key":"4067_CR16","doi-asserted-by":"crossref","unstructured":"Guan, Hao, et al. \"Federated learning for medical image analysis: A survey.\"\u00a0Pattern Recognition\u00a0(2024): 110424.","DOI":"10.1016\/j.patcog.2024.110424"},{"key":"4067_CR17","doi-asserted-by":"publisher","unstructured":"Franz Krause, et al. \"Managing human-AI collaborations within Industry 5.0 scenarios via knowledge graphs: key challenges and lessons learned.\" Frontiers Media SA, 2024. https:\/\/doi.org\/10.3389\/frai.2024.1247712","DOI":"10.3389\/frai.2024.1247712"},{"key":"4067_CR18","unstructured":"Lundberg, Scott M., and Su-In Lee. \"A unified approach to interpreting model predictions.\"\u00a0Advances in neural information processing systems\u00a030 (2017)."},{"key":"4067_CR19","doi-asserted-by":"crossref","unstructured":"Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. \" Why should i trust you? Explaining the predictions of any classifier.\"\u00a0Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016.","DOI":"10.1145\/2939672.2939778"},{"key":"4067_CR20","doi-asserted-by":"publisher","unstructured":"Khan, Rabeea & Lee, Byoung-Dai & Lee, Mu. (2023). Transformer in medical image segmentation: a narrative review. Quantitative Imaging in Medicine and Surgery. 13. 8747\u20138767. https:\/\/doi.org\/10.21037\/qims-23-542.","DOI":"10.21037\/qims-23-542"},{"key":"4067_CR21","unstructured":"Lutz, Roman. \u201cFairlearn: Assessing and Improving Fairness of AI Systems.\u201d\u00a0ArXiv\u00a0abs\/2303.16626 (2023): n. pag."},{"key":"4067_CR22","doi-asserted-by":"crossref","unstructured":"Liu, Ze, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin and Baining Guo. \u201cSwin Transformer: Hierarchical Vision Transformer using Shifted Windows.\u201d\u00a02021 IEEE\/CVF International Conference on Computer Vision (ICCV)\u00a0(2021): 9992\u201310002.","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"4067_CR23","doi-asserted-by":"crossref","unstructured":"Liu, Zhuang, Hanzi Mao, Chaozheng Wu, Christoph Feichtenhofer, Trevor Darrell and Saining Xie. \u201cA ConvNet for the 2020s.\u201d\u00a02022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)\u00a0(2022): 11966\u201311976.","DOI":"10.1109\/CVPR52688.2022.01167"},{"key":"4067_CR24","unstructured":"Parmar, N., Vaswani, A., Uszkoreit, J., Kaiser, L., Shazeer, N., Ku, A., & Tran, D. (2018, July). Image transformer. In\u00a0International conference on machine learning\u00a0(pp. 4055\u20134064). PMLR."},{"key":"4067_CR25","doi-asserted-by":"crossref","unstructured":"Mikhail, David, et al. \"Performance of DeepSeek-R1 in Ophthalmology: An Evaluation of Clinical Decision-Making and Cost-Effectiveness.\"\u00a0medRxiv\u00a0(2025): 2025\u201302.","DOI":"10.1101\/2025.02.10.25322041"},{"key":"4067_CR26","doi-asserted-by":"crossref","unstructured":"B. Graham et al., \"LeViT: a Vision Transformer in ConvNet\u2019s Clothing for Faster Inference,\" 2021 IEEE\/CVF International Conference on Computer Vision (ICCV), Montreal, QC, Canada, 2021, pp. 12239\u201312249","DOI":"10.1109\/ICCV48922.2021.01204"},{"key":"4067_CR27","doi-asserted-by":"crossref","unstructured":"Srinivas, Aravind, et al. \"Bottleneck transformers for visual recognition.\"\u00a0Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition. 2021.","DOI":"10.1109\/CVPR46437.2021.01625"},{"key":"4067_CR28","doi-asserted-by":"crossref","unstructured":"G. Lonia, D. Ciraolo, M. Fazio, M. Villari and A. Celesti, \"Comparing CNNs and ViTs for Medical Image Classification Leveraging Transfer Learning,\" 2024 IEEE Symposium on Computers and Communications (ISCC), Paris, France, 2024, pp. 1\u20137","DOI":"10.1109\/ISCC61673.2024.10733732"},{"key":"4067_CR29","doi-asserted-by":"crossref","unstructured":"Liu, Xiaofan, et al. \"Pathformer: a biological pathway informed Transformer integrating multi-omics data for disease diagnosis and prognosis.\"\u00a0bioRxiv\u00a0(2023): 2023\u201305.","DOI":"10.1101\/2023.05.23.541554"},{"issue":"7","key":"4067_CR30","doi-asserted-by":"publisher","first-page":"7341","DOI":"10.1609\/aaai.v38i7.28564","volume":"38","author":"X Zhang","year":"2024","unstructured":"Zhang, X., Li, H., Ye, M.: Negative pre-aware for noisy cross-modal matching. Proceedings of the Aaai Conference on Artificial Intelligence 38(7), 7341\u20137349 (2024)","journal-title":"Proceedings of the Aaai Conference on Artificial Intelligence"},{"key":"4067_CR31","doi-asserted-by":"crossref","unstructured":"Singh, Amanpreet, Ronghang Hu, Vedanuj Goswami, Guillaume Couairon, Wojciech Galuba, Marcus Rohrbach and Douwe Kiela. \u201cFLAVA: A Foundational Language And Vision Alignment Model.\u201d\u00a02022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)\u00a0(2021): 15617\u201315629.","DOI":"10.1109\/CVPR52688.2022.01519"},{"key":"4067_CR32","unstructured":"Brown, Tom, et al. \"Language models are few-shot learners.\"\u00a0Advances in neural information processing systems\u00a033 (2020): 1877\u20131901."},{"key":"4067_CR33","unstructured":"Devlin J, Kenton, et al. \"Bert: Pre-training of deep bidirectional transformers for language understanding.\"\u00a0Proceedings of naacL-HLT. Vol. 1. No. 2. 2019."},{"key":"4067_CR34","doi-asserted-by":"crossref","unstructured":"Dai, Ling, et al. \"Clinical report guided retinal microaneurysm detection with multi-sieving deep learning.\"\u00a0IEEE transactions on medical imaging\u00a037.5 (2018): 1149\u20131161.","DOI":"10.1109\/TMI.2018.2794988"},{"key":"4067_CR35","first-page":"328","volume":"45","author":"A Karambakhsh","year":"2019","unstructured":"Karambakhsh, A., Kamel, A., Sheng, B., Li, P., Yang, P., Feng, D.D.: Deep gesture interaction for augmented anatomy learning. Int. J. Inf. Manage. 45, 328\u2013336 (2019)","journal-title":"Int. J. Inf. Manage."},{"key":"4067_CR36","doi-asserted-by":"crossref","unstructured":"Kamel, Aouaidjia, et al. \"Deep convolutional neural networks for human action recognition using depth maps and postures.\"\u00a0IEEE Transactions on Systems, Man, and Cybernetics: Systems\u00a049.9 (2018): 1806\u20131819.","DOI":"10.1109\/TSMC.2018.2850149"},{"issue":"2","key":"4067_CR37","doi-asserted-by":"publisher","first-page":"994","DOI":"10.1109\/TIP.2018.2874285","volume":"28","author":"Y Wen","year":"2018","unstructured":"Wen, Y., Sheng, B., Li, P., et al.: Deep color guided coarse-to-fine convolutional network cascade for depth image super-resolution. IEEE Trans. Image Process. 28(2), 994\u20131006 (2018)","journal-title":"IEEE Trans. Image Process."},{"key":"4067_CR38","doi-asserted-by":"crossref","unstructured":"Alex Krizhevsky, Ilya Sutskever, and Geoffrey E. Hinton. 2017. ImageNet classification with deep convolutional neural networks. Commun. ACM 60, 6 (June 2017), 84\u201390.","DOI":"10.1145\/3065386"},{"issue":"1","key":"4067_CR39","doi-asserted-by":"publisher","first-page":"163","DOI":"10.1109\/TII.2021.3085669","volume":"18","author":"J Li","year":"2021","unstructured":"Li, J., Chen, J., Sheng, B., et al.: Automatic detection and classification system of domestic waste via multimodel cascaded convolutional neural network. IEEE Trans Ind Inform. 18(1), 163\u2013173 (2021)","journal-title":"IEEE Trans Ind Inform."},{"key":"4067_CR40","doi-asserted-by":"crossref","unstructured":"Li, Yingshu, et al. \"A comprehensive study of gpt-4v\u2019s multimodal capabilities in medical imaging.\"\u00a0medRxiv\u00a0(2023): 2023\u201311.","DOI":"10.1101\/2023.11.03.23298067"},{"issue":"3","key":"4067_CR41","doi-asserted-by":"publisher","first-page":"143","DOI":"10.55524\/ijircst.2024.12.3.24","volume":"12","author":"R Xu","year":"2024","unstructured":"Xu, R., Zi, Y., Dai, L., Yu, H., Zhu, M.: Advancing medical diagnostics with deep learning and data preprocessing. International Journal of Innovative Research in Computer Science & Technology 12(3), 143\u2013147 (2024)","journal-title":"International Journal of Innovative Research in Computer Science & Technology"},{"key":"4067_CR42","doi-asserted-by":"publisher","unstructured":"Vanya V. Valindria, Nick Pawlowski, Martin Rajchl, Ioannis Lavdas, Eric O. Aboagye, Andrea Rockall, Daniel Rueckert, Ben Glocker. \"Multi-modal Learning from Unpaired Images: Application to Multi-organ Segmentation in CT and MRI.\" IEEE, 2018. https:\/\/doi.org\/10.1109\/wacv.2018.00066","DOI":"10.1109\/wacv.2018.00066"},{"key":"4067_CR43","doi-asserted-by":"publisher","unstructured":"Hanjiang Luo, Xu Wang, Ziyang Xu, Chao Liu, Jeng\u0101 Shyang Pan. \"A software-defined multi-modal wireless sensor network for ocean monitoring.\" SAGE Publications, 2022. https:\/\/doi.org\/10.1177\/15501477211068389","DOI":"10.1177\/15501477211068389"},{"key":"4067_CR44","doi-asserted-by":"crossref","unstructured":"Liu, Xiao, et al. \"Mask and reason: Pre-training knowledge graph transformers for complex logical queries.\"\u00a0Proceedings of the 28th ACM SIGKDD conference on knowledge discovery and data mining. 2022.","DOI":"10.1145\/3534678.3539472"},{"key":"4067_CR45","doi-asserted-by":"crossref","unstructured":"Kamel, Aouaidjia, Bin Sheng, Ping Li, Jinman Kim, and David Dagan Feng. \"Hybrid refinement-correction heatmaps for human pose estimation.\"\u00a0IEEE Transactions on Multimedia\u00a023 (2020): 1330\u20131342.","DOI":"10.1109\/TMM.2020.2999181"},{"key":"4067_CR46","unstructured":"Rao, Yongming, et al. \"Dynamicvit: Efficient vision transformers with dynamic token sparsification.\"\u00a0Advances in neural information processing systems\u00a034 (2021): 13937\u201313949.Zhou Z, et al. Knowledge graph augmented medical LLMs.\u00a0J Biomed Inform\u00a02023;142:104321."},{"key":"4067_CR47","doi-asserted-by":"publisher","unstructured":"Yang Wang. \"Survey on Deep Multi-modal Data Analytics: Collaboration, Rivalry and Fusion.\" arXiv, 2020. https:\/\/doi.org\/10.48550\/arxiv.2006.08159","DOI":"10.48550\/arxiv.2006.08159"},{"key":"4067_CR48","doi-asserted-by":"crossref","unstructured":"Mou, Yongli. \"Knowledge Graph-Enhanced Vision-to-Language Multimodal Models for Radiology Report Generation.\"\u00a0European Semantic Web Conference. Cham: Springer Nature Switzerland, 2024.","DOI":"10.1007\/978-3-031-78955-7_12"},{"key":"4067_CR49","doi-asserted-by":"publisher","first-page":"2226","DOI":"10.1109\/TMM.2022.3144890","volume":"25","author":"N Jiang","year":"2022","unstructured":"Jiang, N., Sheng, B., Li, P., Lee, T.Y.: Photohelper: portrait photographing guidance via deep feature retrieval and fusion. IEEE Trans. Multimedia 25, 2226\u20132238 (2022)","journal-title":"IEEE Trans. Multimedia"},{"issue":"4","key":"4067_CR50","doi-asserted-by":"publisher","first-page":"562","DOI":"10.1111\/his.15298","volume":"85","author":"M Salto-Tellez","year":"2024","unstructured":"Salto-Tellez, M., Eloy, C., Laurinavi\u010dius, A., Fraggetta, F.: integrated diagnostics, complex biomarkers, and a new frontier for tissue pathology. Histopathology 85(4), 562\u2013565 (2024)","journal-title":"Histopathology"},{"key":"4067_CR51","doi-asserted-by":"publisher","unstructured":"Ruth Johnson, Uri Gottlieb, Galit Shaham, Lihi Eisen, Jacob Waxman, Stav Devons-Sberro, Curtis R. Ginder, Peter Hong, Raheel Sayeed, Ben Y. Reis, Ran D. Balicer, Noa Dagan, Marinka \u00c5\u00bditnik. \"Unified Clinical Vocabulary Embeddings for Advancing Precision.\" Cold Spring Harbor Laboratory, 2024. https:\/\/doi.org\/10.1101\/2024.12.03.24318322","DOI":"10.1101\/2024.12.03.24318322"},{"key":"4067_CR52","unstructured":"Antoine Bordes, Nicolas Usunier, Alberto Garcia-Dur\u00e1n, Jason Weston, and Oksana Yakhnenko. 2013. Translating embeddings for modeling multi-relational data. In Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2 (NIPS'13), Vol. 2. Curran Associates Inc., Red Hook, NY, USA, 2787\u20132795."},{"key":"4067_CR53","unstructured":"Trouillon, Th\u00e9o, et al. \"Complex embeddings for simple link prediction.\"\u00a0International conference on machine learning. PMLR, 2016."},{"key":"4067_CR54","doi-asserted-by":"publisher","unstructured":"Mohammad Akbari, Saeed Ranjbar Alvar, Behnam Kamranian, Amin Banitalebi-Dehkordi, Yong Zhang. \"ArchBERT: Bi-Modal Understanding of Neural Architectures and Natural Languages.\" Association for Computational Linguistics, 2023. https:\/\/doi.org\/10.18653\/v1\/2023.conll-1.7","DOI":"10.18653\/v1\/2023.conll-1.7"},{"key":"4067_CR55","doi-asserted-by":"crossref","unstructured":"Cheng, Zezhou, Qingxiong Yang, and Bin Sheng. \"Deep colorization.\"\u00a0Proceedings of the IEEE international conference on computer vision. 2015.","DOI":"10.1109\/ICCV.2015.55"},{"issue":"7","key":"4067_CR56","doi-asserted-by":"publisher","first-page":"2707","DOI":"10.1109\/TCYB.2018.2833963","volume":"49","author":"B Sheng","year":"2018","unstructured":"Sheng, B., Li, P., Mo, S., et al.: Retinal vessel segmentation using minimum spanning superpixel tree detector. IEEE Transactions on Cybernetics. 49(7), 2707\u20132719 (2018)","journal-title":"IEEE Transactions on Cybernetics."},{"key":"4067_CR57","doi-asserted-by":"publisher","DOI":"10.1016\/j.media.2020.101654","volume":"61","author":"Y Shen","year":"2020","unstructured":"Shen, Y., Sheng, B., Fang, R., Li, H., Dai, L., Stolte, S., Qin, J., Jia, W., Shen, D.: Domain-invariant interpretable fundus image quality assessment. Med. Image Anal. 61, 101654 (2020)","journal-title":"Med. Image Anal."},{"key":"4067_CR58","doi-asserted-by":"crossref","unstructured":"Li, Jiajia, Zhouyu Guan, Jing Wang, Carol Y. Cheung, Yingfeng Zheng, Lee-Ling Lim, Cynthia Ciwei Lim et al. \"Integrated image-based deep learning and language models for primary diabetes care.\"\u00a0Nature medicine\u00a030, no. 10 (2024): 2886\u20132896.","DOI":"10.1038\/s41591-024-03139-8"},{"key":"4067_CR59","doi-asserted-by":"crossref","unstructured":"Li, Haoxuan, Zehua Jiang, Zhouyu Guan, Yuqian Bao, Yuexing Liu, Tingting Hu, Jiajia Li et al. \"Large language models for diabetes training: a prospective study.\"\u00a0Science Bulletin\u00a0(2025).","DOI":"10.1016\/j.scib.2025.01.034"},{"key":"4067_CR60","doi-asserted-by":"crossref","unstructured":"Dai, Ling, Liang Wu, Huating Li, Chun Cai, Qiang Wu, Hongyu Kong, Ruhan Liu et al. \"A deep learning system for detecting diabetic retinopathy across the disease spectrum.\"\u00a0Nature communications\u00a012, no. 1 (2021): 3242.","DOI":"10.1038\/s41467-021-23458-5"},{"key":"4067_CR61","doi-asserted-by":"publisher","unstructured":"Moomal Farhad, Mohammad Mehedy Masud, Azam Beg, Amir Ahmad, Luai A. Ahmed. \"A Review of Medical Diagnostic Video Analysis Using Deep Learning Techniques.\" MDPI AG, 2023. https:\/\/doi.org\/10.3390\/app13116582","DOI":"10.3390\/app13116582"},{"key":"4067_CR62","doi-asserted-by":"publisher","first-page":"272","DOI":"10.1038\/s41467-017-02677-9","volume":"9","author":"H Li","year":"2018","unstructured":"Li, H., Wu, G., Fang, Q., et al.: Fibroblast growth factor 21 increases insulin sensitivity through specific expansion of subcutaneous fat. Nat. Commun. 9, 272 (2018)","journal-title":"Nat. Commun."},{"key":"4067_CR63","doi-asserted-by":"publisher","unstructured":"Evangelos Kazakos, Arsha Nagrani, Andrew Zisserman, Dima Damen. \"EPIC-Fusion: Audio-Visual Temporal Binding for Egocentric Action Recognition.\" IEEE, 2019. https:\/\/doi.org\/10.1109\/iccv.2019.00559","DOI":"10.1109\/iccv.2019.00559"},{"key":"4067_CR64","doi-asserted-by":"crossref","unstructured":"Guan Z, Li H, Liu R, Cai C, Liu Y, Li J, Wang X, Huang S, Wu L, Liu D, et al. Artificial intelligence in diabetes management: advancements, opportunities, and challenges. Cell Reports Medicine 4 (10).","DOI":"10.1016\/j.xcrm.2023.101213"},{"key":"4067_CR65","doi-asserted-by":"crossref","unstructured":"Dai L, Sheng B, Chen T, Wu Q, Liu R, Cai C, Wu L, Yang D, Hamzah H, et al. A deep learning system for predicting time to progression of diabetic retinopathy. Nature Medicine 30 (2), 584\u2013594.","DOI":"10.1038\/s41591-023-02702-z"},{"key":"4067_CR66","doi-asserted-by":"publisher","unstructured":"F. Zehra, M. Faran, A. Anjum and S. Islam, \"DR-Net: CNN Model to Automate Diabetic Retinopathy Stage Diagnosis,\" 2019 International Conference on Electrical, Electronics and Computer Engineering (UPCON), Aligarh, India, 2019, pp. 1\u20135, https:\/\/doi.org\/10.1109\/UPCON47278.2019.8980164.","DOI":"10.1109\/UPCON47278.2019.8980164"},{"key":"4067_CR67","doi-asserted-by":"publisher","unstructured":"Liu et al., \"DeepDRiD: Diabetic Retinopathy\u2014Grading and Image Quality Estimation Challenge, \" Patterns, vol. 3, no. 6, Jun. 2022, https:\/\/doi.org\/10.1016\/j.patter.2022.100512.","DOI":"10.1016\/j.patter.2022.100512"},{"key":"4067_CR68","doi-asserted-by":"publisher","first-page":"117","DOI":"10.1016\/j.jbi.2018.01.005","volume":"79","author":"A Masood","year":"2018","unstructured":"Masood, A., Sheng, B., Li, P., Hou, X., Wei, X., Qin, J., Feng, D.: Computer-assisted decision support system in pulmonary cancer detection and stage classification on CT images. J. Biomed. Inform. 79, 117\u2013128 (2018)","journal-title":"J. Biomed. Inform."},{"key":"4067_CR69","unstructured":"Rajpurkar, Pranav, et al. \"Chexnet: Radiologist-level pneumonia detection on chest x-rays with deep learning.\"\u00a0arXiv preprint arXiv:1711.05225\u00a0(2017)."},{"key":"4067_CR70","doi-asserted-by":"publisher","unstructured":"Zheyu Zhang, Gang Yang, Yueyi Zhang, Huanjing Yue, Aiping Liu, Yunwei Ou, Jian Gong, Xiaoyan Sun. \"TMFormer: Token Merging Transformer for Brain Tumor Segmentation with Missing Modalities.\" Association for the Advancement of Artificial Intelligence (AAAI), 2024. https:\/\/doi.org\/10.1609\/aaai.v38i7.28572","DOI":"10.1609\/aaai.v38i7.28572"},{"issue":"8","key":"4067_CR71","doi-asserted-by":"publisher","first-page":"1384","DOI":"10.3390\/diagnostics11081384","volume":"11","author":"Y Dai","year":"2021","unstructured":"Dai, Y., Gao, Y., Liu, F.: Transmed: Transformers advance multi-modal medical image classification. Diagnostics 11(8), 1384 (2021)","journal-title":"Diagnostics"},{"key":"4067_CR72","doi-asserted-by":"crossref","unstructured":"Hatamizadeh, Ali, et al. \"Unetr: Transformers for 3d medical image segmentation.\"\u00a0Proceedings of the IEEE\/CVF winter conference on applications of computer vision. 2022.","DOI":"10.1109\/WACV51458.2022.00181"},{"key":"4067_CR73","doi-asserted-by":"publisher","unstructured":"Olaide N. Oyelade, Eric Aghiomesi Irunokhai, Hui Wang. \"A twin convolutional neural network with hybrid binary optimizer for multimodal breast cancer digital image classification.\" Springer Science and Business Media LLC, 2024. https:\/\/doi.org\/10.1038\/s41598-024-51329-8","DOI":"10.1038\/s41598-024-51329-8"},{"issue":"12","key":"4067_CR74","doi-asserted-by":"publisher","first-page":"3446","DOI":"10.1109\/TMI.2021.3087857","volume":"40","author":"R Liu","year":"2021","unstructured":"Liu, R., Liu, M., Sheng, B., et al.: NHBS-Net: A feature fusion attention network for ultrasound neonatal hip bone segmentation. IEEE Trans. Med. Imaging 40(12), 3446\u20133458 (2021)","journal-title":"IEEE Trans. Med. Imaging"},{"key":"4067_CR75","doi-asserted-by":"crossref","unstructured":"Nazir, Anam, et al. \"OFF-eNET: An optimally fused fully end-to-end network for automatic dense volumetric 3D intracranial blood vessels segmentation.\"\u00a0IEEE Transactions on Image Processing\u00a029 (2020): 7192\u20137202.","DOI":"10.1109\/TIP.2020.2999854"},{"issue":"8","key":"4067_CR76","doi-asserted-by":"publisher","first-page":"3647","DOI":"10.1007\/s00371-023-02938-3","volume":"39","author":"S Huang","year":"2023","unstructured":"Huang, S., Sheng, B., Li, P., et al.: TransMRSR: transformer-based self-distilled generative prior for brain MRI super-resolution. Vis. Comput. 39(8), 3647\u20133659 (2023)","journal-title":"Vis. Comput."},{"key":"4067_CR77","doi-asserted-by":"publisher","unstructured":"Qi Dou, Quande Liu, Pheng\u0101 Ann Heng, Ben Glocker. \"Unpaired Multi-Modal Segmentation via Knowledge Distillation.\" Institute of Electrical and Electronics Engineers (IEEE), 2020. https:\/\/doi.org\/10.1109\/tmi.2019.2963882","DOI":"10.1109\/tmi.2019.2963882"},{"key":"4067_CR78","doi-asserted-by":"publisher","unstructured":"Yuhang Ding, Xin Yu, Yi Yang. \"RFNet: Region-aware Fusion Network for Incomplete Multi-modal Brain Tumor Segmentation.\" IEEE, 2021. https:\/\/doi.org\/10.1109\/iccv48922.2021.00394","DOI":"10.1109\/iccv48922.2021.00394"},{"key":"4067_CR79","doi-asserted-by":"publisher","unstructured":"Liuting Shan, Qizhen Chen, Rengjian Yu, Changsong Gao, Lujian Liu, Tailiang Guo, Huipeng Chen. \"A sensory memory processing system with multi-wavelength synaptic-polychromatic light emission for multi-modal information recognition.\" Springer Science and Business Media LLC, 2023. https:\/\/doi.org\/10.1038\/s41467-023-38396-7","DOI":"10.1038\/s41467-023-38396-7"},{"key":"4067_CR80","doi-asserted-by":"publisher","first-page":"147967","DOI":"10.1109\/ACCESS.2021.3123938","volume":"9","author":"I Colbert","year":"2021","unstructured":"Colbert, I., Kreutz-Delgado, K., Das, S.: An Energy-Efficient Edge Computing Paradigm for Convolution-Based Image Upsampling. IEEE Access 9, 147967\u2013147984 (2021)","journal-title":"IEEE Access"},{"key":"4067_CR81","doi-asserted-by":"crossref","unstructured":"ZW Lim, K Pushpanathan, SME Yew, Y Lai, CH Sun, JSH Lam, DZ Chen, et al. \"Benchmarking large language models\u2019 performances for myopia care: a comparative analysis of ChatGPT-3.5, ChatGPT-4.0, and Google Bard.\" EBioMedicine 95, 2023.","DOI":"10.1016\/j.ebiom.2023.104770"},{"issue":"1","key":"4067_CR82","doi-asserted-by":"publisher","first-page":"3058","DOI":"10.1038\/s41598-019-39795-x","volume":"9","author":"S Masood","year":"2019","unstructured":"Masood, S., Fang, R., Li, P., Li, H., Sheng, B., Mathavan, A., et al.: Automatic choroid layer segmentation from optical coherence tomography images using deep learning. Sci. Rep. 9(1), 3058 (2019)","journal-title":"Sci. Rep."},{"key":"4067_CR83","doi-asserted-by":"crossref","unstructured":"Qian, Bo, Bin Sheng, Hao Chen, Xiangning Wang, Tingyao Li, Yixiao Jin, Zhouyu Guan et al. \"A competition for the diagnosis of myopic maculopathy by artificial intelligence algorithms.\"\u00a0JAMA ophthalmology\u00a0142, no. 11 (2024): 1006\u20131015.","DOI":"10.1001\/jamaophthalmol.2024.3707"},{"key":"4067_CR84","doi-asserted-by":"publisher","unstructured":"W. Shi et al., \"Real-Time Single Image and Video Super-Resolution Using an Efficient Sub-Pixel Convolutional Neural Network,\" 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Las Vegas, NV, USA, 2016, pp. 1874\u20131883, https:\/\/doi.org\/10.1109\/CVPR.2016.207.","DOI":"10.1109\/CVPR.2016.207"},{"issue":"7","key":"4067_CR85","first-page":"1263","volume":"27","author":"Y Benjun","year":"2015","unstructured":"Benjun, Y., Yan, C., Li Huating, Wu., Wen, S.B.: Using Morlet Wavelet for Retinal Vessel Segmentation[J]. Journal of Computer-Aided Design & Computer Graphics 27(7), 1263\u20131270 (2015)","journal-title":"Journal of Computer-Aided Design & Computer Graphics"},{"key":"4067_CR86","doi-asserted-by":"crossref","unstructured":"Y. Shen, R. Fang, B. Sheng, L. Dai, H. Li, J. Qin, Q. Wu, W. Jia, \"Multi-task fundus image quality assessment via transfer learning and landmarks detection,\" in\u00a0Machine Learning in Medical Imaging, 2018, pp. 1\u201310.","DOI":"10.1007\/978-3-030-00919-9_4"},{"issue":"2","key":"4067_CR87","doi-asserted-by":"publisher","first-page":"1","DOI":"10.47760\/ijcsmc.2025.v14i02.001","volume":"14","author":"W Hayder","year":"2025","unstructured":"Hayder, W.: Highlighting deepseek-r1: architecture, features and future implications. Int. J. Comput. Sci. Mob. Comput. 14(2), 1\u201313 (2025)","journal-title":"Int. J. Comput. Sci. Mob. Comput."},{"key":"4067_CR88","doi-asserted-by":"publisher","unstructured":"Jun Wang, Ai-Rong Yu. \"Innovative Design of Medical Big Data Platform Integrating Machine Learning and Knowledge Graph.\" Atlantis Press International BV, 2023. https:\/\/doi.org\/10.2991\/978-94-6463-242-2_76","DOI":"10.2991\/978-94-6463-242-2_76"},{"key":"4067_CR89","unstructured":"Goodfellow, Ian J., Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron C. Courville and Yoshua Bengio. \u201cGenerative Adversarial Nets.\u201d\u00a0Neural Information Processing Systems\u00a0(2014)."},{"key":"4067_CR90","doi-asserted-by":"crossref","unstructured":"Li, Haoxuan, Bin Sheng, Ping Li, Riaz Ali, and CL Philip Chen. \"Globally and locally semantic colorization via exemplar-based broad-GAN.\"\u00a0IEEE Transactions on Image Processing\u00a030 (2021): 8526\u20138539.","DOI":"10.1109\/TIP.2021.3117061"},{"issue":"3","key":"4067_CR91","first-page":"578","volume":"69","author":"B Sheng","year":"2024","unstructured":"Sheng, B., Guan, Z., Lim, L.L., Jiang, Z., Mathioudakis, N., Li, J., et al.: Large language models for diabetes care: Potentials and prospects. Science Bulletin. 69(3), 578\u2013597 (2024)","journal-title":"Science Bulletin."},{"key":"4067_CR92","doi-asserted-by":"publisher","unstructured":"Mor Zarfati, Girish N. Nadkarni, Benjamin S. Glicksberg, Moti Harats, Shoshana Greenberger, Eyal Klang, Shelly Soffer. \"Exploring the role of Large Language Models in Melanoma: a Systemic Review.\" Cold Spring Harbor Laboratory, 2024. https:\/\/doi.org\/10.1101\/2024.09.23.24314213","DOI":"10.1101\/2024.09.23.24314213"},{"key":"4067_CR93","doi-asserted-by":"publisher","unstructured":"Nikolai Ilinykh, Simon Dobnik. \"What Does a Language-And-Vision Transformer See: The Impact of Semantic Information on Visual Representations.\" Frontiers Media SA, 2021. https:\/\/doi.org\/10.3389\/frai.2021.767971","DOI":"10.3389\/frai.2021.767971"},{"key":"4067_CR94","doi-asserted-by":"crossref","unstructured":"Fengyu Yang, Guangdong Zeng, Fa Zhong, Peng Xiao, Wei Zheng, Fuxing Qiu.CfExplainer: Explainable just-in-time defect.prediction based on counterfactuals.Journal of Systems and Software 218(2024):0164\u20131212.","DOI":"10.1016\/j.jss.2024.112182"},{"key":"4067_CR95","doi-asserted-by":"publisher","unstructured":"Dong Zhang, Shimin Li, Xin Zhang, Jun Zhan, Pengyu Wang, Yaqian Zhou, Xipeng Qiu. \"SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities.\" Association for Computational Linguistics, 2023. https:\/\/doi.org\/10.18653\/v1\/2023.findings-emnlp.1055","DOI":"10.18653\/v1\/2023.findings-emnlp.1055"},{"key":"4067_CR96","doi-asserted-by":"crossref","unstructured":"Chen Z, Qiu G, Li P, Zhu L, Yang X, Sheng B. Magnas: distilling adaptive combination of multiple searched networks for one-shot neural architecture search. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2023;45(11).","DOI":"10.1109\/TPAMI.2023.3293885"},{"key":"4067_CR97","doi-asserted-by":"crossref","unstructured":"Lin, Xiao, et al. \"EAPT: efficient attention pyramid transformer for image processing.\"\u00a0IEEE Transactions on Multimedia\u00a025 (2021): 50\u201361.","DOI":"10.1109\/TMM.2021.3120873"},{"key":"4067_CR98","doi-asserted-by":"crossref","unstructured":"Wu, Kan, Jinnian Zhang, Houwen Peng, Mengchen Liu, Bin Xiao, Jianlong Fu and Lu Yuan. \u201cTinyViT: Fast Pretraining Distillation for Small Vision Transformers.\u201d\u00a0ArXiv\u00a0abs\/2207.10666 (2022): n. pag.","DOI":"10.1007\/978-3-031-19803-8_5"},{"key":"4067_CR99","doi-asserted-by":"crossref","unstructured":"Kingphai, K., Moshfeghi, Y. (2023). On Time Series Cross-Validation for\u00a0Deep Learning Classification Model of\u00a0Mental Workload Levels Based on\u00a0EEG Signals. In: Nicosia, G.,\u00a0et al.\u00a0Machine Learning, Optimization, and Data Science. LOD 2022. Lecture Notes in Computer Science, vol 13811. Springer, Cham.","DOI":"10.1007\/978-3-031-25891-6_30"},{"key":"4067_CR100","doi-asserted-by":"publisher","unstructured":"Ange Tato, Roger Nkambou. \"Towards a multi-modal Deep Learning Architecture for User Modeling.\" University of Florida George A Smathers Libraries, 2023. https:\/\/doi.org\/10.32473\/flairs.36.133328","DOI":"10.32473\/flairs.36.133328"},{"key":"4067_CR101","unstructured":"Finn, Chelsea, Pieter Abbeel, and Sergey Levine. \"Model-agnostic meta-learning for fast adaptation of deep networks.\"\u00a0International conference on machine learning. PMLR, 2017."}],"container-title":["The Visual Computer"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00371-025-04067-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s00371-025-04067-5\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s00371-025-04067-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,11,20]],"date-time":"2025-11-20T13:16:20Z","timestamp":1763644580000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s00371-025-04067-5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,20]]},"references-count":101,"journal-issue":{"issue":"15","published-print":{"date-parts":[[2025,12]]}},"alternative-id":["4067"],"URL":"https:\/\/doi.org\/10.1007\/s00371-025-04067-5","relation":{},"ISSN":["0178-2789","1432-2315"],"issn-type":[{"type":"print","value":"0178-2789"},{"type":"electronic","value":"1432-2315"}],"subject":[],"published":{"date-parts":[[2025,10,20]]},"assertion":[{"value":"17 June 2025","order":1,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"20 October 2025","order":2,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}