{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,22]],"date-time":"2026-02-22T07:00:53Z","timestamp":1771743653923,"version":"3.50.1"},"publisher-location":"Cham","reference-count":32,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783032049704","type":"print"},{"value":"9783032049711","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,9,20]],"date-time":"2025-09-20T00:00:00Z","timestamp":1758326400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,9,20]],"date-time":"2025-09-20T00:00:00Z","timestamp":1758326400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-04971-1_51","type":"book-chapter","created":{"date-parts":[[2025,9,19]],"date-time":"2025-09-19T17:11:15Z","timestamp":1758301875000},"page":"541-551","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["RetFiner: A Vision-Language Refinement Scheme for\u00a0Retinal Foundation Models"],"prefix":"10.1007","author":[{"ORCID":"https:\/\/orcid.org\/0009-0006-2423-7071","authenticated-orcid":false,"given":"Ronald","family":"Fecso","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3785-8185","authenticated-orcid":false,"given":"Jos\u00e9","family":"Morano","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7788-7311","authenticated-orcid":false,"given":"Ursula","family":"Schmidt-Erfurth","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9168-0894","authenticated-orcid":false,"given":"Hrvoje","family":"Bogunovi\u0107","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2025,9,20]]},"reference":[{"key":"51_CR1","unstructured":"Balestriero, R., LeCun, Y.: How learning by reconstruction produces uninformative features for perception. In: International Conference on Machine Learning (2024)"},{"key":"51_CR2","unstructured":"Bommasani, R., et\u00a0al.: On the opportunities and risks of foundation models. arXiv:2108.07258 (2021)"},{"key":"51_CR3","doi-asserted-by":"crossref","unstructured":"Chen, Z., Diao, S., Wang, B., Li, G., Wan, X.: Towards unifying medical vision-and-language pre-training via soft prompts. In: IEEE\/CVF International Conference on Computer Vision, pp. 23403\u201323413 (2023)","DOI":"10.1109\/ICCV51070.2023.02139"},{"key":"51_CR4","unstructured":"Devlin, J., Chang, M.W., Lee, K., Toutanova, K.: BERT: pre-training of deep bidirectional transformers for language understanding. In: Burstein, J., Doran, C., Solorio, T. (eds.) Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 4171\u20134186. Association for Computational Linguistics, Minneapolis (2019)"},{"key":"51_CR5","unstructured":"Dosovitskiy, A., et\u00a0al.: An image is worth 16$$\\times $$16 words: transformers for image recognition at scale. In: International Conference on Learning Representations (2021)"},{"issue":"3","key":"51_CR6","doi-asserted-by":"publisher","first-page":"42","DOI":"10.1109\/MSP.2021.3134634","volume":"39","author":"L Ericsson","year":"2022","unstructured":"Ericsson, L., Gouk, H., Loy, C.C., Hospedales, T.M.: Self-supervised representation learning: introduction, advances, and challenges. IEEE Signal Process. Mag. 39(3), 42\u201362 (2022)","journal-title":"IEEE Signal Process. Mag."},{"key":"51_CR7","doi-asserted-by":"crossref","unstructured":"Fang, Y., et\u00a0al.: EVA: exploring the limits of masked visual representation learning at scale. In: IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pp. 19358\u201319369 (2023)","DOI":"10.1109\/CVPR52729.2023.01855"},{"key":"51_CR8","doi-asserted-by":"crossref","unstructured":"Gerendas, B.S., et al.: Validation of an automated fluid algorithm on real-world data of neovascular age-related macular degeneration over five years. RETINA 42(9) (2022)","DOI":"10.1097\/IAE.0000000000003557"},{"key":"51_CR9","doi-asserted-by":"crossref","unstructured":"Gholami, P., Roy, P., Kuppuswamy\u00a0Parthasarathy, M., Lakshminarayanan, V.: OCTID: optical coherence tomography image database. Comput. Electr. Eng. 81, 106532 (2020)","DOI":"10.1016\/j.compeleceng.2019.106532"},{"key":"51_CR10","doi-asserted-by":"crossref","unstructured":"He, K., Chen, X., Xie, S., Li, Y., Doll\u00e1r, P., Girshick, R.: Masked autoencoders are scalable vision learners. In: IEEE\/CVF conference on computer vision and pattern recognition, pp. 16000\u201316009 (2022)","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"51_CR11","doi-asserted-by":"crossref","unstructured":"Huang, S.C., Shen, L., Lungren, M.P., Yeung, S.: GLoRIA: a multimodal global-local representation learning framework for label-efficient medical image recognition. In: IEEE\/CVF International Conference on Computer Vision, pp. 3922\u20133931 (2021)","DOI":"10.1109\/ICCV48922.2021.00391"},{"key":"51_CR12","doi-asserted-by":"crossref","unstructured":"Keenan, T.D.L., Cukras, C.A., Chew, E.Y.: Age-related macular degeneration: epidemiology and clinical aspects, pp. 1\u201331. Springer, Cham (2021)","DOI":"10.1007\/978-3-030-66014-7_1"},{"issue":"1","key":"51_CR13","doi-asserted-by":"publisher","first-page":"365","DOI":"10.1038\/s41597-024-03182-7","volume":"11","author":"M Kulyabin","year":"2024","unstructured":"Kulyabin, M., et al.: OCTDL: optical coherence tomography dataset for image-based deep learning methods. Sci. Data 11(1), 365 (2024)","journal-title":"Sci. Data"},{"key":"51_CR14","unstructured":"Li, J., Li, D., Savarese, S., Hoi, S.: BLIP-2: bootstrapping language-image pre-training with frozen image encoders and large language models. In: Krause, A., Brunskill, E., Cho, K., Engelhardt, B., Sabato, S., Scarlett, J. (eds.) Proceedings of the 40th International Conference on Machine Learning. Proceedings of Machine Learning Research, vol.\u00a0202, pp. 19730\u201319742. PMLR (2023)"},{"key":"51_CR15","first-page":"9694","volume":"34","author":"J Li","year":"2021","unstructured":"Li, J., Selvaraju, R., Gotmare, A., Joty, S., Xiong, C., Hoi, S.C.H.: Align before fuse: vision and language representation learning with momentum distillation. Adv. Neural. Inf. Process. Syst. 34, 9694\u20139705 (2021)","journal-title":"Adv. Neural. Inf. Process. Syst."},{"issue":"12","key":"51_CR16","doi-asserted-by":"publisher","first-page":"3579","DOI":"10.1109\/TMI.2023.3294980","volume":"42","author":"B Liu","year":"2023","unstructured":"Liu, B., et al.: Improving medical vision-language contrastive pretraining with semantics-aware triage. IEEE Trans. Med. Imaging 42(12), 3579\u20133589 (2023)","journal-title":"IEEE Trans. Med. Imaging"},{"key":"51_CR17","doi-asserted-by":"crossref","unstructured":"Luo, Y., Shi, M., Tian, Y., Elze, T., Wang, M.: Harvard glaucoma detection and progression: a multimodal multitask dataset and generalization-reinforced semi-supervised learning, pp. 20414\u201320425 (2023)","DOI":"10.1109\/ICCV51070.2023.01872"},{"key":"51_CR18","unstructured":"van\u00a0den Oord, A., Li, Y., Vinyals, O.: Representation learning with contrastive predictive coding (2019)"},{"key":"51_CR19","unstructured":"Oquab, M., et\u00a0al.: DINOv2: learning robust visual features without supervision (2024)"},{"key":"51_CR20","doi-asserted-by":"crossref","unstructured":"Qiu, J., et\u00a0al.: Development and validation of a multimodal multitask vision foundation model for generalist ophthalmic artificial intelligence. NEJM AI 1(12), AIoa2300221 (2024)","DOI":"10.1056\/AIoa2300221"},{"key":"51_CR21","unstructured":"Radford, A., et\u00a0al.: Learning transferable visual models from natural language supervision. In: International Conference on Machine Learning, pp. 8748\u20138763. PMLR (2021)"},{"issue":"4","key":"51_CR22","doi-asserted-by":"publisher","first-page":"1024","DOI":"10.1109\/TMI.2017.2780115","volume":"37","author":"R Rasti","year":"2018","unstructured":"Rasti, R., Rabbani, H., Mehridehnavi, A., Hajizadeh, F.: Macular OCT classification using a multi-scale convolutional neural network ensemble. IEEE Trans. Med. Imaging 37(4), 1024\u20131034 (2018)","journal-title":"IEEE Trans. Med. Imaging"},{"key":"51_CR23","unstructured":"Shui, Z., et\u00a0al.: Large-scale and fine-grained vision-language pre-training for enhanced CT image understanding. In: International Conference on Learning Representations (2025)"},{"key":"51_CR24","doi-asserted-by":"publisher","first-page":"103357","DOI":"10.1016\/j.media.2024.103357","volume":"99","author":"J Silva-Rodr\u00edguez","year":"2025","unstructured":"Silva-Rodr\u00edguez, J., Chakor, H., Kobbi, R., Dolz, J., Ben Ayed, I.: A foundation language-image model of the retina (FLAIR): encoding expert knowledge in text supervision. Med. Image Anal. 99, 103357 (2025)","journal-title":"Med. Image Anal."},{"key":"51_CR25","doi-asserted-by":"publisher","first-page":"105368","DOI":"10.1016\/j.compbiomed.2022.105368","volume":"144","author":"S Sotoudeh-Paima","year":"2022","unstructured":"Sotoudeh-Paima, S., Jodeiri, A., Hajizadeh, F., Soltanian-Zadeh, H.: Multi-scale convolutional neural network for automated AMD classification using retinal OCT images. Comput. Biol. Med. 144, 105368 (2022)","journal-title":"Comput. Biol. Med."},{"key":"51_CR26","unstructured":"Vaswani, A., et\u00a0al.: Attention is all you need. In: Guyon, I., et al. (eds.) Advances in Neural Information Processing Systems, vol.\u00a030 (2017)"},{"key":"51_CR27","doi-asserted-by":"publisher","first-page":"102938","DOI":"10.1016\/j.media.2023.102938","volume":"90","author":"J Wu","year":"2023","unstructured":"Wu, J., Fang, H., Li, F., Fu, H., Lin, F., Li, J., et al.: GAMMA challenge: glaucoma grading from multi-modality images. Med. Image Anal. 90, 102938 (2023)","journal-title":"Med. Image Anal."},{"key":"51_CR28","unstructured":"Yao, L., et al.: FILIP: fine-grained interactive language-image pre-training (2021)"},{"key":"51_CR29","unstructured":"Yu, J., Wang, Z., Vasudevan, V., Yeung, L., Seyedhosseini, M., Wu, Y.: CoCa: contrastive captioners are image-text foundation models. Trans. Mach. Learn. Res. (2022)"},{"key":"51_CR30","doi-asserted-by":"crossref","unstructured":"Yu, K., et al.: UrFound: Towards universal retinal foundation models via knowledge-guided masked modeling. In: Linguraru, M.G., et al. (eds.) International Conference on Medical Image Computing and Computer Assisted Interventions, pp. 753\u2013762. Springer, Cham (2024)","DOI":"10.1007\/978-3-031-72390-2_70"},{"key":"51_CR31","doi-asserted-by":"crossref","unstructured":"Zhao, Z., et\u00a0al.: CLIP in medical imaging: a comprehensive survey (2024)","DOI":"10.1016\/j.media.2025.103551"},{"issue":"7981","key":"51_CR32","doi-asserted-by":"publisher","first-page":"156","DOI":"10.1038\/s41586-023-06555-x","volume":"622","author":"Y Zhou","year":"2023","unstructured":"Zhou, Y., Chia, M.A., Wagner, S.K., Ayhan, M.S., Williamson, D.J., Struyven, R.R., et al.: A foundation model for generalizable disease detection from retinal images. Nature 622(7981), 156\u2013163 (2023)","journal-title":"Nature"}],"container-title":["Lecture Notes in Computer Science","Medical Image Computing and Computer Assisted Intervention \u2013 MICCAI 2025"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-04971-1_51","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,22]],"date-time":"2026-02-22T06:45:30Z","timestamp":1771742730000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-04971-1_51"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,9,20]]},"ISBN":["9783032049704","9783032049711"],"references-count":32,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-04971-1_51","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,9,20]]},"assertion":[{"value":"20 September 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"The authors have no competing interests to declare that are relevant to the content of this article.","order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Disclosure of Interests"}},{"value":"MICCAI","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Medical Image Computing and Computer-Assisted Intervention","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Daejeon","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Korea (Republic of)","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"23 September 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"27 September 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"28","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"miccai2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/conferences.miccai.org\/2025\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}