{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,2,22]],"date-time":"2026-02-22T07:01:26Z","timestamp":1771743686586,"version":"3.50.1"},"publisher-location":"Cham","reference-count":36,"publisher":"Springer Nature Switzerland","isbn-type":[{"value":"9783032049704","type":"print"},{"value":"9783032049711","type":"electronic"}],"license":[{"start":{"date-parts":[[2025,9,20]],"date-time":"2025-09-20T00:00:00Z","timestamp":1758326400000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2025,9,20]],"date-time":"2025-09-20T00:00:00Z","timestamp":1758326400000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2026]]},"DOI":"10.1007\/978-3-032-04971-1_53","type":"book-chapter","created":{"date-parts":[[2025,9,19]],"date-time":"2025-09-19T17:10:54Z","timestamp":1758301854000},"page":"563-573","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":0,"title":["SimCroP: Radiograph Representation Learning with\u00a0Similarity-Driven Cross-Granularity Pre-training"],"prefix":"10.1007","author":[{"given":"Rongsheng","family":"Wang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Fenghe","family":"Tang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Qingsong","family":"Yao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Rui","family":"Yan","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xu","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhen","family":"Huang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Haoran","family":"Lai","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zhiyang","family":"He","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Xiaodong","family":"Tao","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Zihang","family":"Jiang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"S. Kevin","family":"Zhou","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2025,9,20]]},"reference":[{"key":"53_CR1","unstructured":"Bai, F., Du, Y., Huang, T., Meng, M.Q.H., Zhao, B.: M3D: advancing 3D medical image analysis with multi-modal large language models. arXiv preprint arXiv:2404.00578 (2024)"},{"key":"53_CR2","doi-asserted-by":"crossref","unstructured":"Boecking, B., Usuyama, N., Bannur, S., Castro, D.C., et\u00a0al.: Making the most of text semantics to improve biomedical vision\u2013language processing. In: ECCV, pp. 1\u201321 (2022)","DOI":"10.1007\/978-3-031-20059-5_1"},{"key":"53_CR3","doi-asserted-by":"crossref","unstructured":"Cao, W., Zhang, J., Xia, Y., Mok, T.C., et\u00a0al.: Bootstrapping chest CT image understanding by distilling knowledge from X-ray expert models. In: CVPR, pp. 11238\u201311247 (2024)","DOI":"10.1109\/CVPR52733.2024.01068"},{"key":"53_CR4","doi-asserted-by":"crossref","unstructured":"Chen, X., et al.: Recent advances and clinical applications of deep learning in medical image analysis. Med. Image Anal. 79, 102444 (2022)","DOI":"10.1016\/j.media.2022.102444"},{"key":"53_CR5","doi-asserted-by":"crossref","unstructured":"Chen, Z., et al.: Multi-modal masked autoencoders for medical vision-and-language pre-training. In: MICCAI, pp. 679\u2013689. Springer (2022)","DOI":"10.1007\/978-3-031-16443-9_65"},{"key":"53_CR6","unstructured":"Dosovitskiy, A., et\u00a0al.: An image is worth 16$$\\times $$16 words: transformers for image recognition at scale. In: ICLR (2020)"},{"key":"53_CR7","doi-asserted-by":"crossref","unstructured":"Draelos, R.L., et al.: Machine-learning-based multiple abnormality prediction with large-scale chest computed tomography volumes. Med. Image Anal. 67, 101857 (2021)","DOI":"10.1016\/j.media.2020.101857"},{"key":"53_CR8","unstructured":"Hamamci, I.E., et\u00a0al.: A foundation model utilizing chest CT volumes and radiology reports for supervised-level zero-shot detection of abnormalities. CoRR (2024)"},{"key":"53_CR9","doi-asserted-by":"crossref","unstructured":"Hatamizadeh, A., Tang, Y., et\u00a0al.: UNETR: transformers for 3D medical image segmentation. In: WACV, pp. 574\u2013584 (2022)","DOI":"10.1109\/WACV51458.2022.00181"},{"key":"53_CR10","doi-asserted-by":"crossref","unstructured":"He, K., Chen, X., Xie, S., Li, Y., Doll\u2019ar, P., Girshick, R.B.: Masked autoencoders are scalable vision learners. In: CVPR, pp. 15979\u201315988 (2021)","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"53_CR11","doi-asserted-by":"crossref","unstructured":"He, X., et al.: Benchmarking deep learning models and automated model design for Covid-19 detection with chest CT scans. MedRxiv, pp. 2020\u201306 (2020)","DOI":"10.1101\/2020.06.08.20125963"},{"key":"53_CR12","doi-asserted-by":"crossref","unstructured":"Huang, S.C., Shen, L., Lungren, M.P., Yeung, S.: GLoRIA: a multimodal global-local representation learning framework for label-efficient medical image recognition. In: ICCV, pp. 3942\u20133951 (2021)","DOI":"10.1109\/ICCV48922.2021.00391"},{"issue":"1","key":"53_CR13","doi-asserted-by":"publisher","first-page":"7620","DOI":"10.1038\/s41467-024-51749-0","volume":"15","author":"W Huang","year":"2024","unstructured":"Huang, W., Li, C., Zhou, H.Y., Yang, H., Liu, J., et al.: Enhancing representation in radiography-reports foundation model: a granular alignment algorithm using masked contrastive learning. Nat. Commun. 15(1), 7620 (2024)","journal-title":"Nat. Commun."},{"key":"53_CR14","doi-asserted-by":"crossref","unstructured":"Huang, Z., et al.: Pele scores: pelvic X-ray landmark detection with pelvis extraction and enhancement. IJCARS 19(5), 939\u2013950 (2024)","DOI":"10.1007\/s11548-024-03089-z"},{"issue":"3","key":"53_CR15","first-page":"1","volume":"37","author":"Z Huang","year":"2025","unstructured":"Huang, Z., et al.: Casemark: a hybrid model for robust anatomical landmark detection in multi-structure x-rays. JKS Univ. Comput. Inf. Sci. 37(3), 1\u201318 (2025)","journal-title":"JKS Univ. Comput. Inf. Sci."},{"key":"53_CR16","unstructured":"Landman, B., Xu, Z., Igelsias, J., Styner, M., Langerak, T., Klein, A.: MICCAI multi-atlas labeling beyond the cranial vault\u2013workshop and challenge. In: Proceedings of the MICCAI Multi-atlas Labeling Beyond Cranial Vault\u2014Workshop, vol.\u00a05, p.\u00a012 (2015)"},{"key":"53_CR17","doi-asserted-by":"crossref","unstructured":"Li, Z., Yang, L.T., Ren, B., et\u00a0al.: MLIP: enhancing medical visual representation with divergence encoder and knowledge-guided contrastive learning. In: CVPR, pp. 11704\u201311714 (2024)","DOI":"10.1109\/CVPR52733.2024.01112"},{"key":"53_CR18","unstructured":"Lu, J., Batra, D., Parikh, D., Lee, S.: ViLBERT: pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. In: Advances in NeurIPS, vol. 32 (2019)"},{"key":"53_CR19","unstructured":"Ni, X., Wu, L., Zhuang, J., Wang, Q., et\u00a0al.: MG-3D: multi-grained knowledge-enhanced 3D medical vision-language pre-training. arXiv preprint arXiv:2412.05876 (2024)"},{"key":"53_CR20","unstructured":"van\u00a0den Oord, A., Li, Y., Vinyals, O.: Representation learning with contrastive predictive coding. ArXiv abs\/1807.03748 (2018)"},{"issue":"2","key":"53_CR21","doi-asserted-by":"publisher","first-page":"87","DOI":"10.1016\/j.irbm.2020.05.003","volume":"43","author":"Y Pathak","year":"2022","unstructured":"Pathak, Y., Shukla, P.K., Tiwari, A., Stalin, S., Singh, S.: Deep transfer learning based classification model for Covid-19 disease. Irbm 43(2), 87\u201392 (2022)","journal-title":"Irbm"},{"key":"53_CR22","unstructured":"Radford, A., et\u00a0al.: Learning transferable visual models from natural language supervision. In: ICML, pp. 8748\u20138763. PMLR (2021)"},{"key":"53_CR23","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1016\/j.media.2017.06.015","volume":"42","author":"AAA Setio","year":"2017","unstructured":"Setio, A.A.A., Traverso, A., De Bel, T., et al.: Validation, comparison, and combination of algorithms for automatic detection of pulmonary nodules in computed tomography images: the luna16 challenge. Med. Image Anal. 42, 1\u201313 (2017)","journal-title":"Med. Image Anal."},{"key":"53_CR24","unstructured":"Shao, S., Yuan, X., Huang, Z., et\u00a0al.: DiffuseExpand: expanding dataset for 2D medical image segmentation using diffusion models. arXiv preprint arXiv:2304.13416 (2023)"},{"key":"53_CR25","unstructured":"Shui, Z., Zhang, J., Cao, W., et\u00a0al.: Large-scale and fine-grained vision-language pre-training for enhanced CT image understanding. In: ICLR (2025)"},{"key":"53_CR26","doi-asserted-by":"crossref","unstructured":"Tang, F., Nian, B., Li, Y., et\u00a0al.: MambaMIM: pre-training mamba with state space token interpolation and its application to medical image segmentation. Med. Image Anal. 103606 (2025)","DOI":"10.1016\/j.media.2025.103606"},{"key":"53_CR27","doi-asserted-by":"crossref","unstructured":"Tang, F., Xu, R., Yao, Q., et\u00a0al.: HySparK: hybrid sparse masking for large scale medical image pre-training. In: MICCAI, pp. 330\u2013340. Springer (2024)","DOI":"10.1007\/978-3-031-72120-5_31"},{"key":"53_CR28","doi-asserted-by":"crossref","unstructured":"Tang, F., Yao, Q., et\u00a0al.: Hi-end-MAE: hierarchical encoder-driven masked autoencoders are stronger vision learners for medical image segmentation. arXiv preprint arXiv:2502.08347 (2025)","DOI":"10.1016\/j.media.2025.103770"},{"issue":"12","key":"53_CR29","doi-asserted-by":"publisher","first-page":"1399","DOI":"10.1038\/s41551-022-00936-9","volume":"6","author":"E Tiu","year":"2022","unstructured":"Tiu, E., Talius, E., Patel, P., Langlotz, C.P., Ng, A.Y., Rajpurkar, P.: Expert-level detection of pathologies from unannotated chest X-ray images via self-supervised learning. Nat. Biomed. Eng. 6(12), 1399\u20131406 (2022)","journal-title":"Nat. Biomed. Eng."},{"key":"53_CR30","unstructured":"Wang, F., Zhou, Y., et\u00a0al.: Multi-granularity cross-modal alignment for generalized medical visual representation learning. In: NeurIPS, vol.\u00a035, pp. 33536\u201333549 (2022)"},{"key":"53_CR31","unstructured":"Wang, R., et al.: ECAMP: entity-centered context-aware medical vision language pre-training. arXiv preprint arXiv:2312.13316 (2023)"},{"key":"53_CR32","doi-asserted-by":"crossref","unstructured":"Wang, Z., Wu, Z., Agarwal, D., Sun, J.: MedCLIP: contrastive learning from unpaired medical images and text. In: Proceedings of the 2022 Conference on Empirical Methods in Natural Language Processing, pp. 3876\u20133887 (2022)","DOI":"10.18653\/v1\/2022.emnlp-main.256"},{"key":"53_CR33","unstructured":"Zhou, H.Y., Lian, C., Wang, L., Yu, Y.: Advancing radiograph representation learning with masked record modeling. In: ICLR (2023)"},{"key":"53_CR34","doi-asserted-by":"crossref","unstructured":"Zhou, L., Liu, H., Bae, J., He, J., Samaras, D., Prasanna, P.: Self pre-training with masked autoencoders for medical image classification and segmentation. In: 2023 ISBI, pp.\u00a01\u20136. IEEE (2023)","DOI":"10.1109\/ISBI53787.2023.10230477"},{"key":"53_CR35","doi-asserted-by":"crossref","unstructured":"Zhou, S.K., Greenspan, H., Davatzikos, C., Duncan, J.S., et\u00a0al.: A review of deep learning in medical imaging: imaging traits, technology trends, case studies with progress highlights, and future promises. Proc. IEEE (2021)","DOI":"10.1109\/JPROC.2021.3054390"},{"key":"53_CR36","unstructured":"Zhou, X., Huang, Z., Zhu, H., Yao, Q., Zhou, S.K.: Hybrid attention network: an efficient approach for anatomy-free landmark detection. arXiv preprint arXiv:2412.06499 (2024)"}],"container-title":["Lecture Notes in Computer Science","Medical Image Computing and Computer Assisted Intervention \u2013 MICCAI 2025"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/978-3-032-04971-1_53","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,22]],"date-time":"2026-02-22T06:46:54Z","timestamp":1771742814000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/978-3-032-04971-1_53"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,9,20]]},"ISBN":["9783032049704","9783032049711"],"references-count":36,"URL":"https:\/\/doi.org\/10.1007\/978-3-032-04971-1_53","relation":{},"ISSN":["0302-9743","1611-3349"],"issn-type":[{"value":"0302-9743","type":"print"},{"value":"1611-3349","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,9,20]]},"assertion":[{"value":"20 September 2025","order":1,"name":"first_online","label":"First Online","group":{"name":"ChapterHistory","label":"Chapter History"}},{"value":"The authors have no competing interests to declare that are relevant to the content of this article.","order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Disclosure of Interests"}},{"value":"MICCAI","order":1,"name":"conference_acronym","label":"Conference Acronym","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"International Conference on Medical Image Computing and Computer-Assisted Intervention","order":2,"name":"conference_name","label":"Conference Name","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Daejeon","order":3,"name":"conference_city","label":"Conference City","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"Korea (Republic of)","order":4,"name":"conference_country","label":"Conference Country","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"2025","order":5,"name":"conference_year","label":"Conference Year","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"23 September 2025","order":7,"name":"conference_start_date","label":"Conference Start Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"27 September 2025","order":8,"name":"conference_end_date","label":"Conference End Date","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"28","order":9,"name":"conference_number","label":"Conference Number","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"miccai2025","order":10,"name":"conference_id","label":"Conference ID","group":{"name":"ConferenceInfo","label":"Conference Information"}},{"value":"https:\/\/conferences.miccai.org\/2025\/","order":11,"name":"conference_url","label":"Conference URL","group":{"name":"ConferenceInfo","label":"Conference Information"}}]}}