{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,15]],"date-time":"2026-05-15T00:13:28Z","timestamp":1778804008405,"version":"3.51.4"},"reference-count":48,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-017"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-012"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2026,7,1]],"date-time":"2026-07-01T00:00:00Z","timestamp":1782864000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-004"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Medical Image Analysis"],"published-print":{"date-parts":[[2026,7]]},"DOI":"10.1016\/j.media.2026.104064","type":"journal-article","created":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T07:03:24Z","timestamp":1775027004000},"page":"104064","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"C","title":["Advancing radiograph representation learning via cascading graph alignment for vision-language clinical concepts"],"prefix":"10.1016","volume":"112","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-7501-9636","authenticated-orcid":false,"given":"Xilin","family":"Dang","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0149-6912","authenticated-orcid":false,"given":"Kang","family":"Li","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-3055-5034","authenticated-orcid":false,"given":"Pheng","family":"Ann Heng","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"78","reference":[{"issue":"1","key":"10.1016\/j.media.2026.104064_bib0001","doi-asserted-by":"crossref","first-page":"24","DOI":"10.1186\/s40537-021-00419-9","article-title":"A survey on data-efficient algorithms in big data era","volume":"8","author":"Adadi","year":"2021","journal-title":"J. Big Data"},{"key":"10.1016\/j.media.2026.104064_bib0002","doi-asserted-by":"crossref","unstructured":"Alsentzer, E., Murphy, J. R., Boag, W., Weng, W.-H., Jin, D., Naumann, T., McDermott, M., 2019. Publicly available clinical BERT embeddings. arXiv preprint arXiv: 1904.03323.","DOI":"10.18653\/v1\/W19-1909"},{"issue":"suppl_1","key":"10.1016\/j.media.2026.104064_bib0003","doi-asserted-by":"crossref","first-page":"D267","DOI":"10.1093\/nar\/gkh061","article-title":"The unified medical language system (UMLS): integrating biomedical terminology","volume":"32","author":"Bodenreider","year":"2004","journal-title":"Nucleic Acids Res."},{"key":"10.1016\/j.media.2026.104064_bib0005","article-title":"Translating embeddings for modeling multi-relational data","volume":"26","author":"Bordes","year":"2013","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.media.2026.104064_bib0006","series-title":"International Conference on Medical Image Computing and Computer-Assisted Intervention","first-page":"493","article-title":"Contrastive masked image-text modeling for medical visual representation learning","author":"Chen","year":"2023"},{"key":"10.1016\/j.media.2026.104064_bib0007","unstructured":"Chen, W., Li, X., Shen, L., Yuan, Y., 2023b. Fine-grained image-text alignment in medical imaging enables cyclic image-report generation. arXiv preprint arXiv: 2312.08078."},{"key":"10.1016\/j.media.2026.104064_bib0009","series-title":"International Conference on Medical Image Computing and Computer-Assisted Intervention","first-page":"679","article-title":"Multi-modal masked autoencoders for medical vision-and-language pre-training","author":"Chen","year":"2022"},{"key":"10.1016\/j.media.2026.104064_bib0010","unstructured":"Chen, Z., Varma, M., Delbrouck, J.-B., Paschali, M., Blankemeier, L., Van Veen, D., Valanarasu, J. M. J., Youssef, A., Cohen, J. P., Reis, E. P., et al., 2024. Chexagent: towards a foundation model for chest x-ray interpretation. arXiv preprint arXiv: 2401.12208."},{"key":"10.1016\/j.media.2026.104064_bib0011","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"21361","article-title":"Prior: prototype representation joint learning from medical images and reports","author":"Cheng","year":"2023"},{"key":"10.1016\/j.media.2026.104064_bib0013","unstructured":"Devlin, J., 2018. Bert: pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv: 1810.04805."},{"key":"10.1016\/j.media.2026.104064_bib0014","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"10995","article-title":"Maskclip: masked self-distillation advances contrastive language-image pretraining","author":"Dong","year":"2023"},{"key":"10.1016\/j.media.2026.104064_bib0015","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al., 2020. An image is worth 16x16 words: transformers for image recognition at scale. arXiv preprint arXiv: 2010.11929."},{"key":"10.1016\/j.media.2026.104064_bib0016","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision Workshops","first-page":"0","article-title":"Attention-translation-relation network for scalable scene graph generation","author":"Gkanatsios","year":"2019"},{"key":"10.1016\/j.media.2026.104064_bib0017","unstructured":"He, S., Nie, Y., Chen, Z., Cai, Z., Wang, H., Yang, S., Chen, H., 2024. Meddr: diagnosis-guided bootstrapping for large-scale medical vision-language learning. arXiv preprint arXiv: 2404.15127."},{"key":"10.1016\/j.media.2026.104064_bib0018","unstructured":"Healthcare, J., 2020. Object-cxr-automatic detection of foreign objects on chest x-rays."},{"key":"10.1016\/j.media.2026.104064_bib0019","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"3942","article-title":"Gloria: a multimodal global-local representation learning framework for label-efficient medical image recognition","author":"Huang","year":"2021"},{"key":"10.1016\/j.media.2026.104064_bib0020","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"2417","article-title":"Structure-CLIP: towards scene graph knowledge to enhance multi-modal structured representations","volume":"Vol. 38","author":"Huang","year":"2024"},{"key":"10.1016\/j.media.2026.104064_bib0021","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"24229","article-title":"Egtr: extracting graph from transformer for scene graph generation","author":"Im","year":"2024"},{"key":"10.1016\/j.media.2026.104064_bib0022","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"590","article-title":"Chexpert: a large chest radiograph dataset with uncertainty labels and expert comparison","volume":"Vol. 33","author":"Irvin","year":"2019"},{"key":"10.1016\/j.media.2026.104064_bib0023","unstructured":"Jain, S., Agrawal, A., Saporta, A., Truong, S. Q. H., Duong, D. N., Bui, T., Chambon, P., Zhang, Y., Lungren, M. P., Ng, A. Y., et al., 2021. Radgraph: extracting clinical entities and relations from radiology reports. arXiv preprint arXiv: 2106.14463."},{"key":"10.1016\/j.media.2026.104064_bib0024","unstructured":"Jain, S., Wallace, B. C., 2019. Attention is not explanation. arXiv preprint arXiv: 1902.10186."},{"issue":"1","key":"10.1016\/j.media.2026.104064_bib0025","doi-asserted-by":"crossref","first-page":"317","DOI":"10.1038\/s41597-019-0322-0","article-title":"Mimic-cxr, a de-identified publicly available database of chest radiographs with free-text reports","volume":"6","author":"Johnson","year":"2019","journal-title":"Sci. Data"},{"key":"10.1016\/j.media.2026.104064_bib0026","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"4015","article-title":"Segment anything","author":"Kirillov","year":"2023"},{"key":"10.1016\/j.media.2026.104064_bib0027","doi-asserted-by":"crossref","first-page":"32","DOI":"10.1007\/s11263-016-0981-7","article-title":"Visual genome: connecting language and vision using crowdsourced dense image annotations","volume":"123","author":"Krishna","year":"2017","journal-title":"Int. J. Comput. Vis."},{"key":"10.1016\/j.media.2026.104064_bib0028","series-title":"Medical Image Computing and Computer Assisted Intervention\u2013MICCAI 2020: 23rd International Conference, Lima, Peru, October 4\u20138, 2020, Proceedings, Part I 23","first-page":"418","article-title":"Dual-teacher: integrating intra-domain and inter-domain teachers for annotation-efficient cardiac segmentation","author":"Li","year":"2020"},{"key":"10.1016\/j.media.2026.104064_bib0029","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"775","article-title":"Towards cross-modality medical image segmentation with online mutual knowledge distillation","volume":"Vol. 34","author":"Li","year":"2020"},{"key":"10.1016\/j.media.2026.104064_bib0030","series-title":"In: International Conference on Medical Image Computing and Computer-Assisted Intervention","first-page":"80","article-title":"Anatomical structure-guided medical vision-language pre-training","author":"Li","year":"2024"},{"key":"10.1016\/j.media.2026.104064_bib0031","series-title":"European Conference on Computer Vision","first-page":"280","article-title":"Exploring plain vision transformer backbones for object detection","author":"Li","year":"2022"},{"key":"10.1016\/j.media.2026.104064_bib0032","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"11704","article-title":"Mlip: enhancing medical visual representation with divergence encoder and knowledge-guided contrastive learning","author":"Li","year":"2024"},{"key":"10.1016\/j.media.2026.104064_bib0035","series-title":"European Conference on Computer Vision","first-page":"685","article-title":"Joint learning of localized representations from medical images and reports","author":"M\u00fcller","year":"2022"},{"key":"10.1016\/j.media.2026.104064_bib0036","series-title":"International Conference on Machine Learning","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021"},{"key":"10.1016\/j.media.2026.104064_bib0037","series-title":"Proceedings of the IEEE International Conference on Computer Vision","first-page":"618","article-title":"Grad-cam: visual explanations from deep networks via gradient-based localization","author":"Selvaraju","year":"2017"},{"issue":"1","key":"10.1016\/j.media.2026.104064_bib0038","article-title":"Augmenting the national institutes of health chest radiograph dataset with expert annotations of possible pneumonia","volume":"1","author":"Shih","year":"2019","journal-title":"Radiology: Artificial Intelligence"},{"key":"10.1016\/j.media.2026.104064_bib0039","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"20908","article-title":"Contig: self-supervised multimodal contrastive learning for medical imaging with genetics","author":"Taleb","year":"2022"},{"key":"10.1016\/j.media.2026.104064_bib0040","first-page":"33536","article-title":"Multi-granularity cross-modal alignment for generalized medical visual representation learning","volume":"35","author":"Wang","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"issue":"1","key":"10.1016\/j.media.2026.104064_bib0041","article-title":"Covid-net: a tailored deep convolutional neural network design for detection of covid-19 cases from chest x-ray images","volume":"10","author":"Wang","year":"2020","journal-title":"Sci. Rep."},{"issue":"1","key":"10.1016\/j.media.2026.104064_bib0043","doi-asserted-by":"crossref","first-page":"5915","DOI":"10.1038\/s41467-021-26216-9","article-title":"Annotation-efficient deep learning for automatic medical image segmentation","volume":"12","author":"Wang","year":"2021","journal-title":"Nat. Commun."},{"key":"10.1016\/j.media.2026.104064_bib0044","series-title":"Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition","first-page":"2097","article-title":"Chestx-ray8: hospital-scale chest x-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases","author":"Wang","year":"2017"},{"key":"10.1016\/j.media.2026.104064_bib0045","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"21372","article-title":"Medklip: medical knowledge enhanced language-image pre-training for x-ray diagnosis","author":"Wu","year":"2023"},{"key":"10.1016\/j.media.2026.104064_bib0046","unstructured":"Wu, J. T., Agu, N. N., Lourentzou, I., Sharma, A., Paguio, J. A., Yao, J. S., Dee, E. C., Mitchell, W., Kashyap, S., Giovannini, A., et al., 2021. Chest imagenome dataset for clinical reasoning. arXiv preprint arXiv: 2108.00316."},{"key":"10.1016\/j.media.2026.104064_bib0047","series-title":"International Conference on Medical Image Computing and Computer-Assisted Intervention","first-page":"13","article-title":"Medim: boost medical image representation via radiology report-guided masking","author":"Xie","year":"2023"},{"key":"10.1016\/j.media.2026.104064_bib0048","unstructured":"Xu, L., Ni, Z., Sun, H., Li, H., Zhang, S., 2024. A foundation model for generalizable disease diagnosis in chest x-ray images. arXiv preprint arXiv: 2410.08861."},{"key":"10.1016\/j.media.2026.104064_bib0049","series-title":"Proceedings of the IEEE\/CVF International Conference on Computer Vision","first-page":"21452","article-title":"Mrm: masked relation modeling for medical image pre-training with genetics","author":"Yang","year":"2023"},{"key":"10.1016\/j.media.2026.104064_bib0050","series-title":"International Conference on Medical Image Computing and Computer-Assisted Intervention","first-page":"658","article-title":"Anatomy-guided weakly-supervised abnormality localization in chest x-rays","author":"Yu","year":"2022"},{"key":"10.1016\/j.media.2026.104064_bib0051","unstructured":"Zawacki, A., Wu, C., Shih, G., Elliott, J., Fomitchev, M., Hussain, M., Lakhani, P., Culliton, P., Bao, S., 2019. Siim-acr pneumothorax segmentation. https:\/\/www.kaggle.com\/competitions\/siim-acr-pneumothorax-segmentation."},{"key":"10.1016\/j.media.2026.104064_bib0052","series-title":"Machine Learning for Healthcare Conference","first-page":"2","article-title":"Contrastive learning of medical visual representations from paired images and text","author":"Zhang","year":"2022"},{"key":"10.1016\/j.media.2026.104064_bib0053","series-title":"Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition","first-page":"6881","article-title":"Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers","author":"Zheng","year":"2021"},{"key":"10.1016\/j.media.2026.104064_bib0054","unstructured":"Zhou, H.-Y., Lian, C., Wang, L., Yu, Y., 2023. Advancing radiograph representation learning with masked record modeling. arXiv preprint arXiv: 2301.13155."}],"container-title":["Medical Image Analysis"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1361841526001325?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S1361841526001325?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2026,5,15]],"date-time":"2026-05-15T00:02:45Z","timestamp":1778803365000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S1361841526001325"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,7]]},"references-count":48,"alternative-id":["S1361841526001325"],"URL":"https:\/\/doi.org\/10.1016\/j.media.2026.104064","relation":{},"ISSN":["1361-8415"],"issn-type":[{"value":"1361-8415","type":"print"}],"subject":[],"published":{"date-parts":[[2026,7]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Advancing radiograph representation learning via cascading graph alignment for vision-language clinical concepts","name":"articletitle","label":"Article Title"},{"value":"Medical Image Analysis","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.media.2026.104064","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2026 Elsevier B.V. All rights are reserved, including those for text and data mining, AI training, and similar technologies.","name":"copyright","label":"Copyright"}],"article-number":"104064"}}