{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,1]],"date-time":"2026-04-01T18:11:13Z","timestamp":1775067073415,"version":"3.50.1"},"reference-count":61,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","issue":"5","license":[{"start":{"date-parts":[[2025,5,1]],"date-time":"2025-05-01T00:00:00Z","timestamp":1746057600000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2025,5,1]],"date-time":"2025-05-01T00:00:00Z","timestamp":1746057600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,5,1]],"date-time":"2025-05-01T00:00:00Z","timestamp":1746057600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"InnoHK Program"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE J. Biomed. Health Inform."],"published-print":{"date-parts":[[2025,5]]},"DOI":"10.1109\/jbhi.2024.3384407","type":"journal-article","created":{"date-parts":[[2024,4,2]],"date-time":"2024-04-02T18:54:32Z","timestamp":1712084072000},"page":"3171-3183","source":"Crossref","is-referenced-by-count":2,"title":["Unified Multi-Modal Diagnostic Framework With Reconstruction Pre-Training and Heterogeneity-Combat Tuning"],"prefix":"10.1109","volume":"29","author":[{"ORCID":"https:\/\/orcid.org\/0000-0001-9167-9511","authenticated-orcid":false,"given":"Yupei","family":"Zhang","sequence":"first","affiliation":[{"name":"Department of Pathology, University of Hong Kong, SAR, Hong Kong"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-3607-9393","authenticated-orcid":false,"given":"Li","family":"Pan","sequence":"additional","affiliation":[{"name":"Department of Pathology, University of Hong Kong, SAR, Hong Kong"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5737-5653","authenticated-orcid":false,"given":"Qiushi","family":"Yang","sequence":"additional","affiliation":[{"name":"Department of Electrical Engineering, City University of Hong Kong, SAR, Hong Kong"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6129-4792","authenticated-orcid":false,"given":"Tan","family":"Li","sequence":"additional","affiliation":[{"name":"Department of Computer Science, The Hang Seng University of Hong Kong, SAR, Hong Kong"}]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0255-6435","authenticated-orcid":false,"given":"Zhen","family":"Chen","sequence":"additional","affiliation":[{"name":"Centre for Artificial Intelligence and Robotics, HKISI, Chinese Academy of Sciences, SAR, Hong Kong"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1016\/j.media.2022.102444"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.1016\/j.media.2021.101985"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1038\/s41467-021-26216-9"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1038\/s41746-023-00811-0"},{"key":"ref5","doi-asserted-by":"publisher","DOI":"10.1016\/j.eswa.2021.115598"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-16443-9_65"},{"key":"ref7","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Radford","year":"2021"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01522"},{"key":"ref9","first-page":"15638","volume-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recognit.","author":"Singh","year":"2022"},{"key":"ref10","article-title":"Masked vision and language modeling for multi-modal representation learning","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Kwon","year":"2023"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.02240"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00937"},{"key":"ref13","article-title":"Fremae: Fourier transform meets masked autoencoders for medical image segmentation","author":"Wang","year":"2023"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/TMM.2023.3263288"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01426"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00211"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.1999.790410"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2005.177"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.acl-main.740"},{"key":"ref21","first-page":"29374","article-title":"Test-time training with masked autoencoders","volume":"35","author":"Gandelsman","year":"2022","journal-title":"NeurIPS"},{"key":"ref22","article-title":"Fine-tuning can distort pretrained features and underperform out-of-distribution","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Kumar","year":"2022"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1109\/BIBM49941.2020.9313289"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1038\/s41524-022-00929-x"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-32251-9_57"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01525"},{"key":"ref27","first-page":"12695","volume-title":"Proc. IEEE Conf. Comput. Vis. Pattern Recognit.","author":"Wang","year":"2020"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00806"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.1810.04805"},{"key":"ref30","first-page":"13","article-title":"Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Li","year":"2023"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1109\/wacv61041.2025.00095"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01364-6_20"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.findings-emnlp.191"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ISBI48211.2021.9434063"},{"key":"ref35","first-page":"2","article-title":"Contrastive learning of medical visual representations from paired images and text","volume-title":"Proc. Conf. Neural Inf. Process. Mach. Learn. Healthcare","author":"Zhang","year":"2022"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-16452-1_13"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/JBHI.2022.3207502"},{"key":"ref38","article-title":"Roberta: A robustly optimized bert pretraining approach","author":"Liu","year":"2019"},{"key":"ref39","first-page":"1195","article-title":"Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Tarvainen","year":"2017"},{"key":"ref40","doi-asserted-by":"publisher","DOI":"10.48550\/ARXIV.1706.03762"},{"key":"ref41","article-title":"Layer normalization","author":"Ba","year":"2016"},{"key":"ref42","article-title":"Gaussian error linear units (gelus","author":"Hendrycks","year":"2016"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.5555\/3524938.3525087"},{"key":"ref44","article-title":"Unified multimodal pre-training and prompt-based tuning for vision-language understanding and generation","author":"Liu","year":"2021"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.202"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.10"},{"key":"ref47","first-page":"1571","article-title":"Bilinear attention networks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","volume":"31","author":"Kim","year":"2018"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-87196-3_20"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1038\/sdata.2018.251"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/ISBI48211.2021.9434010"},{"key":"ref51","first-page":"9","article-title":"VQA-med: Overview of the medical visual question answering task at imageclef 2019","volume-title":"Proc. CLEF","author":"Abacha","year":"2019"},{"key":"ref52","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v35i16.17657"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01763"},{"key":"ref54","first-page":"5583","article-title":"Vilt: Vision-and-language transformer without convolution or region supervision","volume-title":"Proc. Int. Conf. Mach. Learn.","author":"Kim","year":"2021"},{"key":"ref55","article-title":"Pytorch lightning","volume":"3","author":"Falcon","year":"2019","journal-title":"GitHub"},{"key":"ref56","article-title":"Decoupled weight decay regularization","volume-title":"Proc. Int. Conf. Learn. Representations","author":"Loshchilov","year":"2019"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1162\/neco.1997.9.8.1735"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/D19-1371"},{"key":"ref60","first-page":"13","article-title":"Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks","volume-title":"Proc. Adv. Neural Inf. Process. Syst.","author":"Lu","year":"2019"},{"issue":"11","key":"ref61","first-page":"2579","article-title":"Visualizing data using t-SNE","volume":"9","author":"Maaten","year":"2008","journal-title":"J. Mach. Learn. Res."}],"container-title":["IEEE Journal of Biomedical and Health Informatics"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/6221020\/10989059\/10488705.pdf?arnumber=10488705","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,5,7]],"date-time":"2025-05-07T04:19:49Z","timestamp":1746591589000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10488705\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,5]]},"references-count":61,"journal-issue":{"issue":"5"},"URL":"https:\/\/doi.org\/10.1109\/jbhi.2024.3384407","relation":{},"ISSN":["2168-2194","2168-2208"],"issn-type":[{"value":"2168-2194","type":"print"},{"value":"2168-2208","type":"electronic"}],"subject":[],"published":{"date-parts":[[2025,5]]}}}