{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,21]],"date-time":"2025-08-21T16:26:54Z","timestamp":1755793614969,"version":"3.44.0"},"reference-count":70,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,6,10]],"date-time":"2025-06-10T00:00:00Z","timestamp":1749513600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,6,10]],"date-time":"2025-06-10T00:00:00Z","timestamp":1749513600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,6,10]]},"DOI":"10.1109\/cvpr52734.2025.01837","type":"proceedings-article","created":{"date-parts":[[2025,8,13]],"date-time":"2025-08-13T17:26:42Z","timestamp":1755106002000},"page":"19724-19735","source":"Crossref","is-referenced-by-count":1,"title":["BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature"],"prefix":"10.1109","author":[{"given":"Alejandro","family":"Lozano","sequence":"first","affiliation":[{"name":"Stanford University"}]},{"given":"Min Woo","family":"Sun","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"James","family":"Burgess","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Liangyu","family":"Chen","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Jeffrey J.","family":"Nirschl","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Jeffrey","family":"Gu","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Ivan","family":"Lopez","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Josiah","family":"Aklilu","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Anita","family":"Rau","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Austin Wolfgang","family":"Katzer","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Yuhui","family":"Zhang","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Collin","family":"Chiu","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Xiaohan","family":"Wang","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Alfred Seunghoon","family":"Song","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Robert","family":"Tibshirani","sequence":"additional","affiliation":[{"name":"Stanford University"}]},{"given":"Serena","family":"Yeung-Levy","sequence":"additional","affiliation":[{"name":"Stanford University"}]}],"member":"263","reference":[{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1016\/j.dib.2020.105474"},{"key":"ref2","doi-asserted-by":"publisher","DOI":"10.21105\/joss.01979"},{"article-title":"Gpt-4 technical report","year":"2023","author":"Achiam","key":"ref3"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1016\/j.dib.2019.104863"},{"article-title":"Clip the bias: How useful is balancing data in multimodal learning\u2019","year":"2024","author":"Alabdulmohsin","key":"ref5"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1109\/ICIP40778.2020.9190776"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1046\/j.0306-5251.2001.01548.x"},{"article-title":"Lung and colon cancer histopathological image dataset (lc25000)","year":"2019","author":"Borkowski","key":"ref8"},{"article-title":"Lung and colon cancer histopathological image dataset (lc25000)","year":"2019","author":"Borkowski","key":"ref9"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1038\/s41467-024-45362-4"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01821"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00951"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1038\/s41597-022-01719-2"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00276"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1016\/j.ijmedinf.2020.104144"},{"key":"ref16","doi-asserted-by":"publisher","DOI":"10.1001\/jamainternmed.2014.368"},{"article-title":"Redcaps: Web-curated image-text data created by the people, for the people","year":"2021","author":"Desai","key":"ref17"},{"key":"ref18","doi-asserted-by":"publisher","DOI":"10.1016\/j.jbi.2013.12.006"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2023.findings-eacl.88"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1038\/s41467-017-00623-3"},{"article-title":"Data filtering networks","year":"2023","author":"Fang","key":"ref21"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v38i20.30205"},{"key":"ref23","article-title":"Datacomp: In search of the next generation of multimodal datasets","volume":"36","author":"Gadre","year":"2024","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref24","doi-asserted-by":"publisher","DOI":"10.1016\/j.patter.2024.100968"},{"article-title":"Time-to-event pretraining for 3d medical imaging","year":"2024","author":"Huo","key":"ref25"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1016\/j.dib.2020.105589"},{"key":"ref27","article-title":"Openclip","author":"Ilharco","year":"2021","journal-title":"If you use this software, please cite it as below"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.3301590"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v33i01.3301590"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1093\/nar\/gkac1062"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1038\/s41467-024-53081-z"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/ICDARW.2019.00018"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1186\/s12880-022-00818-1"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1038\/srep27988"},{"article-title":"Scaling (down) clip: A comprehensive analysis of data, architecture, and training strategies","year":"2024","author":"Li","key":"ref35"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-43993-3_51"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1093\/gigascience\/giy065"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1016\/j.patter.2022.100512"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1142\/9789811286421_0002"},{"article-title":"{\\mu}-bench: A vision-language benchmark for microscopy understanding","year":"2024","author":"Lozano","key":"ref40"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-023-05881-4"},{"key":"ref42","doi-asserted-by":"publisher","DOI":"10.1186\/gb-2012-13-1-r5"},{"key":"ref43","article-title":"PMC Open Access Subset [Internet]","volume-title":"Bethesda (MD): National Library of Medicine","author":"Library of Medicine","year":"2003"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1371\/journal.pone.0192726"},{"article-title":"Representation learning with contrastive predictive coding","year":"2018","author":"van den Oord","key":"ref45"},{"key":"ref46","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01364-6_20"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.17487\/rfc0959"},{"key":"ref48","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","volume-title":"International conference on machine learning","author":"Radford"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1073\/pnas.98.2.381"},{"article-title":"Capabilities of gemini models in medicine","year":"2024","author":"Saab","key":"ref50"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1186\/2041-1480-5-37"},{"key":"ref52","first-page":"25278","article-title":"Laion-5b: An open large-scale dataset for training next generation image-text models","volume":"35","author":"Schuhmann","year":"2022","journal-title":"Advances in Neural Information Processing Systems"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1148\/ryai.2019180041"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2020.findings-emnlp.191"},{"key":"ref55","doi-asserted-by":"publisher","DOI":"10.1038\/s41467-019-10212-1"},{"article-title":"Llama: Open and efficient foundation language models","year":"2023","author":"Touvron","key":"ref56"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1038\/sdata.2018.161"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-00934-2_24"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4842-2199-0_8"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1186\/s40478-022-01365-0"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1056\/aics2400360"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00780"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1038\/s41467-023-36096-w"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1007\/s10994-013-5412-1"},{"article-title":"Qwen2 technical report","year":"2024","author":"Yang","key":"ref65"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1038\/s41597-022-01721-8"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1038\/s41597-022-01721-8"},{"article-title":"Coca: Contrastive captioners are image-text foundation models","year":"2022","author":"Yu","key":"ref68"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01100"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1056\/aioa2400640"}],"event":{"name":"2025 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","start":{"date-parts":[[2025,6,10]]},"location":"Nashville, TN, USA","end":{"date-parts":[[2025,6,17]]}},"container-title":["2025 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11091818\/11091608\/11094659.pdf?arnumber=11094659","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2025,8,15]],"date-time":"2025-08-15T04:50:40Z","timestamp":1755233440000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11094659\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,6,10]]},"references-count":70,"URL":"https:\/\/doi.org\/10.1109\/cvpr52734.2025.01837","relation":{},"subject":[],"published":{"date-parts":[[2025,6,10]]}}}