{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,4]],"date-time":"2026-05-04T10:01:04Z","timestamp":1777888864095,"version":"3.51.4"},"reference-count":72,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccv51701.2025.02024","type":"proceedings-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:45:49Z","timestamp":1777491949000},"page":"21800-21811","source":"Crossref","is-referenced-by-count":0,"title":["SciVid: Cross-Domain Evaluation of Video Models in Scientific Applications"],"prefix":"10.1109","author":[{"given":"Yana","family":"Hasson","sequence":"first","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Pauline","family":"Luc","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Liliane","family":"Momeni","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Maks","family":"Ovsjanikov","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Guillaume","family":"Le Moing","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Alina","family":"Kuznetsova","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Ira","family":"Ktena","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Jennifer J.","family":"Sun","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Skanda","family":"Koppula","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Dilara","family":"Gokay","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Joseph","family":"Heyward","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Etienne","family":"Pot","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Andrew","family":"Zisserman","sequence":"additional","affiliation":[{"name":"Google DeepMind"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"issue":"6","key":"ref1","volume-title":"Stir challenge 2024","volume":"3","year":"2024"},{"key":"ref2","article-title":"Flamingo: a visual language model for few-shot learning","volume":"2","author":"Alayrac","year":"2022","journal-title":"NeurIPS"},{"key":"ref3","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00676"},{"key":"ref4","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2024.3506283"},{"key":"ref5","article-title":"Evaluating general purpose vision foundation models for medical image analysis: An experimental study of dinov2 on radiology benchmarks","author":"Baharoon","year":"2023","journal-title":"arXiv preprint"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1126\/sciadv.abi4883"},{"key":"ref7","article-title":"Revisiting feature prediction for learning visual representations from video","author":"Bardes","year":"2024","journal-title":"TMLR"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-023-06545-z"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-025-09005-y"},{"key":"ref10","article-title":"On the opportunities and risks of foundation models","author":"Bommasani","year":"2021","journal-title":"arXiv preprint"},{"key":"ref11","article-title":"Scaling 4d representations","author":"Carreira","year":"2024","journal-title":"arXiv preprint"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1038\/s41467-017-01546-9"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1038\/s41612-023-00512-1"},{"key":"ref14","article-title":"Foundation models for weather and climate data understanding: A comprehensive survey","author":"Chen","year":"2023","journal-title":"arXiv preprint"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1038\/s41591-024-02959-y"},{"key":"ref16","article-title":"TAP-vid: A benchmark for tracking any point in a video","author":"Doersch","year":"2022","journal-title":"NeurIPS"},{"key":"ref17","article-title":"The llama 3 herd of models","author":"Dubey","year":"2024","journal-title":"arXiv preprint"},{"key":"ref18","article-title":"Scaling spherical cnns","author":"Esteves","year":"2023","journal-title":"arXiv preprint"},{"key":"ref19","article-title":"Anderson, and Pietro Perona. Detecting social actions of fruit flies","author":"Eyjolfsdottir","year":"2014","journal-title":"ECCV"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/IGARSS53475.2024.10642780"},{"key":"ref21","article-title":"Spatio-temporal foundation models: Vision, challenges, and opportunities","author":"Goodge","year":"2025","journal-title":"arXiv preprint"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00373"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-43904-9_55"},{"key":"ref24","article-title":"LoRA: Low-rank adaptation of large language models","author":"Hu","year":"2022","journal-title":"ICLR"},{"key":"ref25","doi-asserted-by":"publisher","DOI":"10.1137\/1.9781611978032.45"},{"key":"ref26","article-title":"Animal-bench: Benchmarking multimodal video models for animal-centric video understanding","author":"Jing","year":"2024","journal-title":"NeuRIPS"},{"key":"ref27","article-title":"The kinetics human action video dataset","author":"Kay","year":"2017","journal-title":"arXiv preprint"},{"key":"ref28","article-title":"Forecasting global weather with graph neural networks","author":"Keisler","year":"2022","journal-title":"arXiv preprint"},{"key":"ref29","article-title":"Digital typhoon: Long-term satellite image dataset for the spatio-temporal modeling of tropical cyclones","author":"Kitamoto","year":"2023","journal-title":"NeurIPS"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-024-07744-y"},{"key":"ref31","doi-asserted-by":"publisher","DOI":"10.1145\/3592979.3593412"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1126\/science.adi2336"},{"key":"ref33","article-title":"VideoEval: Comprehensive benchmark suite for low-cost evaluation of video foundation model","author":"Li","year":"2024","journal-title":"arXiv preprint"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.emnlp-main.342"},{"key":"ref35","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-017-1061-3"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2024.acl-long.679"},{"key":"ref37","article-title":"Moeslund. Foundation models for video understanding: A survey","author":"Madan","year":"2024","journal-title":"arXiv preprint"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.3390\/econometrics8020018"},{"key":"ref39","article-title":"Ai foundation models for weather and climate: Applications, design, and implementation","author":"Mukkavilli","year":"2023","journal-title":"arXiv preprint"},{"key":"ref40","article-title":"Benchmarking foundation models as feature extractors for weakly-supervised computational pathology","author":"Neidlinger","year":"2024","journal-title":"arXiv preprint"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/WACV57701.2024.00669"},{"key":"ref42","article-title":"NeurIPS 2024 FM4Science Workshop","volume-title":"Foundation models for science: Progress, opportunities, and challenges (fm4science). NeurIPS 2024 Workshop","year":"2024"},{"key":"ref43","article-title":"Climax: A foundation model for weather and climate","author":"Nguyen","year":"2023","journal-title":"arXiv preprint"},{"key":"ref44","article-title":"DINOv2: Learning robust visual features without supervision","author":"Oquab","year":"2024","journal-title":"TMLR"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-024-08252-9"},{"key":"ref46","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021","journal-title":"ICML"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01196"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1029\/2023MS004019"},{"key":"ref49","article-title":"Tackling climate change with machine learning","author":"Rolnick","year":"2022","journal-title":"ACM Comput. Surv."},{"key":"ref50","article-title":"General surgery vision transformer: A video pre-trained foundation model for general surgery","author":"Schmidgall","year":"2024","journal-title":"arXiv preprint"},{"key":"ref51","doi-asserted-by":"publisher","DOI":"10.1109\/TMI.2024.3372828"},{"key":"ref52","article-title":"Deep learning and foundation models for weather prediction: A survey","author":"Shi","year":"2025","journal-title":"arXiv preprint"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1007\/s11069-013-0566-5"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.2460\/javma.24.10.0650"},{"key":"ref55","article-title":"The multi-agent behavior dataset: Mouse dyadic social interactions","author":"Jennifer","year":"2021","journal-title":"NeurIPS"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00290"},{"key":"ref57","article-title":"Video foundation models for animal behavior analysis","author":"Jennifer","year":"2024","journal-title":"bioRxiv"},{"key":"ref58","article-title":"Gemini: a family of highly capable multimodal models","author":"Team","year":"2024","journal-title":"arXiv preprint"},{"key":"ref59","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58536-5_24"},{"key":"ref60","article-title":"Videomae: Masked autoencoders are data-efficient learners for self-supervised video pre-training","author":"Tong","year":"2022","journal-title":"NeurIPS"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1038\/s41586-023-06221-2"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.01398"},{"key":"ref63","article-title":"Internvideo: General video foundation models via generative and discriminative learning","author":"Wang","year":"2022","journal-title":"arXiv preprint"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-43996-4_10"},{"key":"ref65","article-title":"A general-purpose multimodal foundation model for dermatology","author":"Yan","year":"2024","journal-title":"arXiv preprint"},{"key":"ref66","article-title":"Xpose: Detecting any keypoints","author":"Yang","year":"2024","journal-title":"ECCV"},{"key":"ref67","doi-asserted-by":"publisher","DOI":"10.1038\/s41467-024-48792-2"},{"key":"ref68","article-title":"Videoglue: Video general understanding evaluation of foundation models","author":"Yuan","year":"2023","journal-title":"arXiv preprint"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1038\/s41591-024-03185-2"},{"key":"ref70","article-title":"Videoprism: A foundational visual encoder for video understanding","author":"Zhao","year":"2024","journal-title":"ICML"},{"key":"ref71","article-title":"Biomedparse: a biomedical foundation model for image parsing of everything everywhere all at once","author":"Zhao","year":"2024","journal-title":"arXiv preprint"},{"key":"ref72","article-title":"Clip in medical imaging: A comprehensive survey","author":"Zhao","year":"2023","journal-title":"arXiv preprint"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision (ICCV)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,25]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision (ICCV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11443115\/11443287\/11444993.pdf?arnumber=11444993","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,5,1]],"date-time":"2026-05-01T05:00:42Z","timestamp":1777611642000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11444993\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":72,"URL":"https:\/\/doi.org\/10.1109\/iccv51701.2025.02024","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}