{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,11]],"date-time":"2026-03-11T02:05:30Z","timestamp":1773194730175,"version":"3.50.1"},"reference-count":20,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,12,8]],"date-time":"2025-12-08T00:00:00Z","timestamp":1765152000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,12,8]],"date-time":"2025-12-08T00:00:00Z","timestamp":1765152000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,12,8]]},"DOI":"10.1109\/pcs65673.2025.11417568","type":"proceedings-article","created":{"date-parts":[[2026,3,9]],"date-time":"2026-03-09T19:56:18Z","timestamp":1773086178000},"page":"1-5","source":"Crossref","is-referenced-by-count":0,"title":["How Universal Are SAM2 Features?"],"prefix":"10.1109","author":[{"given":"Masoud Khairi","family":"Atani","sequence":"first","affiliation":[{"name":"Simon Fraser University,Burnaby,BC,Canada"}]},{"given":"Alon","family":"Harell","sequence":"additional","affiliation":[{"name":"Simon Fraser University,Burnaby,BC,Canada"}]},{"given":"Hyomin","family":"Choi","sequence":"additional","affiliation":[{"name":"InterDigital AI Lab,Los Altos,CA,USA"}]},{"given":"Runyu","family":"Yang","sequence":"additional","affiliation":[{"name":"Simon Fraser University,Burnaby,BC,Canada"}]},{"given":"Fabien","family":"Racap\u00e9","sequence":"additional","affiliation":[{"name":"InterDigital AI Lab,Los Altos,CA,USA"}]},{"given":"Ivan V.","family":"Baji\u0107","sequence":"additional","affiliation":[{"name":"Simon Fraser University,Burnaby,BC,Canada"}]}],"member":"263","reference":[{"key":"ref1","article-title":"An image is worth 16\u00d716 words: Transformers for image recognition at scale","author":"Dosovitskiy","year":"2021","journal-title":"ICLR"},{"key":"ref2","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021","journal-title":"ICML. PmLR"},{"key":"ref3","article-title":"DINOv2: Learning robust visual features without supervision","author":"Oquab","journal-title":"TMLR, 2024, featured Certification"},{"key":"ref4","first-page":"29441","article-title":"Hiera: A hierarchical vision transformer without the bells-and-whistles","author":"Ryali","year":"2023","journal-title":"ICML. PMLR"},{"key":"ref5","article-title":"SAM 2: Segment anything in images and videos","author":"Ravi","year":"2025","journal-title":"ICLR"},{"key":"ref6","article-title":"SAM2-adapter: Evaluating & adapting segment anything 2 in downstream tasks: Camouflage, shadow, medical image segmentation, and more","volume-title":"ICLR 2025 Workshop on Foundation Models in the Wild","author":"Chen"},{"key":"ref7","volume-title":"Fe2 related contribution: Introducing segment anything model","author":"Nguyen","year":"2025"},{"key":"ref8","first-page":"38571","article-title":"Vitpose: Simple vision transformer baselines for human pose estimation","volume":"35","author":"Xu","year":"2022","journal-title":"NeurIPS"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.18653\/v1\/2022.emnlp-main.488"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1177\/0278364913491297"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.304"},{"key":"ref12","article-title":"Depth map prediction from a single image using a multi-scale deep network","volume":"27","author":"Eigen","year":"2014","journal-title":"NeurIPS"},{"key":"ref13","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"ref14","article-title":"Microsoft coco captions: Data collection and evaluation server","author":"Chen","year":"2015","journal-title":"arXiv preprint arXiv:1504.00325"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.3115\/1073083.1073135"},{"key":"ref16","first-page":"4566","article-title":"Cider: Consensusbased image description evaluation","volume-title":"Proc. IEEE\/CVF CVPR","author":"Vedantam"},{"key":"ref17","article-title":"Gans trained by a two time-scale update rule converge to a local nash equilibrium","volume":"30","author":"Heusel","year":"2017","journal-title":"NeurIPS"},{"key":"ref18","article-title":"Demystifying mmd gans","author":"Bi\u0144kowski","year":"2018","journal-title":"ICLR"},{"key":"ref19","first-page":"531","article-title":"Mutual information neural estimation","author":"Belghazi","year":"2018","journal-title":"ICML. PMLR"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.52202\/079017-4223"}],"event":{"name":"2025 Picture Coding Symposium (PCS)","location":"Aachen, Germany","start":{"date-parts":[[2025,12,8]]},"end":{"date-parts":[[2025,12,11]]}},"container-title":["2025 Picture Coding Symposium (PCS)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11417472\/11417493\/11417568.pdf?arnumber=11417568","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,3,10]],"date-time":"2026-03-10T05:28:28Z","timestamp":1773120508000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11417568\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,12,8]]},"references-count":20,"URL":"https:\/\/doi.org\/10.1109\/pcs65673.2025.11417568","relation":{},"subject":[],"published":{"date-parts":[[2025,12,8]]}}}