{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2025,8,24]],"date-time":"2025-08-24T01:10:06Z","timestamp":1755997806425,"version":"3.44.0"},"reference-count":55,"publisher":"Elsevier BV","license":[{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/tdm\/userlicense\/1.0\/"},{"start":{"date-parts":[[2026,3,1]],"date-time":"2026-03-01T00:00:00Z","timestamp":1772323200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.elsevier.com\/legal\/tdmrep-license"},{"start":{"date-parts":[[2025,8,4]],"date-time":"2025-08-04T00:00:00Z","timestamp":1754265600000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/creativecommons.org\/licenses\/by-nc\/4.0\/"}],"content-domain":{"domain":["elsevier.com","sciencedirect.com"],"crossmark-restriction":true},"short-container-title":["Pattern Recognition"],"published-print":{"date-parts":[[2026,3]]},"DOI":"10.1016\/j.patcog.2025.112236","type":"journal-article","created":{"date-parts":[[2025,8,5]],"date-time":"2025-08-05T23:48:47Z","timestamp":1754437727000},"page":"112236","update-policy":"https:\/\/doi.org\/10.1016\/elsevier_cm_policy","source":"Crossref","is-referenced-by-count":0,"special_numbering":"PB","title":["Precision at scale: Domain-specific datasets on-demand"],"prefix":"10.1016","volume":"171","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-1412-8972","authenticated-orcid":false,"given":"Jes\u00fas M.","family":"Rodr\u00edguez-de-Vera","sequence":"first","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0001-6478-9547","authenticated-orcid":false,"given":"Imanol G.","family":"Estepa","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-1074-3903","authenticated-orcid":false,"given":"Ignacio","family":"Saras\u00faa","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-2473-2057","authenticated-orcid":false,"given":"Bhalaji","family":"Nagarajan","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0003-0047-5172","authenticated-orcid":false,"given":"Petia","family":"Radeva","sequence":"additional","affiliation":[]}],"member":"78","reference":[{"key":"10.1016\/j.patcog.2025.112236_bib0001","article-title":"DINOv2: learning robust visual features without supervision","author":"Oquab","year":"2024","journal-title":"Trans. Mach. Learn. Res."},{"issue":"12","key":"10.1016\/j.patcog.2025.112236_bib0002","doi-asserted-by":"crossref","first-page":"9052","DOI":"10.1109\/TPAMI.2024.3415112","article-title":"A survey on self-supervised learning: algorithms, applications, and future trends","volume":"46","author":"Gui","year":"2024","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"issue":"1","key":"10.1016\/j.patcog.2025.112236_bib0003","first-page":"857","article-title":"Self-supervised learning: generative or contrastive","volume":"35","author":"Liu","year":"2021","journal-title":"IEEE Trans. Knowl. Data Eng."},{"issue":"8","key":"10.1016\/j.patcog.2025.112236_bib0004","doi-asserted-by":"crossref","first-page":"9932","DOI":"10.1109\/TPAMI.2023.3237871","article-title":"Large scale visual food recognition","volume":"45","author":"Min","year":"2023","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.patcog.2025.112236_bib0005","series-title":"ECCV","first-page":"446","article-title":"Food-101\u2013mining discriminative components with random forests","author":"Bossard","year":"2014"},{"key":"10.1016\/j.patcog.2025.112236_bib0006","series-title":"CVPR","first-page":"8769","article-title":"The inaturalist species classification and detection dataset","author":"Van Horn","year":"2018"},{"key":"10.1016\/j.patcog.2025.112236_bib0007","series-title":"ECCV","article-title":"Insect identification in the wild: the AMI dataset","author":"Jain","year":"2024"},{"key":"10.1016\/j.patcog.2025.112236_bib0008","first-page":"25278","article-title":"Laion-5b: an open large-scale dataset for training next generation image-text models","volume":"35","author":"Schuhmann","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.patcog.2025.112236_bib0009","series-title":"ICCV","first-page":"10012","article-title":"Swin transformer: hierarchical vision transformer using shifted windows","author":"Liu","year":"2021"},{"key":"10.1016\/j.patcog.2025.112236_bib0010","series-title":"ICLR","article-title":"An image is worth 16\u00d716 words: transformers for image recognition at scale","author":"Dosovitskiy","year":"2021"},{"key":"10.1016\/j.patcog.2025.112236_bib0011","unstructured":"H.A.A.K. Hammoud, H. Itani, F. Pizzati, P. Torr, A. Bibi, B. Ghanem, SynthCLIP: Are We Ready for a Fully Synthetic CLIP Training?, (2024). arXiv: 2402.01832."},{"key":"10.1016\/j.patcog.2025.112236_bib0012","series-title":"CVPR","first-page":"15887","article-title":"Learning vision from models rivals learning vision from data","author":"Tian","year":"2024"},{"key":"10.1016\/j.patcog.2025.112236_bib0013","unstructured":"C. Wah, S. Branson, P. Welinder, P. Perona, S. Belongie, The caltech-ucsd birds-200-2011 dataset(2011)."},{"key":"10.1016\/j.patcog.2025.112236_bib0014","series-title":"CVPR","article-title":"Building a bird recognition app and large scale dataset with citizen scientists: the fine print in fine-grained dataset collection","author":"Van Horn","year":"2015"},{"key":"10.1016\/j.patcog.2025.112236_bib0015","series-title":"ICLR","article-title":"LoRA: low-rank adaptation of large language models","author":"Hu","year":"2022"},{"key":"10.1016\/j.patcog.2025.112236_bib0016","series-title":"ICML","first-page":"8748","article-title":"Learning transferable visual models from natural language supervision","author":"Radford","year":"2021"},{"key":"10.1016\/j.patcog.2025.112236_bib0017","series-title":"ICCV","first-page":"11975","article-title":"Sigmoid loss for language image pre-training","author":"Zhai","year":"2023"},{"key":"10.1016\/j.patcog.2025.112236_bib0018","series-title":"CVPR","first-page":"16133","article-title":"Convnext v2: co-designing and scaling convnets with masked autoencoders","author":"Woo","year":"2023"},{"key":"10.1016\/j.patcog.2025.112236_bib0019","series-title":"CVPR","first-page":"12104","article-title":"Scaling vision transformers","author":"Zhai","year":"2022"},{"key":"10.1016\/j.patcog.2025.112236_bib0020","series-title":"ICML","first-page":"19385","article-title":"Internet explorer: targeted representation learning on the open web","author":"Li","year":"2023"},{"key":"10.1016\/j.patcog.2025.112236_bib0021","series-title":"CVPR","first-page":"10684","article-title":"High-resolution image synthesis with latent diffusion models","author":"Rombach","year":"2022"},{"key":"10.1016\/j.patcog.2025.112236_bib0022","series-title":"ICML","article-title":"Muse: text-to-image generation via masked generative transformers","author":"Chang","year":"2023"},{"key":"10.1016\/j.patcog.2025.112236_bib0023","article-title":"Synthetic data from diffusion models improves ImageNet classification","author":"Azizi","year":"2023","journal-title":"Trans. Mach. Learn. Res."},{"key":"10.1016\/j.patcog.2025.112236_bib0024","series-title":"ICLR","article-title":"Demystifying CLIP Data","author":"Xu","year":"2024"},{"key":"10.1016\/j.patcog.2025.112236_bib0025","series-title":"ECCV","first-page":"301","article-title":"The unreasonable effectiveness of noisy data for fine-grained recognition","author":"Krause","year":"2016"},{"key":"10.1016\/j.patcog.2025.112236_bib0026","series-title":"ECCV","article-title":"Dataset growth","author":"Qin","year":"2024"},{"key":"10.1016\/j.patcog.2025.112236_bib0027","series-title":"ICLR","article-title":"T-MARS: improving visual representations by circumventing text feature learning","author":"Maini","year":"2024"},{"key":"10.1016\/j.patcog.2025.112236_bib0028","series-title":"CVPR","first-page":"18697","article-title":"General facial representation learning in a visual-linguistic manner","author":"Zheng","year":"2022"},{"key":"10.1016\/j.patcog.2025.112236_bib0029","unstructured":"V. Arannil, N. Narwal, S.S. Bhabesh, S.N. Thirandas, D.Y.-B. Wang, G. Horwood, A.A. Chirayath, G. Pandeshwar, DoPAMine: Domain-specific Pre-training Adaptation from seed-guided data Mining, (2024). arXiv: 2410.00260."},{"key":"10.1016\/j.patcog.2025.112236_bib0030","unstructured":"I. Ziegler, A. K\u00f6ksal, D. Elliott, H. Sch\u00fctze, CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation, (2024). arXiv: 2409.02098."},{"key":"10.1016\/j.patcog.2025.112236_bib0031","series-title":"ECCV","article-title":"On pretraining data diversity for self-supervised learning","author":"Hammoud","year":"2024"},{"key":"10.1016\/j.patcog.2025.112236_bib0032","series-title":"ICML","first-page":"1597","article-title":"A simple framework for contrastive learning of visual representations","author":"Chen","year":"2020"},{"key":"10.1016\/j.patcog.2025.112236_bib0033","series-title":"CVPR","first-page":"9729","article-title":"Momentum contrast for unsupervised visual representation learning","author":"He","year":"2020"},{"key":"10.1016\/j.patcog.2025.112236_bib0034","series-title":"CVPR","first-page":"9588","article-title":"With a little help from my friends: nearest-neighbor contrastive learning of visual representations","author":"Dwibedi","year":"2021"},{"key":"10.1016\/j.patcog.2025.112236_bib0035","series-title":"ICCV","first-page":"9640","article-title":"An empirical study of training self-supervised vision transformers","author":"Chen","year":"2021"},{"key":"10.1016\/j.patcog.2025.112236_bib0036","series-title":"CVPR","first-page":"16000","article-title":"Masked autoencoders are scalable vision learners","author":"He","year":"2022"},{"issue":"1","key":"10.1016\/j.patcog.2025.112236_bib0037","doi-asserted-by":"crossref","first-page":"208","DOI":"10.1007\/s11263-023-01852-4","article-title":"Context autoencoder for self-supervised representation learning","volume":"132","author":"Chen","year":"2024","journal-title":"Int. J. Comput. Vis."},{"key":"10.1016\/j.patcog.2025.112236_bib0038","series-title":"CVPR","first-page":"2818","article-title":"Reproducible scaling laws for contrastive language-image learning","author":"Cherti","year":"2023"},{"key":"10.1016\/j.patcog.2025.112236_bib0039","doi-asserted-by":"crossref","DOI":"10.1016\/j.neucom.2023.126658","article-title":"Combined scaling for zero-shot transfer learning","volume":"555","author":"Pham","year":"2023","journal-title":"Neurocomputing"},{"key":"10.1016\/j.patcog.2025.112236_bib0040","series-title":"Proceedings of the AAAI Conference on Artificial Intelligence","first-page":"11336","article-title":"Unicoder-vl: a universal encoder for vision and language by cross-modal pre-training","volume":"34","author":"Li","year":"2020"},{"key":"10.1016\/j.patcog.2025.112236_bib0041","series-title":"CVPR","first-page":"2657","article-title":"Teaching structured vision & language concepts to vision & language models","author":"Doveh","year":"2023"},{"key":"10.1016\/j.patcog.2025.112236_bib0042","doi-asserted-by":"crossref","DOI":"10.1016\/j.eswa.2024.124183","article-title":"EPK-CLIP: external and priori knowledge CLIP for action recognition","volume":"252","author":"Yang","year":"2024","journal-title":"Expert Syst. Appl."},{"key":"10.1016\/j.patcog.2025.112236_bib0043","series-title":"ICLR","article-title":"Self-contradictory hallucinations of large language models: evaluation, detection and mitigation","author":"M\u00fcndler","year":"2024"},{"key":"10.1016\/j.patcog.2025.112236_bib0044","series-title":"CVPR","first-page":"14532","article-title":"A self-supervised descriptor for image copy detection","author":"Pizzi","year":"2022"},{"issue":"1","key":"10.1016\/j.patcog.2025.112236_bib0045","doi-asserted-by":"crossref","first-page":"117","DOI":"10.1109\/TPAMI.2010.57","article-title":"Product quantization for nearest neighbor search","volume":"33","author":"J\u00e9gou","year":"2011","journal-title":"IEEE Trans. Pattern Anal. Mach. Intell."},{"key":"10.1016\/j.patcog.2025.112236_bib0046","unstructured":"P. Kaur, K. Sikka, W. Wang, S. Belongie, A. Divakaran, Foodx-251: a dataset for fine-grained food classification, (2019). arXiv: 1907.06167."},{"issue":"29","key":"10.1016\/j.patcog.2025.112236_bib0047","doi-asserted-by":"crossref","first-page":"861","DOI":"10.21105\/joss.00861","article-title":"UMAP: uniform manifold approximation and projection","volume":"3","author":"McInnes","year":"2018","journal-title":"J. Open Source Softw."},{"key":"10.1016\/j.patcog.2025.112236_bib0048","series-title":"ICCV","first-page":"1944","article-title":"Prototype-based dataset comparison","author":"Van Noord","year":"2023"},{"key":"10.1016\/j.patcog.2025.112236_bib0049","series-title":"CVPR","first-page":"1593","article-title":"Low-rank few-shot adaptation of vision-language models","author":"Zanella","year":"2024"},{"key":"10.1016\/j.patcog.2025.112236_bib0050","series-title":"Proceedings of the 29th ACM International Conference on Multimedia","first-page":"506","article-title":"A large-scale benchmark for food image segmentation","author":"Wu","year":"2021"},{"key":"10.1016\/j.patcog.2025.112236_bib0051","series-title":"CVPR","first-page":"2011","article-title":"Birdsnap: large-scale fine-grained visual categorization of birds","author":"Berg","year":"2014"},{"key":"10.1016\/j.patcog.2025.112236_bib0052","series-title":"CVPR","article-title":"Rethinking semantic segmentation from a sequence-to-sequence perspective with transformers","author":"Zheng","year":"2021"},{"key":"10.1016\/j.patcog.2025.112236_bib0053","series-title":"ECCV","first-page":"418","article-title":"Unified perceptual parsing for scene understanding","author":"Xiao","year":"2018"},{"key":"10.1016\/j.patcog.2025.112236_bib0054","first-page":"38571","article-title":"Vitpose: simple vision transformer baselines for human pose estimation","volume":"35","author":"Xu","year":"2022","journal-title":"Adv. Neural Inf. Process. Syst."},{"key":"10.1016\/j.patcog.2025.112236_bib0055","series-title":"Proceedings of the Neural Information Processing Systems (NeurIPS) Datasets and Benchmarks Track","article-title":"ImageNet-21K pretraining for the masses","author":"Ridnik","year":"2021"}],"container-title":["Pattern Recognition"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320325008970?httpAccept=text\/xml","content-type":"text\/xml","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/api.elsevier.com\/content\/article\/PII:S0031320325008970?httpAccept=text\/plain","content-type":"text\/plain","content-version":"vor","intended-application":"text-mining"}],"deposited":{"date-parts":[[2025,8,24]],"date-time":"2025-08-24T00:55:35Z","timestamp":1755996935000},"score":1,"resource":{"primary":{"URL":"https:\/\/linkinghub.elsevier.com\/retrieve\/pii\/S0031320325008970"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,3]]},"references-count":55,"alternative-id":["S0031320325008970"],"URL":"https:\/\/doi.org\/10.1016\/j.patcog.2025.112236","relation":{},"ISSN":["0031-3203"],"issn-type":[{"type":"print","value":"0031-3203"}],"subject":[],"published":{"date-parts":[[2026,3]]},"assertion":[{"value":"Elsevier","name":"publisher","label":"This article is maintained by"},{"value":"Precision at scale: Domain-specific datasets on-demand","name":"articletitle","label":"Article Title"},{"value":"Pattern Recognition","name":"journaltitle","label":"Journal Title"},{"value":"https:\/\/doi.org\/10.1016\/j.patcog.2025.112236","name":"articlelink","label":"CrossRef DOI link to publisher maintained version"},{"value":"article","name":"content_type","label":"Content Type"},{"value":"\u00a9 2025 The Author(s). Published by Elsevier Ltd.","name":"copyright","label":"Copyright"}],"article-number":"112236"}}