{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,18]],"date-time":"2026-03-18T04:23:55Z","timestamp":1773807835815,"version":"3.50.1"},"reference-count":116,"publisher":"Springer Science and Business Media LLC","issue":"2","license":[{"start":{"date-parts":[[2026,1,9]],"date-time":"2026-01-09T00:00:00Z","timestamp":1767916800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2026,1,9]],"date-time":"2026-01-09T00:00:00Z","timestamp":1767916800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"funder":[{"DOI":"10.13039\/501100003725","name":"National Research Foundation of Korea","doi-asserted-by":"crossref","award":["No. RS-2024-00341514"],"award-info":[{"award-number":["No. RS-2024-00341514"]}],"id":[{"id":"10.13039\/501100003725","id-type":"DOI","asserted-by":"crossref"}]},{"DOI":"10.13039\/501100010418","name":"Institute for Information and Communications Technology Promotion","doi-asserted-by":"publisher","award":["No. RS-2019-II190079"],"award-info":[{"award-number":["No. RS-2019-II190079"]}],"id":[{"id":"10.13039\/501100010418","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100006465","name":"Korea Creative Content Agency","doi-asserted-by":"publisher","award":["RS-2024-00345025"],"award-info":[{"award-number":["RS-2024-00345025"]}],"id":[{"id":"10.13039\/501100006465","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100006465","name":"Korea Creative Content Agency","doi-asserted-by":"publisher","award":["IITP-2024-RS-2024-00436857"],"award-info":[{"award-number":["IITP-2024-RS-2024-00436857"]}],"id":[{"id":"10.13039\/501100006465","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2026,2]]},"DOI":"10.1007\/s11263-025-02590-5","type":"journal-article","created":{"date-parts":[[2026,1,9]],"date-time":"2026-01-09T18:22:43Z","timestamp":1767982963000},"update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1,"title":["Delving into Pre-training for Domain Transfer: A Broad Study of Pre-training for Domain Generalization and Domain Adaptation"],"prefix":"10.1007","volume":"134","author":[{"ORCID":"https:\/\/orcid.org\/0009-0005-0913-6566","authenticated-orcid":false,"given":"Jungmyung","family":"Wi","sequence":"first","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Youngkyun","family":"Jang","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0002-2147-8225","authenticated-orcid":false,"given":"Dujin","family":"Lee","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0009-0009-1025-0162","authenticated-orcid":false,"given":"Myeongseok","family":"Nam","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-7132-4454","authenticated-orcid":false,"given":"Donghyun","family":"Kim","sequence":"additional","affiliation":[],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"297","published-online":{"date-parts":[[2026,1,9]]},"reference":[{"key":"2590_CR1","first-page":"26831","volume":"34","author":"Y Bai","year":"2021","unstructured":"Bai, Y., Mei, J., Yuille, A. L., & Xie, C. (2021). Are transformers more robust than CNNs? In Advances in Neural Information Processing Systems (NeurIPS),34, 26831\u201326843.","journal-title":"In Advances in Neural Information Processing Systems (NeurIPS)"},{"key":"2590_CR2","unstructured":"Bao, H., Dong, L., Piao, S., & Wei, F. (2022). BEit: BERT pre-training of image transformers. In International Conference on Learning Representations."},{"key":"2590_CR3","unstructured":"Bashkirova, D., Hendrycks, D., Kim, D., Mishra, S., Saenko, K., Saito, K., Teterwak, P., & Usman, B. (2021). Visda-2021 competition universal domain adaptation to improve performance on out-of-distribution data. arXiv preprint arXiv:2107.11011."},{"key":"2590_CR4","unstructured":"Beery, S., Cole, E., & Gjoka, A. (2020). The iwildcam 2020 competition dataset. arXiv preprint arXiv:2004.10340."},{"key":"2590_CR5","doi-asserted-by":"crossref","unstructured":"Bhushan Damodaran, B., Kellenberger, B., Flamary, R., Tuia, D., & Courty, N. (2018). Deepjdot: Deep joint distribution optimal transport for unsupervised domain adaptation. In European Conference on Computer Vision (ECCV), pages 447\u2013463.","DOI":"10.1007\/978-3-030-01225-0_28"},{"key":"2590_CR6","doi-asserted-by":"crossref","unstructured":"Busto, P. P. & Gall, J. (2017). Open set domain adaptation. In ICCV, page 754\u2013763.","DOI":"10.1109\/ICCV.2017.88"},{"key":"2590_CR7","doi-asserted-by":"crossref","unstructured":"Cai, Z. & Vasconcelos, N. (2018). Cascade r-cnn: Delving into high quality object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 6154\u20136162.","DOI":"10.1109\/CVPR.2018.00644"},{"key":"2590_CR8","doi-asserted-by":"crossref","unstructured":"Cao, Z., Ma, L., Long, M., & Wang, J. (2018). Partial adversarial domain adaptation. In European Conference on Computer Vision (ECCV), pages 135\u2013150.","DOI":"10.1007\/978-3-030-01237-3_9"},{"key":"2590_CR9","first-page":"9912","volume":"33","author":"M Caron","year":"2020","unstructured":"Caron, M., Misra, I., Mairal, J., Goyal, P., Bojanowski, P., & Joulin, A. (2020). Unsupervised learning of visual features by contrasting cluster assignments. In Advances in Neural Information Processing Systems (NeurIPS),33, 9912\u20139924.","journal-title":"In Advances in Neural Information Processing Systems (NeurIPS)"},{"key":"2590_CR10","doi-asserted-by":"crossref","unstructured":"Caron, M., Touvron, H., Misra, I., J\u00e9gou, H., Mairal, J., Bojanowski, P., & Joulin, A. (2021). Emerging properties in self-supervised vision transformers. In IEEE International Conference on Computer Vision (ICCV), pages 9650\u20139660.","DOI":"10.1109\/ICCV48922.2021.00951"},{"key":"2590_CR11","first-page":"29512","volume":"35","author":"W Chang","year":"2022","unstructured":"Chang, W., Shi, Y., Tuan, H., & Wang, J. (2022). Unified optimal transport framework for universal domain adaptation. Advances in Neural Information Processing Systems,35, 29512\u201329524.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"2590_CR12","doi-asserted-by":"crossref","unstructured":"Changpinyo, S., Sharma, P., Ding, N., & Soricut, R. (2021). Conceptual 12m: Pushing web-scale image-text pre-training to recognize long-tail visual concepts. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3558\u20133568.","DOI":"10.1109\/CVPR46437.2021.00356"},{"key":"2590_CR13","doi-asserted-by":"crossref","unstructured":"Chen, D., Wang, D., Darrell, T., & Ebrahimi, S. (2022). Contrastive test-time adaptation. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pages 295\u2013305.","DOI":"10.1109\/CVPR52688.2022.00039"},{"key":"2590_CR14","doi-asserted-by":"crossref","unstructured":"Chen, L.-C., Zhu, Y., Papandreou, G., Schroff, F., & Adam, H. (2018). Encoder-decoder with atrous separable convolution for semantic image segmentation. In Proceedings of the European conference on computer vision (ECCV), pages 801\u2013818.","DOI":"10.1007\/978-3-030-01234-2_49"},{"key":"2590_CR15","unstructured":"Chen, T., Kornblith, S., Norouzi, M., & Hinton, G. (2020). A simple framework for contrastive learning of visual representations. In International Conference on Machine Learning (ICML), pages 1597\u20131607. PMLR."},{"key":"2590_CR16","doi-asserted-by":"crossref","unstructured":"Cheng, B., Misra, I., Schwing, A. G., Kirillov, A., & Girdhar, R. (2022). Masked-attention mask transformer for universal image segmentation. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pages 1290\u20131299.","DOI":"10.1109\/CVPR52688.2022.00135"},{"key":"2590_CR17","doi-asserted-by":"crossref","unstructured":"Cherti, M., Beaumont, R., Wightman, R., Wortsman, M., Ilharco, G., Gordon, C., Schuhmann, C., Schmidt, L., & Jitsev, J. (2023). Reproducible scaling laws for contrastive language-image learning. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pages 2818\u20132829.","DOI":"10.1109\/CVPR52729.2023.00276"},{"key":"2590_CR18","doi-asserted-by":"crossref","unstructured":"Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R., Franke, U., Roth, S., & Schiele, B. (2016). The cityscapes dataset for semantic urban scene understanding. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3213\u20133223.","DOI":"10.1109\/CVPR.2016.350"},{"key":"2590_CR19","unstructured":"Deng, B. & Jia, K. (2023). Universal domain adaptation from foundation models: A baseline study."},{"key":"2590_CR20","doi-asserted-by":"crossref","unstructured":"Deng, J., Dong, W., Socher, R., Li, L.-J., Li, K., & Fei-Fei, L. (2009). Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248\u2013255. Ieee.","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"2590_CR21","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., Uszkoreit, J., & Houlsby, N. (2021). An image is worth 16x16 words: Transformers for image recognition at scale. In International Conference on Learning Representations (ICLR)."},{"issue":"9","key":"2590_CR22","doi-asserted-by":"publisher","first-page":"1734","DOI":"10.1109\/TPAMI.2015.2496141","volume":"38","author":"A Dosovitskiy","year":"2015","unstructured":"Dosovitskiy, A., Fischer, P., Springenberg, J. T., Riedmiller, M., & Brox, T. (2015). Discriminative unsupervised feature learning with exemplar convolutional neural networks. IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI),38(9), 1734\u20131747.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)"},{"key":"2590_CR23","unstructured":"Ganin, Y. & Lempitsky, V. (2015). Unsupervised domain adaptation by backpropagation. In International conference on machine learning, pages 1180\u20131189. PMLR."},{"issue":"1","key":"2590_CR24","first-page":"2096","volume":"17","author":"Y Ganin","year":"2016","unstructured":"Ganin, Y., Ustinova, E., Ajakan, H., Germain, P., Larochelle, H., Laviolette, F., Marchand, M., & Lempitsky, V. (2016). Domain-adversarial training of neural networks. Journal of Machine Learning Research (JMLR),17(1), 2096\u20132030.","journal-title":"Journal of Machine Learning Research (JMLR)"},{"key":"2590_CR25","unstructured":"Gidaris, S., Singh, P., & Komodakis, N. (2018). Unsupervised representation learning by predicting image rotations. arXiv preprint arXiv:1803.07728."},{"key":"2590_CR26","doi-asserted-by":"crossref","unstructured":"Gopalan, R., Li, R., & Chellappa, R. (2011). Domain adaptation for object recognition: An unsupervised approach. In 2011 international conference on computer vision, pages 999\u20131006. IEEE.","DOI":"10.1109\/ICCV.2011.6126344"},{"key":"2590_CR27","unstructured":"Gulrajani, I. & Lopez-Paz, D. (2021). In search of lost domain generalization. In International Conference on Learning Representations."},{"key":"2590_CR28","doi-asserted-by":"crossref","unstructured":"He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). Momentum contrast for unsupervised visual representation learning. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 9729\u20139738.","DOI":"10.1109\/CVPR42600.2020.00975"},{"key":"2590_CR29","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 770\u2013778.","DOI":"10.1109\/CVPR.2016.90"},{"key":"2590_CR30","unstructured":"Hendrycks, D. & Dietterich, T. (2019). Benchmarking neural network robustness to common corruptions and perturbations. In International Conference on Learning Representations."},{"key":"2590_CR31","unstructured":"Hinton, G., Vinyals, O., & Dean, J. (2015). Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531."},{"key":"2590_CR32","doi-asserted-by":"crossref","unstructured":"Hu, J., Shen, L., & Sun, G. (2018). Squeeze-and-excitation networks. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 7132\u20137141.","DOI":"10.1109\/CVPR.2018.00745"},{"key":"2590_CR33","unstructured":"Huang, J., Dong, Q., Gong, S., & Zhu, X. (2019). Unsupervised deep learning by neighbourhood discovery. arXiv preprint arXiv:1904.11567."},{"key":"2590_CR34","unstructured":"Jia, C., Yang, Y., Xia, Y., Chen, Y.-T., Parekh, Z., Pham, H., Le, Q., Sung, Y.-H., Li, Z., & Duerig, T. (2021). Scaling up visual and vision-language representation learning with noisy text supervision. In International Conference on Machine Learning (ICML), pages 4904\u20134916. PMLR."},{"key":"2590_CR35","unstructured":"Jiang, J., Chen, B., Fu, B., & Long, M. (2020). Transfer-learning-library. https:\/\/github.com\/thuml\/Transfer-Learning-Library."},{"key":"2590_CR36","doi-asserted-by":"crossref","unstructured":"Jin, Y., Wang, X., Long, M., & Wang, J. (2020). Minimum class confusion for versatile domain adaptation. In European Conference on Computer Vision (ECCV), pages 464\u2013480. Springer.","DOI":"10.1007\/978-3-030-58589-1_28"},{"key":"2590_CR37","doi-asserted-by":"crossref","unstructured":"Karim, N., Mithun, N. C., Rajvanshi, A., Chiu, H.-p., Samarasekera, S., & Rahnavard, N. (2023). C-sfda: A curriculum learning aided self-training framework for efficient source free domain adaptation. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pages 24120\u201324131.","DOI":"10.1109\/CVPR52729.2023.02310"},{"key":"2590_CR38","doi-asserted-by":"crossref","unstructured":"Kim, D., Saito, K., Oh, T.-H., Plummer, B. A., Sclaroff, S., & Saenko, K. (2021). CDS: Cross-domain self-supervised pre-training. In IEEE International Conference on Computer Vision (ICCV), pages 9123\u20139132.","DOI":"10.1109\/ICCV48922.2021.00899"},{"key":"2590_CR39","doi-asserted-by":"crossref","unstructured":"Kim, D., Wang, K., Sclaroff, S., & Saenko, K. (2022). A broad study of pre-training for domain generalization and adaptation. In European Conference on Computer Vision, pages 621\u2013638. Springer.","DOI":"10.1007\/978-3-031-19827-4_36"},{"key":"2590_CR40","unstructured":"Koh, P. W., Sagawa, S., Marklund, H., Xie, S. M., Zhang, M., Balsubramani, A., Hu, W., Yasunaga, M., Phillips, R. L., Gao, I., et al. (2021). Wilds: A benchmark of in-the-wild distribution shifts. In International Conference on Machine Learning (ICML), pages 5637\u20135664. PMLR."},{"key":"2590_CR41","doi-asserted-by":"crossref","unstructured":"Kornblith, S., Shlens, J., & Le, Q. V. (2019). Do better ImageNet models transfer better? In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2661\u20132671.","DOI":"10.1109\/CVPR.2019.00277"},{"issue":"1","key":"2590_CR42","doi-asserted-by":"publisher","first-page":"32","DOI":"10.1007\/s11263-016-0981-7","volume":"123","author":"R Krishna","year":"2017","unstructured":"Krishna, R., Zhu, Y., Groth, O., Johnson, J., Hata, K., Kravitz, J., Chen, S., Kalantidis, Y., Li, L.-J., Shamma, D. A., et al. (2017). Visual genome: Connecting language and vision using crowdsourced dense image annotations. International Journal of Computer Vision (IJCV),123(1), 32\u201373.","journal-title":"International Journal of Computer Vision (IJCV)"},{"key":"2590_CR43","unstructured":"Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems (NIPS), volume 25."},{"key":"2590_CR44","unstructured":"Kundu, J. N., Venkat, N., V., R. M., & Babu, R. V. (2020). Universal source-free domain adaptation. In CVPR, page 4544\u20134553."},{"key":"2590_CR45","first-page":"9694","volume":"34","author":"J Li","year":"2021","unstructured":"Li, J., Selvaraju, R., Gotmare, A., Joty, S., Xiong, C., & Hoi, S. C. H. (2021). Align before fuse: Vision and language representation learning with momentum distillation. In Advances in Neural Information Processing Systems (NeurIPS),34, 9694\u20139705.","journal-title":"In Advances in Neural Information Processing Systems (NeurIPS)"},{"key":"2590_CR46","doi-asserted-by":"crossref","unstructured":"Li, S., Zhao, Y., Varma, R., Salpekar, O., Noordhuis, P., Li, T., Paszke, A., Smith, J., Vaughan, B., Damania, P., et al. (2020a). Pytorch distributed: Experiences on accelerating data parallel training. arXiv preprint arXiv:2006.15704.","DOI":"10.14778\/3415478.3415530"},{"issue":"1","key":"2590_CR47","doi-asserted-by":"publisher","first-page":"302","DOI":"10.1109\/TPAMI.2020.3011063","volume":"44","author":"Y Li","year":"2020","unstructured":"Li, Y., Zeng, J., & Shan, S. (2020). Learning representations for facial actions from unlabeled videos. IEEE Transactions on Pattern Analysis and Machine Intelligence,44(1), 302\u2013317.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"2590_CR48","unstructured":"Liang, J., Hu, D., & Feng, J. (2020). Do we really need to access the source data? source hypothesis transfer for unsupervised domain adaptation. In International conference on machine learning, pages 6028\u20136039. PMLR."},{"key":"2590_CR49","doi-asserted-by":"crossref","unstructured":"Lin, K.-Y., Zhou, J., Qiu, Y., & Zheng, W.-S. (2022). Adversarial partial domain adaptation by cycle inconsistency. In European Conference on Computer Vision, pages 530\u2013548. Springer.","DOI":"10.1007\/978-3-031-19827-4_31"},{"key":"2590_CR50","doi-asserted-by":"crossref","unstructured":"Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Doll\u00e1r, P., & Zitnick, C. L. (2014). Microsoft COCO: Common objects in context. In European Conference on Computer Vision (ECCV), pages 740\u2013755. Springer.","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"2590_CR51","doi-asserted-by":"crossref","unstructured":"Liu, Y., Zhang, W., & Wang, J. (2021a). Source-free domain adaptation for semantic segmentation. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pages 1215\u20131224.","DOI":"10.1109\/CVPR46437.2021.00127"},{"key":"2590_CR52","doi-asserted-by":"crossref","unstructured":"Liu, Z., Lin, Y., Cao, Y., Hu, H., Wei, Y., Zhang, Z., Lin, S., & Guo, B. (2021b). Swin transformer: Hierarchical vision transformer using shifted windows. In IEEE International Conference on Computer Vision (ICCV), pages 10012\u201310022.","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"2590_CR53","doi-asserted-by":"crossref","unstructured":"Liu, Z., Mao, H., Wu, C.-Y., Feichtenhofer, C., Darrell, T., & Xie, S. (2022). A ConvNet for the 2020s. arXiv preprint arXiv:2201.03545.","DOI":"10.1109\/CVPR52688.2022.01167"},{"key":"2590_CR54","first-page":"1640","volume":"31","author":"M Long","year":"2018","unstructured":"Long, M., Cao, Z., Wang, J., & Jordan, M. I. (2018). Conditional adversarial domain adaptation. In Advances in Neural Information Processing Systems (NeurIPS),31, 1640\u20131650.","journal-title":"In Advances in Neural Information Processing Systems (NeurIPS)"},{"key":"2590_CR55","first-page":"136","volume":"29","author":"M Long","year":"2016","unstructured":"Long, M., Zhu, H., Wang, J., & Jordan, M. I. (2016). Unsupervised domain adaptation with residual transfer networks. In Advances in Neural Information Processing Systems (NeurIPS),29, 136\u2013144.","journal-title":"In Advances in Neural Information Processing Systems (NeurIPS)"},{"key":"2590_CR56","doi-asserted-by":"crossref","unstructured":"Noroozi, M. & Favaro, P. (2016). Unsupervised learning of visual representations by solving jigsaw puzzles. In European Conference on Computer Vision (ECCV), pages 69\u201384. Springer.","DOI":"10.1007\/978-3-319-46466-4_5"},{"key":"2590_CR57","unstructured":"Ordonez, V., Kulkarni, G., & Berg, T. (2011). Im2text: Describing images using 1 million captioned photographs. In Advances in Neural Information Processing Systems (NeurIPS), volume 24."},{"key":"2590_CR58","doi-asserted-by":"crossref","unstructured":"Panareda Busto, P. & Gall, J. (2017). Open set domain adaptation. In IEEE International Conference on Computer Vision (ICCV), pages 754\u2013763.","DOI":"10.1109\/ICCV.2017.88"},{"key":"2590_CR59","doi-asserted-by":"crossref","unstructured":"Peng, X., Bai, Q., Xia, X., Huang, Z., Saenko, K., & Wang, B. (2019). Moment matching for multi-source domain adaptation. In IEEE International Conference on Computer Vision (ICCV), pages 1406\u20131415.","DOI":"10.1109\/ICCV.2019.00149"},{"key":"2590_CR60","unstructured":"Peng, X., Usman, B., Kaushik, N., Hoffman, J., Wang, D., & Saenko, K. (2017). Visda: The visual domain adaptation challenge. arXiv preprint arXiv:1710.06924."},{"key":"2590_CR61","unstructured":"Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., et al. (2021). Learning transferable visual models from natural language supervision. In International Conference on Machine Learning (ICML), pages 8748\u20138763. PMLR."},{"key":"2590_CR62","unstructured":"Ramesh, A., Dhariwal, P., Nichol, A., Chu, C., & Chen, M. (2022). Hierarchical text-conditional image generation with clip latents. arXiv preprint arXiv:2204.06125, 1(2):3."},{"key":"2590_CR63","unstructured":"Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 28."},{"key":"2590_CR64","unstructured":"Ridnik, T., Ben-Baruch, E., Noy, A., & Zelnik-Manor, L. (2021). Imagenet-21k pretraining for the masses. arXiv preprint arXiv:2104.10972."},{"key":"2590_CR65","doi-asserted-by":"crossref","unstructured":"Ros, G., Sellart, L., Materzynska, J., Vazquez, D., & Lopez, A. M. (2016). The synthia dataset: A large collection of synthetic images for semantic segmentation of urban scenes. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3234\u20133243.","DOI":"10.1109\/CVPR.2016.352"},{"issue":"3","key":"2590_CR66","doi-asserted-by":"publisher","first-page":"211","DOI":"10.1007\/s11263-015-0816-y","volume":"115","author":"O Russakovsky","year":"2015","unstructured":"Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., Huang, Z., Karpathy, A., Khosla, A., Bernstein, M., et al. (2015). Imagenet large scale visual recognition challenge. International Journal of Computer Vision (IJCV),115(3), 211\u2013252.","journal-title":"International Journal of Computer Vision (IJCV)"},{"key":"2590_CR67","doi-asserted-by":"crossref","unstructured":"Saenko, K., Kulis, B., Fritz, M., & Darrell, T. (2010). Adapting visual category models to new domains. In European Conference on Computer Vision (ECCV), pages 213\u2013226. Springer.","DOI":"10.1007\/978-3-642-15561-1_16"},{"key":"2590_CR68","unstructured":"Sagawa, S., Koh, P. W., Lee, T., Gao, I., Xie, S. M., Shen, K., Kumar, A., Hu, W., Yasunaga, M., Marklund, H., Beery, S., David, E., Stavness, I., Guo, W., Leskovec, J., Saenko, K., Hashimoto, T., Levine, S., Finn, C., & Liang, P. (2022). Extending the WILDS benchmark for unsupervised adaptation. In International Conference on Learning Representations."},{"key":"2590_CR69","doi-asserted-by":"crossref","unstructured":"Saito, K., Kim, D., Sclaroff, S., Darrell, T., & Saenko, K. (2019a). Semi-supervised domain adaptation via minimax entropy. In IEEE International Conference on Computer Vision (ICCV).","DOI":"10.1109\/ICCV.2019.00814"},{"key":"2590_CR70","first-page":"16282","volume":"33","author":"K Saito","year":"2020","unstructured":"Saito, K., Kim, D., Sclaroff, S., & Saenko, K. (2020). Universal domain adaptation through self supervision. Advances in neural information processing systems,33, 16282\u201316292.","journal-title":"Advances in neural information processing systems"},{"key":"2590_CR71","doi-asserted-by":"crossref","unstructured":"Saito, K., Kim, D., Teterwak, P., Sclaroff, S., Darrell, T., & Saenko, K. (2021). Tune it the right way: Unsupervised validation of domain adaptation via soft neighborhood density. In IEEE International Conference on Computer Vision (ICCV), pages 9184\u20139193.","DOI":"10.1109\/ICCV48922.2021.00905"},{"key":"2590_CR72","doi-asserted-by":"crossref","unstructured":"Saito, K. & Saenko, K. (2021). Ovanet: One-vs-all network for universal domain adaptation. In Proceedings of the ieee\/cvf international conference on computer vision, pages 9000\u20139009.","DOI":"10.1109\/ICCV48922.2021.00887"},{"key":"2590_CR73","doi-asserted-by":"crossref","unstructured":"Saito, K., Ushiku, Y., Harada, T., & Saenko, K. (2019b). Strong-weak distribution alignment for adaptive object detection. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 6956\u20136965.","DOI":"10.1109\/CVPR.2019.00712"},{"key":"2590_CR74","doi-asserted-by":"crossref","unstructured":"Saito, K., Watanabe, K., Ushiku, Y., & Harada, T. (2018a). Maximum classifier discrepancy for unsupervised domain adaptation. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3723\u20133732.","DOI":"10.1109\/CVPR.2018.00392"},{"key":"2590_CR75","doi-asserted-by":"crossref","unstructured":"Saito, K., Yamamoto, S., Ushiku, Y., & Harada, T. (2018b). Open set domain adaptation by backpropagation. In Proceedings of the European conference on computer vision (ECCV), pages 153\u2013168.","DOI":"10.1007\/978-3-030-01228-1_10"},{"key":"2590_CR76","doi-asserted-by":"publisher","first-page":"973","DOI":"10.1007\/s11263-018-1072-8","volume":"126","author":"C Sakaridis","year":"2018","unstructured":"Sakaridis, C., Dai, D., & Van Gool, L. (2018). Semantic foggy scene understanding with synthetic data. International Journal of Computer Vision,126, 973\u2013992.","journal-title":"International Journal of Computer Vision"},{"key":"2590_CR77","first-page":"25278","volume":"35","author":"C Schuhmann","year":"2022","unstructured":"Schuhmann, C., Beaumont, R., Vencu, R., Gordon, C., Wightman, R., Cherti, M., Coombes, T., Katta, A., Mullis, C., Wortsman, M., et al. (2022). Laion-5b: An open large-scale dataset for training next generation image-text models. Advances in Neural Information Processing Systems,35, 25278\u201325294.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"2590_CR78","unstructured":"Schuhmann, C., Vencu, R., Beaumont, R., Kaczmarczyk, R., Mullis, C., Katta, A., Coombes, T., Jitsev, J., & Komatsuzaki, A. (2021). Laion-400m: Open dataset of clip-filtered 400 million image-text pairs. arXiv preprint arXiv:2111.02114."},{"key":"2590_CR79","doi-asserted-by":"crossref","unstructured":"Sharma, P., Ding, N., Goodman, S., & Soricut, R. (2018). Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 2556\u20132565.","DOI":"10.18653\/v1\/P18-1238"},{"key":"2590_CR80","unstructured":"Simonyan, K. & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556."},{"key":"2590_CR81","first-page":"19523","volume":"35","author":"B Sorscher","year":"2022","unstructured":"Sorscher, B., Geirhos, R., Shekhar, S., Ganguli, S., & Morcos, A. (2022). Beyond neural scaling laws: beating power law scaling via data pruning. Advances in Neural Information Processing Systems,35, 19523\u201319536.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"2590_CR82","doi-asserted-by":"crossref","unstructured":"Sun, C., Shrivastava, A., Singh, S., & Gupta, A. (2017). Revisiting unreasonable effectiveness of data in deep learning era. In IEEE International Conference on Computer Vision (ICCV), pages 843\u2013852.","DOI":"10.1109\/ICCV.2017.97"},{"key":"2590_CR83","doi-asserted-by":"crossref","unstructured":"Sun, P., Zhang, R., Jiang, Y., Kong, T., Xu, C., Zhan, W., Tomizuka, M., Li, L., Yuan, Z., Wang, C., et al. (2021). Sparse r-cnn: End-to-end object detection with learnable proposals. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pages 14454\u201314463.","DOI":"10.1109\/CVPR46437.2021.01422"},{"key":"2590_CR84","unstructured":"Tan, M. & Le, Q. (2019). Efficientnet: Rethinking model scaling for convolutional neural networks. In International Conference on Machine Learning (ICML), pages 6105\u20136114. PMLR."},{"key":"2590_CR85","doi-asserted-by":"crossref","unstructured":"Tang, H., Chen, K., & Jia, K. (2020). Unsupervised domain adaptation via structurally regularized deep clustering. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 8725\u20138735.","DOI":"10.1109\/CVPR42600.2020.00875"},{"issue":"3","key":"2590_CR86","doi-asserted-by":"publisher","first-page":"654","DOI":"10.1007\/s11263-023-01892-w","volume":"132","author":"S Tang","year":"2024","unstructured":"Tang, S., Chang, A., Zhang, F., Zhu, X., Ye, M., & Zhang, C. (2024). Source-free domain adaptation via target prediction distribution searching. International journal of computer vision,132(3), 654\u2013672.","journal-title":"International journal of computer vision"},{"key":"2590_CR87","unstructured":"Touvron, H., Cord, M., Douze, M., Massa, F., Sablayrolles, A., & J\u00e9gou, H. (2021). Training data-efficient image transformers & distillation through attention. In International Conference on Machine Learning (ICML), pages 10347\u201310357. PMLR."},{"key":"2590_CR88","doi-asserted-by":"crossref","unstructured":"Tsai, Y.-H., Sohn, K., Schulter, S., & Chandraker, M. (2019). Domain adaptation for structured output via discriminative patch representations. In IEEE International Conference on Computer Vision (ICCV), pages 1456\u20131465.","DOI":"10.1109\/ICCV.2019.00154"},{"key":"2590_CR89","unstructured":"Tzeng, E., Hoffman, J., Zhang, N., Saenko, K., & Darrell, T. (2014). Deep domain confusion: Maximizing for domain invariance. arXiv preprint arXiv:1412.3474."},{"key":"2590_CR90","unstructured":"Van der Maaten, L. & Hinton, G. (2008). Visualizing data using t-SNE. Journal of Machine Learning Research (JMLR), 9(11)."},{"key":"2590_CR91","doi-asserted-by":"crossref","unstructured":"Van Horn, G., Mac Aodha, O., Song, Y., Cui, Y., Sun, C., Shepard, A., Adam, H., Perona, P., & Belongie, S. (2018). The inaturalist species classification and detection dataset. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 8769\u20138778.","DOI":"10.1109\/CVPR.2018.00914"},{"key":"2590_CR92","unstructured":"Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, \u0141., & Polosukhin, I. (2017). Attention is all you need. Advances in neural information processing systems, 30."},{"key":"2590_CR93","first-page":"4647","volume":"33","author":"N Venkat","year":"2020","unstructured":"Venkat, N., Kundu, J. N., Singh, D., Revanur, A., et al. (2020). Your classifier can secretly suffice multi-source domain adaptation. In Advances in Neural Information Processing Systems (NeurIPS),33, 4647\u20134659.","journal-title":"In Advances in Neural Information Processing Systems (NeurIPS)"},{"key":"2590_CR94","doi-asserted-by":"crossref","unstructured":"Venkateswara, H., Eusebio, J., Chakraborty, S., & Panchanathan, S. (2017). Deep hashing network for unsupervised domain adaptation. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 5018\u20135027.","DOI":"10.1109\/CVPR.2017.572"},{"key":"2590_CR95","doi-asserted-by":"crossref","unstructured":"VS, V., Oza, P., & Patel, V. M. (2023). Instance relation graph guided source-free domain adaptive object detection. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pages 3520\u20133530.","DOI":"10.1109\/CVPR52729.2023.00343"},{"key":"2590_CR96","unstructured":"Wah, C., Branson, S., Welinder, P., Perona, P., & Belongie, S. (2011). The caltech-ucsd birds-200-2011 dataset."},{"key":"2590_CR97","doi-asserted-by":"crossref","unstructured":"Wang, A. J., Lin, K. Q., Zhang, D. J., Lei, S. W., & Shou, M. Z. (2023a). Too large; data reduction for vision-language pre-training. In Proceedings of the IEEE\/CVF International Conference on Computer Vision, pages 3147\u20133157.","DOI":"10.1109\/ICCV51070.2023.00292"},{"key":"2590_CR98","doi-asserted-by":"crossref","unstructured":"Wang, S., Chen, X., Wang, Y., Long, M., & Wang, J. (2020). Progressive adversarial networks for fine-grained domain adaptation. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 9213\u20139222.","DOI":"10.1109\/CVPR42600.2020.00923"},{"key":"2590_CR99","doi-asserted-by":"crossref","unstructured":"Wang, W., Dai, J., Chen, Z., Huang, Z., Li, Z., Zhu, X., Hu, X., Lu, T., Lu, L., Li, H., et al. (2023b). Internimage: Exploring large-scale vision foundation models with deformable convolutions. In Proceedings of the IEEE\/CVF Conference on Computer Vision and Pattern Recognition, pages 14408\u201314419.","DOI":"10.1109\/CVPR52729.2023.01385"},{"key":"2590_CR100","doi-asserted-by":"crossref","unstructured":"Wu, Z., Xiong, Y., Yu, S. X., & Lin, D. (2018). Unsupervised feature learning via non-parametric instance discrimination. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3733\u20133742.","DOI":"10.1109\/CVPR.2018.00393"},{"key":"2590_CR101","doi-asserted-by":"crossref","unstructured":"Xiao, T., Liu, Y., Zhou, B., Jiang, Y., & Sun, J. (2018). Unified perceptual parsing for scene understanding. In Proceedings of the European conference on computer vision (ECCV), pages 418\u2013434.","DOI":"10.1007\/978-3-030-01228-1_26"},{"key":"2590_CR102","doi-asserted-by":"crossref","unstructured":"Xie, Q., Luong, M.-T., Hovy, E., & Le, Q. V. (2020). Self-training with noisy student improves imagenet classification. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 10687\u201310698.","DOI":"10.1109\/CVPR42600.2020.01070"},{"key":"2590_CR103","doi-asserted-by":"crossref","unstructured":"Xie, S., Girshick, R., Doll\u00e1r, P., Tu, Z., & He, K. (2017). Aggregated residual transformations for deep neural networks. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 1492\u20131500.","DOI":"10.1109\/CVPR.2017.634"},{"key":"2590_CR104","doi-asserted-by":"crossref","unstructured":"Xu, C.-D., Zhao, X.-R., Jin, X., & Wei, X.-S. (2020). Exploring categorical regularization for domain adaptive object detection. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition, pages 11724\u201311733.","DOI":"10.1109\/CVPR42600.2020.01174"},{"key":"2590_CR105","doi-asserted-by":"crossref","unstructured":"Xu, H., Xie, S., Huang, P.-Y., Yu, L., Howes, R., Ghosh, G., Zettlemoyer, L., & Feichtenhofer, C. (2023a). Cit: Curation in training for effective vision-language data. In Proceedings of the IEEE\/CVF International Conference on Computer Vision, pages 15180\u201315189.","DOI":"10.1109\/ICCV51070.2023.01393"},{"key":"2590_CR106","unstructured":"Xu, H., Xie, S., Tan, X. E., Huang, P.-Y., Howes, R., Sharma, V., Li, S.-W., Ghosh, G., Zettlemoyer, L., & Feichtenhofer, C. (2023b). Demystifying clip data. arXiv preprint arXiv:2309.16671."},{"key":"2590_CR107","doi-asserted-by":"crossref","unstructured":"Xu, R., Chen, Z., Zuo, W., Yan, J., & Lin, L. (2018). Deep cocktail network: Multi-source unsupervised domain adaptation with category shift. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 3964\u20133973.","DOI":"10.1109\/CVPR.2018.00417"},{"key":"2590_CR108","doi-asserted-by":"crossref","unstructured":"Xu, R., Li, G., Yang, J., & Lin, L. (2019). Larger norm more transferable: An adaptive feature norm approach for unsupervised domain adaptation. In IEEE International Conference on Computer Vision (ICCV), pages 1426\u20131435.","DOI":"10.1109\/ICCV.2019.00151"},{"key":"2590_CR109","first-page":"5802","volume":"35","author":"S Yang","year":"2022","unstructured":"Yang, S., Jui, S., van de Weijer, J., et al. (2022). Attracting and dispersing: A simple approach for source-free domain adaptation. Advances in Neural Information Processing Systems,35, 5802\u20135815.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"2590_CR110","unstructured":"Yang, S., van de Weijer, J., Herranz, L., Jui, S., et al. (2021). Exploiting the intrinsic neighborhood structure for source-free domain adaptation. Advances in neural information processing systems,34, 29393\u201329405."},{"key":"2590_CR111","unstructured":"You, K., Liu, Y., Wang, J., & Long, M. (2021). Logme: Practical assessment of pre-trained models for transfer learning. In International Conference on Machine Learning (ICML), pages 12133\u201312143. PMLR."},{"key":"2590_CR112","doi-asserted-by":"crossref","unstructured":"You, K., Long, M., Cao, Z., Wang, J., & Jordan, M. I. (2019). Universal domain adaptation. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2720\u20132729.","DOI":"10.1109\/CVPR.2019.00283"},{"key":"2590_CR113","unstructured":"Zauner, C. (2010). Implementation and benchmarking of perceptual image hash functions. Master\u2019s thesis, University of Applied Sciences Upper Austria, Hagenberg, Austria."},{"key":"2590_CR114","unstructured":"Zhang, Y., Liu, T., Long, M., & Jordan, M. (2019). Bridging theory and algorithm for domain adaptation. In International Conference on Machine Learning (ICML), pages 7404\u20137413. PMLR."},{"issue":"4","key":"2590_CR115","first-page":"4396","volume":"45","author":"K Zhou","year":"2022","unstructured":"Zhou, K., Liu, Z., Qiao, Y., Xiang, T., & Loy, C. C. (2022). Domain generalization: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence,45(4), 4396\u20134415.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"2590_CR116","doi-asserted-by":"publisher","first-page":"5989","DOI":"10.1609\/aaai.v33i01.33015989","volume":"33","author":"Y Zhu","year":"2019","unstructured":"Zhu, Y., Zhuang, F., & Wang, D. (2019). Aligning domain-specific distribution and classifier for cross-domain classification from multiple sources. In Proceedings of the AAAI conference on artificial intelligence,33, 5989\u20135996.","journal-title":"In Proceedings of the AAAI conference on artificial intelligence"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-025-02590-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11263-025-02590-5","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-025-02590-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,2,17]],"date-time":"2026-02-17T15:19:35Z","timestamp":1771341575000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11263-025-02590-5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2026,1,9]]},"references-count":116,"journal-issue":{"issue":"2","published-print":{"date-parts":[[2026,2]]}},"alternative-id":["2590"],"URL":"https:\/\/doi.org\/10.1007\/s11263-025-02590-5","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2026,1,9]]},"assertion":[{"value":"7 August 2024","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"2 December 2025","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"9 January 2026","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}],"article-number":"50"}}