{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,7,31]],"date-time":"2026-07-31T15:45:52Z","timestamp":1785512752930,"version":"3.56.0"},"reference-count":45,"publisher":"Springer Science and Business Media LLC","issue":"1","license":[{"start":{"date-parts":[[2023,8,28]],"date-time":"2023-08-28T00:00:00Z","timestamp":1693180800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2023,8,28]],"date-time":"2023-08-28T00:00:00Z","timestamp":1693180800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2024,1]]},"DOI":"10.1007\/s11263-023-01868-w","type":"journal-article","created":{"date-parts":[[2023,8,28]],"date-time":"2023-08-28T09:04:32Z","timestamp":1693213472000},"page":"224-237","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":34,"title":["Exploring Vision-Language Models for Imbalanced Learning"],"prefix":"10.1007","volume":"132","author":[{"given":"Yidong","family":"Wang","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Zhuohao","family":"Yu","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4833-0880","authenticated-orcid":false,"given":"Jindong","family":"Wang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Qiang","family":"Heng","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Hao","family":"Chen","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Wei","family":"Ye","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Rui","family":"Xie","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Xing","family":"Xie","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Shikun","family":"Zhang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2023,8,28]]},"reference":[{"key":"1868_CR1","unstructured":"Byrd, J., & Lipton, Z. (2019). What is the effect of importance weighting in deep learning? In ICML, PMLR (pp. 872\u2013881)."},{"key":"1868_CR2","unstructured":"Cao, K., Wei, C., Gaidon, A., Arechiga, N., & Ma, T. (2019a). Learning imbalanced datasets with label-distribution-aware margin loss. In NeurIPS."},{"key":"1868_CR3","unstructured":"Cao, K., Wei, C., Gaidon, A., Arechiga, N., & Ma, T. (2019b). Learning imbalanced datasets with label-distribution-aware margin loss. arXiv preprint arXiv:1906.07413"},{"key":"1868_CR4","unstructured":"Chen, H., Fan, Y., Wang, Y., Wang, J., Schiele, B., Xie, X., Savvides, M., & Raj, B. (2022). An embarrassingly simple baseline for imbalanced semi-supervised learning. arXiv preprint arXiv:2211.11086"},{"key":"1868_CR5","unstructured":"Dehghani, M., Djolonga, J., Mustafa, B., Padlewski, P., Heek, J., Gilmer, J., Steiner, A. P., Caron, M., Geirhos, R., Alabdulmohsin, I., & Jenatton, R. (2023). Scaling vision transformers to 22 billion parameters. arXiv preprint arXiv:2302.05442"},{"key":"1868_CR6","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., & Uszkoreit, J. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. In International conference on learning representations."},{"key":"1868_CR7","doi-asserted-by":"crossref","unstructured":"He, K., Chen, X., Xie, S., Li, Y., Doll\u00e1r, P., & Girshick, R. (2022). Masked autoencoders are scalable vision learners. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 16000\u201316009).","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"1868_CR8","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In CVPR (pp. 770\u2013778).","DOI":"10.1109\/CVPR.2016.90"},{"key":"1868_CR9","doi-asserted-by":"crossref","unstructured":"Hong, Y., Han, S., Choi, K., Seo, S., Kim, B., & Chang, B. (2021). Disentangling label distribution for long-tailed visual recognition. In CVPR (pp. 6626\u20136636).","DOI":"10.1109\/CVPR46437.2021.00656"},{"key":"1868_CR10","doi-asserted-by":"crossref","unstructured":"Jamal, M. A., Brown, M., Yang, M. H., Wang, L., & Gong, B. (2020). Rethinking class-balanced methods for long-tailed visual recognition from a domain adaptation perspective. In CVPR (pp. 7610\u20137619).","DOI":"10.1109\/CVPR42600.2020.00763"},{"key":"1868_CR11","unstructured":"Kang, B., Xie, S., Rohrbach, M., Yan, Z., Gordo, A., Feng, J., & Kalantidis, Y. (2019). Decoupling representation and classifier for long-tailed recognition. In ICML."},{"issue":"8","key":"1868_CR12","first-page":"3573","volume":"29","author":"SH Khan","year":"2017","unstructured":"Khan, S. H., Hayat, M., Bennamoun, M., Sohel, F. A., & Togneri, R. (2017). Cost-sensitive learning of deep feature representations from imbalanced data. IEEE TNNLS, 29(8), 3573\u20133587.","journal-title":"IEEE TNNLS"},{"key":"1868_CR13","unstructured":"Li, J., Li, D., Xiong, C., & Hoi, S. (2022). Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation. In International conference on machine learning, PMLR (pp. 12888\u201312900)."},{"key":"1868_CR14","doi-asserted-by":"crossref","unstructured":"Lin, T. Y., Goyal, P., Girshick, R., He, K., & Doll\u00e1r, P. (2017). Focal loss for dense object detection. In ICCV (pp. 2980\u20132988).","DOI":"10.1109\/ICCV.2017.324"},{"key":"1868_CR15","doi-asserted-by":"crossref","unstructured":"Liu, Z., Hu, H., Lin, Y., Yao, Z., Xie, Z., Wei, Y., Ning, J., Cao, Y., Zhang, Z., Dong, L., & Wei, F. (2022). Swin transformer v2: Scaling up capacity and resolution. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 12009\u201312019).","DOI":"10.1109\/CVPR52688.2022.01170"},{"key":"1868_CR16","doi-asserted-by":"crossref","unstructured":"Liu, Z., Miao, Z., Zhan, X., Wang, J., Gong, B., & Yu, S. X. (2019). Large-scale long-tailed recognition in an open world. In CVPR (pp. 2537\u20132546).","DOI":"10.1109\/CVPR.2019.00264"},{"key":"1868_CR17","doi-asserted-by":"crossref","unstructured":"L\u00fcddecke, T., & Ecker, A. (2022). Image segmentation using text and image prompts. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 7086\u20137096).","DOI":"10.1109\/CVPR52688.2022.00695"},{"key":"1868_CR18","unstructured":"Ma, T., Geng, S., Wang, M., Shao, J., Lu, J., Li, H., Gao, P., & Qiao, Y. (2021). A simple long-tailed recognition baseline via vision-language model. arXiv preprint arXiv:2111.14745"},{"key":"1868_CR19","unstructured":"Menon, A. K., Jayasumana, S., Rawat, A. S., Jain, H., Veit, A., & Kumar, S. (2020). Long-tail learning via logit adjustment. In ICLR."},{"key":"1868_CR20","unstructured":"Platt, J., Cristianini, N., & Shawe-Taylor, J. (1999). Large margin dags for multiclass classification. In NIPS (p. 12)."},{"key":"1868_CR21","unstructured":"Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., Sastry, G., Askell, A., Mishkin, P., Clark, J., & Krueger, G. (2021). Learning transferable visual models from natural language supervision. In International conference on machine learning, PMLR (pp. 8748\u20138763)."},{"key":"1868_CR22","unstructured":"Ren, J., Yu, C., Ma, X., Zhao, H., & Yi, S. (2020). Balanced meta-softmax for long-tailed visual recognition. arXiv preprint arXiv:2007.10740"},{"key":"1868_CR23","unstructured":"Schuhmann, C., Beaumont, R., Vencu, R., Gordon, C., Wightman, R., Cherti, M., Coombes, T., Katta, A., Mullis, C., Wortsman, M., & Schramowski, P. (2022). Laion-5b: An open large-scale dataset for training next generation image-text models. In Thirty-sixth conference on neural information processing systems datasets and benchmarks track."},{"key":"1868_CR24","doi-asserted-by":"crossref","unstructured":"Tan, J., Wang, C., Li, B., Li, Q., Ouyang, W., Yin, C., & Yan, J. (2020). Equalization loss for long-tailed object recognition. In CVPR (pp. 11662\u201311671).","DOI":"10.1109\/CVPR42600.2020.01168"},{"key":"1868_CR25","first-page":"66","volume":"33","author":"K Tang","year":"2020","unstructured":"Tang, K., Huang, J., & Zhang, H. (2020). Long-tailed classification by keeping the good and removing the bad momentum causal effect. NeurIPS, 33, 66.","journal-title":"NeurIPS"},{"key":"1868_CR26","doi-asserted-by":"crossref","unstructured":"Tian, C., Wang, W., Zhu, X., Dai, J., & Qiao, Y. (2022). Vl-ltr: Learning class-wise visual-linguistic representation for long-tailed visual recognition. In X. X. V. Part (Ed.), Computer Vision-ECCV 2022: 17th European conference, Tel Aviv, Israel, October 23\u201327, 2022, Proceedings (pp. 73\u201391). Springer.","DOI":"10.1007\/978-3-031-19806-9_5"},{"key":"1868_CR27","doi-asserted-by":"crossref","unstructured":"Van Horn, G., Mac Aodha, O., Song, Y., Cui, Y., Sun, C., Shepard, A., Adam, H., Perona, P., & Belongie, S. (2018). The inaturalist species classification and detection dataset. In CVPR (pp. 8769\u20138778).","DOI":"10.1109\/CVPR.2018.00914"},{"key":"1868_CR28","first-page":"66","volume":"4","author":"V Vapnik","year":"1991","unstructured":"Vapnik, V. (1991). Principles of risk minimization for learning theory. Advances in Neural Information Processing Systems, 4, 66.","journal-title":"Advances in Neural Information Processing Systems"},{"key":"1868_CR29","doi-asserted-by":"crossref","unstructured":"Wang, J., Lukasiewicz, T., Hu, X., Cai, J., & Xu, Z. (2021a). Rsg: A simple but effective module for learning imbalanced datasets. In CVPR (pp. 3784\u20133793).","DOI":"10.1109\/CVPR46437.2021.00378"},{"key":"1868_CR30","doi-asserted-by":"crossref","unstructured":"Wang, J., Zhang, W., Zang, Y., Cao, Y., Pang, J., Gong, T., Chen, K., Liu, Z., Loy, C. C., & Lin, D. (2021b). Seesaw loss for long-tailed instance segmentation. In CVPR (pp. 9695\u20139704).","DOI":"10.1109\/CVPR46437.2021.00957"},{"key":"1868_CR31","doi-asserted-by":"crossref","unstructured":"Wang, P., Han, K., Wei, X. S., Zhang, L., & Wang, L. (2021c). Contrastive learning based hybrid networks for long-tailed image classification. In CVPR (pp. 943\u2013952).","DOI":"10.1109\/CVPR46437.2021.00100"},{"key":"1868_CR32","unstructured":"Wang, Y., Zhang, B., Hou, W., Wu, Z., Wang, J., & Shinozaki, T. (2022). Margin calibration for long-tailed visual recognition. In Asian Conference on Machine Learning (ACML)."},{"key":"1868_CR33","unstructured":"Wang, Y. X., Ramanan, D. & Hebert, M. (2017). Learning to model the tail. In NeurIPS (pp. 7032\u20137042)."},{"key":"1868_CR34","unstructured":"Wei, H., Tao, L., Xie, R., Feng, L., & An, B. (2022). Open-sampling: Exploring out-of-distribution data for re-balancing long-tailed datasets. In International conference on machine learning, PMLR (pp. 23615\u201323630)."},{"key":"1868_CR35","doi-asserted-by":"crossref","unstructured":"Xu, Z., Yang, S., Wang, X., & Yuan, C. (2023). Rethink long-tailed recognition with vision transforms. In ICASSP 2023\u20142023 IEEE international conference on acoustics, speech and signal processing (ICASSP) (pp. 1\u20135). IEEE.","DOI":"10.1109\/ICASSP49357.2023.10097154"},{"issue":"1\u20133","key":"1868_CR36","doi-asserted-by":"publisher","first-page":"397","DOI":"10.1016\/j.neucom.2009.08.006","volume":"73","author":"CY Yang","year":"2009","unstructured":"Yang, C. Y., Yang, J. S., & Wang, J. J. (2009). Margin calibration in svm class-imbalanced learning. Neurocomputing, 73(1\u20133), 397\u2013411.","journal-title":"Neurocomputing"},{"key":"1868_CR37","doi-asserted-by":"crossref","unstructured":"Yang, L., Jiang, H., Song, Q., & Guo, J. (2022). A survey on long-tailed visual recognition. In IJCV (pp. 1\u201336).","DOI":"10.1007\/s11263-022-01622-8"},{"key":"1868_CR38","unstructured":"Yang, Y., & Xu, Z. (2020). Rethinking the value of labels for improving class-imbalanced learning. In NeurIPS."},{"key":"1868_CR39","doi-asserted-by":"crossref","unstructured":"Yin, X., Yu, X., Sohn, K., Liu, X., & Chandraker, M. (2019). Feature transfer learning for face recognition with under-represented data. In CVPR.","DOI":"10.1109\/CVPR.2019.00585"},{"key":"1868_CR40","unstructured":"Yu, J., Wang, Z., Vasudevan, V., & Yeung, L. (2022). Coca: Contrastive captioners are image-text foundation models. arXiv preprint arXiv:2205.01917"},{"key":"1868_CR41","doi-asserted-by":"crossref","unstructured":"Zhang, S., Li, Z., Yan, S., He, X., & Sun, J. (2021). Distribution alignment: A unified framework for long-tail visual recognition. In CVPR.","DOI":"10.1109\/CVPR46437.2021.00239"},{"key":"1868_CR42","doi-asserted-by":"crossref","unstructured":"Zhou, B., Cui, Q., Wei, X. S., & Chen, Z. M. (2020). Bbn: Bilateral-branch network with cumulative learning for long-tailed visual recognition. In CVPR.","DOI":"10.1109\/CVPR42600.2020.00974"},{"key":"1868_CR43","doi-asserted-by":"crossref","unstructured":"Zhou, B., Lapedriza, A., Khosla, A., Oliva, A., & Torralba, A. (2017). Places: A 10 million image database for scene recognition. IEEE TPAMI, 40(6), 1452\u20131464.","DOI":"10.1109\/TPAMI.2017.2723009"},{"key":"1868_CR44","doi-asserted-by":"crossref","unstructured":"Zhou, K., Yang, J., Loy, C. C., & Liu, Z. (2022a). Conditional prompt learning for vision-language models. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 16816\u201316825).","DOI":"10.1109\/CVPR52688.2022.01631"},{"key":"1868_CR45","doi-asserted-by":"crossref","unstructured":"Zhou, K., Yang, J., Loy, C. C., & Liu, Z. (2022b). Learning to prompt for vision-language models. International Journal of Computer Vision, 130(9), 2337\u20132348.","DOI":"10.1007\/s11263-022-01653-1"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-023-01868-w.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11263-023-01868-w\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-023-01868-w.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,1,22]],"date-time":"2024-01-22T03:10:16Z","timestamp":1705893016000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11263-023-01868-w"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,8,28]]},"references-count":45,"journal-issue":{"issue":"1","published-print":{"date-parts":[[2024,1]]}},"alternative-id":["1868"],"URL":"https:\/\/doi.org\/10.1007\/s11263-023-01868-w","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,8,28]]},"assertion":[{"value":"31 March 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"26 July 2023","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"28 August 2023","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}