{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,27]],"date-time":"2026-03-27T08:21:01Z","timestamp":1774599661267,"version":"3.50.1"},"reference-count":69,"publisher":"Institute of Electrical and Electronics Engineers (IEEE)","license":[{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/ieeexplore.ieee.org\/Xplorehelp\/downloads\/license-information\/IEEE.html"},{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2023,1,1]],"date-time":"2023-01-01T00:00:00Z","timestamp":1672531200000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"funder":[{"name":"National Natural Science Fund for Key International Collaboration","award":["62120106005"],"award-info":[{"award-number":["62120106005"]}]}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":["IEEE Trans. on Image Process."],"published-print":{"date-parts":[[2023]]},"DOI":"10.1109\/tip.2023.3266169","type":"journal-article","created":{"date-parts":[[2023,4,14]],"date-time":"2023-04-14T17:34:23Z","timestamp":1681493663000},"page":"2228-2236","source":"Crossref","is-referenced-by-count":20,"title":["Self-Supervised Learning by Estimating Twin Class Distribution"],"prefix":"10.1109","volume":"32","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-4556-5326","authenticated-orcid":false,"given":"Feng","family":"Wang","sequence":"first","affiliation":[{"name":"Department of Computer Science and Technology, Beijing National Research Center for Information Science and Technology (BNRist), Tsinghua University, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-9412-1457","authenticated-orcid":false,"given":"Tao","family":"Kong","sequence":"additional","affiliation":[{"name":"ByteDance AI Laboratory, Beijing, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0001-5984-728X","authenticated-orcid":false,"given":"Rufeng","family":"Zhang","sequence":"additional","affiliation":[{"name":"Department of Control Science and Engineering, Tongji University, Shanghai, China"}]},{"ORCID":"https:\/\/orcid.org\/0000-0002-4042-6044","authenticated-orcid":false,"given":"Huaping","family":"Liu","sequence":"additional","affiliation":[{"name":"Department of Computer Science and Technology, Beijing National Research Center for Information Science and Technology (BNRist), Tsinghua University, Beijing, China"}]},{"given":"Hang","family":"Li","sequence":"additional","affiliation":[{"name":"ByteDance AI Laboratory, Beijing, China"}]}],"member":"263","reference":[{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-58607-2_16"},{"key":"ref13","first-page":"1597","article-title":"A simple framework for contrastive learning of visual representations","author":"chen","year":"2020","journal-title":"Proc ICML"},{"key":"ref56","first-page":"10347","article-title":"Training data-efficient image transformers & distillation through attention","author":"touvron","year":"2021","journal-title":"Proc ICML"},{"key":"ref12","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00951"},{"key":"ref59","author":"wu","year":"2019","journal-title":"Detectron2"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01549"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00304"},{"key":"ref14","article-title":"Improved baselines with momentum contrastive learning","author":"chen","year":"2020","journal-title":"arXiv 2003 04297"},{"key":"ref53","doi-asserted-by":"publisher","DOI":"10.1002\/j.1538-7305.1948.tb01338.x"},{"key":"ref52","first-page":"91","article-title":"Faster R-CNN: Towards realtime object detection with region proposal networks","author":"ren","year":"2015","journal-title":"Proc NeurIPS"},{"key":"ref55","article-title":"What makes for good views for contrastive learning?","author":"tian","year":"2020","journal-title":"arXiv 2005 10243"},{"key":"ref11","first-page":"9912","article-title":"Unsupervised learning of visual features by contrasting cluster assignments","author":"caron","year":"2020","journal-title":"Proc NeurIPS"},{"key":"ref54","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298594"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00305"},{"key":"ref17","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2014.461"},{"key":"ref16","article-title":"An empirical study of training selfsupervised vision transformers","author":"chen","year":"2021","journal-title":"arXiv 2104 02057"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.350"},{"key":"ref18","year":"2020","journal-title":"MMSegmentation Openmmlab semantic segmentation toolbox and benchmark"},{"key":"ref51","article-title":"BEiT V2: Masked image modeling with vector-quantized visual tokenizers","author":"peng","year":"2022","journal-title":"arXiv 2208 06366"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.278"},{"key":"ref46","article-title":"Finegrained visual classification of aircraft","author":"maji","year":"2013","journal-title":"arXiv 1306 5151"},{"key":"ref45","article-title":"Decoupled weight decay regularization","author":"loshchilov","year":"2019","journal-title":"Proc ICLR"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46466-4_5"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/ICVGIP.2008.47"},{"key":"ref42","first-page":"740","article-title":"Microsoft COCO: Common objects in context","author":"lin","year":"2014","journal-title":"Proc ECCV"},{"key":"ref41","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.106"},{"key":"ref44","article-title":"SGDR: Stochastic gradient descent with warm restarts","author":"loshchilov","year":"2017","journal-title":"Proc ICLR"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2012.6248092"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2019.2956516"},{"key":"ref7","first-page":"1096","article-title":"Unsupervised classifiers, mutual information and &#x2018;phantom targets","author":"bridle","year":"1991","journal-title":"Proc NIPS"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01264-9_9"},{"key":"ref4","article-title":"VICReg: Variance-invariancecovariance regularization for self-supervised learning","author":"bardes","year":"2021","journal-title":"arXiv 2105 04906"},{"key":"ref3","article-title":"BEiT: BERT pre-training of image transformers","author":"bao","year":"2021","journal-title":"arXiv 2106 08254"},{"key":"ref6","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-10599-4_29"},{"key":"ref5","first-page":"531","article-title":"Mine: Mutual information neural estimation","author":"belghazi","year":"2018","journal-title":"Proc Int Conf Mach Learn"},{"key":"ref40","article-title":"Prototypical contrastive learning of unsupervised representations","author":"li","year":"2021","journal-title":"Proc ICLR"},{"key":"ref35","article-title":"Learning multiple layers of features from tiny images","author":"krizhevsky","year":"2009"},{"key":"ref34","doi-asserted-by":"publisher","DOI":"10.1109\/ICCVW.2013.77"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1002\/nav.3800020109"},{"key":"ref36","first-page":"1097","article-title":"Imagenet classification with deep convolutional neural networks","volume":"60","author":"krizhevsky","year":"2012","journal-title":"Commun ACM"},{"key":"ref31","first-page":"1558","article-title":"Learning discrete representations via information maximizing self-augmented training","author":"hu","year":"2017","journal-title":"Proc ICML"},{"key":"ref30","article-title":"Learning deep representations by mutual information estimation and maximization","author":"hjelm","year":"2019","journal-title":"Proc ICLR"},{"key":"ref33","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00996"},{"key":"ref32","first-page":"448","article-title":"Batch normalization: Accelerating deep network training by reducing internal covariate shift","author":"ioffe","year":"2015","journal-title":"Proc ICML"},{"key":"ref2","article-title":"Self-labelling via simultaneous clustering and representation learning","author":"asano","year":"2019","journal-title":"Proc ICLR"},{"key":"ref1","article-title":"Self-supervised classification network","author":"amrani","year":"2021","journal-title":"arXiv 2103 10994"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2004.383"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1214\/aoms\/1177729694"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46487-9_40"},{"key":"ref24","article-title":"Unsupervised representation learning by predicting image rotations","author":"gidaris","year":"2018","journal-title":"Proc ICLR"},{"key":"ref67","article-title":"Barlow twins: Self-supervised learning via redundancy reduction","author":"zbontar","year":"2021","journal-title":"arXiv 2103 03230"},{"key":"ref23","doi-asserted-by":"publisher","DOI":"10.1007\/s11263-009-0275-4"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"ref69","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.544"},{"key":"ref25","first-page":"21271","article-title":"Bootstrap your own latent: A new approach to selfsupervised learning","author":"grill","year":"2020","journal-title":"Proc NeurIPS"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00943"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"ref63","first-page":"478","article-title":"Unsupervised deep embedding for clustering analysis","author":"xie","year":"2016","journal-title":"Proc ICML"},{"key":"ref66","article-title":"Large batch training of convolutional networks","author":"you","year":"2017","journal-title":"arXiv 1708 03888"},{"key":"ref22","article-title":"An image is worth 16&#x00D7;16 words: Transformers for image recognition at scale","author":"dosovitskiy","year":"2021","journal-title":"Proc ICLR"},{"key":"ref65","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.556"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2015.167"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.322"},{"key":"ref27","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00975"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref60","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2018.00393"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01228-1_26"},{"key":"ref61","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2010.5539970"}],"container-title":["IEEE Transactions on Image Processing"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/83\/9991910\/10102765.pdf?arnumber=10102765","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,5,8]],"date-time":"2023-05-08T19:08:35Z","timestamp":1683572915000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/10102765\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023]]},"references-count":69,"URL":"https:\/\/doi.org\/10.1109\/tip.2023.3266169","relation":{},"ISSN":["1057-7149","1941-0042"],"issn-type":[{"value":"1057-7149","type":"print"},{"value":"1941-0042","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023]]}}}