{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,5,15]],"date-time":"2026-05-15T05:53:59Z","timestamp":1778824439290,"version":"3.51.4"},"reference-count":102,"publisher":"IEEE","license":[{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2025,10,19]],"date-time":"2025-10-19T00:00:00Z","timestamp":1760832000000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2025,10,19]]},"DOI":"10.1109\/iccv51701.2025.01717","type":"proceedings-article","created":{"date-parts":[[2026,4,29]],"date-time":"2026-04-29T19:45:49Z","timestamp":1777491949000},"page":"18475-18486","source":"Crossref","is-referenced-by-count":2,"title":["USP: Unified Self-Supervised Pretraining for Image Generation and Understanding"],"prefix":"10.1109","author":[{"given":"Xiangxiang","family":"Chu","sequence":"first","affiliation":[{"name":"AMAP, Alibaba Group"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Renda","family":"Li","sequence":"additional","affiliation":[{"name":"AMAP, Alibaba Group"}],"role":[{"role":"author","vocabulary":"crossref"}]},{"given":"Yong","family":"Wang","sequence":"additional","affiliation":[{"name":"AMAP, Alibaba Group"}],"role":[{"role":"author","vocabulary":"crossref"}]}],"member":"263","reference":[{"key":"ref1","article-title":"Segdiff: Image segmentation with diffusion probabilistic models","author":"Amit","year":"2021","journal-title":"arXiv preprint"},{"key":"ref2","author":"Bai","year":"2023","journal-title":"Qwen-vl: A versatile vision-language model for understanding, localization, text reading, and beyond"},{"key":"ref3","author":"Bao","year":"2021","journal-title":"Beit: Bert pre-training of image transformers"},{"key":"ref4","article-title":"BEit: BERT pre-training of image transformers","volume-title":"In International Conference on Learning Representations","author":"Bao"},{"key":"ref5","author":"Baranchuk","year":"2021","journal-title":"Label-efficient semantic segmentation with diffusion models"},{"key":"ref6","article-title":"Label-efficient semantic segmentation with diffusion models","volume-title":"In International Conference on Learning Representations","author":"Baranchuk"},{"key":"ref7","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW56347.2022.00462"},{"key":"ref8","first-page":"9912","article-title":"Unsupervised learning of visual features by contrasting cluster assignments","volume":"33","author":"Caron","year":"2020","journal-title":"Advances in neural information processing systems"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00951"},{"key":"ref10","first-page":"7687","article-title":"Revealing the dark secrets of extremely large kernel convnets on robustness","volume-title":"In Proceedings of the 41st International Conference on Machine Learning","author":"Chen"},{"key":"ref11","first-page":"1691","article-title":"Generative pretraining from pixels","volume-title":"In International conference on machine learning","author":"Chen"},{"key":"ref12","first-page":"1597","article-title":"A simple framework for contrastive learning of visual representations","volume-title":"In International conference on machine learning","author":"Chen"},{"key":"ref13","article-title":"Big self-supervised models are strong semi-supervised learners","author":"Chen","year":"2020","journal-title":"arXiv preprint"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr46437.2021.01549"},{"key":"ref15","author":"Chen","year":"2024","journal-title":"Deconstructing denoising diffusion models for selfsupervised learning"},{"key":"ref16","article-title":"Expanding performance boundaries of open-source multimodal models with model, data, and test-time scaling","author":"Chen","year":"2024","journal-title":"arXiv preprint"},{"key":"ref17","first-page":"9355","article-title":"Twins: Revisiting the design of spatial attention in vision transformers","volume":"34","author":"Chu","year":"2021","journal-title":"Advances in neural information processing systems"},{"key":"ref18","article-title":"Conditional positional encodings for vision transformers","author":"Chu","year":"2023","journal-title":"ICLR"},{"key":"ref19","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72848-8_1"},{"key":"ref20","year":"2020","journal-title":"MMSegmentation Contributors. Mmsegmentation: Openmmlab semantic segmentation toolbox and benchmark"},{"key":"ref21","year":"2023","journal-title":"MMPreTrain Contributors. Openmmlab\u2019s pre-training toolbox and benchmark"},{"key":"ref22","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2019.00020"},{"key":"ref23","article-title":"Randaugment: Practical automated data augmentation with a reduced search space","author":"Ekin","year":"2020","journal-title":"CVPR"},{"key":"ref24","volume-title":"Diffusion models beat gans on image synthesis","author":"Dhariwal","year":"2021"},{"key":"ref25","article-title":"Large scale adversarial representation learning","volume":"32","author":"Donahue","year":"2019","journal-title":"Advances in neural information processing systems"},{"key":"ref26","article-title":"DreamLLM: Synergistic multimodal comprehension and creation","volume-title":"In The Twelfth International Conference on Learning Representations","author":"Dong"},{"key":"ref27","author":"Dosovitskiy","year":"2020","journal-title":"An image is worth 16 x16 words: Transformers for image recognition at scale"},{"key":"ref28","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01268"},{"key":"ref29","article-title":"Scaling rectified flow transformers for high-resolution image synthesis","volume-title":"Forty-first International Conference on Machine Learning","author":"Esser"},{"key":"ref30","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.02117"},{"key":"ref31","article-title":"Seed-x: Multimodal models with unified multi-granularity comprehension and generation","author":"Ge","year":"2024","journal-title":"arXiv preprint"},{"key":"ref32","article-title":"Generative adversarial nets","volume":"27","author":"Goodfellow","year":"2014","journal-title":"Advances in neural information processing systems"},{"key":"ref33","author":"Grill","year":"2020","journal-title":"Bootstrap your own latent: A new approach to self-supervised learning"},{"key":"ref34","article-title":"Metamorph: Learning universal controllers with transformers","author":"Gupta","year":"2022","journal-title":"arXiv preprint"},{"key":"ref35","article-title":"Unified auto-encoding with masked diffusion","author":"Hansen-Estruch","year":"2024","journal-title":"arXiv preprint"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.90"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2017.322"},{"key":"ref38","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR42600.2020.00975"},{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01553"},{"key":"ref40","article-title":"Benchmarking neural network robustness to common corruptions and perturbations","volume-title":"In International Conference on Learning Representations","author":"Hendrycks"},{"key":"ref41","author":"Heusel","year":"2017","journal-title":"Gans trained by a two time-scale update rule converge to a local nash equilibrium"},{"key":"ref42","first-page":"6840","article-title":"Denoising diffusion probabilistic models","volume":"33","author":"Ho","year":"2020","journal-title":"Advances in neural information processing systems"},{"key":"ref43","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-319-46493-0_39"},{"key":"ref44","article-title":"Soda: Bottleneck diffusion models for representation learning","author":"Drew","year":"2023","journal-title":"arXiv preprint"},{"key":"ref45","article-title":"Eq-vae: Equivariance regularized latent space for improved generative image modeling","author":"Kouzelis","year":"2025","journal-title":"arXiv preprint"},{"key":"ref46","author":"Kynk\u00e4\u00e4nniemi","year":"2019","journal-title":"Improved precision and recall metric for assessing generative models"},{"key":"ref47","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00210"},{"key":"ref48","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01531"},{"key":"ref49","doi-asserted-by":"publisher","DOI":"10.52202\/068431-1039"},{"key":"ref50","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52729.2023.00213"},{"key":"ref51","article-title":"Autoregressive image generation without vector quantization","author":"Li","year":"2024","journal-title":"arXiv preprint"},{"key":"ref52","article-title":"Flow matching for generative modeling","author":"Lipman","year":"2022","journal-title":"arXiv preprint"},{"key":"ref53","article-title":"Flow matching for generative modeling","author":"Lipman","year":"2022","journal-title":"arXiv preprint"},{"key":"ref54","article-title":"Flow straight and fast: Learning to generate and transfer data with rectified flow","author":"Liu","year":"2022","journal-title":"arXiv preprint"},{"key":"ref55","article-title":"Instaflow: One step is enough for high-quality diffusionbased text-to-image generation","volume-title":"The Twelfth International Conference on Learning Representations","author":"Liu"},{"key":"ref56","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"ref57","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01167"},{"key":"ref58","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"ref59","author":"Loshchilov","year":"2017","journal-title":"Decoupled weight decay regularization"},{"key":"ref60","author":"Lu","year":"2024","journal-title":"Deepseek-vl: Towards real-world vision-language understanding"},{"key":"ref61","article-title":"Unified-io: A unified model for vision, language, and multi-modal tasks","author":"Lu","year":"2022","journal-title":"arXiv preprint"},{"key":"ref62","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-72980-5_2"},{"key":"ref63","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.00725"},{"key":"ref64","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-73027-6_15"},{"key":"ref65","article-title":"DINOv2: Learning robust visual features without supervision","author":"Oquab","journal-title":"Transactions on Machine Learning Research, 2024. Featured Certification"},{"key":"ref66","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.00387"},{"key":"ref67","author":"Peng","year":"2022","journal-title":"BEiT v2: Masked image modeling with vectorquantized visual tokenizers"},{"key":"ref68","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.91"},{"key":"ref69","first-page":"91","article-title":"Faster r-cnn: towards real-time object detection with region proposal networks","volume-title":"Proceedings of the 28th International Conference on Neural Information Processing Systems","volume":"1","author":"Ren"},{"key":"ref70","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref71","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01042"},{"key":"ref72","author":"Salimans","year":"2016","journal-title":"Improved techniques for training gans"},{"key":"ref73","author":"Song","year":"2020","journal-title":"Denoising diffusion implicit models"},{"key":"ref74","article-title":"Denoising diffusion implicit models","author":"Song","year":"2020","journal-title":"arXiv preprint"},{"key":"ref75","author":"Song","year":"2020","journal-title":"Scorebased generative modeling through stochastic differential equations"},{"key":"ref76","doi-asserted-by":"publisher","DOI":"10.4324\/9781410605337-29"},{"key":"ref77","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.308"},{"key":"ref78","article-title":"Chameleon: Mixed-modal early-fusion foundation models","year":"2024","journal-title":"arXiv preprint"},{"key":"ref79","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV.2019.00972"},{"key":"ref80","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-031-20053-3_30"},{"key":"ref81","article-title":"Neural discrete representation learning","volume":"30","author":"Van","year":"2017","journal-title":"Advances in neural information processing systems"},{"key":"ref82","doi-asserted-by":"publisher","DOI":"10.1145\/1390156.1390294"},{"issue":"12","key":"ref83","article-title":"Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion","volume":"11","author":"Vincent","year":"2010","journal-title":"Journal of machine learning research"},{"key":"ref84","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.01426"},{"key":"ref85","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01492"},{"key":"ref86","first-page":"1336","article-title":"Diffusion models for implicit image segmentation ensembles","volume-title":"In International Conference on Medical Imaging with Deep Learning","author":"Wolleb"},{"key":"ref87","doi-asserted-by":"publisher","DOI":"10.1109\/cvpr52734.2025.01210"},{"key":"ref88","doi-asserted-by":"publisher","DOI":"10.1109\/iccv51070.2023.01448"},{"key":"ref89","doi-asserted-by":"publisher","DOI":"10.1007\/978-3-030-01228-1_26"},{"key":"ref90","doi-asserted-by":"publisher","DOI":"10.48550\/arXiv.2105.15203"},{"key":"ref91","article-title":"Show-o: One single transformer to unify multimodal understanding and generation","author":"Xie","year":"2024","journal-title":"arXiv preprint"},{"key":"ref92","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52688.2022.00943"},{"key":"ref93","author":"Xu","year":"2025","journal-title":"Exploring representation-aligned latent space for better generation"},{"key":"ref94","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV51070.2023.01736"},{"key":"ref95","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR52734.2025.01464"},{"key":"ref96","author":"You","year":"2017","journal-title":"Large batch training of convolutional networks"},{"key":"ref97","article-title":"Representation alignment for generation: Training diffusion transformers is easier than you think","volume-title":"In International Conference on Learning Representations","author":"Yu"},{"key":"ref98","article-title":"Cutmix: Regu-larization strategy to train strong classifiers with localizable features","author":"Yun","year":"2019","journal-title":"ICCV"},{"key":"ref99","doi-asserted-by":"publisher","DOI":"10.52202\/068431-0359"},{"key":"ref100","doi-asserted-by":"publisher","DOI":"10.1007\/978-1-4899-7687-1_79"},{"key":"ref101","article-title":"Fast training of diffusion models with masked transformers","author":"Zheng","year":"2024","journal-title":"In Transactions on Machine Learning Research (TMLR)"},{"key":"ref102","article-title":"Transfusion: Predict the next token and diffuse images with one multi-modal model","author":"Zhou","year":"2024","journal-title":"arXiv preprint"}],"event":{"name":"2025 IEEE\/CVF International Conference on Computer Vision (ICCV)","location":"Honolulu, HI, USA","start":{"date-parts":[[2025,10,19]]},"end":{"date-parts":[[2025,10,25]]}},"container-title":["2025 IEEE\/CVF International Conference on Computer Vision (ICCV)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx8\/11443115\/11443287\/11446075.pdf?arnumber=11446075","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2026,4,30]],"date-time":"2026-04-30T06:16:20Z","timestamp":1777529780000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/11446075\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2025,10,19]]},"references-count":102,"URL":"https:\/\/doi.org\/10.1109\/iccv51701.2025.01717","relation":{},"subject":[],"published":{"date-parts":[[2025,10,19]]}}}