{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2024,5,9]],"date-time":"2024-05-09T08:29:06Z","timestamp":1715243346862},"reference-count":45,"publisher":"IEEE","license":[{"start":{"date-parts":[[2022,6,1]],"date-time":"2022-06-01T00:00:00Z","timestamp":1654041600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-029"},{"start":{"date-parts":[[2022,6,1]],"date-time":"2022-06-01T00:00:00Z","timestamp":1654041600000},"content-version":"stm-asf","delay-in-days":0,"URL":"https:\/\/doi.org\/10.15223\/policy-037"}],"content-domain":{"domain":[],"crossmark-restriction":false},"short-container-title":[],"published-print":{"date-parts":[[2022,6]]},"DOI":"10.1109\/cvpr52688.2022.01178","type":"proceedings-article","created":{"date-parts":[[2022,9,27]],"date-time":"2022-09-27T19:56:41Z","timestamp":1664308601000},"source":"Crossref","is-referenced-by-count":93,"title":["Multi-Scale High-Resolution Vision Transformer for Semantic Segmentation"],"prefix":"10.1109","author":[{"given":"Jiaqi","family":"Gu","sequence":"first","affiliation":[{"name":"University of Texas,Austin"}]},{"given":"Hyoukjun","family":"Kwon","sequence":"additional","affiliation":[{"name":"Meta Platforms Inc."}]},{"given":"Dilin","family":"Wang","sequence":"additional","affiliation":[{"name":"Meta Platforms Inc."}]},{"given":"Wei","family":"Ye","sequence":"additional","affiliation":[{"name":"Meta Platforms Inc."}]},{"given":"Meng","family":"Li","sequence":"additional","affiliation":[{"name":"Meta Platforms Inc."}]},{"given":"Yu-Hsin","family":"Chen","sequence":"additional","affiliation":[{"name":"Meta Platforms Inc."}]},{"given":"Liangzhen","family":"Lai","sequence":"additional","affiliation":[{"name":"Meta Platforms Inc."}]},{"given":"Vikas","family":"Chandra","sequence":"additional","affiliation":[{"name":"Meta Platforms Inc."}]},{"given":"David Z.","family":"Pan","sequence":"additional","affiliation":[{"name":"University of Texas,Austin"}]}],"member":"263","reference":[{"key":"ref39","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00060"},{"key":"ref38","article-title":"Glance-and-Gaze Vision Transformer","author":"yu","year":"2021","journal-title":"ar Xiv preprint"},{"key":"ref33","first-page":"418","article-title":"Unified perceptual parsing for scene understanding","author":"xiao","year":"0","journal-title":"Proc ECCV"},{"key":"ref32","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00863"},{"key":"ref31","article-title":"CrossFormer: A Versatile Vision Trans-former Based on Cross-scale Attention","author":"wang","year":"2021","journal-title":"ar Xiv preprint"},{"key":"ref30","article-title":"Pyra-mid Vision Transformer: A Versatile Backbone for Dense Prediction without Convolutions","author":"wang","year":"0","journal-title":"Proc ICCV"},{"key":"ref37","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.01030"},{"key":"ref36","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00983"},{"key":"ref35","article-title":"SegFormer: Simple and Effi-cient Design for Semantic Segmentation with Transformers","author":"xie","year":"0","journal-title":"Proc NeurIPS"},{"key":"ref34","article-title":"Early Convolutions Help Trans-formers See Better","author":"xiao","year":"0","journal-title":"Proc NeurIPS"},{"key":"ref10","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2009.5206848"},{"key":"ref40","article-title":"HRFormer: High-Resolution Transformer for Dense Prediction","author":"yuan","year":"0","journal-title":"Proc NeurIPS"},{"key":"ref11","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR46437.2021.00300"},{"key":"ref12","article-title":"CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows","author":"dong","year":"2021","journal-title":"ar Xiv preprint"},{"key":"ref13","article-title":"An Image is Worth 16&#x00D7;16 Words: Trans-formers for Image Recognition at Scale","author":"dosovitskiy","year":"0","journal-title":"Proc ICLR"},{"key":"ref14","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00675"},{"key":"ref15","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.01204"},{"key":"ref16","first-page":"14588","article-title":"Rethinking Depth-wise Separable Convolutions: How Intra-Kernel Correlations Lead to Improved MobileNets","author":"haase","year":"0","journal-title":"Proc CVPR"},{"key":"ref17","article-title":"Deep networks with stochastic depth","author":"huang","year":"0","journal-title":"Proc ECCV"},{"key":"ref18","article-title":"LocalViT: Bringing locality to vision trans-formers","author":"li","year":"2021","journal-title":"ArXiv Preprint"},{"key":"ref19","article-title":"Semantic image seg-mentation with deep convolutional nets and fully connected CRFs","author":"chen","year":"0","journal-title":"Proc ICLR"},{"key":"ref28","first-page":"10347","article-title":"Training data-efficient image transformers: distillation through attention","author":"touvron","year":"0","journal-title":"Proc ICML"},{"key":"ref4","article-title":"Encoder-decoder with atrous separable convolution for semantic image segmentation","author":"chen","year":"0","journal-title":"Proc ECCV"},{"key":"ref27","article-title":"Augmented Shortcuts for Vision Transformers","author":"tang","year":"0","journal-title":"Proc NeurIPS"},{"key":"ref3","article-title":"Cross ViT: Cross-attention multi-scale vision transformer for image classification","author":"chen","year":"0","journal-title":"Proc ICCV"},{"key":"ref6","article-title":"Twins: Revisiting the Design of Spatial Attention in Vision Transformers","author":"chu","year":"0","journal-title":"Proc NeurIPS"},{"key":"ref29","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2020.2983686"},{"key":"ref5","article-title":"Per-Pixel Classification is Not All You Need for Se-mantic Segmentation","author":"cheng","year":"0","journal-title":"Proc NeurIPS"},{"key":"ref8","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2016.350"},{"key":"ref7","article-title":"MMSegmentation Contributors","year":"2020","journal-title":"MMSegmentation Openmmlab semantic segmentation toolbox and benchmark"},{"key":"ref2","article-title":"End-to-End object detection with transformers","author":"carion","year":"0","journal-title":"Proc ECCV"},{"key":"ref9","doi-asserted-by":"publisher","DOI":"10.1109\/CVPRW50498.2020.00359"},{"key":"ref1","doi-asserted-by":"publisher","DOI":"10.1109\/TPAMI.2016.2644615"},{"key":"ref20","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00986"},{"key":"ref45","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2017.544"},{"key":"ref22","article-title":"Decoupled weight decay regularization","author":"loshchilov","year":"0","journal-title":"Proc ICLR"},{"key":"ref21","doi-asserted-by":"publisher","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"ref42","article-title":"mixup: Beyond empirical risk minimization","author":"zhang","year":"2017","journal-title":"ArXiv Preprint"},{"key":"ref24","article-title":"Do Vision Trans-formers See Like Convolutional Neural Networks?","author":"raghu","year":"2021","journal-title":"ArXiv Preprint"},{"key":"ref41","article-title":"Cutmix: Regu-larization strategy to train strong classifiers with localizable features","author":"yun","year":"0","journal-title":"Proc ICCV"},{"key":"ref23","first-page":"483","article-title":"Stacked hourglass net-works for human pose estimation","author":"newell","year":"0","journal-title":"Proc ECCV"},{"key":"ref44","doi-asserted-by":"publisher","DOI":"10.1609\/aaai.v34i07.7000"},{"key":"ref26","doi-asserted-by":"publisher","DOI":"10.1109\/ICCV48922.2021.00717"},{"key":"ref43","article-title":"Multi-scale vision long-former: A new vision transformer for high-resolution image encoding","author":"zhang","year":"0","journal-title":"Proc ICCV"},{"key":"ref25","article-title":"U-Net: Convolutional networks for biomedical image segmen-tation","author":"ronneberger","year":"0","journal-title":"Proc MICCAI"}],"event":{"name":"2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)","location":"New Orleans, LA, USA","start":{"date-parts":[[2022,6,18]]},"end":{"date-parts":[[2022,6,24]]}},"container-title":["2022 IEEE\/CVF Conference on Computer Vision and Pattern Recognition (CVPR)"],"original-title":[],"link":[{"URL":"http:\/\/xplorestaging.ieee.org\/ielx7\/9878378\/9878366\/09879438.pdf?arnumber=9879438","content-type":"unspecified","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,10,14]],"date-time":"2022-10-14T20:52:47Z","timestamp":1665780767000},"score":1,"resource":{"primary":{"URL":"https:\/\/ieeexplore.ieee.org\/document\/9879438\/"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2022,6]]},"references-count":45,"URL":"http:\/\/dx.doi.org\/10.1109\/cvpr52688.2022.01178","relation":{},"subject":[],"published":{"date-parts":[[2022,6]]}}}