{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,6,1]],"date-time":"2026-06-01T23:21:23Z","timestamp":1780356083657,"version":"3.54.1"},"reference-count":112,"publisher":"Springer Science and Business Media LLC","issue":"8","license":[{"start":{"date-parts":[[2023,5,11]],"date-time":"2023-05-11T00:00:00Z","timestamp":1683763200000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"},{"start":{"date-parts":[[2023,5,11]],"date-time":"2023-05-11T00:00:00Z","timestamp":1683763200000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/creativecommons.org\/licenses\/by\/4.0"}],"funder":[{"name":"Swiss Federal Institute of Technology Zurich"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2023,8]]},"abstract":"<jats:title>Abstract<\/jats:title><jats:p>Training deep networks for semantic segmentation requires large amounts of labeled training data, which presents a major challenge in practice, as labeling segmentation masks is a highly labor-intensive process. To address this issue, we present a framework for semi-supervised and domain-adaptive semantic segmentation, which is enhanced by self-supervised monocular depth estimation (SDE) trained only on unlabeled image sequences. In particular, we utilize SDE as an auxiliary task comprehensively across the entire learning framework: First, we automatically select the most useful samples to be annotated for semantic segmentation based on the correlation of sample diversity and difficulty between SDE and semantic segmentation. Second, we implement a strong data augmentation by mixing images and labels using the geometry of the scene. Third, we transfer knowledge from features learned during SDE to semantic segmentation by means of transfer and multi-task learning. And fourth, we exploit additional labeled synthetic data with Cross-Domain DepthMix and Matching Geometry Sampling to align synthetic and real data. We validate the proposed model on the Cityscapes dataset, where all four contributions demonstrate significant performance gains, and achieve state-of-the-art results for semi-supervised semantic segmentation as well as for semi-supervised domain adaptation. In particular, with only 1\/30 of the Cityscapes labels, our method achieves 92% of the fully-supervised baseline performance and even 97% when exploiting additional data from GTA. The source code is available at <jats:ext-link xmlns:xlink=\"http:\/\/www.w3.org\/1999\/xlink\" ext-link-type=\"uri\" xlink:href=\"https:\/\/github.com\/lhoyer\/improving_segmentation_with_selfsupervised_depth\">https:\/\/github.com\/lhoyer\/improving_segmentation_with_selfsupervised_depth<\/jats:ext-link>.<\/jats:p>","DOI":"10.1007\/s11263-023-01799-6","type":"journal-article","created":{"date-parts":[[2023,5,11]],"date-time":"2023-05-11T19:02:30Z","timestamp":1683831750000},"page":"2070-2096","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":38,"title":["Improving Semi-Supervised and Domain-Adaptive Semantic Segmentation with Self-Supervised Depth Estimation"],"prefix":"10.1007","volume":"131","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-7391-0676","authenticated-orcid":false,"given":"Lukas","family":"Hoyer","sequence":"first","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Dengxin","family":"Dai","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Qin","family":"Wang","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Yuhua","family":"Chen","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]},{"given":"Luc","family":"Van Gool","sequence":"additional","affiliation":[],"role":[{"vocabulary":"crossref","role":"author"}]}],"member":"297","published-online":{"date-parts":[[2023,5,11]]},"reference":[{"key":"1799_CR1","doi-asserted-by":"crossref","unstructured":"Alonso, I., Sabater, A., Ferstl, D., Montesano, L., & Murillo, A. C. (2021). Semi-supervised semantic segmentation with pixel-level contrastive learning from a class-wise memory bank. arXiv:2104.13415.","DOI":"10.1109\/ICCV48922.2021.00811"},{"key":"1799_CR2","doi-asserted-by":"crossref","unstructured":"Araslanov, N., & Roth, S. (2021). Self-supervised augmentation consistency for adapting semantic segmentation. In IEEE conf. comput. vis. pattern recog. (pp. 15384\u201315394).","DOI":"10.1109\/CVPR46437.2021.01513"},{"key":"1799_CR3","unstructured":"Berthelot, D., Carlini, N., Goodfellow, I., Papernot, N., Oliver, A., & Raffel, C. A. (2019). Mixmatch: a holistic approach to semi-supervised learning. In Adv. neural inform. process. syst. (pp. 5049\u20135059)."},{"issue":"2","key":"1799_CR4","doi-asserted-by":"publisher","first-page":"88","DOI":"10.1016\/j.patrec.2008.04.005","volume":"30","author":"GJ Brostow","year":"2009","unstructured":"Brostow, G. J., Fauqueur, J., & Cipolla, R. (2009). Semantic object classes in video: A high-definition ground truth database. Pattern Recognition Letters, 30(2), 88\u201397.","journal-title":"Pattern Recognition Letters"},{"key":"1799_CR5","doi-asserted-by":"crossref","unstructured":"Casser, V., Pirk, S., Mahjourian, R., & Angelova, A. (2019). Depth prediction without the sensors: Leveraging structure for unsupervised learning from monocular videos. In AAAI conf. artif. intell. (pp. 8001\u20138008).","DOI":"10.1609\/aaai.v33i01.33018001"},{"issue":"3","key":"1799_CR6","doi-asserted-by":"publisher","first-page":"542","DOI":"10.1109\/TNN.2009.2015974","volume":"20","author":"O Chapelle","year":"2009","unstructured":"Chapelle, O., Scholkopf, B., & Zien, A. (2009). Semi-supervised learning (chapelle, o. et al., eds.; 2006)[book reviews]. IEEE Transactions on Neural Networks, 20(3), 542\u2013542.","journal-title":"IEEE Transactions on Neural Networks"},{"issue":"4","key":"1799_CR7","doi-asserted-by":"publisher","first-page":"834","DOI":"10.1109\/TPAMI.2017.2699184","volume":"40","author":"LC Chen","year":"2017","unstructured":"Chen, L. C., Papandreou, G., Kokkinos, I., Murphy, K., & Yuille, A. L. (2017). Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected crfs. IEEE Transactions on Pattern Analysis and Machine Intelligence, 40(4), 834\u2013848.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1799_CR8","doi-asserted-by":"crossref","unstructured":"Chen, P. Y., Liu, A. H., Liu, Y. C., & Wang, Y. C. F. (2019a). Towards scene understanding: Unsupervised monocular depth estimation with semantic-aware representation. In IEEE conf. comput. vis. pattern recog. (pp. 2624\u20132632).","DOI":"10.1109\/CVPR.2019.00273"},{"key":"1799_CR9","doi-asserted-by":"crossref","unstructured":"Chen, S., Jia, X., He, J., Shi, Y., & Liu, J. (2021a). Semi-supervised domain adaptation based on dual-level domain mixing for semantic segmentation. In IEEE conf. comput. vis. pattern recog. (pp. 11018\u201311027).","DOI":"10.1109\/CVPR46437.2021.01087"},{"key":"1799_CR10","doi-asserted-by":"crossref","unstructured":"Chen, X., Yuan, Y., Zeng, G., & Wang, J. (2021b). Semi-supervised semantic segmentation with cross pseudo supervision. In IEEE conf. comput. vis. pattern recog. (pp. 2613\u20132622).","DOI":"10.1109\/CVPR46437.2021.00264"},{"key":"1799_CR11","doi-asserted-by":"crossref","unstructured":"Chen, Y., Li, W., Chen, X., Gool, L. V. (2019b). Learning semantic segmentation from synthetic data: A geometrically guided input\u2013output adaptation approach. In IEEE conf. comput. vis. pattern recog. (pp. 1841\u20131850).","DOI":"10.1109\/CVPR.2019.00194"},{"key":"1799_CR12","doi-asserted-by":"crossref","unstructured":"Chen, Y., Schmid, C., & Sminchisescu, C. (2019c). Self-supervised learning with geometric constraints in monocular video: Connecting flow, depth, and camera. In Int. conf. comput. vis. (pp. 7063\u20137072).","DOI":"10.1109\/ICCV.2019.00716"},{"key":"1799_CR13","doi-asserted-by":"crossref","unstructured":"Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R., Franke, U., Roth, S., & Schiele, B. (2016). The cityscapes dataset for semantic urban scene understanding. In IEEE conf. comput. vis. pattern recog. (pp. 3213\u20133223).","DOI":"10.1109\/CVPR.2016.350"},{"key":"1799_CR14","doi-asserted-by":"crossref","unstructured":"Dai, D., & Van\u00a0Gool, L. (2018) Dark model adaptation: Semantic image segmentation from daytime to nighttime. In IEEE int. conf. on intell. transport. syst. (pp. 3819\u20133824).","DOI":"10.1109\/ITSC.2018.8569387"},{"key":"1799_CR15","doi-asserted-by":"crossref","unstructured":"Dai, Q., Patil, V., Hecker, S., Dai, D., Van\u00a0Gool, L., & Schindler, K. (2020). Self-supervised object motion and depth estimation from video. In IEEE conf. comput. vis. pattern recog. workshops (pp. 1004\u20131005).","DOI":"10.1109\/CVPRW50498.2020.00510"},{"key":"1799_CR16","doi-asserted-by":"crossref","unstructured":"Doersch, C., Gupta, A., & Efros, A. A. (2015). Unsupervised visual representation learning by context prediction. In Int. conf. comput. vis. (pp. 1422\u20131430).","DOI":"10.1109\/ICCV.2015.167"},{"key":"1799_CR17","doi-asserted-by":"publisher","first-page":"2014","DOI":"10.1109\/TPAMI.2019.2961896","volume":"43","author":"N Dvornik","year":"2019","unstructured":"Dvornik, N., Mairal, J., & Schmid, C. (2019). On the importance of visual context for data augmentation in scene understanding. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43, 2014\u20132028.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1799_CR18","unstructured":"Feng, Z., Zhou, Q., Cheng, G., Tan, X., Shi, J., & Ma, L. (2020a) Semi-supervised semantic segmentation via dynamic self-training and class-balanced curriculum. arXiv:2004.08514."},{"key":"1799_CR19","unstructured":"Feng, Z., Zhou, Q., Gu, Q., Tan, X., Cheng, G., Lu, X., Shi, J., & Ma, L. (2020b). Dmt: Dynamic mutual training for semi-supervised learning. arXiv:2004.08514."},{"key":"1799_CR20","unstructured":"French, G., Laine, S., Aila, T., Mackiewicz, M., & Finlayson, G. (2020) Semi-supervised semantic segmentation needs strong, varied perturbations. In Brit. mach. vis. conf."},{"key":"1799_CR21","unstructured":"Gal, Y., & Ghahramani, Z. (2016). Dropout as a bayesian approximation: Representing model uncertainty in deep learning. In Int. conf. mach. learning (pp. 1050\u20131059)."},{"key":"1799_CR22","doi-asserted-by":"crossref","unstructured":"Garg, R., BG, V. K., Carneiro, G., Reid, I. (2016) Unsupervised CNN for single view depth estimation: geometry to the rescue. In Eur. conf. comput. vis. (pp. 740\u2013756).","DOI":"10.1007\/978-3-319-46484-8_45"},{"key":"1799_CR23","unstructured":"Gidaris, S., Singh, P., & Komodakis, N. (2018) Unsupervised representation learning by predicting image rotations. In Int. conf. learn. represent."},{"key":"1799_CR24","doi-asserted-by":"crossref","unstructured":"Godard, C., Mac\u00a0Aodha, O., & Brostow, G. J. (2017). Unsupervised monocular depth estimation with left-right consistency. In IEEE conf. comput. vis. pattern recog. (pp. 270\u2013279).","DOI":"10.1109\/CVPR.2017.699"},{"key":"1799_CR25","doi-asserted-by":"crossref","unstructured":"Godard, C., Mac\u00a0Aodha, O., Firman, M., Brostow, G. J. (2019). Digging into self-supervised monocular depth estimation. In Int. conf. comput. vis. (pp. 3828\u20133838).","DOI":"10.1109\/ICCV.2019.00393"},{"key":"1799_CR26","unstructured":"Gonzalez\u00a0Bello, J. L., & Kim, M. (2020) Forget about the lidar: Self-supervised depth estimators with med probability volumes. In Adv. neural inform. process. syst."},{"key":"1799_CR27","unstructured":"Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative adversarial nets. In Adv. neural inform. process. syst. (pp. 2672\u20132680)."},{"key":"1799_CR28","doi-asserted-by":"crossref","unstructured":"Gordon, A., Li, H., Jonschkowski, R., & Angelova, A. (2019). Depth from videos in the wild: Unsupervised monocular depth learning from unknown cameras. In Int. conf. comput. vis. (pp. 8977\u20138986).","DOI":"10.1109\/ICCV.2019.00907"},{"key":"1799_CR29","doi-asserted-by":"crossref","unstructured":"Guizilini, V., Ambrus, R., Pillai, S., Raventos, A., & Gaidon, A. (2020a). 3d packing for self-supervised monocular depth estimation. In IEEE conf. comput. vis. pattern recog. (pp. 2485\u20132494).","DOI":"10.1109\/CVPR42600.2020.00256"},{"key":"1799_CR30","doi-asserted-by":"crossref","unstructured":"Guizilini, V., Hou, R., Li, J., Ambrus, R., & Gaidon, A. (2020b). Semantically-guided representation learning for self-supervised monocular depth. In Int. conf. learn. represent.","DOI":"10.1109\/CVPR42600.2020.00256"},{"key":"1799_CR31","doi-asserted-by":"crossref","unstructured":"Guizilini, V., Li, J., Ambrus, R., & Gaidon, A. (2021) Geometric unsupervised domain adaptation for semantic segmentation. arXiv:2103.16694","DOI":"10.1109\/ICCV48922.2021.00842"},{"key":"1799_CR32","doi-asserted-by":"crossref","unstructured":"Hadsell, R., Chopra, S., & LeCun, Y. (2006). Dimensionality reduction by learning an invariant mapping. In IEEE conf. comput. vis. pattern recog. (pp. 1735\u20131742).","DOI":"10.1109\/CVPR.2006.100"},{"key":"1799_CR33","doi-asserted-by":"crossref","unstructured":"He, K., Fan, H., Wu, Y., Xie, S., & Girshick, R. (2020). Momentum contrast for unsupervised visual representation learning. In IEEE conf. comput. vis. pattern recog. (pp 9729\u20139738).","DOI":"10.1109\/CVPR42600.2020.00975"},{"key":"1799_CR34","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In IEEE conf. comput. vis. pattern recog. (pp. 770\u2013778).","DOI":"10.1109\/CVPR.2016.90"},{"key":"1799_CR35","unstructured":"Hoffman, J., Tzeng, E., Park, T., Zhu, J. Y., Isola, P., Saenko, K., Efros, A., & Darrell, T. (2018).Cycada: Cycle-consistent adversarial domain adaptation. In Int. conf. mach. learning (pp. 1989\u20131998)."},{"key":"1799_CR36","unstructured":"Hoffman, J., Wang, D., Yu, F., Darrell, T. (2016). Fcns in the wild: Pixel-level adversarial and constraint-based adaptation. arXiv:1612.02649."},{"key":"1799_CR37","doi-asserted-by":"crossref","unstructured":"Hoyer, L., Dai, D., Chen, Y., K\u00f6ring, A., Saha, S., & Van\u00a0Gool, L. (2021). Three ways to improve semantic segmentation with self-supervised depth estimation. In IEEE conf. comput. vis. pattern recog.","DOI":"10.1109\/CVPR46437.2021.01098"},{"key":"1799_CR38","unstructured":"Hung, W. C., Tsai, Y. H., Liou, Y. T., Lin, Y. Y., & Yang, M. H. (2018). Adversarial learning for semi-supervised semantic segmentation. In Brit. mach. vis. conf."},{"key":"1799_CR39","doi-asserted-by":"crossref","unstructured":"Huo, X., Xie, L., He, J., Yang, Z., Zhou, W., Li, H., & Tian, Q. (2021). Atso: Asynchronous teacher\u2013student optimization for semi-supervised image segmentation. In IEEE conf. comput. vis. pattern recog. (pp. 1235\u20131244).","DOI":"10.1109\/CVPR46437.2021.00129"},{"issue":"3","key":"1799_CR40","doi-asserted-by":"publisher","first-page":"253","DOI":"10.1162\/0891201041850894","volume":"30","author":"R Hwa","year":"2004","unstructured":"Hwa, R. (2004). Sample selection for statistical parsing. Computational Linguistics, 30(3), 253\u2013276.","journal-title":"Computational Linguistics"},{"key":"1799_CR41","unstructured":"Ioffe, S., & Szegedy, C. (2015). Batch normalization: Accelerating deep network training by reducing internal covariate shift. arXiv:1502.03167."},{"key":"1799_CR42","doi-asserted-by":"crossref","unstructured":"Jiang, H., Larsson, G., Maire Greg\u00a0Shakhnarovich, M., & Learned-Miller, E. (2018) Self-supervised relative depth learning for urban scene understanding. In Eur. conf. comput. vis. (pp. 19\u201335).","DOI":"10.1007\/978-3-030-01252-6_2"},{"key":"1799_CR43","doi-asserted-by":"crossref","unstructured":"Jiang, H., Sun, D., Jampani, V., Lv, Z., Learned-Miller, E., & Kautz, J. (2019). Sense: A shared encoder network for scene-flow estimation. In Int. conf. comput. vis. (pp. 3195\u20133204).","DOI":"10.1109\/ICCV.2019.00329"},{"key":"1799_CR44","doi-asserted-by":"crossref","unstructured":"Jiao, J., Cao, Y., Song, Y., & Lau, R. (2018). Look deeper into depth: Monocular depth estimation with semantic booster and attention-driven loss. In Eur. conf. comput. vis. (pp. 53\u201369).","DOI":"10.1007\/978-3-030-01267-0_4"},{"key":"1799_CR45","doi-asserted-by":"crossref","unstructured":"Kalluri, T., Varma, G., Chandraker, M., & Jawahar, C. (2019). Universal semi-supervised semantic segmentation. In Int. conf. comput. vis. (pp. 5259\u20135270).","DOI":"10.1109\/ICCV.2019.00536"},{"key":"1799_CR46","doi-asserted-by":"crossref","unstructured":"Kasarla, T., Nagendar, G., Hegde, G. M., Balasubramanian, V., & Jawahar, C. (2019). Region-based active learning for efficient labeling in semantic segmentation. In IEEE winter conf. appl. of comput. vis. (pp. 1109\u20131117).","DOI":"10.1109\/WACV.2019.00123"},{"key":"1799_CR47","doi-asserted-by":"crossref","unstructured":"Kim, M., & Byun, H. (2020). Learning texture invariant representation for domain adaptation of semantic segmentation. In IEEE conf. comput. vis. pattern recog. (pp. 12975\u201312984).","DOI":"10.1109\/CVPR42600.2020.01299"},{"key":"1799_CR48","doi-asserted-by":"crossref","unstructured":"Klingner, M., Bar, A., & Fingscheidt, T. (2020a). Improved noise and attack robustness for semantic segmentation by using multi-task training with self-supervised depth estimation. In IEEE conf. comput. vis. pattern recog. workshops (pp. 320\u2013321).","DOI":"10.1109\/CVPRW50498.2020.00168"},{"key":"1799_CR49","doi-asserted-by":"crossref","unstructured":"Klingner, M., Term\u00f6hlen, J. A., Mikolajczyk, J., & Fingscheidt, T. (2020b). Self-supervised monocular depth estimation: solving the dynamic object problem by semantic guidance. In Eur. conf. comput. vis. (pp. 582\u2013600).","DOI":"10.1007\/978-3-030-58565-5_35"},{"key":"1799_CR50","doi-asserted-by":"crossref","unstructured":"Lai, X., Tian, Z., Jiang, L., Liu, S., Zhao, H., Wang, L., & Jia, J. (2021). Semi-supervised semantic segmentation with directional context-aware consistency. In CVPR (pp. 1205\u20131214).","DOI":"10.1109\/CVPR46437.2021.00126"},{"issue":"11","key":"1799_CR51","doi-asserted-by":"publisher","first-page":"2278","DOI":"10.1109\/5.726791","volume":"86","author":"Y LeCun","year":"1998","unstructured":"LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11), 2278\u20132324.","journal-title":"Proceedings of the IEEE"},{"key":"1799_CR52","unstructured":"Lee, D. H. (2013). Pseudo-label: The simple and efficient semi-supervised learning method for deep neural networks. In Int. conf. mach. learning."},{"key":"1799_CR53","unstructured":"Lee, K. H., Ros, G., Li, J., & Gaidon, A. (2018) Spigan: Privileged adversarial learning from simulation. In Int. conf. learn. represent."},{"key":"1799_CR54","doi-asserted-by":"crossref","unstructured":"Li, C., Ma, H., Kang, Z., Yuan, Y., Zhang, X. Y., & Wang, G. (2020a). On deep unsupervised active learning. Int Joint Conf Artif Intell.","DOI":"10.24963\/ijcai.2020\/364"},{"issue":"6","key":"1799_CR55","doi-asserted-by":"publisher","first-page":"1382","DOI":"10.1109\/TPAMI.2018.2840980","volume":"41","author":"C Li","year":"2018","unstructured":"Li, C., Wang, X., Dong, W., Yan, J., Liu, Q., & Zha, H. (2018). Joint active learning with feature selection via cur matrix decomposition. IEEE Transactions on Pattern Analysis and Machine Intelligence, 41(6), 1382\u20131396.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1799_CR56","doi-asserted-by":"crossref","unstructured":"Li, G., Kang, G., Liu, W., Wei, Y., & Yang, Y. (2020b). Content-consistent matching for domain adaptive semantic segmentation. In Eur. conf. comput. vis. (pp. 440\u2013456).","DOI":"10.1007\/978-3-030-58568-6_26"},{"key":"1799_CR57","doi-asserted-by":"crossref","unstructured":"Lian, Q., Lv, F., Duan, L., & Gong, B. (2019). Constructing self-motivated pyramid curriculums for cross-domain semantic segmentation: A non-adversarial approach. In Int. conf. comput. vis. (pp. 6758\u20136767).","DOI":"10.1109\/ICCV.2019.00686"},{"key":"1799_CR58","doi-asserted-by":"crossref","unstructured":"Liu, S., Johns, E., & Davison, A. J. (2019). End-to-end multi-task learning with attention. In IEEE conf. comput. vis. pattern recog. (pp. 1871\u20131880).","DOI":"10.1109\/CVPR.2019.00197"},{"key":"1799_CR59","doi-asserted-by":"crossref","unstructured":"Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. In IEEE conf. comput. vis. pattern recog. (pp. 3431\u20133440).","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"1799_CR60","unstructured":"Mackowiak, R., Lenz, P., Ghori, O., Diego, F., Lange, O., & Rother, C. (2018). Cereals-cost-effective region-based active learning for semantic segmentation. In Brit. mach. vis. conf."},{"key":"1799_CR61","unstructured":"McCallumzy, A. K., & Nigamy, K. (1998). Employing em and pool-based active learning for text classification. In Int. conf. mach. learning (pp. 359\u2013367)."},{"key":"1799_CR62","doi-asserted-by":"crossref","unstructured":"Mendel, R., De\u00a0Souza, L. A., Rauber, D., Papa, J. P., & Palm, C. (2020). Semi-supervised segmentation based on error-correcting supervision. In Eur. conf. comput. vis. (pp. 141\u2013157).","DOI":"10.1007\/978-3-030-58526-6_9"},{"key":"1799_CR63","doi-asserted-by":"publisher","first-page":"1369","DOI":"10.1109\/TPAMI.2019.2960224","volume":"43","author":"S Mittal","year":"2019","unstructured":"Mittal, S., Tatarchenko, M., & Brox, T. (2019). Semi-supervised semantic segmentation with high-and low-level consistency. IEEE Transactions on Pattern Analysis and Machine Intelligence, 43, 1369\u20131379.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1799_CR64","unstructured":"Nie, F., Wang, H., Huang, H., & Ding, C. (2013). Early active learning via robust representation and structured sparsity. In Int. joint conf. artif. intell."},{"key":"1799_CR65","unstructured":"Novosel, J., Viswanath, P., & Arsenali, B. (2019). Boosting semantic segmentation with multi-task self-supervised learning for autonomous driving applications. In Int. conf. comput. vis. workshops."},{"key":"1799_CR66","doi-asserted-by":"crossref","unstructured":"Olsson, V., Tranheden, W., Pinto, J., & Svensson, L. (2021). Classmix: Segmentation-based data augmentation for semi-supervised learning. In IEEE winter conf. on applications of comput. vis. (pp. 1369\u20131378).","DOI":"10.1109\/WACV48630.2021.00141"},{"key":"1799_CR67","doi-asserted-by":"crossref","unstructured":"Ouali, Y., Hudelot, C., & Tami, M. (2020). Semi-supervised semantic segmentation with cross-consistency training. In IEEE conf. comput. vis. pattern recog. (pp. 12674\u201312684).","DOI":"10.1109\/CVPR42600.2020.01269"},{"key":"1799_CR68","doi-asserted-by":"crossref","unstructured":"Pilzer, A., Lathuiliere, S., Sebe, N., & Ricci, E. (2019). Refine and distill: Exploiting cycle-inconsistency and knowledge distillation for unsupervised monocular depth estimation. In IEEE conf. comput. vis. pattern recog. (pp. 9768\u20139777).","DOI":"10.1109\/CVPR.2019.01000"},{"key":"1799_CR69","doi-asserted-by":"crossref","unstructured":"Pilzer, A., Xu, D., Puscas, M., Ricci, E., & Sebe, N. (2018). Unsupervised adversarial depth estimation using cycled generative networks. In Int. conf. on 3D vision (pp. 587\u2013595).","DOI":"10.1109\/3DV.2018.00073"},{"key":"1799_CR70","unstructured":"Ramirez, P. Z., Poggi, M., Tosi, F., Mattoccia, S., & Di\u00a0Stefano, L. (2018). Geometry meets semantics for semi-supervised monocular depth estimation. In Asian conf. comput. vis. (pp. 298\u2013313)."},{"key":"1799_CR71","doi-asserted-by":"crossref","unstructured":"Ramirez, P. Z., Tonioni, A., Salti, S., & Stefano, L. D. (2019). Learning across tasks and domains. In Int. conf. comput. vis. (pp. 8110\u20138119).","DOI":"10.1109\/ICCV.2019.00820"},{"key":"1799_CR72","doi-asserted-by":"crossref","unstructured":"Ranjan, A., Jampani, V., Balles, L., Kim, K., Sun, D., Wulff, J., & Black, M. J. (2019). Competitive collaboration: Joint unsupervised learning of depth, camera motion, optical flow and motion segmentation. In IEEE conf. comput. vis. pattern recog. (pp. 12240\u201312249).","DOI":"10.1109\/CVPR.2019.01252"},{"key":"1799_CR73","doi-asserted-by":"crossref","unstructured":"Richter, S. R., Hayder, Z., & Koltun, V. (2017). Playing for benchmarks. In Int. conf. comput. vis. (pp. 2213\u20132222).","DOI":"10.1109\/ICCV.2017.243"},{"key":"1799_CR74","doi-asserted-by":"crossref","unstructured":"Richter, S. R., Vineet, V., Roth, S., & Koltun, V. (2016). Playing for data: Ground truth from computer games. In Eur. conf. comput. vis. (pp. 102\u2013118).","DOI":"10.1007\/978-3-319-46475-6_7"},{"key":"1799_CR75","doi-asserted-by":"crossref","unstructured":"Ronneberger, O., Fischer, P., & Brox, T. (2015). U-net: Convolutional networks for biomedical image segmentation. In Int. conf. medical image computing and computer-assisted intervention (pp. 234\u2013241).","DOI":"10.1007\/978-3-319-24574-4_28"},{"key":"1799_CR76","doi-asserted-by":"crossref","unstructured":"Ros, G., Sellart, L., Materzynska, J., Vazquez, D., & Lopez, A. M. (2016). A large collection of synthetic images for semantic segmentation of urban scenes. In IEEE conf. comput. vis. pattern recog. (pp. 3234\u20133243).","DOI":"10.1109\/CVPR.2016.352"},{"issue":"9","key":"1799_CR77","doi-asserted-by":"publisher","first-page":"973","DOI":"10.1007\/s11263-018-1072-8","volume":"126","author":"C Sakaridis","year":"2018","unstructured":"Sakaridis, C., Dai, D., & Van Gool, L. (2018). Semantic foggy scene understanding with synthetic data. International Journal of Computer Vision, 126(9), 973\u2013992.","journal-title":"International Journal of Computer Vision"},{"key":"1799_CR78","doi-asserted-by":"crossref","unstructured":"Sakaridis, C., Dai, D., & Van\u00a0Gool, L. (2021) ACDC: The adverse conditions dataset with correspondences for semantic driving scene understanding. In Int. conf. comput. vis.","DOI":"10.1109\/ICCV48922.2021.01059"},{"key":"1799_CR79","unstructured":"Sener, O., & Savarese, S. (2018). Active learning for convolutional neural networks: A core-set approach. In Int. conf. learn. represent."},{"key":"1799_CR80","unstructured":"Settles, B. (2009). Active learning literature survey. Tech. rep.: University of Wisconsin-Madison Department of Computer Sciences."},{"key":"1799_CR81","doi-asserted-by":"crossref","unstructured":"Settles, B., & Craven, M. (2008). An analysis of active learning strategies for sequence labeling tasks. In Conf. empirical methods natural language processing (pp. 1070\u20131079).","DOI":"10.3115\/1613715.1613855"},{"key":"1799_CR82","doi-asserted-by":"crossref","unstructured":"Seung, H. S., Opper, M., & Sompolinsky, H. (1992). Query by committee. In Annual workshop computational learning theory (pp. 287\u2013294).","DOI":"10.1145\/130385.130417"},{"key":"1799_CR83","doi-asserted-by":"crossref","unstructured":"Shu, C., Yu, K., Duan, Z., & Yang, K. (2020) Feature-metric loss for self-supervised learning of depth and egomotion. In Eur. conf. comput. vis. (pp. 572\u2013588).","DOI":"10.1007\/978-3-030-58529-7_34"},{"key":"1799_CR84","doi-asserted-by":"crossref","unstructured":"Siddiqui, Y., Valentin, J., & Nie\u00dfner, M. (2020) .Viewal: Active learning with viewpoint entropy for semantic segmentation. In IEEE conf. comput. vis. pattern recog. (pp. 9433\u20139443).","DOI":"10.1109\/CVPR42600.2020.00945"},{"key":"1799_CR85","doi-asserted-by":"crossref","unstructured":"Sinha, S., Ebrahimi, S., & Darrell, T. (2019). Variational adversarial active learning. In Int. conf. comput. vis. (pp. 5972\u20135981).","DOI":"10.1109\/ICCV.2019.00607"},{"key":"1799_CR86","unstructured":"Sohn, K., Berthelot, D., Carlini, N., Zhang, Z., Zhang, H., Raffel, C. A., Cubuk, E. D., Kurakin, A., & Li, C. L. (2020). Fixmatch: Simplifying semi-supervised learning with consistency and confidence. In Adv. neural inform. process. syst."},{"key":"1799_CR87","doi-asserted-by":"crossref","unstructured":"Souly, N., Spampinato, C., & Shah, M. (2017). Semi supervised semantic segmentation using generative adversarial network. In Int. conf. comput. vis. (pp. 5688\u20135696).","DOI":"10.1109\/ICCV.2017.606"},{"key":"1799_CR88","unstructured":"Tarvainen, A., & Valpola, H. (2017) Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results. In Adv. neural inform. process. syst. (pp. 1195\u20131204)."},{"key":"1799_CR89","doi-asserted-by":"crossref","unstructured":"Tranheden, W., Olsson, V., Pinto, J., & Svensson, L. (2021) Dacs: Domain adaptation via cross-domain mixed sampling. In IEEE winter conf. on applications of comput. vis. (pp. 1379\u20131389).","DOI":"10.1109\/WACV48630.2021.00142"},{"key":"1799_CR90","doi-asserted-by":"crossref","unstructured":"Tsai, Y. H., Hung, W. C., Schulter, S., Sohn, K., Yang, M. H., & Chandraker, M. (2018). Learning to adapt structured output space for semantic segmentation. In IEEE conf. comput. vis. pattern recog. (pp. 7472\u20137481).","DOI":"10.1109\/CVPR.2018.00780"},{"key":"1799_CR91","first-page":"3614","volume":"44","author":"S Vandenhende","year":"2021","unstructured":"Vandenhende, S., Georgoulis, S., Van Gansbeke, W., Proesmans, M., Dai, D., & Van Gool, L. (2021). Multi-task learning for dense prediction tasks: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 44, 3614\u20133633.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1799_CR92","doi-asserted-by":"crossref","unstructured":"Verma, V., Lamb, A., Kannala, J., Bengio, Y., & Lopez-Paz, D. (2019). Interpolation consistency training for semi-supervised learning. In Int. joint conf. artif. intell. (pp. 3635\u20133641).","DOI":"10.24963\/ijcai.2019\/504"},{"key":"1799_CR93","doi-asserted-by":"crossref","unstructured":"Vu, T. H., Jain, H., Bucher, M., Cord, M., & P\u00e9rez, P. (2019a). Advent: Adversarial entropy minimization for domain adaptation in semantic segmentation. In IEEE conf. comput. vis. pattern recog. (pp. 2517\u20132526).","DOI":"10.1109\/CVPR.2019.00262"},{"key":"1799_CR94","doi-asserted-by":"crossref","unstructured":"Vu, T. H., Jain, H., Bucher, M., Cord, M., & P\u00e9rez, P. (2019b). Dada: Depth-aware domain adaptation in semantic segmentation. In Int. conf. comput. vis. (pp. 7364\u20137373).","DOI":"10.1109\/ICCV.2019.00746"},{"key":"1799_CR95","doi-asserted-by":"crossref","unstructured":"Wang, Q., Dai, D., Hoyer, L., Fink, O., & Van\u00a0Gool, L. (2021). Domain adaptive semantic segmentation with self-supervised depth estimation. InInt. conf. comput. vis.","DOI":"10.1109\/ICCV48922.2021.00840"},{"key":"1799_CR96","doi-asserted-by":"crossref","unstructured":"Wang, R., Pizer, S. M., & Frahm, J. M. (2019). Recurrent neural network for (un-) supervised learning of monocular video visual odometry and depth. In IEEE conf. comput. vis. pattern recog. (pp. 5555\u20135564).","DOI":"10.1109\/CVPR.2019.00570"},{"key":"1799_CR97","doi-asserted-by":"crossref","unstructured":"Wang, Z., Wei, Y., Feris, R., Xiong, J., Hwu, W. M., Huang, T. S., & Shi, H. (2020). Alleviating semantic-level shift: A semi-supervised domain adaptation method for semantic segmentation. In IEEE conf. comput. vis. pattern recog. workshops (pp. 936\u2013937).","DOI":"10.1109\/CVPRW50498.2020.00476"},{"key":"1799_CR98","doi-asserted-by":"crossref","unstructured":"Wei, Y., Xiao, H., Shi, H., Jie, Z., Feng, J., & Huang, T. S. (2018). Revisiting dilated convolution: A simple approach for weakly-and semi-supervised semantic segmentation. In IEEE conf. comput. vis. pattern recog. (pp. 7268\u20137277).","DOI":"10.1109\/CVPR.2018.00759"},{"key":"1799_CR99","unstructured":"Xie, S., Feng, Z., Chen, Y., Sun, S., Ma, C., & Song, M. (2020). Deal: Difficulty-aware active learning for semantic segmentation. In Asian conf. comput. vis."},{"key":"1799_CR100","doi-asserted-by":"crossref","unstructured":"Xu, D., Ouyang, W., Wang, X., & Sebe, N. (2018). Pad-net: Multi-tasks guided prediction-and-distillation network for simultaneous depth estimation and scene parsing. In IEEE conf. comput. vis. pattern recog. (pp. 675\u2013684).","DOI":"10.1109\/CVPR.2018.00077"},{"key":"1799_CR101","doi-asserted-by":"crossref","unstructured":"Yang, G., Zhao, H., Shi, J., Deng, Z., & Jia, J. (2018). Segstereo: Exploiting semantic information for disparity estimation. In Eur. conf. comput. vis. (pp. 636\u2013651).","DOI":"10.1007\/978-3-030-01234-2_39"},{"key":"1799_CR102","doi-asserted-by":"crossref","unstructured":"Yang, L., Zhang, Y., Chen, J., Zhang, S., & Chen, D. Z. (2017). Suggestive annotation: A deep active learning framework for biomedical image segmentation. In Int. conf. medical image computing and computer-assisted intervention (pp. 399\u2013407).","DOI":"10.1007\/978-3-319-66179-7_46"},{"key":"1799_CR103","doi-asserted-by":"crossref","unstructured":"Yang, Y., & Soatto, S. (2020) Fda: Fourier domain adaptation for semantic segmentation. In IEEE conf. comput. vis. pattern recog. (pp. 4085\u20134095).","DOI":"10.1109\/CVPR42600.2020.00414"},{"key":"1799_CR104","doi-asserted-by":"crossref","unstructured":"Yin, Z., & Shi, J. (2018). Geonet: Unsupervised learning of dense depth, optical flow and camera pose. In IEEE conf. comput. vis. pattern recog. (pp. 1983\u20131992).","DOI":"10.1109\/CVPR.2018.00212"},{"key":"1799_CR105","doi-asserted-by":"crossref","unstructured":"Yu, K., Bi, J., & Tresp, V. (2006). Active learning via transductive experimental design. In Int. conf. mach. learning (pp. 1081\u20131088).","DOI":"10.1145\/1143844.1143980"},{"key":"1799_CR106","doi-asserted-by":"crossref","unstructured":"Yun, S., Han, D., Oh, S. J., Chun, S., Choe, J., & Yoo, Y. (2019). Cutmix: Regularization strategy to train strong classifiers with localizable features. In Int. conf. comput. vis. (pp. 6023\u20136032).","DOI":"10.1109\/ICCV.2019.00612"},{"key":"1799_CR107","doi-asserted-by":"crossref","unstructured":"Zhang, P., Zhang, B., Zhang, T., Chen, D., Wang, Y., & Wen, F. (2021). Prototypical pseudo label denoising and target structure learning for domain adaptive semantic segmentation. In Proceedings of the IEEE\/CVF conference on computer vision and pattern recognition (pp. 12414\u201312424).","DOI":"10.1109\/CVPR46437.2021.01223"},{"issue":"8","key":"1799_CR108","doi-asserted-by":"publisher","first-page":"1823","DOI":"10.1109\/TPAMI.2019.2903401","volume":"42","author":"Y Zhang","year":"2019","unstructured":"Zhang, Y., David, P., Foroosh, H., & Gong, B. (2019). A curriculum domain adaptation approach to the semantic segmentation of urban scenes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 42(8), 1823\u20131841.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1799_CR109","doi-asserted-by":"crossref","unstructured":"Zheng, H., Yang, L., Chen, J., Han, J., Zhang, Y., Liang, P., Zhao, Z., Wang, C., & Chen, D. Z. (2019). Biomedical image segmentation via representative annotation. In AAAI conf. artif. intell. (pp. 5901\u20135908).","DOI":"10.1609\/aaai.v33i01.33015901"},{"issue":"4","key":"1799_CR110","doi-asserted-by":"publisher","first-page":"1106","DOI":"10.1007\/s11263-020-01395-y","volume":"129","author":"Z Zheng","year":"2021","unstructured":"Zheng, Z., & Yang, Y. (2021). Rectifying pseudo label learning via uncertainty estimation for domain adaptive semantic segmentation. International Journal of Computer Vision, 129(4), 1106\u20131120.","journal-title":"International Journal of Computer Vision"},{"key":"1799_CR111","doi-asserted-by":"crossref","unstructured":"Zhou, T., Brown, M., Snavely, N., & Lowe, D. G. (2017). Unsupervised learning of depth and ego-motion from video. In IEEE conf. comput. vis. pattern recog. (pp. 1851\u20131858).","DOI":"10.1109\/CVPR.2017.700"},{"key":"1799_CR112","doi-asserted-by":"crossref","unstructured":"Zou, Y., Yu, Z., Kumar, B., & Wang, J. (2018). Unsupervised domain adaptation for semantic segmentation via class-balanced self-training. In Eur. conf. comput. vis. (pp. 289\u2013305).","DOI":"10.1007\/978-3-030-01219-9_18"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-023-01799-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11263-023-01799-6\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-023-01799-6.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2023,7,17]],"date-time":"2023-07-17T07:11:40Z","timestamp":1689577900000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11263-023-01799-6"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2023,5,11]]},"references-count":112,"journal-issue":{"issue":"8","published-print":{"date-parts":[[2023,8]]}},"alternative-id":["1799"],"URL":"https:\/\/doi.org\/10.1007\/s11263-023-01799-6","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2023,5,11]]},"assertion":[{"value":"27 August 2021","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"12 April 2023","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"11 May 2023","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}},{"order":1,"name":"Ethics","group":{"name":"EthicsHeading","label":"Declarations"}},{"value":"The authors have no conflict of interest to declare that are relevant to the content of this article.","order":2,"name":"Ethics","group":{"name":"EthicsHeading","label":"Conflict of interest"}}]}}