{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,18]],"date-time":"2026-03-18T13:24:11Z","timestamp":1773840251577,"version":"3.50.1"},"reference-count":53,"publisher":"Springer Science and Business Media LLC","issue":"7","license":[{"start":{"date-parts":[[2024,1,20]],"date-time":"2024-01-20T00:00:00Z","timestamp":1705708800000},"content-version":"tdm","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"},{"start":{"date-parts":[[2024,1,20]],"date-time":"2024-01-20T00:00:00Z","timestamp":1705708800000},"content-version":"vor","delay-in-days":0,"URL":"https:\/\/www.springernature.com\/gp\/researchers\/text-and-data-mining"}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2024,7]]},"DOI":"10.1007\/s11263-023-01979-4","type":"journal-article","created":{"date-parts":[[2024,1,20]],"date-time":"2024-01-20T05:02:17Z","timestamp":1705726937000},"page":"2401-2419","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":16,"title":["Towards Robust Monocular Depth Estimation: A New Baseline and Benchmark"],"prefix":"10.1007","volume":"132","author":[{"given":"Ke","family":"Xian","sequence":"first","affiliation":[]},{"given":"Zhiguo","family":"Cao","sequence":"additional","affiliation":[]},{"given":"Chunhua","family":"Shen","sequence":"additional","affiliation":[]},{"ORCID":"https:\/\/orcid.org\/0000-0002-0329-7458","authenticated-orcid":false,"given":"Guosheng","family":"Lin","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2024,1,20]]},"reference":[{"issue":"9","key":"1979_CR1","doi-asserted-by":"publisher","first-page":"2548","DOI":"10.1007\/s11263-021-01484-6","volume":"129","author":"J-W Bian","year":"2021","unstructured":"Bian, J.-W., Zhan, H., Wang, N., Li, Z., Zhang, L., Shen, C., et al. (2021). Unsupervised scale-consistent depth learning from video. IJCV, 129(9), 2548\u20132564.","journal-title":"IJCV"},{"key":"1979_CR2","unstructured":"Chen, W., Fu, Z., Yang, D., & Deng, J. (2016). Single-image depth perception in the wild. In NeurIPS. (pp. 730\u2013738)."},{"key":"1979_CR3","doi-asserted-by":"crossref","unstructured":"Chen, W., Qian, S., & Deng, J. (2019). Learning single-image depth from videos using quality assessment networks. In CVPR. (pp. 5604\u20135613).","DOI":"10.1109\/CVPR.2019.00575"},{"key":"1979_CR4","doi-asserted-by":"crossref","unstructured":"Chen, W., Qian, S., Fan, D., Kojima, N., Hamilton, M., & Deng, J. (2020). Oasis: A large-scale dataset for single image 3d in the wild. In CVPR. (pp. 679\u2013688).","DOI":"10.1109\/CVPR42600.2020.00076"},{"key":"1979_CR5","doi-asserted-by":"crossref","unstructured":"Cubuk, E.\u00a0D., Zoph, B., Mane, D., Vasudevan, V., & Le, Q.\u00a0V. (2019). Autoaugment: Learning augmentation strategies from data. In CVPR. (pp. 113\u2013123).","DOI":"10.1109\/CVPR.2019.00020"},{"key":"1979_CR6","unstructured":"DeVries, T., & Taylor, G.\u00a0W. (2017). Improved regularization of convolutional neural networks with cutout. arXiv preprint arXiv:1708.04552."},{"key":"1979_CR7","unstructured":"Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., et\u00a0al. (2020). An image is worth 16x16 words: Transformers for image recognition at scale. arXiv preprintarXiv:2010.11929."},{"key":"1979_CR8","doi-asserted-by":"crossref","unstructured":"Eigen, D., & Fergus, R. (2015). Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. In ICCV. (pp. 2650\u20132658).","DOI":"10.1109\/ICCV.2015.304"},{"key":"1979_CR9","unstructured":"Eigen, D., Puhrsch, C., & Fergus, R. (2014). Depth map prediction from a single image using a multi-scale deep network. In NeurIPS, volume\u00a027. (pp. 1\u20139)."},{"key":"1979_CR10","doi-asserted-by":"crossref","unstructured":"Fu, H., Gong, M., Wang, C., Batmanghelich, K., & Tao, D. (2018). Deep ordinal regression network for monocular depth estimation. In CVPR. (pp. 2002\u20132011).","DOI":"10.1109\/CVPR.2018.00214"},{"key":"1979_CR11","doi-asserted-by":"crossref","unstructured":"Godard, C., Mac\u00a0Aodha, O., & Brostow, G.\u00a0J. (2017). Unsupervised monocular depth estimation with left-right consistency. In CVPR. (pp. 270\u2013279).","DOI":"10.1109\/CVPR.2017.699"},{"key":"1979_CR12","doi-asserted-by":"crossref","unstructured":"Godard, C., Mac\u00a0Aodha, O., Firman, M., & Brostow, G.\u00a0J. (2019). Digging into self-supervised monocular depth estimation. In CVPR. (pp. 3828\u20133838).","DOI":"10.1109\/ICCV.2019.00393"},{"key":"1979_CR13","unstructured":"Hendrycks, D., & Dietterich, T. (2019). Benchmarking neural network robustness to common corruptions and perturbations. arXiv preprintarXiv:1903.12261."},{"key":"1979_CR14","doi-asserted-by":"publisher","first-page":"462","DOI":"10.1007\/s11263-020-01383-2","volume":"129","author":"C Kamann","year":"2021","unstructured":"Kamann, C., & Rother, C. (2021). Benchmarking the robustness of semantic segmentation models with respect to common corruptions. IJCV, 129, 462\u2013483.","journal-title":"IJCV"},{"key":"1979_CR15","doi-asserted-by":"crossref","unstructured":"Kar, O.\u00a0F., Yeo, T., Atanov, A., & Zamir, A. (2022). 3d common corruptions and data augmentation. In CVPR. (pp. 18963\u201318974).","DOI":"10.1109\/CVPR52688.2022.01839"},{"key":"1979_CR16","doi-asserted-by":"crossref","unstructured":"Koch, T., Liebel, L., Fraundorfer, F., & K\u00f6rner, M. (2018). Evaluation of CNN-based single-image depth estimation methods. In ECCVW. (pp. 331\u2013348).","DOI":"10.1007\/978-3-030-11015-4_25"},{"key":"1979_CR17","doi-asserted-by":"crossref","unstructured":"Laina, I., Rupprecht, C., Belagiannis, V., Tombari, F., & Navab, N. (2016). Deeper depth prediction with fully convolutional residual networks. In Proceeding of IEEE International Conference 3D Vision. (pp. 239\u2013248).","DOI":"10.1109\/3DV.2016.32"},{"issue":"3","key":"1979_CR18","first-page":"1623","volume":"44","author":"K Lasinger","year":"2020","unstructured":"Lasinger, K., Ranftl, R., Schindler, K., & Koltun, V. (2020). Towards robust monocular depth estimation: Mixing datasets for zero-shot cross-dataset transfer. IEEE TPAMI, 44(3), 1623\u20131637.","journal-title":"IEEE TPAMI"},{"key":"1979_CR19","doi-asserted-by":"crossref","unstructured":"Lee, H., & Park, J. (2022). Instance-wise occlusion and depth orders in natural scenes. In CVPR. (pp. 21210\u201321221).","DOI":"10.1109\/CVPR52688.2022.02053"},{"issue":"9","key":"1979_CR20","doi-asserted-by":"publisher","first-page":"2265","DOI":"10.1007\/s11263-022-01641-5","volume":"130","author":"S Lee","year":"2022","unstructured":"Lee, S., Rameau, F., Im, S., & Kweon, I. S. (2022). Self-supervised monocular depth and motion learning in dynamic scenes: Semantic prior to rescue. IJCV, 130(9), 2265\u20132285.","journal-title":"IJCV"},{"key":"1979_CR21","doi-asserted-by":"crossref","unstructured":"Li, Z., Niklaus, S., Snavely, N., & Wang, O. (2021). Neural scene flow fields for space-time view synthesis of dynamic scenes. In CVPR. (pp. 6498\u20136508).","DOI":"10.1109\/CVPR46437.2021.00643"},{"key":"1979_CR22","doi-asserted-by":"crossref","unstructured":"Li, Z., & Snavely, N. (2018). Megadepth: Learning single-view depth prediction from internet photos. In CVPR. (pp. 2041\u20132050).","DOI":"10.1109\/CVPR.2018.00218"},{"issue":"6","key":"1979_CR23","doi-asserted-by":"publisher","first-page":"1841","DOI":"10.1145\/3355089.3356528","volume":"38","author":"S Niklaus","year":"2019","unstructured":"Niklaus, S., Mai, L., Yang, J., & Liu, F. (2019). 3D Ken burns effect from a single image. ACM TOG, 38(6), 1841\u201318415.","journal-title":"ACM TOG"},{"key":"1979_CR24","doi-asserted-by":"crossref","unstructured":"Peng, J., Cao, Z., Luo, X., Lu, H., Xian, K., & Zhang, J. (2022). Bokehme: When neural rendering meets classical rendering. In CVPR. (pp. 16283\u201316292).","DOI":"10.1109\/CVPR52688.2022.01580"},{"key":"1979_CR25","doi-asserted-by":"crossref","unstructured":"Ranftl, R., Bochkovskiy, A., & Koltun, V. (2021). Vision transformers for dense prediction. In ICCV. (pp. 12179\u201312188).","DOI":"10.1109\/ICCV48922.2021.01196"},{"key":"1979_CR26","doi-asserted-by":"crossref","unstructured":"Roberts, M., Ramapuram, J., Ranjan, A., Kumar, A., Bautista, M.\u00a0A., Paczan, N., et\u00a0al. (2021). Hypersim: A photorealistic synthetic dataset for holistic indoor scene understanding. In ICCV. (pp. 10912\u201310922).","DOI":"10.1109\/ICCV48922.2021.01073"},{"key":"1979_CR27","volume-title":"Fundamentals of photonics","author":"BE Saleh","year":"2019","unstructured":"Saleh, B. E., & Teich, M. C. (2019). Fundamentals of photonics. London: Wiley."},{"key":"1979_CR28","doi-asserted-by":"crossref","unstructured":"Sch\u00f6ps, T., Sch\u00f6nberger, J.\u00a0L., Galliani, S., Sattler, T., Schindler, K., Pollefeys, M., et\u00a0al. (2017). A multi-view stereo benchmark with high-resolution images and multi-camera videos. In CVPR. (pp. 3260\u20133269).","DOI":"10.1109\/CVPR.2017.272"},{"key":"1979_CR29","doi-asserted-by":"crossref","unstructured":"Silberman, N., Hoiem, D., Kohli, P., & Fergus, R. (2012). Indoor segmentation and support inference from rgbd images. In ECCV. (pp. 746\u2013760).","DOI":"10.1007\/978-3-642-33715-4_54"},{"key":"1979_CR30","unstructured":"Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprintarXiv:1409.1556."},{"key":"1979_CR31","doi-asserted-by":"crossref","unstructured":"Sturm, J., Engelhard, N., Endres, F., Burgard, W., & Cremers, D. (2012). A benchmark for the evaluation of rgb-d slam systems. In IROS. (pp. 573\u2013580).","DOI":"10.1109\/IROS.2012.6385773"},{"key":"1979_CR32","doi-asserted-by":"crossref","unstructured":"Teed, Z., & Deng, J. (2020). Raft: Recurrent all-pairs field transforms for optical flow. In ECCV. (pp. 402\u2013419).","DOI":"10.1007\/978-3-030-58536-5_24"},{"key":"1979_CR33","doi-asserted-by":"crossref","unstructured":"Uhrig, J., Schneider, N., Schneider, L., Franke, U., Brox, T., & Geiger, A. (2017). Sparsity invariant CNNS. In Proceeding of IEEE International Conference of 3D Vision. (pp. 11\u201320).","DOI":"10.1109\/3DV.2017.00012"},{"key":"1979_CR34","unstructured":"Vasiljevic, I., Kolkin, N., Zhang, S., Luo, R., Wang, H., Dai, F. Z., et al. (1908). 2019 (p. 00463). DIODE: A dense indoor and outdoor depth dataset. arxiv."},{"issue":"4","key":"1979_CR35","doi-asserted-by":"publisher","first-page":"1","DOI":"10.1145\/3197517.3201329","volume":"37","author":"N Wadhwa","year":"2018","unstructured":"Wadhwa, N., Garg, R., Jacobs, D. E., Feldman, B. E., Kanazawa, N., Carroll, R., et al. (2018). Synthetic depth-of-field with a single-camera mobile phone. ACM TOG, 37(4), 1\u201313.","journal-title":"ACM TOG"},{"issue":"6","key":"1979_CR36","first-page":"1","volume":"37","author":"L Wang","year":"2018","unstructured":"Wang, L., Shen, X., Zhang, J., Wang, O., Lin, Z., Hsieh, C.-Y., et al. (2018). Deeplens: Shallow depth of field from a single image. ACM TOG, 37(6), 1\u201311.","journal-title":"ACM TOG"},{"key":"1979_CR37","doi-asserted-by":"crossref","unstructured":"Wang, Q., Li, Z., Salesin, D., Snavely, N., Curless, B., & Kontkanen, J. (2022). 3d moments from near-duplicate photos. In CVPR. (pp. 3906\u20133915).","DOI":"10.1109\/CVPR52688.2022.00388"},{"key":"1979_CR38","unstructured":"Wang, Q., Zheng, S., Yan, Q., Deng, F., Zhao, K., & Chu, X. (2019). Irs: A large synthetic indoor robotics stereo dataset for disparity and surface normal estimation. arXiv preprintarXiv:1912.09678, 6."},{"key":"1979_CR39","doi-asserted-by":"crossref","unstructured":"Wang, W., Zhu, D., Wang, X., Hu, Y., Qiu, Y., & Wang, C., et al. (2020). Tartanair: A dataset to push the limits of visual slam. In IROS. (pp. 4909\u20134916).","DOI":"10.1109\/IROS45743.2020.9341801"},{"key":"1979_CR40","doi-asserted-by":"crossref","unstructured":"Xian, K., Shen, C., Cao, Z., Lu, H., Xiao, Y., & Li, R., et\u00a0al. (2018). Monocular relative depth perception with web stereo data supervision. In CVPR. (pp. 311\u2013320).","DOI":"10.1109\/CVPR.2018.00040"},{"key":"1979_CR41","doi-asserted-by":"crossref","unstructured":"Xian, K., Zhang, J., Wang, O., Mai, L., Lin, Z., & Cao, Z. (2020). Structure-guided ranking loss for single image depth prediction. In CVPR. (pp. 611\u2013620).","DOI":"10.1109\/CVPR42600.2020.00069"},{"key":"1979_CR42","doi-asserted-by":"crossref","unstructured":"Xu, D., Ricci, E., Ouyang, W., Wang, X., & Sebe, N. (2017). Multi-scale continuous crfs as sequential deep networks for monocular depth estimation. In CVPR. (pp. 5354\u20135362).","DOI":"10.1109\/CVPR.2017.25"},{"key":"1979_CR43","doi-asserted-by":"crossref","unstructured":"Yang, G., Song, X., Huang, C., Deng, Z., Shi, J., & Zhou, B. (2019). Drivingstereo: A large-scale dataset for stereo matching in autonomous driving scenarios. In CVPR. (pp. 899\u2013908).","DOI":"10.1109\/CVPR.2019.00099"},{"issue":"10","key":"1979_CR44","doi-asserted-by":"publisher","first-page":"7282","DOI":"10.1109\/TPAMI.2021.3097396","volume":"44","author":"W Yin","year":"2022","unstructured":"Yin, W., Liu, Y., & Shen, C. (2022). Virtual normal: Enforcing geometric constraints for accurate and robust depth prediction. IEEE TPAMI, 44(10), 7282\u20137295.","journal-title":"IEEE TPAMI"},{"key":"1979_CR45","doi-asserted-by":"crossref","unstructured":"Yin, W., Zhang, J., Wang, O., Niklaus, S., Mai, L., & Chen, S., et\u00a0al. (2021). Learning to recover 3d scene shape from a single image. In CVPR. (pp. 204\u2013213).","DOI":"10.1109\/CVPR46437.2021.00027"},{"key":"1979_CR46","unstructured":"Yoon, J.\u00a0S., Kim, K., Gallo, O., Park, H.\u00a0S., & Kautz, J. (2020). Novel view synthesis of dynamic scenes with globally coherent depths from a monocular camera. In CVPR. (pp. 5336\u20135345)."},{"key":"1979_CR47","doi-asserted-by":"crossref","unstructured":"Yuan, J., Liu, Y., Shen, C., Wang, Z., & Li, H. (2021). A simple baseline for semi-supervised semantic segmentation with strong data augmentation. In ICCV. (pp. 8229\u20138238).","DOI":"10.1109\/ICCV48922.2021.00812"},{"key":"1979_CR48","doi-asserted-by":"crossref","unstructured":"Yun, S., Han, D., Oh, S.\u00a0J., Chun, S., Choe, J., & Yoo, Y. (2019). Cutmix: Regularization strategy to train strong classifiers with localizable features. In ICCV. (pp. 6023\u20136032).","DOI":"10.1109\/ICCV.2019.00612"},{"key":"1979_CR49","doi-asserted-by":"crossref","unstructured":"Zamir, A.\u00a0R., Sax, A., Shen, W.\u00a0B., Guibas, L.\u00a0J., Malik, J., & Savarese, S. (2018). Taskonomy: Disentangling task transfer learning. In CVPR. (pp. 3712\u20133722).","DOI":"10.24963\/ijcai.2019\/871"},{"key":"1979_CR50","unstructured":"Zhang, H., Cisse, M., Dauphin, Y.\u00a0N., & Lopez-Paz, D. (2017). mixup: Beyond empirical risk minimization. arXiv preprintarXiv:1710.09412."},{"issue":"07","key":"1979_CR51","doi-asserted-by":"publisher","first-page":"13001","DOI":"10.1609\/aaai.v34i07.7000","volume":"34","author":"Z Zhong","year":"2020","unstructured":"Zhong, Z., Zheng, L., Kang, G., Li, S., & Yang, Y. (2020). Random erasing data augmentation. AAAI, 34(07), 13001\u201313008.","journal-title":"AAAI"},{"key":"1979_CR52","doi-asserted-by":"crossref","unstructured":"Zhou, T., Brown, M., Snavely, N., & Lowe, D.\u00a0G. (2017). Unsupervised learning of depth and ego-motion from video. In CVPR. (pp. 1851\u20131858).","DOI":"10.1109\/CVPR.2017.700"},{"key":"1979_CR53","unstructured":"Zini, S., Buzzelli, M., Twardowski, B., & van\u00a0de Weijer, J. (2022). Planckian jitter: enhancing the color quality of self-supervised visual representations. arXiv preprintarXiv:2202.07993."}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-023-01979-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/article\/10.1007\/s11263-023-01979-4\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"https:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-023-01979-4.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2024,6,19]],"date-time":"2024-06-19T13:12:38Z","timestamp":1718802758000},"score":1,"resource":{"primary":{"URL":"https:\/\/link.springer.com\/10.1007\/s11263-023-01979-4"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2024,1,20]]},"references-count":53,"journal-issue":{"issue":"7","published-print":{"date-parts":[[2024,7]]}},"alternative-id":["1979"],"URL":"https:\/\/doi.org\/10.1007\/s11263-023-01979-4","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2024,1,20]]},"assertion":[{"value":"28 March 2023","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"16 December 2023","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"20 January 2024","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}