{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,4,16]],"date-time":"2026-04-16T15:29:27Z","timestamp":1776353367811,"version":"3.51.2"},"reference-count":40,"publisher":"Springer Science and Business Media LLC","issue":"3","license":[{"start":{"date-parts":[[2018,12,7]],"date-time":"2018-12-07T00:00:00Z","timestamp":1544140800000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2018,12,7]],"date-time":"2018-12-07T00:00:00Z","timestamp":1544140800000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/100000001","name":"National Science Foundation","doi-asserted-by":"publisher","award":["1524817"],"award-info":[{"award-number":["1524817"]}],"id":[{"id":"10.13039\/100000001","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/100004358","name":"Samsung","doi-asserted-by":"publisher","id":[{"id":"10.13039\/100004358","id-type":"DOI","asserted-by":"publisher"}]},{"DOI":"10.13039\/501100002790","name":"Canadian Network for Research and Innovation in Machining Technology, Natural Sciences and Engineering Research Council of Canada","doi-asserted-by":"publisher","id":[{"id":"10.13039\/501100002790","id-type":"DOI","asserted-by":"publisher"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2019,3]]},"DOI":"10.1007\/s11263-018-1140-0","type":"journal-article","created":{"date-parts":[[2018,12,7]],"date-time":"2018-12-07T04:53:52Z","timestamp":1544158432000},"page":"302-321","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":1309,"title":["Semantic Understanding of Scenes Through the ADE20K Dataset"],"prefix":"10.1007","volume":"127","author":[{"ORCID":"https:\/\/orcid.org\/0000-0003-4030-0684","authenticated-orcid":false,"given":"Bolei","family":"Zhou","sequence":"first","affiliation":[]},{"given":"Hang","family":"Zhao","sequence":"additional","affiliation":[]},{"given":"Xavier","family":"Puig","sequence":"additional","affiliation":[]},{"given":"Tete","family":"Xiao","sequence":"additional","affiliation":[]},{"given":"Sanja","family":"Fidler","sequence":"additional","affiliation":[]},{"given":"Adela","family":"Barriuso","sequence":"additional","affiliation":[]},{"given":"Antonio","family":"Torralba","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2018,12,7]]},"reference":[{"key":"1140_CR1","doi-asserted-by":"publisher","first-page":"2481","DOI":"10.1109\/TPAMI.2016.2644615","volume":"12","author":"V Badrinarayanan","year":"2017","unstructured":"Badrinarayanan, V., Kendall, A., & Cipolla, R. (2017). Segnet: A deep convolutional encoder-decoder architecture for image segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence, 12, 2481\u20132495.","journal-title":"IEEE Transactions on Pattern Analysis and Machine Intelligence"},{"key":"1140_CR2","doi-asserted-by":"publisher","first-page":"111","DOI":"10.1145\/2461912.2462002","volume":"32","author":"S Bell","year":"2013","unstructured":"Bell, S., Upchurch, P., Snavely, N., & Bala, K. (2013). OpenSurfaces: A richly annotated catalog of surface appearance. ACM Transactions on Graphics (TOG), 32, 111.","journal-title":"ACM Transactions on Graphics (TOG)"},{"key":"1140_CR3","doi-asserted-by":"crossref","unstructured":"Bell, S., Upchurch, P., Snavely, N., & Bala, K. (2015). Material recognition in the wild with the materials in context database. In Proceedings of CVPR.","DOI":"10.1109\/CVPR.2015.7298970"},{"key":"1140_CR4","doi-asserted-by":"crossref","unstructured":"Caesar, H., Uijlings, J., & Ferrari, V. (2017). Coco-stuff: Thing and stuff classes in context.","DOI":"10.1109\/CVPR.2018.00132"},{"key":"1140_CR5","unstructured":"Chen, L. C., Papandreou, G., Kokkinos, I., Murphy, K., & Yuille, A. L. (2016). Deeplab: Semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs. \n                    arXiv:1606.00915\n                    \n                  ."},{"key":"1140_CR6","doi-asserted-by":"crossref","unstructured":"Chen, X., Mottaghi, R., Liu, X., Cho, N. G., Fidler, S., Urtasun, R., & Yuille, A. (2014). Detect what you can: Detecting and representing objects using holistic models and body parts. In Proceedings of CVPR.","DOI":"10.1109\/CVPR.2014.254"},{"key":"1140_CR7","doi-asserted-by":"crossref","unstructured":"Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R., et al. (2016). The cityscapes dataset for semantic urban scene understanding. In Proceedings of CVPR.","DOI":"10.1109\/CVPR.2016.350"},{"key":"1140_CR8","doi-asserted-by":"crossref","unstructured":"Dai, J., He, K., & Sun, J. (2015). Convolutional feature masking for joint object and stuff segmentation. In Proceedings of CVPR.","DOI":"10.1109\/CVPR.2015.7299025"},{"key":"1140_CR9","doi-asserted-by":"crossref","unstructured":"Dai, J., He, K., & Sun, J. (2016). Instance-aware semantic segmentation via multi-task network cascades. In Proceedings of CVPR.","DOI":"10.1109\/CVPR.2016.343"},{"key":"1140_CR10","doi-asserted-by":"publisher","first-page":"303","DOI":"10.1007\/s11263-009-0275-4","volume":"88","author":"M Everingham","year":"2010","unstructured":"Everingham, M., Van Gool, L., Williams, C. K., Winn, J., & Zisserman, A. (2010). The pascal visual object classes (voc) challenge. International Journal of Computer Vision, 88, 303\u2013338.","journal-title":"International Journal of Computer Vision"},{"key":"1140_CR11","doi-asserted-by":"crossref","unstructured":"Geiger, A., Lenz, P., & Urtasun, R. (2012). Are we ready for autonomous driving? The kitti vision benchmark suite. In Proceedings of CVPR.","DOI":"10.1109\/CVPR.2012.6248074"},{"key":"1140_CR12","unstructured":"Goyal, P., Doll\u00e1r, P., Girshick, R., Noordhuis, P., Wesolowski, L., Kyrola, A., et al. (2017). Accurate, large minibatch SGD: Training imagenet in 1 hour. ArXiv preprint \n                    arXiv:1706.02677\n                    \n                  ."},{"key":"1140_CR13","doi-asserted-by":"crossref","unstructured":"He, K., Gkioxari, G., Doll\u00e1r, P., & Girshick, R. (2017). Mask R-CNN. In Proceedings of ICCV.","DOI":"10.1109\/ICCV.2017.322"},{"key":"1140_CR14","first-page":"129","volume":"33","author":"JB Huang","year":"2014","unstructured":"Huang, J. B., Kang, S. B., Ahuja, N., & Kopf, J. (2014). Image completion using planar structure guidance. ACM Transactions on Graphics (TOG), 33, 129.","journal-title":"ACM Transactions on Graphics (TOG)"},{"key":"1140_CR15","unstructured":"Ioffe, S., & Szegedy, C. (2015). Batch normalization: Accelerating deep network training by reducing internal covariate shift. ArXiv preprint \n                    arXiv:1502.03167\n                    \n                  ."},{"key":"1140_CR16","doi-asserted-by":"crossref","unstructured":"Jiang, B., Luo, R., Mao, J., Xiao, T., & Jiang, Y. (2018). Acquisition of localization confidence for accurate object detection. In Proceedings of ECCV.","DOI":"10.1007\/978-3-030-01264-9_48"},{"key":"1140_CR17","unstructured":"Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). Imagenet classification with deep convolutional neural networks. In Advances in neural information processing systems."},{"key":"1140_CR18","doi-asserted-by":"crossref","unstructured":"Lin, T. Y., Doll\u00e1r, P., Girshick, R., He, K., Hariharan, B., & Belongie, S. (2017). Feature pyramid networks for object detection. In Proceedings of CVPR.","DOI":"10.1109\/CVPR.2017.106"},{"key":"1140_CR19","doi-asserted-by":"crossref","unstructured":"Lin, T. Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., et al. (2014). Microsoft coco: Common objects in context. In Proceedings of ECCV.","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"1140_CR20","doi-asserted-by":"crossref","unstructured":"Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. In Proceedings of CVPR.","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"1140_CR21","doi-asserted-by":"crossref","unstructured":"Martin, D., Fowlkes, C., Tal, D., & Malik, J. (2001). A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics. In Proceedings of ICCV.","DOI":"10.1109\/ICCV.2001.937655"},{"key":"1140_CR22","doi-asserted-by":"crossref","unstructured":"Mottaghi, R., Chen, X., Liu, X., Cho, N. G., Lee, S. W., Fidler, S., et al. (2014). The role of context for object detection and semantic segmentation in the wild. In Proceedings of CVPR.","DOI":"10.1109\/CVPR.2014.119"},{"key":"1140_CR23","doi-asserted-by":"crossref","unstructured":"Nathan Silberman, P. K., Derek, H., & Fergus, R. (2012). Indoor segmentation and support inference from RGBD images. In Proceedings of ECCV.","DOI":"10.1007\/978-3-642-33715-4_54"},{"key":"1140_CR24","unstructured":"Nguyen, A., Dosovitskiy, A., Yosinski, J., Brox, T., & Clune, J. (2016). Synthesizing the preferred inputs for neurons in neural networks via deep generator networks."},{"key":"1140_CR25","doi-asserted-by":"crossref","unstructured":"Noh, H., Hong, S., & Han, B. (2015). Learning deconvolution network for semantic segmentation. In Proceedings of ICCV.","DOI":"10.1109\/ICCV.2015.178"},{"key":"1140_CR26","doi-asserted-by":"crossref","unstructured":"Patterson, G., & Hays, J. (2016). Coco attributes: Attributes for people, animals, and objects. In Proceedings of ECCV.","DOI":"10.1007\/978-3-319-46466-4_6"},{"key":"1140_CR27","doi-asserted-by":"crossref","unstructured":"Peng, C., Xiao, T., Li, Z., Jiang, Y., Zhang, X., Jia, K., et al. (2018). Megdet: A large mini-batch object detector. In Proceedings of CVPR, pp. 6181\u20136189.","DOI":"10.1109\/CVPR.2018.00647"},{"key":"1140_CR28","unstructured":"Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems."},{"issue":"3","key":"1140_CR29","doi-asserted-by":"publisher","first-page":"211","DOI":"10.1007\/s11263-015-0816-y","volume":"115","author":"O Russakovsky","year":"2015","unstructured":"Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., et al. (2015). ImageNet large scale visual recognition challenge. International Journal of Computer Vision, 115(3), 211\u2013252.","journal-title":"International Journal of Computer Vision"},{"key":"1140_CR30","doi-asserted-by":"publisher","first-page":"157","DOI":"10.1007\/s11263-007-0090-8","volume":"77","author":"BC Russell","year":"2008","unstructured":"Russell, B. C., Torralba, A., Murphy, K. P., & Freeman, W. T. (2008). Labelme: A database and web-based tool for image annotation. International Journal of Computer Vision, 77, 157\u2013173.","journal-title":"International Journal of Computer Vision"},{"key":"1140_CR31","doi-asserted-by":"crossref","unstructured":"Song, S., Lichtenberg, S. P., & Xiao, J. (2015). Sun rgb-d: A rgb-d scene understanding benchmark suite. In Proceedings of CVPR.","DOI":"10.1109\/CVPR.2015.7298655"},{"key":"1140_CR32","doi-asserted-by":"publisher","first-page":"59","DOI":"10.1007\/s11263-010-0376-0","volume":"91","author":"M Spain","year":"2010","unstructured":"Spain, M., & Perona, P. (2010). Measuring and predicting object importance. International Journal of Computer Vision, 91, 59\u201376.","journal-title":"International Journal of Computer Vision"},{"key":"1140_CR33","unstructured":"Wu, Z., Shen, C., van den Hengel, A. (2016). Wider or deeper: Revisiting the resnet model for visual recognition. CoRR \n                    arXiv:1611.10080\n                    \n                  ."},{"key":"1140_CR34","doi-asserted-by":"crossref","unstructured":"Xiao, J., Hays, J., Ehinger, K. A., Oliva, A., & Torralba, A. (2010). Sun database: Large-scale scene recognition from abbey to zoo. In Proceedings of CVPR.","DOI":"10.1109\/CVPR.2010.5539970"},{"key":"1140_CR35","doi-asserted-by":"crossref","unstructured":"Xiao, T., Liu, Y., Zhou, B., Jiang, Y., & Sun, J. (2018). Unified perceptual parsing for scene understanding. In Proceedings of ECCV.","DOI":"10.1007\/978-3-030-01228-1_26"},{"key":"1140_CR36","unstructured":"Yu, F., & Koltun, V. (2016). Multi-scale context aggregation by dilated convolutions."},{"key":"1140_CR37","doi-asserted-by":"crossref","unstructured":"Zhao, H., Puig, X., Zhou, B., Fidler, S., Torralba, A. (2017a). Open vocabulary scene parsing. In International Conference on Computer Vision (ICCV).","DOI":"10.1109\/ICCV.2017.221"},{"key":"1140_CR38","doi-asserted-by":"crossref","unstructured":"Zhao, H., Shi, J., Qi, X., Wang, X., & Jia, J. (2017b). Pyramid scene parsing network. In Proceedings of CVPR.","DOI":"10.1109\/CVPR.2017.660"},{"key":"1140_CR39","unstructured":"Zhou, B., Lapedriza, A., Xiao, J., Torralba, A., & Oliva, A. (2014). Learning deep features for scene recognition using places database. In Advances in neural information processing systems."},{"key":"1140_CR40","doi-asserted-by":"crossref","unstructured":"Zhou, B., Zhao, H., Puig, X., Fidler, S., Barriuso, A., & Torralba, A. (2017). Scene parsing through ade20k dataset. In Proceedings of CVPR.","DOI":"10.1109\/CVPR.2017.544"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11263-018-1140-0\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-018-1140-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-018-1140-0.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2020,5,17]],"date-time":"2020-05-17T03:23:00Z","timestamp":1589685780000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11263-018-1140-0"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2018,12,7]]},"references-count":40,"journal-issue":{"issue":"3","published-print":{"date-parts":[[2019,3]]}},"alternative-id":["1140"],"URL":"https:\/\/doi.org\/10.1007\/s11263-018-1140-0","relation":{"is-referenced-by":[{"id-type":"doi","id":"10.1186\/s13293-025-00718-3","asserted-by":"object"}]},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2018,12,7]]},"assertion":[{"value":"30 March 2018","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"28 November 2018","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"7 December 2018","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}