{"status":"ok","message-type":"work","message-version":"1.0.0","message":{"indexed":{"date-parts":[[2026,3,20]],"date-time":"2026-03-20T03:08:18Z","timestamp":1773976098371,"version":"3.50.1"},"reference-count":48,"publisher":"Springer Science and Business Media LLC","issue":"8-9","license":[{"start":{"date-parts":[[2019,5,13]],"date-time":"2019-05-13T00:00:00Z","timestamp":1557705600000},"content-version":"tdm","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"},{"start":{"date-parts":[[2019,5,13]],"date-time":"2019-05-13T00:00:00Z","timestamp":1557705600000},"content-version":"vor","delay-in-days":0,"URL":"http:\/\/www.springer.com\/tdm"}],"funder":[{"DOI":"10.13039\/501100004543","name":"China Scholarship Council","doi-asserted-by":"publisher","award":["201503170248"],"award-info":[{"award-number":["201503170248"]}],"id":[{"id":"10.13039\/501100004543","id-type":"DOI","asserted-by":"publisher"}]},{"name":"NUS IDS","award":["R-263-000-C67-646"],"award-info":[{"award-number":["R-263-000-C67-646"]}]},{"name":"ECRA","award":["R-263-000-C87-133"],"award-info":[{"award-number":["R-263-000-C87-133"]}]},{"DOI":"10.13039\/501100001459","name":"Ministry of Education - Singapore","doi-asserted-by":"crossref","award":["R-263-000-D17-112"],"award-info":[{"award-number":["R-263-000-D17-112"]}],"id":[{"id":"10.13039\/501100001459","id-type":"DOI","asserted-by":"crossref"}]}],"content-domain":{"domain":["link.springer.com"],"crossmark-restriction":false},"short-container-title":["Int J Comput Vis"],"published-print":{"date-parts":[[2020,9]]},"DOI":"10.1007\/s11263-019-01181-5","type":"journal-article","created":{"date-parts":[[2019,5,14]],"date-time":"2019-05-14T02:35:56Z","timestamp":1557801356000},"page":"2185-2203","update-policy":"https:\/\/doi.org\/10.1007\/springer_crossmark_policy","source":"Crossref","is-referenced-by-count":42,"title":["Fine-Grained Multi-human Parsing"],"prefix":"10.1007","volume":"128","author":[{"ORCID":"https:\/\/orcid.org\/0000-0002-3508-756X","authenticated-orcid":false,"given":"Jian","family":"Zhao","sequence":"first","affiliation":[]},{"given":"Jianshu","family":"Li","sequence":"additional","affiliation":[]},{"given":"Hengzhu","family":"Liu","sequence":"additional","affiliation":[]},{"given":"Shuicheng","family":"Yan","sequence":"additional","affiliation":[]},{"given":"Jiashi","family":"Feng","sequence":"additional","affiliation":[]}],"member":"297","published-online":{"date-parts":[[2019,5,13]]},"reference":[{"key":"1181_CR1","unstructured":"Abadi, M., Barham, P., Chen, J., Chen, Z., Davis, A., Dean, J., Devin, M., Ghemawat, S., Irving, G., Isard, M. et al. (2016). Tensorflow: A system for large-scale machine learning."},{"issue":"5","key":"1181_CR2","doi-asserted-by":"publisher","first-page":"898","DOI":"10.1109\/TPAMI.2010.161","volume":"33","author":"P Arbelaez","year":"2011","unstructured":"Arbelaez, P., Maire, M., Fowlkes, C., & Malik, J. (2011). Contour detection and hierarchical image segmentation. T-PAMI, 33(5), 898\u2013916.","journal-title":"T-PAMI"},{"key":"1181_CR3","doi-asserted-by":"crossref","unstructured":"Chen, X., Mottaghi, R., Liu, X., Fidler, S., Urtasun, R., & Yuille, A. (2014). Detect what you can: Detecting and representing objects using holistic models and body parts. In CVPR (pp. 1971\u20131978).","DOI":"10.1109\/CVPR.2014.254"},{"key":"1181_CR4","doi-asserted-by":"crossref","unstructured":"Chen, L.-C., Yang, Y., Wang, J., Xu, W., & Yuille, A. L. (2016). Attention to scale: Scale-aware semantic image segmentation. In CVPR (pp. 3640\u20133649).","DOI":"10.1109\/CVPR.2016.396"},{"key":"1181_CR5","doi-asserted-by":"crossref","unstructured":"Chu, X., Ouyang, W., Yang, W., & Wang, X. (2015). Multi-task recurrent neural network for immediacy prediction. In ICCV (pp. 3352\u20133360).","DOI":"10.1109\/ICCV.2015.383"},{"key":"1181_CR6","unstructured":"Collins, R. T., Lipton, A. J., Kanade, T., Fujiyoshi, H., Duggins, D., Tsin, Y., Tolliver, D., Enomoto, N., Hasegawa, O., Burt, P. et\u00a0al. (2000). A system for video surveillance and monitoring. VSAM final report (pp. 1\u201368)."},{"key":"1181_CR7","doi-asserted-by":"crossref","unstructured":"Cordts, M., Omran, M., Ramos, S., Rehfeld, T., Enzweiler, M., Benenson, R., Franke, U., Roth, S., & Schiele, B. (2016). The cityscapes dataset for semantic urban scene understanding. In CVPR (pp. 3213\u20133223).","DOI":"10.1109\/CVPR.2016.350"},{"key":"1181_CR8","doi-asserted-by":"crossref","unstructured":"Dai, J., He, K., & Sun, J. (2016). Instance-aware semantic segmentation via multi-task network cascades. In CVPR (pp. 3150\u20133158).","DOI":"10.1109\/CVPR.2016.343"},{"key":"1181_CR9","unstructured":"De Brabandere, B., Neven, D., & Van Gool, L. (2017). Semantic instance segmentation with a discriminative loss function. arXiv preprint arXiv:1708.02551 ."},{"issue":"4","key":"1181_CR10","doi-asserted-by":"publisher","first-page":"743","DOI":"10.1109\/TPAMI.2011.155","volume":"34","author":"P Dollar","year":"2012","unstructured":"Dollar, P., Wojek, C., Schiele, B., & Perona, P. (2012). Pedestrian detection: An evaluation of the state of the art. T-PAMI, 34(4), 743\u2013761.","journal-title":"T-PAMI"},{"key":"1181_CR11","unstructured":"Everingham, M., Van Gool, L., Williams, C. K. I., Winn, J., & Zisserman, A. (2011). The PASCAL visual object classes challenge 2011 (VOC2011) results. Retrieved May 25, 2011 from http:\/\/www.pascal-network.org\/challenges\/VOC\/voc2011\/workshop\/index.html ."},{"issue":"1","key":"1181_CR12","doi-asserted-by":"publisher","first-page":"98","DOI":"10.1007\/s11263-014-0733-5","volume":"111","author":"M Everingham","year":"2015","unstructured":"Everingham, M., Eslami, S. A., Van Gool, L., Williams, C. K., Winn, J., & Zisserman, A. (2015). The PASCAL visual object classes challenge: A retrospective. International Journal of Computer Vision, 111(1), 98\u2013136.","journal-title":"International Journal of Computer Vision"},{"issue":"2","key":"1181_CR13","doi-asserted-by":"publisher","first-page":"303","DOI":"10.1007\/s11263-009-0275-4","volume":"88","author":"M Everingham","year":"2010","unstructured":"Everingham, M., Van Gool, L., Williams, C. K., Winn, J., & Zisserman, A. (2010). The PASCAL visual object classes (VOC) challenge. International Journal of Computer Vision, 88(2), 303\u2013338.","journal-title":"International Journal of Computer Vision"},{"key":"1181_CR14","doi-asserted-by":"crossref","unstructured":"Ferrari, V., Marin-Jimenez, M., & Zisserman, A. (2008). Progressive search space reduction for human pose estimation. In CVPR (pp. 1\u20138).","DOI":"10.1109\/CVPR.2008.4587468"},{"key":"1181_CR15","doi-asserted-by":"crossref","unstructured":"Gan, C., Lin, M., Yang, Y., de Melo, G., & Hauptmann, A. G. (2016). Concepts not alone: Exploring pairwise relationships for zero-shot video activity recognition. In AAAI (p. 3487).","DOI":"10.1609\/aaai.v30i1.10466"},{"key":"1181_CR16","unstructured":"Girshick, R. (2015). Fast R-CNN. arXiv preprint arXiv:1504.08083 ."},{"key":"1181_CR17","unstructured":"Gong, K., Liang, X., Shen, X., & Lin, L. (2017). Look into person: Self-supervised structure-sensitive learning and a new benchmark for human parsing. arXiv preprint arXiv:1703.05446 ."},{"key":"1181_CR18","doi-asserted-by":"crossref","unstructured":"Hariharan, B., Arbel\u00e1ez, P., R. Girshick, P., & Malik, J. (2014). Simultaneous detection and segmentation. In ECCV (pp. 297\u2013312).","DOI":"10.1007\/978-3-319-10584-0_20"},{"key":"1181_CR19","doi-asserted-by":"crossref","unstructured":"He, K., Gkioxari, G., Doll\u00e1r, P., & Girshick, R. (2017). Mask R-CNN. In ICCV (pp. 2980\u20132988).","DOI":"10.1109\/ICCV.2017.322"},{"key":"1181_CR20","doi-asserted-by":"crossref","unstructured":"He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep residual learning for image recognition. In CVPR (pp. 770\u2013778).","DOI":"10.1109\/CVPR.2016.90"},{"key":"1181_CR21","unstructured":"Jiang, H., & Grauman, K. (2016). Detangling people: Individuating multiple close people and their body parts via region assembly. arXiv preprint arXiv:1604.03880"},{"key":"1181_CR22","doi-asserted-by":"crossref","unstructured":"Klare, B. F., Klein, B., Taborsky, E., Blanton, A., Cheney, J., Allen, K., Grother, P., Mah, A., & Jain, A.K. (2015). Pushing the frontiers of unconstrained face detection and recognition: Iarpa janus benchmark a. In CVPR (pp. 1931\u20131939).","DOI":"10.1109\/CVPR.2015.7298803"},{"key":"1181_CR23","unstructured":"Lafferty, J., McCallum, A., & Pereira, F. C. (2001). Conditional random fields: Probabilistic models for segmenting and labeling sequence data. In ICML."},{"key":"1181_CR24","doi-asserted-by":"crossref","unstructured":"Li, Q., Arnab, A., & Torr, P. H. (2017a). Holistic, instance-level human parsing. arXiv preprint arXiv:1709.03612 .","DOI":"10.5244\/C.31.25"},{"key":"1181_CR25","doi-asserted-by":"crossref","unstructured":"Li, G., Xie, Y., Lin, L., & Yu, Y. (2017b). Instance-level salient object segmentation. In CVPR (pp. 247\u2013256).","DOI":"10.1109\/CVPR.2017.34"},{"key":"1181_CR26","unstructured":"Li, J., Zhao, J., Wei, Y., Lang , C., Li, Y., Sim, T., Yan, S., & Feng, J. (2017c). Multi-human parsing in the wild. arXiv preprint arXiv:1705.07206 ."},{"key":"1181_CR27","unstructured":"Liang, X., Wei, Y., Shen, X., Yang, J., Lin, L., & Yan, S. (2015a). Proposal-free network for instance-level object segmentation. arXiv preprint arXiv:1509.02636 ."},{"key":"1181_CR28","doi-asserted-by":"crossref","unstructured":"Liang, X., Xu, C., Shen, X., Yang, J., Liu, S., Tang, J., Lin, L., & Yan, S. (2015b). Human parsing with contextualized convolutional neural network. In ICCV (pp. 1386\u20131394).","DOI":"10.1109\/ICCV.2015.163"},{"key":"1181_CR29","doi-asserted-by":"crossref","unstructured":"Lin, J., Guo, X., Shao, J., Jiang, C., Zhu, Y., & Zhu, S.-C. (2016). A virtual reality platform for dynamic human-scene interaction. In SIGGRAPH (p. 11).","DOI":"10.1145\/2992138.2992144"},{"key":"1181_CR30","doi-asserted-by":"crossref","unstructured":"Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Doll\u00e1r, P., & Zitnick, C. L. (2014). Microsoft coco: Common objects in context. In ECCV (pp. 740\u2013755).","DOI":"10.1007\/978-3-319-10602-1_48"},{"key":"1181_CR31","doi-asserted-by":"crossref","unstructured":"Liu, S., Wang, C., Qian, R., Yu, H., Bao, R., & Sun, Y. (2017). Surveillance video parsing with single frame supervision. In CVPRW (pp. 1\u20139).","DOI":"10.1109\/CVPR.2017.114"},{"key":"1181_CR32","doi-asserted-by":"crossref","unstructured":"Long, J., Shelhamer, E., & Darrell, T. (2015). Fully convolutional networks for semantic segmentation. In CVPR (pp. 3431\u20133440).","DOI":"10.1109\/CVPR.2015.7298965"},{"key":"1181_CR33","unstructured":"Ng, A. Y., Jordan, M. I., & Weiss, Y. (2002). On spectral clustering: Analysis and an algorithm. In NIPS (pp. 849\u2013856)."},{"key":"1181_CR34","unstructured":"Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster R-CNN: Towards real-time object detection with region proposal networks. In NIPS (pp. 91\u201399)."},{"issue":"3","key":"1181_CR35","doi-asserted-by":"publisher","first-page":"211","DOI":"10.1007\/s11263-015-0816-y","volume":"115","author":"O Russakovsky","year":"2015","unstructured":"Russakovsky, O., Deng, J., Su, H., Krause, J., Satheesh, S., Ma, S., et al. (2015). Imagenet large scale visual recognition challenge. International Journal of Computer Vision, 115(3), 211\u2013252.","journal-title":"International Journal of Computer Vision"},{"key":"1181_CR36","doi-asserted-by":"crossref","unstructured":"Sapp, B., & Taskar, B. (2013). Modec: Multimodal decomposable models for human pose estimation. In CVPR (pp. 3674\u20133681).","DOI":"10.1109\/CVPR.2013.471"},{"key":"1181_CR37","unstructured":"Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556"},{"key":"1181_CR38","first-page":"4","volume-title":"Electronic commerce: A managerial perspective 2002","author":"E Turban","year":"2002","unstructured":"Turban, E., King, D., Lee, J., & Viehland, D. (2002). Electronic commerce: A managerial perspective 2002 (Vol. 13, no. (975285), p. 4). Englewood Cliffs: Prentice Hall."},{"key":"1181_CR39","doi-asserted-by":"crossref","unstructured":"Vineet, V., Warrell, J., Ladicky, L., & Torr, P. H. (2011). Human instance segmentation from video using detector-based conditional random fields. In BMVC (Vol. 2, pp. 12\u201315).","DOI":"10.5244\/C.25.80"},{"key":"1181_CR40","unstructured":"Wu, Z., Shen, C., Van Den Hengel, A. (2016). Wider or deeper: Revisiting the resnet model for visual recognition. arXiv preprint arXiv:1611.10080 ."},{"key":"1181_CR41","doi-asserted-by":"crossref","unstructured":"Xia, F., Wang, P., Chen, L.-C., & Yuille, A. L. (2016). Zoom better to see clearer: Human and object parsing with hierarchical auto-zoom net. In ECCV (pp. 648\u2013663).","DOI":"10.1007\/978-3-319-46454-1_39"},{"key":"1181_CR42","doi-asserted-by":"crossref","unstructured":"Xu, N., Price, B., Cohen, S., Yang, J., & Huang, T. S. (2016). Deep interactive object selection. In CVPR (pp. 373\u2013381).","DOI":"10.1109\/CVPR.2016.47"},{"key":"1181_CR43","doi-asserted-by":"crossref","unstructured":"Yamaguchi, K., Kiapour, M. H., Ortiz, L. E., & Berg, T. L. (2012). Parsing clothing in fashion photographs. In CVPR (pp. 3570\u20133577).","DOI":"10.1109\/CVPR.2012.6248101"},{"issue":"5","key":"1181_CR44","doi-asserted-by":"publisher","first-page":"550","DOI":"10.1007\/s11263-017-1055-1","volume":"126","author":"Z Zhang","year":"2018","unstructured":"Zhang, Z., Luo, P., Loy, C. C., & Tang, X. (2018). From facial expression recognition to interpersonal relation prediction. International Journal of Computer Vision, 126(5), 550\u2013569.","journal-title":"International Journal of Computer Vision"},{"key":"1181_CR45","doi-asserted-by":"crossref","unstructured":"Zhang, N., Paluri, M., Taigman, Y., Fergus, R., Bourdev, L. (2015). Beyond frontal faces: Improving person recognition using multiple cues. In CVPR (pp. 4804\u20134813).","DOI":"10.1109\/CVPR.2015.7299113"},{"key":"1181_CR46","doi-asserted-by":"crossref","unstructured":"Zhao, J., Li, J., Cheng, Y., Sim, T., Yan, S., & Feng, J. (2018). Understanding humans in crowded scenes: Deep nested adversarial learning and a new benchmark for multi-human parsing. In 2018 ACM Multimedia Conference on Multimedia Conference (pp. 792\u2013800). ACM.","DOI":"10.1145\/3240508.3240509"},{"key":"1181_CR47","doi-asserted-by":"crossref","unstructured":"Zhao, J., Li, J., Nie, X., Zhao, F., Chen, Y., Wang, Z., Feng, J., & Yan, S. (2017). Self-supervised neural aggregation networks for human parsing. In CVPRW (pp. 7\u201315).","DOI":"10.1109\/CVPRW.2017.204"},{"key":"1181_CR48","doi-asserted-by":"crossref","unstructured":"Zhao, R., Ouyang, W., & Wang, X. (2013). Unsupervised salience learning for person re-identification. In CVPR (pp. 3586\u20133593).","DOI":"10.1109\/CVPR.2013.460"}],"container-title":["International Journal of Computer Vision"],"original-title":[],"language":"en","link":[{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-019-01181-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/article\/10.1007\/s11263-019-01181-5\/fulltext.html","content-type":"text\/html","content-version":"vor","intended-application":"text-mining"},{"URL":"http:\/\/link.springer.com\/content\/pdf\/10.1007\/s11263-019-01181-5.pdf","content-type":"application\/pdf","content-version":"vor","intended-application":"similarity-checking"}],"deposited":{"date-parts":[[2022,9,17]],"date-time":"2022-09-17T23:45:19Z","timestamp":1663458319000},"score":1,"resource":{"primary":{"URL":"http:\/\/link.springer.com\/10.1007\/s11263-019-01181-5"}},"subtitle":[],"short-title":[],"issued":{"date-parts":[[2019,5,13]]},"references-count":48,"journal-issue":{"issue":"8-9","published-print":{"date-parts":[[2020,9]]}},"alternative-id":["1181"],"URL":"https:\/\/doi.org\/10.1007\/s11263-019-01181-5","relation":{},"ISSN":["0920-5691","1573-1405"],"issn-type":[{"value":"0920-5691","type":"print"},{"value":"1573-1405","type":"electronic"}],"subject":[],"published":{"date-parts":[[2019,5,13]]},"assertion":[{"value":"27 July 2018","order":1,"name":"received","label":"Received","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"26 April 2019","order":2,"name":"accepted","label":"Accepted","group":{"name":"ArticleHistory","label":"Article History"}},{"value":"13 May 2019","order":3,"name":"first_online","label":"First Online","group":{"name":"ArticleHistory","label":"Article History"}}]}}